SlideShare una empresa de Scribd logo
1 de 28
Descargar para leer sin conexión
Introducción - Objetivos y alcance
               Arquitectura del sistema
    Fases del reconocimiento del habla
                 Objetivos del proyecto
                          Planificación
                  Módulos del sistema
                          Conclusiones




Utilización de trifonemas como modelo acústico
        para el reconocimiento del habla
                         Proyecto informático


                    Daniel Garrido Garrochena

          Escuela Técnica Superior de Ingeniería Informática


                                 Junio 2009


           Daniel Garrido Garrochena      Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcance
                          Arquitectura del sistema
               Fases del reconocimiento del habla
                            Objetivos del proyecto
                                     Planificación
                             Módulos del sistema
                                     Conclusiones


Sumario




          Introducción - Objetivos y alcance.
          Arquitectura del sistema.
          Fases del reconocimiento del habla.
          Objetivos del proyecto.
          Planificación.
          Módulos del sistema.
          Conclusiones.



                      Daniel Garrido Garrochena      Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcance
                         Arquitectura del sistema
              Fases del reconocimiento del habla
                           Objetivos del proyecto
                                    Planificación
                            Módulos del sistema
                                    Conclusiones


Introducción - Objetivos y alcance




         Desarrollo de un sistema reconocedor de voz (a nivel local).
         Entrenamiento del sistema con trifonemas.
         Ampliación del sistema, agregando la posibilidad de reconocer
         a través del protocolo TCP/IP.
         Permitir que múltiples usuarios puedan emplear el mismo
         sistema reconocedor, con las consiguientes ventajas que ello
         conlleva.



                     Daniel Garrido Garrochena      Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcance
                        Arquitectura del sistema
             Fases del reconocimiento del habla
                                                   Sistema reconocedor de voz
                          Objetivos del proyecto   Reconocimiento de voz sobre TCP/IP
                                   Planificación
                           Módulos del sistema
                                   Conclusiones


Sistema reconocedor de voz




    Reconocimiento de voz: proceso de convertir señales acústicas
    capturadas por, por ejemplo un micrófono, en texto.


                    Daniel Garrido Garrochena      Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcance
                       Arquitectura del sistema
            Fases del reconocimiento del habla
                                                  Sistema reconocedor de voz
                         Objetivos del proyecto   Reconocimiento de voz sobre TCP/IP
                                  Planificación
                          Módulos del sistema
                                  Conclusiones


Reconocimiento de voz sobre TCP/IP




                   Daniel Garrido Garrochena      Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcance
                         Arquitectura del sistema   Adquisición
              Fases del reconocimiento del habla    Extracción de características
                           Objetivos del proyecto   Reconocimiento / clasificación probabilística
                                    Planificación    Reconocimiento mediante fonemas
                            Módulos del sistema     Reconocimiento mediante trifonemas
                                    Conclusiones


Adquisición




        Sistema desde el cual se adquieren los datos de entrada al
        sistema reconocedor, la señal de voz.
        Por lo general, estos datos son adquiridos desde un micrófono.
        En este sistema serán adquiridos a través de sockets. La
        fuente de generación podría ser un micrófono en otro equipo,
        un fichero de audio, . . .




                     Daniel Garrido Garrochena      Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcance
                         Arquitectura del sistema   Adquisición
              Fases del reconocimiento del habla    Extracción de características
                           Objetivos del proyecto   Reconocimiento / clasificación probabilística
                                    Planificación    Reconocimiento mediante fonemas
                            Módulos del sistema     Reconocimiento mediante trifonemas
                                    Conclusiones


Extracción de características




                     Daniel Garrido Garrochena      Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcance
                         Arquitectura del sistema   Adquisición
              Fases del reconocimiento del habla    Extracción de características
                           Objetivos del proyecto   Reconocimiento / clasificación probabilística
                                    Planificación    Reconocimiento mediante fonemas
                            Módulos del sistema     Reconocimiento mediante trifonemas
                                    Conclusiones


Reconocimiento / clasificación probabilística




                     Daniel Garrido Garrochena      Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcance
                        Arquitectura del sistema   Adquisición
             Fases del reconocimiento del habla    Extracción de características
                          Objetivos del proyecto   Reconocimiento / clasificación probabilística
                                   Planificación    Reconocimiento mediante fonemas
                           Módulos del sistema     Reconocimiento mediante trifonemas
                                   Conclusiones


Reconocimiento mediante fonemas




        Sonidos distinguibles.
        34 para el español.
        Representan secuencias de senones. Modelado con cadenas
        ocultas de Markov.




                    Daniel Garrido Garrochena      Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcance
                        Arquitectura del sistema   Adquisición
             Fases del reconocimiento del habla    Extracción de características
                          Objetivos del proyecto   Reconocimiento / clasificación probabilística
                                   Planificación    Reconocimiento mediante fonemas
                           Módulos del sistema     Reconocimiento mediante trifonemas
                                   Conclusiones


Reconocimiento mediante trifonemas


        343 = 39304 trifonemas para el español.
        En la práctica, alrededor de 5000.
        Es capaz de diferenciar los sonidos según su contexto.
        Muy práctico para reconocimiento continuo del habla.
        Aumento de la tasa de aciertos.




                    Daniel Garrido Garrochena      Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcance
                        Arquitectura del sistema   Adquisición
             Fases del reconocimiento del habla    Extracción de características
                          Objetivos del proyecto   Reconocimiento / clasificación probabilística
                                   Planificación    Reconocimiento mediante fonemas
                           Módulos del sistema     Reconocimiento mediante trifonemas
                                   Conclusiones


Reconocimiento mediante trifonemas

   ¿Cómo se modelan el resto de trifonemas?




                    Daniel Garrido Garrochena      Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcance
                        Arquitectura del sistema   Adquisición
             Fases del reconocimiento del habla    Extracción de características
                          Objetivos del proyecto   Reconocimiento / clasificación probabilística
                                   Planificación    Reconocimiento mediante fonemas
                           Módulos del sistema     Reconocimiento mediante trifonemas
                                   Conclusiones


Reconocimiento mediante trifonemas

   ¿Cómo se modelan el resto de trifonemas?




                    Daniel Garrido Garrochena      Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcance
                         Arquitectura del sistema
              Fases del reconocimiento del habla
                           Objetivos del proyecto
                                    Planificación
                            Módulos del sistema
                                    Conclusiones


Objetivos del proyecto



         Construir un sistema reconocedor de voz.
             Entrenamiento.
             Reconocimiento.
         Tecnologías inexploradas y en auge.
         Objetivos de carácter:
             Técnicos.
             Personales.
             Metodológicos.



                     Daniel Garrido Garrochena      Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcance
                          Arquitectura del sistema
               Fases del reconocimiento del habla
                            Objetivos del proyecto
                                     Planificación
                             Módulos del sistema
                                     Conclusiones


Planificación


      Concepto                               Estimado                Real                RE
      Búsqueda de                              8 días                6 días           -33.33 %
      documentación
      Planificación                               8 días              9 días           11.11 %
      Adquirir conocimientos                    40 días             43 días            6.97 %
      sobre sistemas
      reconocedores del habla
      Elicitación de requisitos                 10   días           11   días          9.09 %
      Análisis                                  20   días           19   días          -5.26 %
      Diseño                                    30   días           28   días          -7.14 %
      Implementación                            60   días           64   días          6.25 %

                      Daniel Garrido Garrochena       Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcance
                          Arquitectura del sistema
               Fases del reconocimiento del habla
                            Objetivos del proyecto
                                     Planificación
                             Módulos del sistema
                                     Conclusiones


Planificación




     Concepto                               Estimado              Real                  RE
     Documentación                           18 días             22 días              18.18 %
     Presentación                             2 días              2 días                0%
     TOTAL                                  196 días            204 días              0.65 %




                      Daniel Garrido Garrochena      Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcance    Adquisición de datos
                        Arquitectura del sistema   Extracción de características
             Fases del reconocimiento del habla    Modelos ocultos de Markov
                                                   Entrenamiento
                          Objetivos del proyecto   Reconocimiento
                                   Planificación    Gestor de bases de datos orales
                           Módulos del sistema     Gestión de la configuración y log
                                   Conclusiones    Comunicaciones



Módulos del sistema




                    Daniel Garrido Garrochena      Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcance    Adquisición de datos
                        Arquitectura del sistema   Extracción de características
             Fases del reconocimiento del habla    Modelos ocultos de Markov
                                                   Entrenamiento
                          Objetivos del proyecto   Reconocimiento
                                   Planificación    Gestor de bases de datos orales
                           Módulos del sistema     Gestión de la configuración y log
                                   Conclusiones    Comunicaciones



Adquisición de datos

        Adaptable a diferentes formas/dispositivos de adquisición.
        Observador y fábrica simple.




                    Daniel Garrido Garrochena      Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcance    Adquisición de datos
                         Arquitectura del sistema   Extracción de características
              Fases del reconocimiento del habla    Modelos ocultos de Markov
                                                    Entrenamiento
                           Objetivos del proyecto   Reconocimiento
                                    Planificación    Gestor de bases de datos orales
                            Módulos del sistema     Gestión de la configuración y log
                                    Conclusiones    Comunicaciones



Extracción de características




         Patrones de diseño observador y decorador.
         Encargado de:
              Preénfasis.
              Hamming.
              MFCC.
              ...




                     Daniel Garrido Garrochena      Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcance    Adquisición de datos
                         Arquitectura del sistema   Extracción de características
              Fases del reconocimiento del habla    Modelos ocultos de Markov
                                                    Entrenamiento
                           Objetivos del proyecto   Reconocimiento
                                    Planificación    Gestor de bases de datos orales
                            Módulos del sistema     Gestión de la configuración y log
                                    Conclusiones    Comunicaciones



Extracción de características




                     Daniel Garrido Garrochena      Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcance    Adquisición de datos
                       Arquitectura del sistema   Extracción de características
            Fases del reconocimiento del habla    Modelos ocultos de Markov
                                                  Entrenamiento
                         Objetivos del proyecto   Reconocimiento
                                  Planificación    Gestor de bases de datos orales
                          Módulos del sistema     Gestión de la configuración y log
                                  Conclusiones    Comunicaciones



Modelos ocultos de Markov




                   Daniel Garrido Garrochena      Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcance    Adquisición de datos
                        Arquitectura del sistema   Extracción de características
             Fases del reconocimiento del habla    Modelos ocultos de Markov
                                                   Entrenamiento
                          Objetivos del proyecto   Reconocimiento
                                   Planificación    Gestor de bases de datos orales
                           Módulos del sistema     Gestión de la configuración y log
                                   Conclusiones    Comunicaciones



Entrenamiento


        Algoritmo Baum-Welch.
        Cálculos de avance-retroceso.




                    Daniel Garrido Garrochena      Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcance    Adquisición de datos
                        Arquitectura del sistema   Extracción de características
             Fases del reconocimiento del habla    Modelos ocultos de Markov
                                                   Entrenamiento
                          Objetivos del proyecto   Reconocimiento
                                   Planificación    Gestor de bases de datos orales
                           Módulos del sistema     Gestión de la configuración y log
                                   Conclusiones    Comunicaciones



Reconocimiento

        Algoritmo de Viterbi.
        Estructura estática: palabras.
        Estructura dinámica: proceso del algoritmo.




                    Daniel Garrido Garrochena      Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcance    Adquisición de datos
                         Arquitectura del sistema   Extracción de características
              Fases del reconocimiento del habla    Modelos ocultos de Markov
                                                    Entrenamiento
                           Objetivos del proyecto   Reconocimiento
                                    Planificación    Gestor de bases de datos orales
                            Módulos del sistema     Gestión de la configuración y log
                                    Conclusiones    Comunicaciones



Gestor de bases de datos orales

        Albayzin.
        Posibilidad de gestionar otras bases de datos orales.
        Fábrica abstracta.




                     Daniel Garrido Garrochena      Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcance    Adquisición de datos
                        Arquitectura del sistema   Extracción de características
             Fases del reconocimiento del habla    Modelos ocultos de Markov
                                                   Entrenamiento
                          Objetivos del proyecto   Reconocimiento
                                   Planificación    Gestor de bases de datos orales
                           Módulos del sistema     Gestión de la configuración y log
                                   Conclusiones    Comunicaciones



Gestión de la configuración y log

        Acceso a los parámetros de configuración.
        Registro de errores, avisos, . . .




                    Daniel Garrido Garrochena      Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcance    Adquisición de datos
                        Arquitectura del sistema   Extracción de características
             Fases del reconocimiento del habla    Modelos ocultos de Markov
                                                   Entrenamiento
                          Objetivos del proyecto   Reconocimiento
                                   Planificación    Gestor de bases de datos orales
                           Módulos del sistema     Gestión de la configuración y log
                                   Conclusiones    Comunicaciones



Comunicaciones


        Realizan las comunicaciones cliente-servidor/servidor-cliente.




                    Daniel Garrido Garrochena      Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcance
                          Arquitectura del sistema
               Fases del reconocimiento del habla
                                                     Posibles mejoras
                            Objetivos del proyecto   ¡Gracias!
                                     Planificación
                             Módulos del sistema
                                     Conclusiones


Conclusiones




        Campo de conocimiento muy amplio y numerosas variantes.
               Redes neuronales.
               Otro modelo acústico.
        Motivación personal satisfecha: adquisición de nuevos
        conocimientos.
        Objetivos técnicos y metodológicos cumplidos en mayor o
        menor medida.



                      Daniel Garrido Garrochena      Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcance
                        Arquitectura del sistema
             Fases del reconocimiento del habla
                                                   Posibles mejoras
                          Objetivos del proyecto   ¡Gracias!
                                   Planificación
                           Módulos del sistema
                                   Conclusiones


Posibles mejoras




        Implementación para otras plataformas.
        Inmunidad al ruido de ambiente.
        Prosodia: expresar emociones.
        Questions revisadas por especialistas.




                    Daniel Garrido Garrochena      Utilización de trifonemas en el reconocimiento del habla
Introducción - Objetivos y alcance
                       Arquitectura del sistema
            Fases del reconocimiento del habla
                                                  Posibles mejoras
                         Objetivos del proyecto   ¡Gracias!
                                  Planificación
                          Módulos del sistema
                                  Conclusiones


¡Gracias!




                   Daniel Garrido Garrochena      Utilización de trifonemas en el reconocimiento del habla

Más contenido relacionado

Último

PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfSergioMendoza354770
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIAWilbisVega
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...silviayucra2
 
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersIván López Martín
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesFundación YOD YOD
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveFagnerLisboa3
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...FacuMeza2
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíassuserf18419
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafiosFundación YOD YOD
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxJOSEMANUELHERNANDEZH11
 
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...AlanCedillo9
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024GiovanniJavierHidalg
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxpabonheidy28
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx241521559
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 

Último (19)

PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
 
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdf
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento Protégeles
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafios
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptx
 
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docx
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 

Destacado

Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 

Destacado (20)

Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 

Utilización de trifonemas como modelo acústico para el reconocimiento del habla

  • 1. Introducción - Objetivos y alcance Arquitectura del sistema Fases del reconocimiento del habla Objetivos del proyecto Planificación Módulos del sistema Conclusiones Utilización de trifonemas como modelo acústico para el reconocimiento del habla Proyecto informático Daniel Garrido Garrochena Escuela Técnica Superior de Ingeniería Informática Junio 2009 Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
  • 2. Introducción - Objetivos y alcance Arquitectura del sistema Fases del reconocimiento del habla Objetivos del proyecto Planificación Módulos del sistema Conclusiones Sumario Introducción - Objetivos y alcance. Arquitectura del sistema. Fases del reconocimiento del habla. Objetivos del proyecto. Planificación. Módulos del sistema. Conclusiones. Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
  • 3. Introducción - Objetivos y alcance Arquitectura del sistema Fases del reconocimiento del habla Objetivos del proyecto Planificación Módulos del sistema Conclusiones Introducción - Objetivos y alcance Desarrollo de un sistema reconocedor de voz (a nivel local). Entrenamiento del sistema con trifonemas. Ampliación del sistema, agregando la posibilidad de reconocer a través del protocolo TCP/IP. Permitir que múltiples usuarios puedan emplear el mismo sistema reconocedor, con las consiguientes ventajas que ello conlleva. Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
  • 4. Introducción - Objetivos y alcance Arquitectura del sistema Fases del reconocimiento del habla Sistema reconocedor de voz Objetivos del proyecto Reconocimiento de voz sobre TCP/IP Planificación Módulos del sistema Conclusiones Sistema reconocedor de voz Reconocimiento de voz: proceso de convertir señales acústicas capturadas por, por ejemplo un micrófono, en texto. Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
  • 5. Introducción - Objetivos y alcance Arquitectura del sistema Fases del reconocimiento del habla Sistema reconocedor de voz Objetivos del proyecto Reconocimiento de voz sobre TCP/IP Planificación Módulos del sistema Conclusiones Reconocimiento de voz sobre TCP/IP Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
  • 6. Introducción - Objetivos y alcance Arquitectura del sistema Adquisición Fases del reconocimiento del habla Extracción de características Objetivos del proyecto Reconocimiento / clasificación probabilística Planificación Reconocimiento mediante fonemas Módulos del sistema Reconocimiento mediante trifonemas Conclusiones Adquisición Sistema desde el cual se adquieren los datos de entrada al sistema reconocedor, la señal de voz. Por lo general, estos datos son adquiridos desde un micrófono. En este sistema serán adquiridos a través de sockets. La fuente de generación podría ser un micrófono en otro equipo, un fichero de audio, . . . Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
  • 7. Introducción - Objetivos y alcance Arquitectura del sistema Adquisición Fases del reconocimiento del habla Extracción de características Objetivos del proyecto Reconocimiento / clasificación probabilística Planificación Reconocimiento mediante fonemas Módulos del sistema Reconocimiento mediante trifonemas Conclusiones Extracción de características Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
  • 8. Introducción - Objetivos y alcance Arquitectura del sistema Adquisición Fases del reconocimiento del habla Extracción de características Objetivos del proyecto Reconocimiento / clasificación probabilística Planificación Reconocimiento mediante fonemas Módulos del sistema Reconocimiento mediante trifonemas Conclusiones Reconocimiento / clasificación probabilística Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
  • 9. Introducción - Objetivos y alcance Arquitectura del sistema Adquisición Fases del reconocimiento del habla Extracción de características Objetivos del proyecto Reconocimiento / clasificación probabilística Planificación Reconocimiento mediante fonemas Módulos del sistema Reconocimiento mediante trifonemas Conclusiones Reconocimiento mediante fonemas Sonidos distinguibles. 34 para el español. Representan secuencias de senones. Modelado con cadenas ocultas de Markov. Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
  • 10. Introducción - Objetivos y alcance Arquitectura del sistema Adquisición Fases del reconocimiento del habla Extracción de características Objetivos del proyecto Reconocimiento / clasificación probabilística Planificación Reconocimiento mediante fonemas Módulos del sistema Reconocimiento mediante trifonemas Conclusiones Reconocimiento mediante trifonemas 343 = 39304 trifonemas para el español. En la práctica, alrededor de 5000. Es capaz de diferenciar los sonidos según su contexto. Muy práctico para reconocimiento continuo del habla. Aumento de la tasa de aciertos. Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
  • 11. Introducción - Objetivos y alcance Arquitectura del sistema Adquisición Fases del reconocimiento del habla Extracción de características Objetivos del proyecto Reconocimiento / clasificación probabilística Planificación Reconocimiento mediante fonemas Módulos del sistema Reconocimiento mediante trifonemas Conclusiones Reconocimiento mediante trifonemas ¿Cómo se modelan el resto de trifonemas? Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
  • 12. Introducción - Objetivos y alcance Arquitectura del sistema Adquisición Fases del reconocimiento del habla Extracción de características Objetivos del proyecto Reconocimiento / clasificación probabilística Planificación Reconocimiento mediante fonemas Módulos del sistema Reconocimiento mediante trifonemas Conclusiones Reconocimiento mediante trifonemas ¿Cómo se modelan el resto de trifonemas? Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
  • 13. Introducción - Objetivos y alcance Arquitectura del sistema Fases del reconocimiento del habla Objetivos del proyecto Planificación Módulos del sistema Conclusiones Objetivos del proyecto Construir un sistema reconocedor de voz. Entrenamiento. Reconocimiento. Tecnologías inexploradas y en auge. Objetivos de carácter: Técnicos. Personales. Metodológicos. Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
  • 14. Introducción - Objetivos y alcance Arquitectura del sistema Fases del reconocimiento del habla Objetivos del proyecto Planificación Módulos del sistema Conclusiones Planificación Concepto Estimado Real RE Búsqueda de 8 días 6 días -33.33 % documentación Planificación 8 días 9 días 11.11 % Adquirir conocimientos 40 días 43 días 6.97 % sobre sistemas reconocedores del habla Elicitación de requisitos 10 días 11 días 9.09 % Análisis 20 días 19 días -5.26 % Diseño 30 días 28 días -7.14 % Implementación 60 días 64 días 6.25 % Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
  • 15. Introducción - Objetivos y alcance Arquitectura del sistema Fases del reconocimiento del habla Objetivos del proyecto Planificación Módulos del sistema Conclusiones Planificación Concepto Estimado Real RE Documentación 18 días 22 días 18.18 % Presentación 2 días 2 días 0% TOTAL 196 días 204 días 0.65 % Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
  • 16. Introducción - Objetivos y alcance Adquisición de datos Arquitectura del sistema Extracción de características Fases del reconocimiento del habla Modelos ocultos de Markov Entrenamiento Objetivos del proyecto Reconocimiento Planificación Gestor de bases de datos orales Módulos del sistema Gestión de la configuración y log Conclusiones Comunicaciones Módulos del sistema Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
  • 17. Introducción - Objetivos y alcance Adquisición de datos Arquitectura del sistema Extracción de características Fases del reconocimiento del habla Modelos ocultos de Markov Entrenamiento Objetivos del proyecto Reconocimiento Planificación Gestor de bases de datos orales Módulos del sistema Gestión de la configuración y log Conclusiones Comunicaciones Adquisición de datos Adaptable a diferentes formas/dispositivos de adquisición. Observador y fábrica simple. Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
  • 18. Introducción - Objetivos y alcance Adquisición de datos Arquitectura del sistema Extracción de características Fases del reconocimiento del habla Modelos ocultos de Markov Entrenamiento Objetivos del proyecto Reconocimiento Planificación Gestor de bases de datos orales Módulos del sistema Gestión de la configuración y log Conclusiones Comunicaciones Extracción de características Patrones de diseño observador y decorador. Encargado de: Preénfasis. Hamming. MFCC. ... Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
  • 19. Introducción - Objetivos y alcance Adquisición de datos Arquitectura del sistema Extracción de características Fases del reconocimiento del habla Modelos ocultos de Markov Entrenamiento Objetivos del proyecto Reconocimiento Planificación Gestor de bases de datos orales Módulos del sistema Gestión de la configuración y log Conclusiones Comunicaciones Extracción de características Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
  • 20. Introducción - Objetivos y alcance Adquisición de datos Arquitectura del sistema Extracción de características Fases del reconocimiento del habla Modelos ocultos de Markov Entrenamiento Objetivos del proyecto Reconocimiento Planificación Gestor de bases de datos orales Módulos del sistema Gestión de la configuración y log Conclusiones Comunicaciones Modelos ocultos de Markov Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
  • 21. Introducción - Objetivos y alcance Adquisición de datos Arquitectura del sistema Extracción de características Fases del reconocimiento del habla Modelos ocultos de Markov Entrenamiento Objetivos del proyecto Reconocimiento Planificación Gestor de bases de datos orales Módulos del sistema Gestión de la configuración y log Conclusiones Comunicaciones Entrenamiento Algoritmo Baum-Welch. Cálculos de avance-retroceso. Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
  • 22. Introducción - Objetivos y alcance Adquisición de datos Arquitectura del sistema Extracción de características Fases del reconocimiento del habla Modelos ocultos de Markov Entrenamiento Objetivos del proyecto Reconocimiento Planificación Gestor de bases de datos orales Módulos del sistema Gestión de la configuración y log Conclusiones Comunicaciones Reconocimiento Algoritmo de Viterbi. Estructura estática: palabras. Estructura dinámica: proceso del algoritmo. Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
  • 23. Introducción - Objetivos y alcance Adquisición de datos Arquitectura del sistema Extracción de características Fases del reconocimiento del habla Modelos ocultos de Markov Entrenamiento Objetivos del proyecto Reconocimiento Planificación Gestor de bases de datos orales Módulos del sistema Gestión de la configuración y log Conclusiones Comunicaciones Gestor de bases de datos orales Albayzin. Posibilidad de gestionar otras bases de datos orales. Fábrica abstracta. Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
  • 24. Introducción - Objetivos y alcance Adquisición de datos Arquitectura del sistema Extracción de características Fases del reconocimiento del habla Modelos ocultos de Markov Entrenamiento Objetivos del proyecto Reconocimiento Planificación Gestor de bases de datos orales Módulos del sistema Gestión de la configuración y log Conclusiones Comunicaciones Gestión de la configuración y log Acceso a los parámetros de configuración. Registro de errores, avisos, . . . Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
  • 25. Introducción - Objetivos y alcance Adquisición de datos Arquitectura del sistema Extracción de características Fases del reconocimiento del habla Modelos ocultos de Markov Entrenamiento Objetivos del proyecto Reconocimiento Planificación Gestor de bases de datos orales Módulos del sistema Gestión de la configuración y log Conclusiones Comunicaciones Comunicaciones Realizan las comunicaciones cliente-servidor/servidor-cliente. Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
  • 26. Introducción - Objetivos y alcance Arquitectura del sistema Fases del reconocimiento del habla Posibles mejoras Objetivos del proyecto ¡Gracias! Planificación Módulos del sistema Conclusiones Conclusiones Campo de conocimiento muy amplio y numerosas variantes. Redes neuronales. Otro modelo acústico. Motivación personal satisfecha: adquisición de nuevos conocimientos. Objetivos técnicos y metodológicos cumplidos en mayor o menor medida. Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
  • 27. Introducción - Objetivos y alcance Arquitectura del sistema Fases del reconocimiento del habla Posibles mejoras Objetivos del proyecto ¡Gracias! Planificación Módulos del sistema Conclusiones Posibles mejoras Implementación para otras plataformas. Inmunidad al ruido de ambiente. Prosodia: expresar emociones. Questions revisadas por especialistas. Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla
  • 28. Introducción - Objetivos y alcance Arquitectura del sistema Fases del reconocimiento del habla Posibles mejoras Objetivos del proyecto ¡Gracias! Planificación Módulos del sistema Conclusiones ¡Gracias! Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla