SlideShare una empresa de Scribd logo
Reconocimiento de voz
                    bioinspirado

Diego Alejandro Carrera Gallego
 diegocarera2000@gmail.com

 Profesor: Pedro Gómez-Vilda
  pedro@pino.datsi.fi.upm.es
Índice
• Objetivos
• Introducción
• Reconocimiento de voz “tradicional”
     –   El aparato fonatorio
     –   Transformada de Fourier
     –   Formantes
     –   Extracción de características
     –   Espectro
     –   Modelos Ocultos de Markov
•   Funcionamiento oído
•   Etapas de reconocimiento de voz bio-inspirado “teórico”
•   Estándares
•   Aplicaciones
•   Demostración en video
•   Resultados
•   Conclusiones
Introducción
• El término “bioinspirado” nace de los conceptos biológicos que tratan de
  ser diseñados en sistemas analíticos, su objetivo principal es la de
  comprender e imitar la forma en que los sistemas biológicos aprenden y
  evolucionan

• Los sistemas bioinspirados son entornos multidisciplinarios, basados en
  hardware configurable y sistemas electrónicos.

• Un sistema bioinspirado de reconocimiento de voz es un algoritmo que
  funciona como lo hace un oído humano, analizando las características de
  la voz dentro del nervio auditivo humano.

• Un sistema de reconocimiento de voz es una de las aplicaciones del
  procesamiento digital de señales de voz que nos permitiría detectar
  periodicidades propias y únicas en el habla de cada locutor, que lo
  caracterizan, dando lugar a la identificación de las personas a través de su
  voz.
El aparato fonatorio


• El habla se produce por medio del
  aparato fonatorio, la cual está
  conformado de:
   – Los pulmones,
   – La laringe (que tiene las cuerda
     vocales),
   – La faringe
   – Las cavidades oral y nasal
   – Una serie de elementos articulatorios:
     como son los labios, los dientes, el
     alveolo, el paladar, el velo del paladar y
     la lengua. Ver Fig.4.
El aparato fonatorio

•   Para que el aire pase libremente y casi sin producir sonido, las cuerdas vocales deben
    estar separadas, dando una forma triangular a la glotis.

•   Cuando la glotis se empieza a cerrar, el aire que la atraviesa experimenta una
    turbulencia, provocando un sonido que se conoce como aspiración.

•   Cuando se cierra más la glotis, las cuerdas vocales comienzan a vibran produciendo un
    sonido tonal (periódico), cuya frecuencia depende de factores, como son:
     –   Tamaño,
     –   Masa de las cuerdas vocales,
     –   tensión de las cuerdas,
     –   y velocidad del flujo de aire.
•   A mayor tamaño, menor frecuencia de vibración.
•   A mayor tensión la frecuencia aumenta, siendo los sonidos más agudos.
•   A mayor velocidad del flujo de aire, mayor frecuencia, sonoridad, intensidad o volumen.

•   Por último, cuando la glotis se cierra completamente, entonces no se produce sonido.

•    Para efectos de alimentación, la epiglotis, que es un cartílago de la faringe permite
    tapar la glotis, evitando que el alimento se introduzca en el aparato respiratorio.
El aparato fonatorio (formantes)

•   Dentro de las cavidades faríngea, oral,           Formantes Vocálicos

    nasal y labial se produce el filtrado     Vocal                 Región principal

    que actúa modificando el espectro del                              formántica

    sonido. Estas cavidades constituyen        /u/             200 a 400 Hz

    resonadores acústicos que enfatizan        /o/             400 a 600 Hz

    determinadas bandas frecuenciales          /a/             800 a 1200 Hz

    del espectro generado por las vocales      /e/             400 a 600 y 2200 a 2600

    (conocido como formantes).                                 Hz
                                               /i/             200 a 400 y 3000 a 3500
                                                               Hz
•   Los elementos que sirven para
    distinguir los componentes del habla
    humano se conocen como formantes,
    y se conforman de las vocales y
    sonidos sonantes.
Proceso de reconocimiento “tradicional”

• Obtención de información (micrófono)
• Procesamiento digital de señales
   – Transformada discreta de Fourier (DFT)
   – Muestreo
• Teorema de Nyquist indica que la frecuencia de
  muestro Fm = 1/ T debe ser al menos el doble de la
  mayor frecuencia que se quiera preservar de la señal.

     Fm >= 2 * f max
Proceso de reconocimiento “tradicional”
• Cuantificación. es el proceso de convertir un objeto a un
  grupo de valores discretos
• La FFT Es un eficiente algoritmo que permite calcular la
  transformada discreta de Fourier y su inversa dados vectores
  de longitud N, con sólo O(n log n) operaciones.
• Segmentación o enventanado
La estimación del espectro


• Ventanas espectrales: Tukey, Parzen, Hamming
espectrograma

   • Un espectrograma representa gráficamente los sonidos de la voz, a través
     de las componentes de las frecuencias de la señal de voz. Mostrando los
     espectro de amplitud en variación del tiempo.




Espectrograma no contiene información
sobre la señal de fase sólo contiene
información sobre la amplitud de la señal.
Esta es la razón por la cual no se puede crear
la señal original del espectrograma,
Extracción de características

• Extracción de características: el pitch, los coeficientes de la
  FFT de la señal, los coeficientes cepstrum, los coeficientes
  cepstrales en la escala Mel, la energía de la señal, etc.

• Métodos para la extracción de características:
   – Análisis de predicción lineal (LPC)
   – Análisis cepstral
Análisis cepstral


• Escala Mel, es bien conocido que el oído humano
  presenta una escala perceptual logarítmica en
  frecuencias.

• Coeficientes Cepstrum, se definen como la
  transformada inversa del logaritmo del módulo de la
  transformada de la señal.

• Los coeficientes cepstrum en la escala Mel (MFCC, del
  inglés Mel-Frequency Cepstral Coeficients) en
  reconocimiento de voz, presentan mejores resultados
  de parametrización que otras técnicas
Modelo oculto de Markov (HMM)

• Es un modelo utilizado para aplicaciones de reconocimiento
  de formas temporales como el reconocimiento de habla,
  escritura manual, de gestos, etiquetado gramática o en
  bioinformática.

• Sistema basado en HMM para la indexación automática de
  audio. Los cuales utilizan tres parámetros:
   – Los coeficientes de la FFT que se corresponden con las
     frecuencias fundamentales
   – Los parámetros resultantes de aplicar un banco de filtro en
     escala Mel a la señal.
   – Los coefiecientes cepstrales en escala Mel (MFCC).
Modelo oculto de Markov

                                            Los HMM son máquinas de estados
                                            finitos compuestos por un conjunto de
                                            estados Q que emiten observaciones
                                            (vectores de características acústicas)
                                            según una ley probabilística,
                                            típicamente una densidad de
                                            probabilidad. Un HMM suele llevar
                                            asociado una distribución que indica la
                                            probabilidad de que un estado sea
                                            inicial.




Identificación de la palabra en inglés: “with two beds”
Algoritmo de Viterbi


La probabilidad con que un
modelo HMM genere un
segmento de voz es la suma
de las probabilidades de todas
las secuencias de estados
capaces de generar el
segmento de voz.



Los modelos acústicos de
las palabras se obtienen
por concatenación de los
modelo HMM de los fonos
que la componen, aunque
en algunos modelos, su
combinación puede ser
más compleja
Proceso de reconocimiento de voz - bioinspirado

• El proceso de reconocimiento de voz en la vida diaria exige un
  proceso de codificación de la información en forma de pulsos
  eléctricos, que se transmiten al cerebro a través del nervio auditivo,
  este proceso es conocido como “transducción acústico-neuronal”.

• La función de un oído artificial debe tener como función
  únicamente “codificar” los sonidos en patrones de pulsos eléctricos,
  basados en la estructura de un oído real.

• Áreas de conocimiento:
  Procesamiento de señales- Física (acústica) - Reconocimiento de
  patrones - Teoría de la información y las comunicaciones - Teoría
  de la música - Fisiología – Informática - Psicología
Procesamiento de la transducción acústico-neuronal




1

                                                    2
               3
(etapas) Procesamiento de la
                       transducción acústico-neuronal
• El oído externo.- La cual se basa en la función acústica de
  transferencia del pabellón auricular.
• El oído medio.- traslada las vibraciones de la membrana timpánica a
  la cóclea a través de la cadena de huesecillos.
• El órgano de Corti.- tiene un extenso rango dinámico, que percibe
  sonidos entre 0 a 120 dB.
• Análisis en dos puntos importantes dentro del proceso de
  transducción que son:
   – La sinapsis
   – El conjunto de las etapas
Etapas: oído externo y oído medio

•   El oído externo (etapa 1) tiene una forma muy particular, la cual genera
    información sobre la posición de los sonidos en el espacio, ya sea que se
    encuentren encima, debajo, delante o detrás de nosotros, además permite recibir
    el sonido en tres dimensiones y no “lateralizado” como ocurre en los sistemas
    estereofónicos clásicos.


En esta segunda etapa, “el oído medio” se
encarga de trasladar las vibraciones de la
membrana timpánica a la cóclea a través de la
cadena de huesecillos. Su tarea depende de la
frecuencia de dichas vibraciones, donde
transmite óptimamente las vibraciones de
frecuencias medias (de 1 a 4 kilohertz), pero
opone resistencia a las oscilaciones de otras
frecuencias.
Etapa 3: órgano Corti

•     Este sistema (etapa 3) tiene un extenso rango dinámico, porque percibe entre 0 a 120
      decibelios. Equivalente a variaciones de presión entre 20 micro pascal (el umbral absoluto de
      audición) y 20 pascal (el umbral del daño auditivo).

•     Además tiene una capacidad de discriminar entre sonidos compuestos por frecuencias muy
      parecidas, lo que permite diferenciar dos vocales pronunciadas por dos personas distintas. Cada
      segmento del órgano de Corti se comporta como un filtro de paso de banda, creando un banco
      de filtros dispuestos en paralelo con frecuencias características diferentes, operando a la
      manera de un analizador de espectro del estímulo sonoro.


    George von Békésy, quien recibió el premio
    Nobel de medicina en 1961, demostró que cada
    uno de los segmentos en los que puede dividirse
    longitudinalmente el órgano de Corti responde a
    un rango más o menos amplio de frecuencias de
    estimulación, aunque sólo una de ellas,
    denominada frecuencia característica, produce
    oscilaciones de máxima amplitud
Etapa 4: célula ciliada interna

• Transforma el movimiento mecánico de sus cilios en una señal eléctrica.

• La apertura de los canales iónicos promueve la entrada de potasio al
  interior de la célula, dando como resultado que en el interior varíe el
  potencial eléctrico del interior con respecto al medido en ausencia del
  estímulo sonoro

• Una observación en esta etapa es que el exceso de estimulación acústica
  destruye los cilios de las células internas. Probablemente, esa agresión
  dificulte la entrada de potasio al interior de la célula.
Etapa 5: la sinapsis

• Una misma célula ciliada interna puede establecer sinapsis (etapa
  5) con varias fibras del nervio auditivo.

• Ante un estímulo sonoro, la actividad de todas las fibras aumenta
  por encima de la actividad espontánea. Sin embargo, aunque la
  intensidad del sonido permanezca contante, el aumento producido
  en el inicio del estímulo es considerablemente mayor que
  transcurridos unos milisegundos. Esto implica que el inicio de los
  sonidos se encuentra acentuado en la respuesta del nervio auditivo.

• Tal característica reviste especial alcance; entre otros efectos,
  facilita la percepción de algunos sonidos consonánticos (como el de
  la ‘t’ o la ‘k’), a pensar de su brevedad.
El conjunto

• El resultado de la cascada de los algoritmos de este oído
  artificial es un sistema que reproduce de manera estocástica
  los potenciales de acción producidos por el nervio auditivo
  ante cualquier estímulo sonoro.

• Este modelo es genérico porque se podría reproducir la
  actividad de una o varias fibras nerviosas, ya que serían
  parámetros configurables por el usuario.
Arquitectura de reconocimiento de voz - bioinspirado

• En la etapa 1, “oído externo”, se plantea un algoritmo que exprese la
  atenuación de algunas frecuencias, como resultado de interferencias
  destructivas a la entrada del conducto auditivo entre el sonido directo
  procedente de la fuente sonora y el que se refleja en las paredes de la
  concha.



• En la etapa 2, la función del “oído medio” se simula con un sencillo filtro
  lineal de paso de banda. El filtro reproduce la velocidad de oscilación del
  estribo en función de la presión sonora instantánea ejercida en el
  tímpano.
Arquitectura de reconocimiento de voz - bioinspirado

•   En la etapa 3, “el órgano de Corti”, de nuestro oído artificial usaremos para
    simular un banco de filtros que denominamos DRNL (Dual Resonance NonLinear),
    siendo de suma importancia debido a que los filtros cocleares no son lineales. Con
    un rango dinámico que soporte entre 0 a 120 decibelios.

•    En la etapa 4, “la célula ciliada interna”, una forma de imitar la función de esta
    célula sería mediante una sub-etapa de rectificación acompañada de un filtro
    lineal de paso bajo, optando por un algoritmo más fisiológico, basado en el
    circuito equivalente de la membrana de la célula diseñado por Shihab Shamma de
    la Universidad de Maryland.

•   Además se puede incluir una función que simule el daño por exceso de
    estimulación acústica, siendo un parámetro, que permitiría investigar las
    consecuencias del trauma acústico sobre el potencial eléctrico de la célula.
Arquitectura de reconocimiento de voz - bioinspirado

• En la etapa 5, “la sinapsis” su algoritmo supone que en el nervio auditivo
  se genera un potencial de acción, siempre que la célula ciliada vierta el
  contenido de una vesícula, por lo menos, de material neurotransmisor en
  la hendidura sináptica (el espacio físico entre la célula ciliada y la
  neurona). Admite también que la probabilidad de tal liberación sea mayor
  cuanto mayor sean el potencial eléctrico en el interior de la célula ciliada y
  el número de vesículas disponibles.

• El potencial intracelular depende de la intensidad del estímulo sonoro. Por
  lo que se calcula el número de vesículas disponibles, a partir de la
  velocidad de formación de nuevas vesículas en la célula, y su velocidad
  de degradación del neurotransmisor liberado.
Estándares

• VoiceXML 3.0 es un estándar de la (W3C, Voice Extensible Markup
  Language) diseñado para crear diálogos que cuentan con un sintetizador
  de voz, audio digitalizado, reconocimiento de voz y registro de entrada
  DTMF, grabación de entrada de voz, telefonía, y las conversaciones mixtas
  iniciativa.
Aplicaciones de reconocimento de voz


• CMUsphinx




  Vocabulary              Sphinx4 WER
  Digits 0-9              .549%
  100 Word                1.192%
  1,000 Word              2.88%
  5,000 Word              6.97%
  64,000 Word             18.756%
Aplicaciones de reconocimiento de voz
Conclusiones
Conclusiones
• El reconocimiento de voz es una de las aplicaciones del
  procesamiento digital de señales que permite interacción
  entre seres humanos y computadoras.

• Las medidas de distancia euclidianas como mecanismo de
  clasificación de las señales son más sencillas de implementar
  en el sistema, sin embargo está demostrado que en la
  actualidad los modelos HMM tienen una mayor efectividad en
  el tema de reconocimiento de voz.

• El número de áreas de conocimiento sobre el tema, exige
  trabajar en un grupo multi-disciplinario.
Proyectos futuros
Proyectos Futuros
• Realizar una práctica basado en sphinx-4 para
  el aprendizaje de reconocimiento de la voz en
  tiempo real y su re-implementación de la
  interface bio-inspirada, basada en la
  recomendación del oído artificial.
¿Preguntas?
Reconocimiento de voz bioinspirado


      Diego Alejandro Carrera Gallego
       diegocarera2000@gmail.com

       Profesor: Pedro Gómez-Vilda
        pedro@pino.datsi.fi.upm.es
URLs
• http://www.youtube.com/watch?v=9c6W4CC
  U9M4
• http://www.voxforge.org/home
• http://cmusphinx.sourceforge.net/sphinx4/

Más contenido relacionado

La actualidad más candente

Sonidos
SonidosSonidos
Sonidos
jgtg1584
 
Sound
SoundSound
Diapo multi
Diapo multiDiapo multi
Diapo multi
Artiom Diakov
 
Multimedia
MultimediaMultimedia
Multimedia
Cristian BC
 
Sonido cruz jose-evelynanagumbla
Sonido cruz jose-evelynanagumblaSonido cruz jose-evelynanagumbla
Sonido cruz jose-evelynanagumbla
Evelyn Anagumbla
 
Claudia anderson[1]
Claudia anderson[1]Claudia anderson[1]
Claudia anderson[1]
andersoncaicedoguapacha
 
Sonido
SonidoSonido
Sonido
chiiino1501
 
Unidad2 3 principios-acustica-audiodigital-ups
Unidad2 3 principios-acustica-audiodigital-upsUnidad2 3 principios-acustica-audiodigital-ups
Unidad2 3 principios-acustica-audiodigital-ups
Orlando Barcia
 
Audio portafolio52
Audio portafolio52Audio portafolio52
Audio portafolio52
Donde Jack
 
Sonido
SonidoSonido
Clase 1 Acustica
Clase 1 AcusticaClase 1 Acustica
Clase 1 Acustica
Tensor
 
Unidad1 principios-acustica-audiodigital-ups
Unidad1 principios-acustica-audiodigital-upsUnidad1 principios-acustica-audiodigital-ups
Unidad1 principios-acustica-audiodigital-ups
Orlando Barcia
 
AUDIO DIGITAL NUEVATEC-EMA
AUDIO DIGITAL NUEVATEC-EMAAUDIO DIGITAL NUEVATEC-EMA
AUDIO DIGITAL NUEVATEC-EMA
muevatecema
 
Acustica
AcusticaAcustica
El Eco Y La ReverberacióN
El Eco Y La ReverberacióNEl Eco Y La ReverberacióN
El Eco Y La ReverberacióN
ronroneo
 
Sonido y Efecto Doppler, fundamentación , organizadores gráficos y ejercicios...
Sonido y Efecto Doppler, fundamentación , organizadores gráficos y ejercicios...Sonido y Efecto Doppler, fundamentación , organizadores gráficos y ejercicios...
Sonido y Efecto Doppler, fundamentación , organizadores gráficos y ejercicios...
Patricio Pérez
 
Resumen de contenidos teóricos. UD sonido
Resumen de contenidos teóricos. UD sonidoResumen de contenidos teóricos. UD sonido
Resumen de contenidos teóricos. UD sonido
ireneund
 
Sonido digital taller 3 antonella aldaz
Sonido digital taller 3 antonella aldazSonido digital taller 3 antonella aldaz
Sonido digital taller 3 antonella aldaz
Antonella2523
 
Taller1 henryb
Taller1 henrybTaller1 henryb
Taller1 henryb
Henry Barros
 
Primer parcial laboratorio de sonido
Primer parcial laboratorio de sonidoPrimer parcial laboratorio de sonido
Primer parcial laboratorio de sonido
Danieljvega001
 

La actualidad más candente (20)

Sonidos
SonidosSonidos
Sonidos
 
Sound
SoundSound
Sound
 
Diapo multi
Diapo multiDiapo multi
Diapo multi
 
Multimedia
MultimediaMultimedia
Multimedia
 
Sonido cruz jose-evelynanagumbla
Sonido cruz jose-evelynanagumblaSonido cruz jose-evelynanagumbla
Sonido cruz jose-evelynanagumbla
 
Claudia anderson[1]
Claudia anderson[1]Claudia anderson[1]
Claudia anderson[1]
 
Sonido
SonidoSonido
Sonido
 
Unidad2 3 principios-acustica-audiodigital-ups
Unidad2 3 principios-acustica-audiodigital-upsUnidad2 3 principios-acustica-audiodigital-ups
Unidad2 3 principios-acustica-audiodigital-ups
 
Audio portafolio52
Audio portafolio52Audio portafolio52
Audio portafolio52
 
Sonido
SonidoSonido
Sonido
 
Clase 1 Acustica
Clase 1 AcusticaClase 1 Acustica
Clase 1 Acustica
 
Unidad1 principios-acustica-audiodigital-ups
Unidad1 principios-acustica-audiodigital-upsUnidad1 principios-acustica-audiodigital-ups
Unidad1 principios-acustica-audiodigital-ups
 
AUDIO DIGITAL NUEVATEC-EMA
AUDIO DIGITAL NUEVATEC-EMAAUDIO DIGITAL NUEVATEC-EMA
AUDIO DIGITAL NUEVATEC-EMA
 
Acustica
AcusticaAcustica
Acustica
 
El Eco Y La ReverberacióN
El Eco Y La ReverberacióNEl Eco Y La ReverberacióN
El Eco Y La ReverberacióN
 
Sonido y Efecto Doppler, fundamentación , organizadores gráficos y ejercicios...
Sonido y Efecto Doppler, fundamentación , organizadores gráficos y ejercicios...Sonido y Efecto Doppler, fundamentación , organizadores gráficos y ejercicios...
Sonido y Efecto Doppler, fundamentación , organizadores gráficos y ejercicios...
 
Resumen de contenidos teóricos. UD sonido
Resumen de contenidos teóricos. UD sonidoResumen de contenidos teóricos. UD sonido
Resumen de contenidos teóricos. UD sonido
 
Sonido digital taller 3 antonella aldaz
Sonido digital taller 3 antonella aldazSonido digital taller 3 antonella aldaz
Sonido digital taller 3 antonella aldaz
 
Taller1 henryb
Taller1 henrybTaller1 henryb
Taller1 henryb
 
Primer parcial laboratorio de sonido
Primer parcial laboratorio de sonidoPrimer parcial laboratorio de sonido
Primer parcial laboratorio de sonido
 

Similar a Renocimiento voz bioinspirado

Unidad 1 post producion de radio
Unidad 1 post producion de radioUnidad 1 post producion de radio
Unidad 1 post producion de radio
Danieljvega001
 
Parcial 1 post producion de radio
Parcial 1 post producion de radioParcial 1 post producion de radio
Parcial 1 post producion de radio
Danieljvega001
 
Audio
AudioAudio
Audio
Evelyn
 
Sonido
SonidoSonido
Sonido
Tati Medina
 
Clase 2 ok
Clase 2 okClase 2 ok
Clase 2 ok
Tensor
 
Audio Electronic Team
Audio   Electronic TeamAudio   Electronic Team
Audio Electronic Team
Jefferson Frias
 
Audio Electonic team
Audio Electonic teamAudio Electonic team
Audio Electonic team
Jefferson Frias
 
La audicion
La audicionLa audicion
onda espectral de la radiofrecuencia.pdf
onda espectral de la radiofrecuencia.pdfonda espectral de la radiofrecuencia.pdf
onda espectral de la radiofrecuencia.pdf
MarcoARichter
 
Ear Anatomy
Ear AnatomyEar Anatomy
Ear Anatomy
Juan Muñoz
 
Guiaruido
GuiaruidoGuiaruido
Taller De Sonido
Taller De SonidoTaller De Sonido
Taller De Sonido
Carlos
 
Fonetica fonologia
Fonetica fonologiaFonetica fonologia
Fonetica fonologia
elkinvillasz
 
Dhtic liliana g. ensayo
Dhtic liliana g. ensayoDhtic liliana g. ensayo
Dhtic liliana g. ensayo
Líli Praxedis
 
Audicionequilibrio 110716205001-phpapp01
Audicionequilibrio 110716205001-phpapp01Audicionequilibrio 110716205001-phpapp01
Audicionequilibrio 110716205001-phpapp01
karlaguzmn
 
Universidad autónoma del estado de hidalgo
Universidad autónoma del estado de hidalgoUniversidad autónoma del estado de hidalgo
Universidad autónoma del estado de hidalgo
HikariAmaki17
 
Universidad autónoma del estado de hidalgo
Universidad autónoma del estado de hidalgoUniversidad autónoma del estado de hidalgo
Universidad autónoma del estado de hidalgo
HikariAmaki17
 
Universidad autónoma del estado de hidalgo
Universidad autónoma del estado de hidalgoUniversidad autónoma del estado de hidalgo
Universidad autónoma del estado de hidalgo
HikariAmaki17
 
Universidad autónoma del estado de hidalgo
Universidad autónoma del estado de hidalgoUniversidad autónoma del estado de hidalgo
Universidad autónoma del estado de hidalgo
HikariAmaki17
 
El oído
El oídoEl oído

Similar a Renocimiento voz bioinspirado (20)

Unidad 1 post producion de radio
Unidad 1 post producion de radioUnidad 1 post producion de radio
Unidad 1 post producion de radio
 
Parcial 1 post producion de radio
Parcial 1 post producion de radioParcial 1 post producion de radio
Parcial 1 post producion de radio
 
Audio
AudioAudio
Audio
 
Sonido
SonidoSonido
Sonido
 
Clase 2 ok
Clase 2 okClase 2 ok
Clase 2 ok
 
Audio Electronic Team
Audio   Electronic TeamAudio   Electronic Team
Audio Electronic Team
 
Audio Electonic team
Audio Electonic teamAudio Electonic team
Audio Electonic team
 
La audicion
La audicionLa audicion
La audicion
 
onda espectral de la radiofrecuencia.pdf
onda espectral de la radiofrecuencia.pdfonda espectral de la radiofrecuencia.pdf
onda espectral de la radiofrecuencia.pdf
 
Ear Anatomy
Ear AnatomyEar Anatomy
Ear Anatomy
 
Guiaruido
GuiaruidoGuiaruido
Guiaruido
 
Taller De Sonido
Taller De SonidoTaller De Sonido
Taller De Sonido
 
Fonetica fonologia
Fonetica fonologiaFonetica fonologia
Fonetica fonologia
 
Dhtic liliana g. ensayo
Dhtic liliana g. ensayoDhtic liliana g. ensayo
Dhtic liliana g. ensayo
 
Audicionequilibrio 110716205001-phpapp01
Audicionequilibrio 110716205001-phpapp01Audicionequilibrio 110716205001-phpapp01
Audicionequilibrio 110716205001-phpapp01
 
Universidad autónoma del estado de hidalgo
Universidad autónoma del estado de hidalgoUniversidad autónoma del estado de hidalgo
Universidad autónoma del estado de hidalgo
 
Universidad autónoma del estado de hidalgo
Universidad autónoma del estado de hidalgoUniversidad autónoma del estado de hidalgo
Universidad autónoma del estado de hidalgo
 
Universidad autónoma del estado de hidalgo
Universidad autónoma del estado de hidalgoUniversidad autónoma del estado de hidalgo
Universidad autónoma del estado de hidalgo
 
Universidad autónoma del estado de hidalgo
Universidad autónoma del estado de hidalgoUniversidad autónoma del estado de hidalgo
Universidad autónoma del estado de hidalgo
 
El oído
El oídoEl oído
El oído
 

Último

pueblos originarios de chile presentacion twinkl.pptx
pueblos originarios de chile presentacion twinkl.pptxpueblos originarios de chile presentacion twinkl.pptx
pueblos originarios de chile presentacion twinkl.pptx
RAMIREZNICOLE
 
200. Efemerides junio para trabajar en periodico mural
200. Efemerides junio para trabajar en periodico mural200. Efemerides junio para trabajar en periodico mural
200. Efemerides junio para trabajar en periodico mural
shirherrer
 
Camus, Albert - El Extranjero.pdf
Camus, Albert -        El Extranjero.pdfCamus, Albert -        El Extranjero.pdf
Camus, Albert - El Extranjero.pdf
AlexDeLonghi
 
CORREOS SEGUNDO 2024 HONORIO DELGADO ESPINOZA
CORREOS SEGUNDO 2024 HONORIO DELGADO ESPINOZACORREOS SEGUNDO 2024 HONORIO DELGADO ESPINOZA
CORREOS SEGUNDO 2024 HONORIO DELGADO ESPINOZA
Sandra Mariela Ballón Aguedo
 
CUENTOS EN MAYÚSCULAS PARA APRENDER A LEER.pdf
CUENTOS EN MAYÚSCULAS PARA APRENDER A LEER.pdfCUENTOS EN MAYÚSCULAS PARA APRENDER A LEER.pdf
CUENTOS EN MAYÚSCULAS PARA APRENDER A LEER.pdf
Inslvarez5
 
Soluciones Examen de Selectividad. Geografía junio 2024 (Convocatoria Ordinar...
Soluciones Examen de Selectividad. Geografía junio 2024 (Convocatoria Ordinar...Soluciones Examen de Selectividad. Geografía junio 2024 (Convocatoria Ordinar...
Soluciones Examen de Selectividad. Geografía junio 2024 (Convocatoria Ordinar...
Juan Martín Martín
 
Clase Prensencial, Actividad 2.pdf.......
Clase Prensencial, Actividad 2.pdf.......Clase Prensencial, Actividad 2.pdf.......
Clase Prensencial, Actividad 2.pdf.......
LuanaJaime1
 
Guia Practica de ChatGPT para Docentes Ccesa007.pdf
Guia Practica de ChatGPT para Docentes Ccesa007.pdfGuia Practica de ChatGPT para Docentes Ccesa007.pdf
Guia Practica de ChatGPT para Docentes Ccesa007.pdf
Demetrio Ccesa Rayme
 
1° T3 Examen Zany de primer grado compl
1° T3 Examen Zany  de primer grado compl1° T3 Examen Zany  de primer grado compl
1° T3 Examen Zany de primer grado compl
ROCIORUIZQUEZADA
 
Mundo ABC Examen 1 Grado- Tercer Trimestre.pdf
Mundo ABC Examen 1 Grado- Tercer Trimestre.pdfMundo ABC Examen 1 Grado- Tercer Trimestre.pdf
Mundo ABC Examen 1 Grado- Tercer Trimestre.pdf
ViriEsteva
 
Inteligencia Artificial para Docentes HIA Ccesa007.pdf
Inteligencia Artificial para Docentes  HIA  Ccesa007.pdfInteligencia Artificial para Docentes  HIA  Ccesa007.pdf
Inteligencia Artificial para Docentes HIA Ccesa007.pdf
Demetrio Ccesa Rayme
 
Sesión: El espiritismo desenmascarado.pdf
Sesión: El espiritismo desenmascarado.pdfSesión: El espiritismo desenmascarado.pdf
Sesión: El espiritismo desenmascarado.pdf
https://gramadal.wordpress.com/
 
Libro Integrado 8vo egb len-mat-ccnn-eess
Libro Integrado 8vo egb len-mat-ccnn-eessLibro Integrado 8vo egb len-mat-ccnn-eess
Libro Integrado 8vo egb len-mat-ccnn-eess
maxgamesofficial15
 
Docentes y el uso de chatGPT en el Aula Ccesa007.pdf
Docentes y el uso de chatGPT   en el Aula Ccesa007.pdfDocentes y el uso de chatGPT   en el Aula Ccesa007.pdf
Docentes y el uso de chatGPT en el Aula Ccesa007.pdf
Demetrio Ccesa Rayme
 
Planificación Ejemplo con la metodología TPACK
Planificación Ejemplo con la metodología  TPACKPlanificación Ejemplo con la metodología  TPACK
Planificación Ejemplo con la metodología TPACK
ssusera6697f
 
2° año LA VESTIMENTA-ciencias sociales 2 grado
2° año LA VESTIMENTA-ciencias sociales 2 grado2° año LA VESTIMENTA-ciencias sociales 2 grado
2° año LA VESTIMENTA-ciencias sociales 2 grado
GiselaBerrios3
 
EVALUACION ESTUDIANTIL 2023-2024 Ecuador - Costa.pptx
EVALUACION ESTUDIANTIL 2023-2024 Ecuador - Costa.pptxEVALUACION ESTUDIANTIL 2023-2024 Ecuador - Costa.pptx
EVALUACION ESTUDIANTIL 2023-2024 Ecuador - Costa.pptx
Victor Elizalde P
 
FEEDBACK DE LA ESTRUCTURA CURRICULAR- 2024.pdf
FEEDBACK DE LA ESTRUCTURA CURRICULAR- 2024.pdfFEEDBACK DE LA ESTRUCTURA CURRICULAR- 2024.pdf
FEEDBACK DE LA ESTRUCTURA CURRICULAR- 2024.pdf
Jose Luis Jimenez Rodriguez
 
Examen de Lengua Castellana y Literatura de la EBAU en Castilla-La Mancha 2024.
Examen de Lengua Castellana y Literatura de la EBAU en Castilla-La Mancha 2024.Examen de Lengua Castellana y Literatura de la EBAU en Castilla-La Mancha 2024.
Examen de Lengua Castellana y Literatura de la EBAU en Castilla-La Mancha 2024.
20minutos
 
3° SES COMU LUN10 CUENTO DIA DEL PADRE 933623393 PROF YESSENIA (1).docx
3° SES COMU LUN10  CUENTO DIA DEL PADRE  933623393 PROF YESSENIA (1).docx3° SES COMU LUN10  CUENTO DIA DEL PADRE  933623393 PROF YESSENIA (1).docx
3° SES COMU LUN10 CUENTO DIA DEL PADRE 933623393 PROF YESSENIA (1).docx
rosannatasaycoyactay
 

Último (20)

pueblos originarios de chile presentacion twinkl.pptx
pueblos originarios de chile presentacion twinkl.pptxpueblos originarios de chile presentacion twinkl.pptx
pueblos originarios de chile presentacion twinkl.pptx
 
200. Efemerides junio para trabajar en periodico mural
200. Efemerides junio para trabajar en periodico mural200. Efemerides junio para trabajar en periodico mural
200. Efemerides junio para trabajar en periodico mural
 
Camus, Albert - El Extranjero.pdf
Camus, Albert -        El Extranjero.pdfCamus, Albert -        El Extranjero.pdf
Camus, Albert - El Extranjero.pdf
 
CORREOS SEGUNDO 2024 HONORIO DELGADO ESPINOZA
CORREOS SEGUNDO 2024 HONORIO DELGADO ESPINOZACORREOS SEGUNDO 2024 HONORIO DELGADO ESPINOZA
CORREOS SEGUNDO 2024 HONORIO DELGADO ESPINOZA
 
CUENTOS EN MAYÚSCULAS PARA APRENDER A LEER.pdf
CUENTOS EN MAYÚSCULAS PARA APRENDER A LEER.pdfCUENTOS EN MAYÚSCULAS PARA APRENDER A LEER.pdf
CUENTOS EN MAYÚSCULAS PARA APRENDER A LEER.pdf
 
Soluciones Examen de Selectividad. Geografía junio 2024 (Convocatoria Ordinar...
Soluciones Examen de Selectividad. Geografía junio 2024 (Convocatoria Ordinar...Soluciones Examen de Selectividad. Geografía junio 2024 (Convocatoria Ordinar...
Soluciones Examen de Selectividad. Geografía junio 2024 (Convocatoria Ordinar...
 
Clase Prensencial, Actividad 2.pdf.......
Clase Prensencial, Actividad 2.pdf.......Clase Prensencial, Actividad 2.pdf.......
Clase Prensencial, Actividad 2.pdf.......
 
Guia Practica de ChatGPT para Docentes Ccesa007.pdf
Guia Practica de ChatGPT para Docentes Ccesa007.pdfGuia Practica de ChatGPT para Docentes Ccesa007.pdf
Guia Practica de ChatGPT para Docentes Ccesa007.pdf
 
1° T3 Examen Zany de primer grado compl
1° T3 Examen Zany  de primer grado compl1° T3 Examen Zany  de primer grado compl
1° T3 Examen Zany de primer grado compl
 
Mundo ABC Examen 1 Grado- Tercer Trimestre.pdf
Mundo ABC Examen 1 Grado- Tercer Trimestre.pdfMundo ABC Examen 1 Grado- Tercer Trimestre.pdf
Mundo ABC Examen 1 Grado- Tercer Trimestre.pdf
 
Inteligencia Artificial para Docentes HIA Ccesa007.pdf
Inteligencia Artificial para Docentes  HIA  Ccesa007.pdfInteligencia Artificial para Docentes  HIA  Ccesa007.pdf
Inteligencia Artificial para Docentes HIA Ccesa007.pdf
 
Sesión: El espiritismo desenmascarado.pdf
Sesión: El espiritismo desenmascarado.pdfSesión: El espiritismo desenmascarado.pdf
Sesión: El espiritismo desenmascarado.pdf
 
Libro Integrado 8vo egb len-mat-ccnn-eess
Libro Integrado 8vo egb len-mat-ccnn-eessLibro Integrado 8vo egb len-mat-ccnn-eess
Libro Integrado 8vo egb len-mat-ccnn-eess
 
Docentes y el uso de chatGPT en el Aula Ccesa007.pdf
Docentes y el uso de chatGPT   en el Aula Ccesa007.pdfDocentes y el uso de chatGPT   en el Aula Ccesa007.pdf
Docentes y el uso de chatGPT en el Aula Ccesa007.pdf
 
Planificación Ejemplo con la metodología TPACK
Planificación Ejemplo con la metodología  TPACKPlanificación Ejemplo con la metodología  TPACK
Planificación Ejemplo con la metodología TPACK
 
2° año LA VESTIMENTA-ciencias sociales 2 grado
2° año LA VESTIMENTA-ciencias sociales 2 grado2° año LA VESTIMENTA-ciencias sociales 2 grado
2° año LA VESTIMENTA-ciencias sociales 2 grado
 
EVALUACION ESTUDIANTIL 2023-2024 Ecuador - Costa.pptx
EVALUACION ESTUDIANTIL 2023-2024 Ecuador - Costa.pptxEVALUACION ESTUDIANTIL 2023-2024 Ecuador - Costa.pptx
EVALUACION ESTUDIANTIL 2023-2024 Ecuador - Costa.pptx
 
FEEDBACK DE LA ESTRUCTURA CURRICULAR- 2024.pdf
FEEDBACK DE LA ESTRUCTURA CURRICULAR- 2024.pdfFEEDBACK DE LA ESTRUCTURA CURRICULAR- 2024.pdf
FEEDBACK DE LA ESTRUCTURA CURRICULAR- 2024.pdf
 
Examen de Lengua Castellana y Literatura de la EBAU en Castilla-La Mancha 2024.
Examen de Lengua Castellana y Literatura de la EBAU en Castilla-La Mancha 2024.Examen de Lengua Castellana y Literatura de la EBAU en Castilla-La Mancha 2024.
Examen de Lengua Castellana y Literatura de la EBAU en Castilla-La Mancha 2024.
 
3° SES COMU LUN10 CUENTO DIA DEL PADRE 933623393 PROF YESSENIA (1).docx
3° SES COMU LUN10  CUENTO DIA DEL PADRE  933623393 PROF YESSENIA (1).docx3° SES COMU LUN10  CUENTO DIA DEL PADRE  933623393 PROF YESSENIA (1).docx
3° SES COMU LUN10 CUENTO DIA DEL PADRE 933623393 PROF YESSENIA (1).docx
 

Renocimiento voz bioinspirado

  • 1. Reconocimiento de voz bioinspirado Diego Alejandro Carrera Gallego diegocarera2000@gmail.com Profesor: Pedro Gómez-Vilda pedro@pino.datsi.fi.upm.es
  • 2. Índice • Objetivos • Introducción • Reconocimiento de voz “tradicional” – El aparato fonatorio – Transformada de Fourier – Formantes – Extracción de características – Espectro – Modelos Ocultos de Markov • Funcionamiento oído • Etapas de reconocimiento de voz bio-inspirado “teórico” • Estándares • Aplicaciones • Demostración en video • Resultados • Conclusiones
  • 3.
  • 4. Introducción • El término “bioinspirado” nace de los conceptos biológicos que tratan de ser diseñados en sistemas analíticos, su objetivo principal es la de comprender e imitar la forma en que los sistemas biológicos aprenden y evolucionan • Los sistemas bioinspirados son entornos multidisciplinarios, basados en hardware configurable y sistemas electrónicos. • Un sistema bioinspirado de reconocimiento de voz es un algoritmo que funciona como lo hace un oído humano, analizando las características de la voz dentro del nervio auditivo humano. • Un sistema de reconocimiento de voz es una de las aplicaciones del procesamiento digital de señales de voz que nos permitiría detectar periodicidades propias y únicas en el habla de cada locutor, que lo caracterizan, dando lugar a la identificación de las personas a través de su voz.
  • 5. El aparato fonatorio • El habla se produce por medio del aparato fonatorio, la cual está conformado de: – Los pulmones, – La laringe (que tiene las cuerda vocales), – La faringe – Las cavidades oral y nasal – Una serie de elementos articulatorios: como son los labios, los dientes, el alveolo, el paladar, el velo del paladar y la lengua. Ver Fig.4.
  • 6. El aparato fonatorio • Para que el aire pase libremente y casi sin producir sonido, las cuerdas vocales deben estar separadas, dando una forma triangular a la glotis. • Cuando la glotis se empieza a cerrar, el aire que la atraviesa experimenta una turbulencia, provocando un sonido que se conoce como aspiración. • Cuando se cierra más la glotis, las cuerdas vocales comienzan a vibran produciendo un sonido tonal (periódico), cuya frecuencia depende de factores, como son: – Tamaño, – Masa de las cuerdas vocales, – tensión de las cuerdas, – y velocidad del flujo de aire. • A mayor tamaño, menor frecuencia de vibración. • A mayor tensión la frecuencia aumenta, siendo los sonidos más agudos. • A mayor velocidad del flujo de aire, mayor frecuencia, sonoridad, intensidad o volumen. • Por último, cuando la glotis se cierra completamente, entonces no se produce sonido. • Para efectos de alimentación, la epiglotis, que es un cartílago de la faringe permite tapar la glotis, evitando que el alimento se introduzca en el aparato respiratorio.
  • 7. El aparato fonatorio (formantes) • Dentro de las cavidades faríngea, oral, Formantes Vocálicos nasal y labial se produce el filtrado Vocal Región principal que actúa modificando el espectro del formántica sonido. Estas cavidades constituyen /u/ 200 a 400 Hz resonadores acústicos que enfatizan /o/ 400 a 600 Hz determinadas bandas frecuenciales /a/ 800 a 1200 Hz del espectro generado por las vocales /e/ 400 a 600 y 2200 a 2600 (conocido como formantes). Hz /i/ 200 a 400 y 3000 a 3500 Hz • Los elementos que sirven para distinguir los componentes del habla humano se conocen como formantes, y se conforman de las vocales y sonidos sonantes.
  • 8. Proceso de reconocimiento “tradicional” • Obtención de información (micrófono) • Procesamiento digital de señales – Transformada discreta de Fourier (DFT) – Muestreo • Teorema de Nyquist indica que la frecuencia de muestro Fm = 1/ T debe ser al menos el doble de la mayor frecuencia que se quiera preservar de la señal. Fm >= 2 * f max
  • 9. Proceso de reconocimiento “tradicional” • Cuantificación. es el proceso de convertir un objeto a un grupo de valores discretos • La FFT Es un eficiente algoritmo que permite calcular la transformada discreta de Fourier y su inversa dados vectores de longitud N, con sólo O(n log n) operaciones. • Segmentación o enventanado
  • 10. La estimación del espectro • Ventanas espectrales: Tukey, Parzen, Hamming
  • 11. espectrograma • Un espectrograma representa gráficamente los sonidos de la voz, a través de las componentes de las frecuencias de la señal de voz. Mostrando los espectro de amplitud en variación del tiempo. Espectrograma no contiene información sobre la señal de fase sólo contiene información sobre la amplitud de la señal. Esta es la razón por la cual no se puede crear la señal original del espectrograma,
  • 12. Extracción de características • Extracción de características: el pitch, los coeficientes de la FFT de la señal, los coeficientes cepstrum, los coeficientes cepstrales en la escala Mel, la energía de la señal, etc. • Métodos para la extracción de características: – Análisis de predicción lineal (LPC) – Análisis cepstral
  • 13. Análisis cepstral • Escala Mel, es bien conocido que el oído humano presenta una escala perceptual logarítmica en frecuencias. • Coeficientes Cepstrum, se definen como la transformada inversa del logaritmo del módulo de la transformada de la señal. • Los coeficientes cepstrum en la escala Mel (MFCC, del inglés Mel-Frequency Cepstral Coeficients) en reconocimiento de voz, presentan mejores resultados de parametrización que otras técnicas
  • 14. Modelo oculto de Markov (HMM) • Es un modelo utilizado para aplicaciones de reconocimiento de formas temporales como el reconocimiento de habla, escritura manual, de gestos, etiquetado gramática o en bioinformática. • Sistema basado en HMM para la indexación automática de audio. Los cuales utilizan tres parámetros: – Los coeficientes de la FFT que se corresponden con las frecuencias fundamentales – Los parámetros resultantes de aplicar un banco de filtro en escala Mel a la señal. – Los coefiecientes cepstrales en escala Mel (MFCC).
  • 15. Modelo oculto de Markov Los HMM son máquinas de estados finitos compuestos por un conjunto de estados Q que emiten observaciones (vectores de características acústicas) según una ley probabilística, típicamente una densidad de probabilidad. Un HMM suele llevar asociado una distribución que indica la probabilidad de que un estado sea inicial. Identificación de la palabra en inglés: “with two beds”
  • 16. Algoritmo de Viterbi La probabilidad con que un modelo HMM genere un segmento de voz es la suma de las probabilidades de todas las secuencias de estados capaces de generar el segmento de voz. Los modelos acústicos de las palabras se obtienen por concatenación de los modelo HMM de los fonos que la componen, aunque en algunos modelos, su combinación puede ser más compleja
  • 17. Proceso de reconocimiento de voz - bioinspirado • El proceso de reconocimiento de voz en la vida diaria exige un proceso de codificación de la información en forma de pulsos eléctricos, que se transmiten al cerebro a través del nervio auditivo, este proceso es conocido como “transducción acústico-neuronal”. • La función de un oído artificial debe tener como función únicamente “codificar” los sonidos en patrones de pulsos eléctricos, basados en la estructura de un oído real. • Áreas de conocimiento: Procesamiento de señales- Física (acústica) - Reconocimiento de patrones - Teoría de la información y las comunicaciones - Teoría de la música - Fisiología – Informática - Psicología
  • 18. Procesamiento de la transducción acústico-neuronal 1 2 3
  • 19. (etapas) Procesamiento de la transducción acústico-neuronal • El oído externo.- La cual se basa en la función acústica de transferencia del pabellón auricular. • El oído medio.- traslada las vibraciones de la membrana timpánica a la cóclea a través de la cadena de huesecillos. • El órgano de Corti.- tiene un extenso rango dinámico, que percibe sonidos entre 0 a 120 dB. • Análisis en dos puntos importantes dentro del proceso de transducción que son: – La sinapsis – El conjunto de las etapas
  • 20. Etapas: oído externo y oído medio • El oído externo (etapa 1) tiene una forma muy particular, la cual genera información sobre la posición de los sonidos en el espacio, ya sea que se encuentren encima, debajo, delante o detrás de nosotros, además permite recibir el sonido en tres dimensiones y no “lateralizado” como ocurre en los sistemas estereofónicos clásicos. En esta segunda etapa, “el oído medio” se encarga de trasladar las vibraciones de la membrana timpánica a la cóclea a través de la cadena de huesecillos. Su tarea depende de la frecuencia de dichas vibraciones, donde transmite óptimamente las vibraciones de frecuencias medias (de 1 a 4 kilohertz), pero opone resistencia a las oscilaciones de otras frecuencias.
  • 21. Etapa 3: órgano Corti • Este sistema (etapa 3) tiene un extenso rango dinámico, porque percibe entre 0 a 120 decibelios. Equivalente a variaciones de presión entre 20 micro pascal (el umbral absoluto de audición) y 20 pascal (el umbral del daño auditivo). • Además tiene una capacidad de discriminar entre sonidos compuestos por frecuencias muy parecidas, lo que permite diferenciar dos vocales pronunciadas por dos personas distintas. Cada segmento del órgano de Corti se comporta como un filtro de paso de banda, creando un banco de filtros dispuestos en paralelo con frecuencias características diferentes, operando a la manera de un analizador de espectro del estímulo sonoro. George von Békésy, quien recibió el premio Nobel de medicina en 1961, demostró que cada uno de los segmentos en los que puede dividirse longitudinalmente el órgano de Corti responde a un rango más o menos amplio de frecuencias de estimulación, aunque sólo una de ellas, denominada frecuencia característica, produce oscilaciones de máxima amplitud
  • 22. Etapa 4: célula ciliada interna • Transforma el movimiento mecánico de sus cilios en una señal eléctrica. • La apertura de los canales iónicos promueve la entrada de potasio al interior de la célula, dando como resultado que en el interior varíe el potencial eléctrico del interior con respecto al medido en ausencia del estímulo sonoro • Una observación en esta etapa es que el exceso de estimulación acústica destruye los cilios de las células internas. Probablemente, esa agresión dificulte la entrada de potasio al interior de la célula.
  • 23. Etapa 5: la sinapsis • Una misma célula ciliada interna puede establecer sinapsis (etapa 5) con varias fibras del nervio auditivo. • Ante un estímulo sonoro, la actividad de todas las fibras aumenta por encima de la actividad espontánea. Sin embargo, aunque la intensidad del sonido permanezca contante, el aumento producido en el inicio del estímulo es considerablemente mayor que transcurridos unos milisegundos. Esto implica que el inicio de los sonidos se encuentra acentuado en la respuesta del nervio auditivo. • Tal característica reviste especial alcance; entre otros efectos, facilita la percepción de algunos sonidos consonánticos (como el de la ‘t’ o la ‘k’), a pensar de su brevedad.
  • 24. El conjunto • El resultado de la cascada de los algoritmos de este oído artificial es un sistema que reproduce de manera estocástica los potenciales de acción producidos por el nervio auditivo ante cualquier estímulo sonoro. • Este modelo es genérico porque se podría reproducir la actividad de una o varias fibras nerviosas, ya que serían parámetros configurables por el usuario.
  • 25. Arquitectura de reconocimiento de voz - bioinspirado • En la etapa 1, “oído externo”, se plantea un algoritmo que exprese la atenuación de algunas frecuencias, como resultado de interferencias destructivas a la entrada del conducto auditivo entre el sonido directo procedente de la fuente sonora y el que se refleja en las paredes de la concha. • En la etapa 2, la función del “oído medio” se simula con un sencillo filtro lineal de paso de banda. El filtro reproduce la velocidad de oscilación del estribo en función de la presión sonora instantánea ejercida en el tímpano.
  • 26. Arquitectura de reconocimiento de voz - bioinspirado • En la etapa 3, “el órgano de Corti”, de nuestro oído artificial usaremos para simular un banco de filtros que denominamos DRNL (Dual Resonance NonLinear), siendo de suma importancia debido a que los filtros cocleares no son lineales. Con un rango dinámico que soporte entre 0 a 120 decibelios. • En la etapa 4, “la célula ciliada interna”, una forma de imitar la función de esta célula sería mediante una sub-etapa de rectificación acompañada de un filtro lineal de paso bajo, optando por un algoritmo más fisiológico, basado en el circuito equivalente de la membrana de la célula diseñado por Shihab Shamma de la Universidad de Maryland. • Además se puede incluir una función que simule el daño por exceso de estimulación acústica, siendo un parámetro, que permitiría investigar las consecuencias del trauma acústico sobre el potencial eléctrico de la célula.
  • 27. Arquitectura de reconocimiento de voz - bioinspirado • En la etapa 5, “la sinapsis” su algoritmo supone que en el nervio auditivo se genera un potencial de acción, siempre que la célula ciliada vierta el contenido de una vesícula, por lo menos, de material neurotransmisor en la hendidura sináptica (el espacio físico entre la célula ciliada y la neurona). Admite también que la probabilidad de tal liberación sea mayor cuanto mayor sean el potencial eléctrico en el interior de la célula ciliada y el número de vesículas disponibles. • El potencial intracelular depende de la intensidad del estímulo sonoro. Por lo que se calcula el número de vesículas disponibles, a partir de la velocidad de formación de nuevas vesículas en la célula, y su velocidad de degradación del neurotransmisor liberado.
  • 28. Estándares • VoiceXML 3.0 es un estándar de la (W3C, Voice Extensible Markup Language) diseñado para crear diálogos que cuentan con un sintetizador de voz, audio digitalizado, reconocimiento de voz y registro de entrada DTMF, grabación de entrada de voz, telefonía, y las conversaciones mixtas iniciativa.
  • 29. Aplicaciones de reconocimento de voz • CMUsphinx Vocabulary Sphinx4 WER Digits 0-9 .549% 100 Word 1.192% 1,000 Word 2.88% 5,000 Word 6.97% 64,000 Word 18.756%
  • 32. Conclusiones • El reconocimiento de voz es una de las aplicaciones del procesamiento digital de señales que permite interacción entre seres humanos y computadoras. • Las medidas de distancia euclidianas como mecanismo de clasificación de las señales son más sencillas de implementar en el sistema, sin embargo está demostrado que en la actualidad los modelos HMM tienen una mayor efectividad en el tema de reconocimiento de voz. • El número de áreas de conocimiento sobre el tema, exige trabajar en un grupo multi-disciplinario.
  • 34. Proyectos Futuros • Realizar una práctica basado en sphinx-4 para el aprendizaje de reconocimiento de la voz en tiempo real y su re-implementación de la interface bio-inspirada, basada en la recomendación del oído artificial.
  • 35. ¿Preguntas? Reconocimiento de voz bioinspirado Diego Alejandro Carrera Gallego diegocarera2000@gmail.com Profesor: Pedro Gómez-Vilda pedro@pino.datsi.fi.upm.es
  • 36. URLs • http://www.youtube.com/watch?v=9c6W4CC U9M4 • http://www.voxforge.org/home • http://cmusphinx.sourceforge.net/sphinx4/