Renocimiento voz bioinspirado

Reconocimiento de voz
bioinspirado

Diego Alejandro Carrera Gallego
diegocarera2000@gmail.com

Profesor: Pedro Gómez-Vilda
pedro@pino.datsi.fi.upm.es

Índice
• Objetivos
• Introducción
• Reconocimiento de voz “tradicional”
– El aparato fonatorio
– Transformada de Fourier
– Formantes
– Extracción de características
– Espectro
– Modelos Ocultos de Markov
• Funcionamiento oído
• Etapas de reconocimiento de voz bio-inspirado “teórico”
• Estándares
• Aplicaciones
• Demostración en video
• Resultados
• Conclusiones

Introducción
• El término “bioinspirado” nace de los conceptos biológicos que tratan de
ser diseñados en sistemas analíticos, su objetivo principal es la de
comprender e imitar la forma en que los sistemas biológicos aprenden y
evolucionan

• Los sistemas bioinspirados son entornos multidisciplinarios, basados en
hardware configurable y sistemas electrónicos.

• Un sistema bioinspirado de reconocimiento de voz es un algoritmo que
funciona como lo hace un oído humano, analizando las características de
la voz dentro del nervio auditivo humano.

• Un sistema de reconocimiento de voz es una de las aplicaciones del
procesamiento digital de señales de voz que nos permitiría detectar
periodicidades propias y únicas en el habla de cada locutor, que lo
caracterizan, dando lugar a la identificación de las personas a través de su
voz.

El aparato fonatorio

• El habla se produce por medio del
aparato fonatorio, la cual está
conformado de:
– Los pulmones,
– La laringe (que tiene las cuerda
vocales),
– La faringe
– Las cavidades oral y nasal
– Una serie de elementos articulatorios:
como son los labios, los dientes, el
alveolo, el paladar, el velo del paladar y
la lengua. Ver Fig.4.

El aparato fonatorio

• Para que el aire pase libremente y casi sin producir sonido, las cuerdas vocales deben
estar separadas, dando una forma triangular a la glotis.

• Cuando la glotis se empieza a cerrar, el aire que la atraviesa experimenta una
turbulencia, provocando un sonido que se conoce como aspiración.

• Cuando se cierra más la glotis, las cuerdas vocales comienzan a vibran produciendo un
sonido tonal (periódico), cuya frecuencia depende de factores, como son:
– Tamaño,
– Masa de las cuerdas vocales,
– tensión de las cuerdas,
– y velocidad del flujo de aire.
• A mayor tamaño, menor frecuencia de vibración.
• A mayor tensión la frecuencia aumenta, siendo los sonidos más agudos.
• A mayor velocidad del flujo de aire, mayor frecuencia, sonoridad, intensidad o volumen.

• Por último, cuando la glotis se cierra completamente, entonces no se produce sonido.

• Para efectos de alimentación, la epiglotis, que es un cartílago de la faringe permite
tapar la glotis, evitando que el alimento se introduzca en el aparato respiratorio.

El aparato fonatorio (formantes)

• Dentro de las cavidades faríngea, oral, Formantes Vocálicos

nasal y labial se produce el filtrado Vocal Región principal

que actúa modificando el espectro del formántica

sonido. Estas cavidades constituyen /u/ 200 a 400 Hz

resonadores acústicos que enfatizan /o/ 400 a 600 Hz

determinadas bandas frecuenciales /a/ 800 a 1200 Hz

del espectro generado por las vocales /e/ 400 a 600 y 2200 a 2600

(conocido como formantes). Hz
/i/ 200 a 400 y 3000 a 3500
Hz
• Los elementos que sirven para
distinguir los componentes del habla
humano se conocen como formantes,
y se conforman de las vocales y
sonidos sonantes.

Proceso de reconocimiento “tradicional”

• Obtención de información (micrófono)
• Procesamiento digital de señales
– Transformada discreta de Fourier (DFT)
– Muestreo
• Teorema de Nyquist indica que la frecuencia de
muestro Fm = 1/ T debe ser al menos el doble de la
mayor frecuencia que se quiera preservar de la señal.

Fm >= 2 * f max

Proceso de reconocimiento “tradicional”
• Cuantificación. es el proceso de convertir un objeto a un
grupo de valores discretos
• La FFT Es un eficiente algoritmo que permite calcular la
transformada discreta de Fourier y su inversa dados vectores
de longitud N, con sólo O(n log n) operaciones.
• Segmentación o enventanado

La estimación del espectro

• Ventanas espectrales: Tukey, Parzen, Hamming

espectrograma

• Un espectrograma representa gráficamente los sonidos de la voz, a través
de las componentes de las frecuencias de la señal de voz. Mostrando los
espectro de amplitud en variación del tiempo.

Espectrograma no contiene información
sobre la señal de fase sólo contiene
información sobre la amplitud de la señal.
Esta es la razón por la cual no se puede crear
la señal original del espectrograma,

Extracción de características

• Extracción de características: el pitch, los coeficientes de la
FFT de la señal, los coeficientes cepstrum, los coeficientes
cepstrales en la escala Mel, la energía de la señal, etc.

• Métodos para la extracción de características:
– Análisis de predicción lineal (LPC)
– Análisis cepstral

Análisis cepstral

• Escala Mel, es bien conocido que el oído humano
presenta una escala perceptual logarítmica en
frecuencias.

• Coeficientes Cepstrum, se definen como la
transformada inversa del logaritmo del módulo de la
transformada de la señal.

• Los coeficientes cepstrum en la escala Mel (MFCC, del
inglés Mel-Frequency Cepstral Coeficients) en
reconocimiento de voz, presentan mejores resultados
de parametrización que otras técnicas

Modelo oculto de Markov (HMM)

• Es un modelo utilizado para aplicaciones de reconocimiento
de formas temporales como el reconocimiento de habla,
escritura manual, de gestos, etiquetado gramática o en
bioinformática.

• Sistema basado en HMM para la indexación automática de
audio. Los cuales utilizan tres parámetros:
– Los coeficientes de la FFT que se corresponden con las
frecuencias fundamentales
– Los parámetros resultantes de aplicar un banco de filtro en
escala Mel a la señal.
– Los coefiecientes cepstrales en escala Mel (MFCC).

Modelo oculto de Markov

Los HMM son máquinas de estados
finitos compuestos por un conjunto de
estados Q que emiten observaciones
(vectores de características acústicas)
según una ley probabilística,
típicamente una densidad de
probabilidad. Un HMM suele llevar
asociado una distribución que indica la
probabilidad de que un estado sea
inicial.

Identificación de la palabra en inglés: “with two beds”

Algoritmo de Viterbi

La probabilidad con que un
modelo HMM genere un
segmento de voz es la suma
de las probabilidades de todas
las secuencias de estados
capaces de generar el
segmento de voz.

Los modelos acústicos de
las palabras se obtienen
por concatenación de los
modelo HMM de los fonos
que la componen, aunque
en algunos modelos, su
combinación puede ser
más compleja

Proceso de reconocimiento de voz - bioinspirado

• El proceso de reconocimiento de voz en la vida diaria exige un
proceso de codificación de la información en forma de pulsos
eléctricos, que se transmiten al cerebro a través del nervio auditivo,
este proceso es conocido como “transducción acústico-neuronal”.

• La función de un oído artificial debe tener como función
únicamente “codificar” los sonidos en patrones de pulsos eléctricos,
basados en la estructura de un oído real.

• Áreas de conocimiento:
Procesamiento de señales- Física (acústica) - Reconocimiento de
patrones - Teoría de la información y las comunicaciones - Teoría
de la música - Fisiología – Informática - Psicología

Procesamiento de la transducción acústico-neuronal

1

2
3

(etapas) Procesamiento de la
transducción acústico-neuronal
• El oído externo.- La cual se basa en la función acústica de
transferencia del pabellón auricular.
• El oído medio.- traslada las vibraciones de la membrana timpánica a
la cóclea a través de la cadena de huesecillos.
• El órgano de Corti.- tiene un extenso rango dinámico, que percibe
sonidos entre 0 a 120 dB.
• Análisis en dos puntos importantes dentro del proceso de
transducción que son:
– La sinapsis
– El conjunto de las etapas

Etapas: oído externo y oído medio

• El oído externo (etapa 1) tiene una forma muy particular, la cual genera
información sobre la posición de los sonidos en el espacio, ya sea que se
encuentren encima, debajo, delante o detrás de nosotros, además permite recibir
el sonido en tres dimensiones y no “lateralizado” como ocurre en los sistemas
estereofónicos clásicos.

En esta segunda etapa, “el oído medio” se
encarga de trasladar las vibraciones de la
membrana timpánica a la cóclea a través de la
cadena de huesecillos. Su tarea depende de la
frecuencia de dichas vibraciones, donde
transmite óptimamente las vibraciones de
frecuencias medias (de 1 a 4 kilohertz), pero
opone resistencia a las oscilaciones de otras
frecuencias.

Etapa 3: órgano Corti

• Este sistema (etapa 3) tiene un extenso rango dinámico, porque percibe entre 0 a 120
decibelios. Equivalente a variaciones de presión entre 20 micro pascal (el umbral absoluto de
audición) y 20 pascal (el umbral del daño auditivo).

• Además tiene una capacidad de discriminar entre sonidos compuestos por frecuencias muy
parecidas, lo que permite diferenciar dos vocales pronunciadas por dos personas distintas. Cada
segmento del órgano de Corti se comporta como un filtro de paso de banda, creando un banco
de filtros dispuestos en paralelo con frecuencias características diferentes, operando a la
manera de un analizador de espectro del estímulo sonoro.

George von Békésy, quien recibió el premio
Nobel de medicina en 1961, demostró que cada
uno de los segmentos en los que puede dividirse
longitudinalmente el órgano de Corti responde a
un rango más o menos amplio de frecuencias de
estimulación, aunque sólo una de ellas,
denominada frecuencia característica, produce
oscilaciones de máxima amplitud

Etapa 4: célula ciliada interna

• Transforma el movimiento mecánico de sus cilios en una señal eléctrica.

• La apertura de los canales iónicos promueve la entrada de potasio al
interior de la célula, dando como resultado que en el interior varíe el
potencial eléctrico del interior con respecto al medido en ausencia del
estímulo sonoro

• Una observación en esta etapa es que el exceso de estimulación acústica
destruye los cilios de las células internas. Probablemente, esa agresión
dificulte la entrada de potasio al interior de la célula.

Etapa 5: la sinapsis

• Una misma célula ciliada interna puede establecer sinapsis (etapa
5) con varias fibras del nervio auditivo.

• Ante un estímulo sonoro, la actividad de todas las fibras aumenta
por encima de la actividad espontánea. Sin embargo, aunque la
intensidad del sonido permanezca contante, el aumento producido
en el inicio del estímulo es considerablemente mayor que
transcurridos unos milisegundos. Esto implica que el inicio de los
sonidos se encuentra acentuado en la respuesta del nervio auditivo.

• Tal característica reviste especial alcance; entre otros efectos,
facilita la percepción de algunos sonidos consonánticos (como el de
la ‘t’ o la ‘k’), a pensar de su brevedad.

El conjunto

• El resultado de la cascada de los algoritmos de este oído
artificial es un sistema que reproduce de manera estocástica
los potenciales de acción producidos por el nervio auditivo
ante cualquier estímulo sonoro.

• Este modelo es genérico porque se podría reproducir la
actividad de una o varias fibras nerviosas, ya que serían
parámetros configurables por el usuario.

Arquitectura de reconocimiento de voz - bioinspirado

• En la etapa 1, “oído externo”, se plantea un algoritmo que exprese la
atenuación de algunas frecuencias, como resultado de interferencias
destructivas a la entrada del conducto auditivo entre el sonido directo
procedente de la fuente sonora y el que se refleja en las paredes de la
concha.

• En la etapa 2, la función del “oído medio” se simula con un sencillo filtro
lineal de paso de banda. El filtro reproduce la velocidad de oscilación del
estribo en función de la presión sonora instantánea ejercida en el
tímpano.


• En la etapa 3, “el órgano de Corti”, de nuestro oído artificial usaremos para
simular un banco de filtros que denominamos DRNL (Dual Resonance NonLinear),
siendo de suma importancia debido a que los filtros cocleares no son lineales. Con
un rango dinámico que soporte entre 0 a 120 decibelios.

• En la etapa 4, “la célula ciliada interna”, una forma de imitar la función de esta
célula sería mediante una sub-etapa de rectificación acompañada de un filtro
lineal de paso bajo, optando por un algoritmo más fisiológico, basado en el
circuito equivalente de la membrana de la célula diseñado por Shihab Shamma de
la Universidad de Maryland.

• Además se puede incluir una función que simule el daño por exceso de
estimulación acústica, siendo un parámetro, que permitiría investigar las
consecuencias del trauma acústico sobre el potencial eléctrico de la célula.


• En la etapa 5, “la sinapsis” su algoritmo supone que en el nervio auditivo
se genera un potencial de acción, siempre que la célula ciliada vierta el
contenido de una vesícula, por lo menos, de material neurotransmisor en
la hendidura sináptica (el espacio físico entre la célula ciliada y la
neurona). Admite también que la probabilidad de tal liberación sea mayor
cuanto mayor sean el potencial eléctrico en el interior de la célula ciliada y
el número de vesículas disponibles.

• El potencial intracelular depende de la intensidad del estímulo sonoro. Por
lo que se calcula el número de vesículas disponibles, a partir de la
velocidad de formación de nuevas vesículas en la célula, y su velocidad
de degradación del neurotransmisor liberado.

Estándares

• VoiceXML 3.0 es un estándar de la (W3C, Voice Extensible Markup
Language) diseñado para crear diálogos que cuentan con un sintetizador
de voz, audio digitalizado, reconocimiento de voz y registro de entrada
DTMF, grabación de entrada de voz, telefonía, y las conversaciones mixtas
iniciativa.

Aplicaciones de reconocimento de voz

• CMUsphinx

Vocabulary Sphinx4 WER
Digits 0-9 .549%
100 Word 1.192%
1,000 Word 2.88%
5,000 Word 6.97%
64,000 Word 18.756%

Aplicaciones de reconocimiento de voz

Conclusiones
• El reconocimiento de voz es una de las aplicaciones del
procesamiento digital de señales que permite interacción
entre seres humanos y computadoras.

• Las medidas de distancia euclidianas como mecanismo de
clasificación de las señales son más sencillas de implementar
en el sistema, sin embargo está demostrado que en la
actualidad los modelos HMM tienen una mayor efectividad en
el tema de reconocimiento de voz.

• El número de áreas de conocimiento sobre el tema, exige
trabajar en un grupo multi-disciplinario.

Proyectos Futuros
• Realizar una práctica basado en sphinx-4 para
el aprendizaje de reconocimiento de la voz en
tiempo real y su re-implementación de la
interface bio-inspirada, basada en la
recomendación del oído artificial.

¿Preguntas?
Reconocimiento de voz bioinspirado

Diego Alejandro Carrera Gallego
diegocarera2000@gmail.com

Profesor: Pedro Gómez-Vilda
pedro@pino.datsi.fi.upm.es

URLs
• http://www.youtube.com/watch?v=9c6W4CC
U9M4
• http://www.voxforge.org/home
• http://cmusphinx.sourceforge.net/sphinx4/

Renocimiento voz bioinspirado

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Renocimiento voz bioinspirado

Similar a Renocimiento voz bioinspirado (20)

Último

Último (20)

Renocimiento voz bioinspirado