Este documento describe los principios fundamentales de los reconocedores automáticos de habla. Explica cómo estos sistemas convierten una señal de audio a texto mediante la extracción de características acústicas y el uso de modelos estadísticos. También cubre temas como la variabilidad en el habla, las aplicaciones de los reconocedores y los desafíos restantes como el reconocimiento de habla espontánea.
Machine Learning y Tecnologías del Habla - Into TalkCorvalius
Introduction to the subject of Machine Learning Techniques Applied to Speech Technology Problems.
It briefly introduces Deep Learning algorithms for Speech Recognition.
Machine Learning y Tecnologías del Habla - Into TalkCorvalius
Introduction to the subject of Machine Learning Techniques Applied to Speech Technology Problems.
It briefly introduces Deep Learning algorithms for Speech Recognition.
QUEREMOS COMPARTIR ESTE ARTICULO TRADUCIDO POR EL BUSCADOR "MICROSOFT EDGE", AL ESPAÑOL OBVIAMENTE, QUE CREEMOS QUE LES SERVIRÁ DE MUCHO COMO NOS HA AYUDADO A NOSOTROS...
DE VERDAD ESPERAMOS QUE LES SEA UTIL. GRACIAS...
Curso teórico-práctico sobre Inteligencia Artificial para Videojuegos (IAV) basado en el modelo de propone Ian Millington en su libro, impartido en la Universidad Complutense de Madrid.
QUEREMOS COMPARTIR ESTE ARTICULO TRADUCIDO POR EL BUSCADOR "MICROSOFT EDGE", AL ESPAÑOL OBVIAMENTE, QUE CREEMOS QUE LES SERVIRÁ DE MUCHO COMO NOS HA AYUDADO A NOSOTROS...
DE VERDAD ESPERAMOS QUE LES SEA UTIL. GRACIAS...
Curso teórico-práctico sobre Inteligencia Artificial para Videojuegos (IAV) basado en el modelo de propone Ian Millington en su libro, impartido en la Universidad Complutense de Madrid.
2. 2
Contenido
¿Qué es un reconocedor automático de habla?
Forma y contenido del habla
Principios físicos del sonido / habla
Mecanismos del lenguaje humano
3. 3
¿Qué es un
reconocedor de habla?
Es un proceso que convierte una señal acústica
(sonido) capturada por micrófono -u otro
dispositivo- a un conjunto de palabras (texto)
Es la identificacion de las palabras de una elocución
(habla >> transcrición ortográfica)
Basado en técnicas de reconocimiento de patrones
Dichos patrones son aprendidos a partir de grandes
conjuntos de datos, usando técnicas estocásticas
4. Laboratorio de Tecnologías del Lenguaje 4
¿Para qué sirve un
reconocedor de habla?
Su principal objetivo es facilitar/mejorar la
comunicación entre el hombre y la
computadora, ya que la comunicación hablada
es un medio natural para intercambio de
información
Además, casi toda actividad humana es social y
el habla es parte esencial de esa actividad
5. Problemática
El habla es una compleja combinación de procesos a
diferentes niveles que es usada para transmitir
información
Variabilidad de la señal:
Variabilidad intra-locutor: estado emocional, ambiente, estado
de salud, etc.
Variabilidad inter-locutor: diferencias fisiológicas, acento,
dialectos, etc.
Canal acústico: Teléfono, micrófono, ruido ambiental, etc.
6. 6
Características
de un Reconocedor
• Tipo de habla: aislada, continua
• Dependiente o Independiente del locutor
• Número de palabras que reconocen
• Tipo de texto que reconocen
• Tipo de canal
7. Características
de un Reconocedor
Tipo de habla Hablantes Ambiente Vocabulario
Palabra aislada
Dependiente del
locutor
Libre de ruido Pequeño (<50)
Palabras
conectadas
Multilocutor Oficina Mediano (<500)
Habla continua
Independiente del
locutor
Teléfono Grande (<5000)
Habla espontánea Con ruido
Muy grande
(>5000)
8. 8
Dos grandes áreas:
Principios físicos del sonido en particular
del habla
Mecanismos del lenguaje a
diferentes niveles (los primeros)
9. 9
Principios físicos del sonido
Todos los sonidos, incluyendo el habla, provocan el
movimiento de las moléculas del aire
Algunos producen un movimiento del aire en patrones
regulares:
Al tocar una cuerda de una guitarra
Casos contrarios:
Cerrar una puerta
Gráficamente representamos un sonido como una curva
senoidal
En un eje la presión del aire en otro eje el tiempo
11. 11
Frecuencia y Amplitud
El número de vibraciones producidas por segundo es
llamada frecuencia
Una vibración de 100 veces por segundo tiene una
frecuencia de 100 ciclos por segundo o 100 Hertz (Hz)
Los sonidos agudos tienen una alta frecuencia los graves
baja
La intensidad de un sonido es la cantidad de aire desplazado
La intensidad se describe en términos de la amplitud de la
curva
La amplitud es medida en decibeles dB
12. 12
Frecuencia Dominante
Los ejemplos anteriores son tonos puros
La mayoría de los sonidos son compuestos
Una frecuencia dominante o fundamental (pitch)
Acompañada de un conjunto de frecuencias secundarias
(timbre)
En particular para el habla ciertas frecuencias secundarias
llamadas formantes sirven para distinguir entre los fonemas
20. 20
Fonética
Entrada
Señal acústica
Salida
Alfabeto fonético
Estudia:
Formación de las consonantes y las vocales en el tracto vocal
Clasificación de vocales, consonantes por su forma, posición de
la lengua y músculos bucales involucrados
21. 21
Características de la
Percepción Humana
El oído humano está especializado en el
reconocimiento de voz
Aunque es capaz de detectar frecuencias de
20 Hz a 20000 Hz
Es mucho más sensible en el rango de la voz: 1000 Hz a
6000 Hz
No procesa las frecuencias de forma individual, sino por
grupos de frecuencias
22. 22
Ruido, voz y expectativa
Un oído especializado en el lenguaje
Discriminar entre ruido y palabra
¡A pesar de que el ruido sea voz!
Capacidad para reconstruir un mensaje
Y si yo viera…
Que elocuente…
23. 23
Ruido, voz y expectativa
Un oído especializado en el lenguaje
Discriminar entre ruido y palabra
¡A pesar de que el ruido sea voz!
Capacidad para reconstruir un mensaje
Y si yo viera… te mojabas
Que elocuente… a todos los niños
24. 24
Reconocer y Entender
RAH
El primer paso para entender es reconocer
En los seres humanos estos dos procesos están
fuertemente entrelazados
RAH Entendimiento
25. 25
Reconocer
Adquisición de la señal hablada
Extracción de características
Clasificación y modelado de las señales
(dentro de esta parte se encuentran los
modelos acústicos, léxicos y los de lenguaje).
Métodos de búsqueda y reconocimiento
26. 26
Capturando la señal
La señal de voz es redundante y algunos datos
irrelevantes para el proceso de reconocimiento
Para reducir la cantidad de datos:
Usar filtros para eliminar frecuencias arriba de 3100 Hz y
debajo de 100 Hz
27. 27
Capturando la señal...
El muestreo:
Tomamos rebanadas muestras de la señal
(el cine es el mismo caso)
El número de muestras depende de las
frecuencias que deseamos incluir en nuestro
análisis:
La tasa de muestreo mínima es el doble de la más alta
frecuencia de interés
Para una frecuencia de 3100 Hz necesitamos 6200
muestras por segundo
28. 28
Procesamiento de Señal
Extracción de características
Llevar la señal digital a una representación matemática
simple con la cual trabajar
Transformada de fourier discreta (DFT) o FFT
LPC
MFCC
29. 29
Reconocimiento a
partir de Patrones
Comparación de patrones
Funcionamiento general de un comparador de patrones
30. 30
Reconocimiento a
partir de Patrones
Comparación de patrones
Vocabularios pequeños
Variabilidad fonética
Operación a nivel de palabra
Alineación temporal
31. 31
Reconocimiento a
partir de Patrones
Modelos estocásticos
Selección no-determinística entre un conjunto de
posibilidades
A diferencia del apareo de patrones no existe una
comparación entre los modelos almacenados y la entrada
Un análisis probabilístico es la base de la selección
(modelos ocultos de Markov)
Grandes cantidades de datos para entrenamiento
Operación a nivel de fonemas y semi-fonemas
32. 32
Reconocimiento a
partir de Patrones
Modelos estocásticos
Estructura típica de un modelos ocultos de Markov (HMM)
33. 33
Fenómenos del habla espontánea
La enunciación de una locución es un proceso
complejo donde la construcción de la oración y su
pronunciación son procesos interdependientes
“Speech is more than just an audible version of text”
(M. Hunt)
34. 34
Aplicación: Búsqueda en Audio
Objetivo:
Dado un término en forma textual deseamos localizar dicho
término en una colección de grabaciones (conversaciones,
discursos, etc.)
Organizar las colecciones de audio por temas tratados,
personajes entrevistados, etc.
35. 35
Primer enfoque
Indexado a partir de la transcripción:
Después de transformar el audio en texto, con ayuda de
un reconocedor gran vocabulario de habla continua,
generamos un índice de las palabras presentes en la
transcripción
Tratamos la transcripción con las técnicas actuales de
recuperación y extracción de información.
36. 36
Segundo enfoque
Indexado basado en fonemas:
La transformación del audio sólo llega hasta la etapa de
fonemas, ésta es la base a partir de la cual se hará la
búsqueda del texto deseado.
La búsqueda puede dar un mayor número de respuestas
falsas que el enfoque anterior, pero tiene un mejor
comportamiento con palabras fuera del diccionario
(nombre de personas, lugares, términos extranjeros,
etc.)
37. 37
A notar…
El reconocimiento fonético aun está lejos de un
reconocimiento perfecto
Usando información lingüística (modelos de
lenguaje) es posible incrementar su rendimiento
Un modelo de lenguaje captura (probabilísticamente) las
secuencias propias de un lenguaje
“El que madruga …
“A buen entendedor …
38. 38
A notar…
El reconocimiento fonético aun está lejos de un
reconocimiento perfecto
Usando información lingüística (modelos de
lenguaje) es posible incrementar su rendimiento
Un modelo de lenguaje captura (probabilísticamente) las
secuencias propias de un lenguaje
“El que madruga, Dios le ayuda”
“A buen entendedor, pocas palabras”
39. 39
A notar…
Los modelos acústicos recuperan pistas auditivas las
cuales son la base para la reconstrucción del mensaje.
Los modelos de lenguaje aportan información sobre
el lenguaje y el contexto para la reconstrucción del
lenguaje
Un modelo de lenguaje es más fácil de construir mientras más
acotado sea el dominio
40. 40
A notar…
El comportamiento de los reconocedores es mejor si
el contexto es limitado.
En noticieros de 5 a 20% de error
Otros contenidos de 30 a 60% de error
Se puede indexar una hora de audio en 5 minutos (no
se menciona la calidad)
Existen ya sistemas multilingües!
41. 41
Una solución posible
Llegar a la transcripción pero apoyarse también en su
información fonética
Proponer un método para recuperación de
información en documentos orales enriqueciendo
su representación a través de codificación
fonética.
42. 42
Tipos Errores
Correcta Unix Sun War in Iraq
Transcrita Unique Some Ware in Irak
Correcta Osama Bin Laden Our slugger encourage
Transcrita Usama Bin Ladin Our sluggard emigrate
Correcta I helped Apple recognize
speech
a country independent
Transcrita I helped Apple
wreck a nice beach
a country in the pendant
Substitución
Más complejos (Combinación Inserción+Substitución)
43. 43
Ej. Codificación Fonética
Correcta Unix Sun War in Iraq
Transcrita Unique Some Ware in Irak
Soundex U520 S500 W600 I500 I620
Correcta Osama Bin Laden Our slugger encourage
Transcrita Usama Bin Ladin Our sluggard emigrate
Soundex O250 B500 L350
U250 B500 L350
O600 S426 E526
Mantiene la primera letra de la palabra
Convierte las letras a dígitos
44. 44
Método
1. Filtrar las transcripciones eliminando palabras
vacías.
2. Codificar las transcripciones usando el algoritmo
Soundex.
3. Obtener las frecuencias de los códigos en la
colección
4. Eliminar códigos frecuentes.
5. Agregar la codificación resultante a la transcripción.
45. 45
Aplicación:
Personalizando la Interfaz
• Una interfaz dinámica que cambie su apariencia o que
proponga los elementos más comúnmente utilizados por
un usuario específico
La señal de voz abarca diferentes tipos de información:
Un mensaje.
Un lenguaje.
La emoción.
El género.
La edad.
La identidad del hablante.
46. 46
Reconocimiento del hablante
diferente a la Verificación de usuarios.
En la verificación del hablante lo que se desea es comprobar
cuando la persona que habla es, o no es, la persona que afirma
ser, en este caso, el sistema tiene información sobre la
identidad del usuario.
Reconocimiento del hablante busca hacer una caracterización
y reconocimiento de la identidad del hablante gracias a su
señal de voz.
50. 50
Conclusiones
Método sencillo basado en un procesamiento
directo de la señal acústica
Los resultados alentadores: 70% al usar SVM
100 hablantes
3.5 seg de señal de voz
51. 51
Trabajo futuro
Extender los experimentos incluyendo más
información descriptiva de la señal acústica
Deltas de los coeficientes
Componente de energía
Usar otras metodologías en el aprendizaje
Estudio de un Kernel no polinomial
Uso de ensambles
Extender el tamaño de las muestras de señal acústica
52. 52
Aplicación:
Personalizando la Interfaz
• Una interfaz dinámica que cambie su apariencia o que
proponga los elementos más comúnmente utilizados por
un usuario específico
La señal de voz abarca diferentes tipos de información:
Un mensaje.
Un lenguaje.
La emoción.
El género.
La edad.
La identidad del hablante.
53. 53
¿Cómo se ha abordado?
Primer enfoque: Basan la IAL en el empleo de características
lingüísticas propias de cada lenguaje. Realizan segmentación
de fonemas y utilizan modelos de lenguaje.
Sistemas basados en reconocimiento de fonemas
Segundo enfoque: Explotar directamente la señal acústica para
la IAL, obteniendo características tales como la prosodia,
ritmo, entonación, entre otras.
Sistemas no basados en reconocimiento de fonemas.
54. 54
Dificultades del primer enfoque
Necesidad de un estudio previo de cada lenguaje
Un módulo para la segmentación de la señal de voz en fonemas
Un proceso de etiquetado manual realizado por expertos a nivel fonético
Necesidad de la creación de modelos de lenguaje
Corpus grandes de texto y/o transcripciones ortográficas de grabaciones
Estadística de todos las posibles combinaciones de fonemas
No son de utilidad para lenguas que no cuentan con
convenciones claramente establecidas para su escritura
55. 55
Segundo enfoque
Los lingüistas parten de que existe otro tipo de
características las cuales no pueden segmentarse como
los fonemas, porque actúan simultáneamente sobre más
de un segmento.
Suprasegmentos: el acento, el tono (sucesión de ellos –
entonación-) y la duración.
El acento:
Español normalmente grave
Francés normalmente agudo
56. 56
Características
suprasegmentales
Tono: como recurso de diferenciación léxica, para
lenguas como el chino o el vietnamita.
Por ejemplo: /ma/ puede significar varias cosas:
con un tono estático alto significa madre
con tono dinámico ascendente significa cáñamo
con un tono dinámico ascendente-descendente significa caballo
con un tono descendente significa riña
Las lenguas de la familia congo-nigerianas, sino-
tibetanas y algunas de las lenguas indígenas de México
(otomí, mazahua, chichimeca entre otras)
57. 57
Características
suprasegmentales
Entonación: sucesión de tonos, como recurso de función
expresiva, para lenguas románicas
Por ejemplo:
¿Cómo estás?
¿cómo? ¡estás!
Ritmo: es la pauta de tensión formada por la
combinación de las sílabas tónicas y atonas, largas y
breves
Ritmos: stress timed, syllable timed, acentual y
silábico.
58. 58
El problema
Como extraer las características suprasegmentales del
habla, como la prosodia, el ritmo, la entonación entre otras.
•[Li 1994] Localizar automáticamente el núcleo-silábico (por
ejemplo las vocales). Generar vectores espectrales de regiones
cercanas al núcleo silábico, tanto para entrenamiento como
prueba.
•[Itahasi 1994 y 1995] Uso la frecuencia fundamental (pitch) ya
que su estimación es más robusta en ambientes ruidosos que los
parámetros espectrales de Li
•[Thyme-Gobbel y Hutchins 1996] Caracterizaron la prosodia a
través contornos del pitch y la amplitud entre una sílaba y otra
59. 59
Estado del arte
Cummins et al 1999: El trabajo recae en la suposición de
que las variaciones de amplitud en la frecuencia
fundamental son importantes para percibir el ritmo en el
habla.
Alemán Español Japonés Mandarín
Inglés 52 62 57 58
Alemán - 51 58 65
Español - - 66 47
Japonés - - - 60
60. 60
Estado del arte
Rouas et al 2003 y 2005: Propone un método para identificar los
lenguajes en bases a su entonación y ritmo: caracteriza el ritmo en
función de intervalos vocálicos y consonánticos.
Alemán Español Mandarín Vietnamita Japonés Coreano Tamil Farsi
Inglés 60 68 75 68 68 79 77 76
Alemán _ 59 62 66 66 71 70 72
Español _ _ 81 62 63 76 65 67
Mandarín _ _ _ 50 51 74 74 76
Vietnamita _ _ _ _ 69 56 71 67
Japonés _ _ _ _ _ 66 59 67
Coreano _ _ _ _ _ _ 62 75
Tamil _ _ _ _ _ _ _ 70
61. 61
Objetivo
Desarrollar un método para la identificación del
lenguaje hablado sin recurrir a la representación
fonética de la señal de voz, con un nuevo método de
caracterización de los elementos suprasegmentales del
habla.
Suposición: el ritmo puede ser una característica
fundamental para la identificación y éste se localiza en
las frecuencias bajas
63. 63
Nueva caracterización
Uso de la transformada Daubechies 4 coeficientes
Muestras de 30 y 50 seg.
Reducción de la información por medio de truncado de
aproximación con un umbral del 1%
64. 64
Nueva caracterización del ritmo
Señal de voz
Lenguaje 1
Inglés
Señal de voz
Lenguaje 2
Español
Señal de voz
Lenguaje 1
Inglés
Señal de voz
Lenguaje 9
Farsi
Aplicación
Transformada
wavelet
Aplicación
Transformada
wavelet
Truncado
por método de
aproximación
Truncado
por método de
aproximación
Aplicación
Transformada
wavelet
Aplicación
Transformada
wavelet
Truncado
por método de
aproximación
Truncado
por método de
aproximación
Reducción de
dimensionalidad:
•Eliminar los coeficientes
irrelevantes
•Ganancia de información
Construcción
del clasificador
para lenguajes
1 y 2
Reducción de
Dimensionalidad:
•Eliminar los coeficientes
irrelevantes
•Ganancia de información.
Clasificador
Binario
Lenguajes
1 y 9
67. 67
Nueva caracterización del ritmo
La nueva caracterización con wavelets obtiene mejores
resultados que los alcanzados por Rouas.
Nos permite enfocarnos a las bajas frecuencias
Buenos resultados con muestra de señal de voz más grandes.
Umbral de truncado se obtuvo al procesar todos los idiomas,
podría determinarse por pares de idiomas.
68. 68
Trabajo futuro
Extender el método para trabajar con clasificadores
multiclase. Con la finalidad de comparar nuestra técnica
con los métodos que utilizan información fonotáctica de
los lenguajes.
Mezclar diferentes extracciones de características de la
señal de voz tales como el ritmo de Rouas con los
coeficientes wavelet para generar características
suprasegmentales del habla híbridas.
Utilizar los modelos de mezclas gaussianas, con la idea
de probar los métodos propuestos en la tarea de
verificación del idioma (NIST)
69. 69
Lenguas indígenas mexicanas
Corpus utilizado: el archivo de lenguas indígenas de
Latinoamérica, http://www.ailla.org
Náhuatl
Zoque
Español
20 diferentes hablantes por cada lengua.
Los tamaños de muestras variaron.
El algoritmo de clasificación usado fue el de Naïve Bayes y
se utilizó la validación cruzada en 10 pliegues para su
evaluación.
71. 71
Un clasificador con los tres lenguajes.
Resultados multiclase
% Identificación de
los tres lenguajes
3 segundos 85
7 segundos 89
10 segundos 88
% Identificación de
los tres lenguajes
10 segundos 85
30 segundos 94
50 segundos 95
192 atributos de
MFCC
Transformada
wavelet
72. 72
Experimentos Lengua no materna
Grabaciones con la misma calidad
Inglés 6 personas
Francés 5 personas
Español 6 personas
Método utilizado wavelet Daubechies con 4 coeficientes y truncado de
aproximación
Clasificador Naïve Bayes
inglés-español español-francés inglés-francés
91.67% 81.82% 100%
a b a b a b
5 1 a=inglés 5 1 a=español 6 0 a=inglés
0 6 b=español 1 4 b=francés 0 5 b=francés