SlideShare una empresa de Scribd logo
1 de 72
Reconocimiento
Automático del Habla
Fonética/Fonología
Tecnologías del Lenguaje
2
Contenido
 ¿Qué es un reconocedor automático de habla?
 Forma y contenido del habla
 Principios físicos del sonido / habla
 Mecanismos del lenguaje humano
3
¿Qué es un
reconocedor de habla?
 Es un proceso que convierte una señal acústica
(sonido) capturada por micrófono -u otro
dispositivo- a un conjunto de palabras (texto)
 Es la identificacion de las palabras de una elocución
 (habla >> transcrición ortográfica)
 Basado en técnicas de reconocimiento de patrones
 Dichos patrones son aprendidos a partir de grandes
conjuntos de datos, usando técnicas estocásticas
Laboratorio de Tecnologías del Lenguaje 4
¿Para qué sirve un
reconocedor de habla?
 Su principal objetivo es facilitar/mejorar la
comunicación entre el hombre y la
computadora, ya que la comunicación hablada
es un medio natural para intercambio de
información
 Además, casi toda actividad humana es social y
el habla es parte esencial de esa actividad
Problemática
 El habla es una compleja combinación de procesos a
diferentes niveles que es usada para transmitir
información
 Variabilidad de la señal:
 Variabilidad intra-locutor: estado emocional, ambiente, estado
de salud, etc.
 Variabilidad inter-locutor: diferencias fisiológicas, acento,
dialectos, etc.
 Canal acústico: Teléfono, micrófono, ruido ambiental, etc.
6
Características
de un Reconocedor
• Tipo de habla: aislada, continua
• Dependiente o Independiente del locutor
• Número de palabras que reconocen
• Tipo de texto que reconocen
• Tipo de canal
Características
de un Reconocedor
Tipo de habla Hablantes Ambiente Vocabulario
Palabra aislada
Dependiente del
locutor
Libre de ruido Pequeño (<50)
Palabras
conectadas
Multilocutor Oficina Mediano (<500)
Habla continua
Independiente del
locutor
Teléfono Grande (<5000)
Habla espontánea Con ruido
Muy grande
(>5000)
8
Dos grandes áreas:
 Principios físicos del sonido en particular
del habla
 Mecanismos del lenguaje a
diferentes niveles (los primeros)
9
Principios físicos del sonido
 Todos los sonidos, incluyendo el habla, provocan el
movimiento de las moléculas del aire
 Algunos producen un movimiento del aire en patrones
regulares:
 Al tocar una cuerda de una guitarra
 Casos contrarios:
 Cerrar una puerta
 Gráficamente representamos un sonido como una curva
senoidal
 En un eje la presión del aire en otro eje el tiempo
10
11
Frecuencia y Amplitud
 El número de vibraciones producidas por segundo es
llamada frecuencia
 Una vibración de 100 veces por segundo tiene una
frecuencia de 100 ciclos por segundo o 100 Hertz (Hz)
 Los sonidos agudos tienen una alta frecuencia los graves
baja
 La intensidad de un sonido es la cantidad de aire desplazado
 La intensidad se describe en términos de la amplitud de la
curva
 La amplitud es medida en decibeles dB
12
Frecuencia Dominante
 Los ejemplos anteriores son tonos puros
 La mayoría de los sonidos son compuestos
 Una frecuencia dominante o fundamental (pitch)
 Acompañada de un conjunto de frecuencias secundarias
(timbre)
 En particular para el habla ciertas frecuencias secundarias
llamadas formantes sirven para distinguir entre los fonemas
13
14
Visualización del sonido
Tiempo
Amplitud
Tiempo
Frecuencia
Espectrograma
Transcripción ortográfica
•Comunícame con Javier
Transcripción ortográfica
• risas, ruidos, respiraciones, silencios, tartamudeos, etc.
Transcripción fonética
Transcripción fonética
19
Transcripción fonética
20
Fonética
 Entrada
 Señal acústica
 Salida
 Alfabeto fonético
 Estudia:
 Formación de las consonantes y las vocales en el tracto vocal
 Clasificación de vocales, consonantes por su forma, posición de
la lengua y músculos bucales involucrados
21
Características de la
Percepción Humana
 El oído humano está especializado en el
reconocimiento de voz
 Aunque es capaz de detectar frecuencias de
20 Hz a 20000 Hz
 Es mucho más sensible en el rango de la voz: 1000 Hz a
6000 Hz
 No procesa las frecuencias de forma individual, sino por
grupos de frecuencias
22
Ruido, voz y expectativa
 Un oído especializado en el lenguaje
 Discriminar entre ruido y palabra
 ¡A pesar de que el ruido sea voz!
 Capacidad para reconstruir un mensaje
 Y si yo viera…
 Que elocuente…
23
Ruido, voz y expectativa
 Un oído especializado en el lenguaje
 Discriminar entre ruido y palabra
 ¡A pesar de que el ruido sea voz!
 Capacidad para reconstruir un mensaje
 Y si yo viera… te mojabas
 Que elocuente… a todos los niños
24
Reconocer y Entender
RAH
 El primer paso para entender es reconocer
 En los seres humanos estos dos procesos están
fuertemente entrelazados
RAH Entendimiento
25
Reconocer
 Adquisición de la señal hablada
 Extracción de características
 Clasificación y modelado de las señales
(dentro de esta parte se encuentran los
modelos acústicos, léxicos y los de lenguaje).
 Métodos de búsqueda y reconocimiento
26
Capturando la señal
 La señal de voz es redundante y algunos datos
irrelevantes para el proceso de reconocimiento
 Para reducir la cantidad de datos:
 Usar filtros para eliminar frecuencias arriba de 3100 Hz y
debajo de 100 Hz
27
Capturando la señal...
 El muestreo:
 Tomamos rebanadas muestras de la señal
(el cine es el mismo caso)
 El número de muestras depende de las
frecuencias que deseamos incluir en nuestro
análisis:
 La tasa de muestreo mínima es el doble de la más alta
frecuencia de interés
 Para una frecuencia de 3100 Hz necesitamos 6200
muestras por segundo
28
Procesamiento de Señal
 Extracción de características
 Llevar la señal digital a una representación matemática
simple con la cual trabajar
 Transformada de fourier discreta (DFT) o FFT
 LPC
 MFCC
29
Reconocimiento a
partir de Patrones
 Comparación de patrones
Funcionamiento general de un comparador de patrones
30
Reconocimiento a
partir de Patrones
 Comparación de patrones
 Vocabularios pequeños
 Variabilidad fonética
 Operación a nivel de palabra
 Alineación temporal
31
Reconocimiento a
partir de Patrones
 Modelos estocásticos
 Selección no-determinística entre un conjunto de
posibilidades
 A diferencia del apareo de patrones no existe una
comparación entre los modelos almacenados y la entrada
 Un análisis probabilístico es la base de la selección
(modelos ocultos de Markov)
 Grandes cantidades de datos para entrenamiento
 Operación a nivel de fonemas y semi-fonemas
32
Reconocimiento a
partir de Patrones
 Modelos estocásticos
 Estructura típica de un modelos ocultos de Markov (HMM)
33
Fenómenos del habla espontánea
 La enunciación de una locución es un proceso
complejo donde la construcción de la oración y su
pronunciación son procesos interdependientes
“Speech is more than just an audible version of text”
(M. Hunt)
34
Aplicación: Búsqueda en Audio
 Objetivo:
 Dado un término en forma textual deseamos localizar dicho
término en una colección de grabaciones (conversaciones,
discursos, etc.)
 Organizar las colecciones de audio por temas tratados,
personajes entrevistados, etc.
35
Primer enfoque
 Indexado a partir de la transcripción:
 Después de transformar el audio en texto, con ayuda de
un reconocedor gran vocabulario de habla continua,
generamos un índice de las palabras presentes en la
transcripción
 Tratamos la transcripción con las técnicas actuales de
recuperación y extracción de información.
36
Segundo enfoque
 Indexado basado en fonemas:
 La transformación del audio sólo llega hasta la etapa de
fonemas, ésta es la base a partir de la cual se hará la
búsqueda del texto deseado.
 La búsqueda puede dar un mayor número de respuestas
falsas que el enfoque anterior, pero tiene un mejor
comportamiento con palabras fuera del diccionario
(nombre de personas, lugares, términos extranjeros,
etc.)
37
A notar…
 El reconocimiento fonético aun está lejos de un
reconocimiento perfecto
 Usando información lingüística (modelos de
lenguaje) es posible incrementar su rendimiento
 Un modelo de lenguaje captura (probabilísticamente) las
secuencias propias de un lenguaje
 “El que madruga …
 “A buen entendedor …
38
A notar…
 El reconocimiento fonético aun está lejos de un
reconocimiento perfecto
 Usando información lingüística (modelos de
lenguaje) es posible incrementar su rendimiento
 Un modelo de lenguaje captura (probabilísticamente) las
secuencias propias de un lenguaje
 “El que madruga, Dios le ayuda”
 “A buen entendedor, pocas palabras”
39
A notar…
 Los modelos acústicos recuperan pistas auditivas las
cuales son la base para la reconstrucción del mensaje.
 Los modelos de lenguaje aportan información sobre
el lenguaje y el contexto para la reconstrucción del
lenguaje
 Un modelo de lenguaje es más fácil de construir mientras más
acotado sea el dominio
40
A notar…
 El comportamiento de los reconocedores es mejor si
el contexto es limitado.
 En noticieros de 5 a 20% de error
 Otros contenidos de 30 a 60% de error
 Se puede indexar una hora de audio en 5 minutos (no
se menciona la calidad)
 Existen ya sistemas multilingües!
41
Una solución posible
 Llegar a la transcripción pero apoyarse también en su
información fonética
Proponer un método para recuperación de
información en documentos orales enriqueciendo
su representación a través de codificación
fonética.
42
Tipos Errores
Correcta Unix Sun War in Iraq
Transcrita Unique Some Ware in Irak
Correcta Osama Bin Laden Our slugger encourage
Transcrita Usama Bin Ladin Our sluggard emigrate
Correcta I helped Apple recognize
speech
a country independent
Transcrita I helped Apple
wreck a nice beach
a country in the pendant
Substitución
Más complejos (Combinación Inserción+Substitución)
43
Ej. Codificación Fonética
Correcta Unix Sun War in Iraq
Transcrita Unique Some Ware in Irak
Soundex U520 S500 W600 I500 I620
Correcta Osama Bin Laden Our slugger encourage
Transcrita Usama Bin Ladin Our sluggard emigrate
Soundex O250 B500 L350
U250 B500 L350
O600 S426 E526
 Mantiene la primera letra de la palabra
 Convierte las letras a dígitos
44
Método
1. Filtrar las transcripciones eliminando palabras
vacías.
2. Codificar las transcripciones usando el algoritmo
Soundex.
3. Obtener las frecuencias de los códigos en la
colección
4. Eliminar códigos frecuentes.
5. Agregar la codificación resultante a la transcripción.
45
Aplicación:
Personalizando la Interfaz
• Una interfaz dinámica que cambie su apariencia o que
proponga los elementos más comúnmente utilizados por
un usuario específico
 La señal de voz abarca diferentes tipos de información:
 Un mensaje.
 Un lenguaje.
 La emoción.
 El género.
 La edad.
 La identidad del hablante.
46
Reconocimiento del hablante
diferente a la Verificación de usuarios.
 En la verificación del hablante lo que se desea es comprobar
cuando la persona que habla es, o no es, la persona que afirma
ser, en este caso, el sistema tiene información sobre la
identidad del usuario.
 Reconocimiento del hablante busca hacer una caracterización
y reconocimiento de la identidad del hablante gracias a su
señal de voz.
47
window
window
X1
X2
X13
…
Cálculo de
coeficientes
MFCC ó LPC
Caracterización
de la Señal de
Voz
48
Sin solapamiento
Algoritmo 100ms 120ms 500ms
MFCC
knn (50)
29.35% 30.92% 32.70%
knn (60)
29.19% 30.88% 31.58%
LWR
56.42% 57.83% 47.11%
SVM
62.65% 63.57% 42.49 %
ANN
56.02% 55.78% 46.14%
49
Con solapamiento
Tamaño del segmento
Solapamiento 80ms 100ms 120ms
MFCC
&
SVM
10ms
64.13% 63.05% 63.05%
20ms
68.80% 67.64% 64.41%
30ms
65.54% 70.05% 69.20%
50
Conclusiones
 Método sencillo basado en un procesamiento
directo de la señal acústica
 Los resultados alentadores: 70% al usar SVM
 100 hablantes
 3.5 seg de señal de voz
51
Trabajo futuro
 Extender los experimentos incluyendo más
información descriptiva de la señal acústica
 Deltas de los coeficientes
 Componente de energía
 Usar otras metodologías en el aprendizaje
 Estudio de un Kernel no polinomial
 Uso de ensambles
 Extender el tamaño de las muestras de señal acústica
52
Aplicación:
Personalizando la Interfaz
• Una interfaz dinámica que cambie su apariencia o que
proponga los elementos más comúnmente utilizados por
un usuario específico
 La señal de voz abarca diferentes tipos de información:
 Un mensaje.
 Un lenguaje.
 La emoción.
 El género.
 La edad.
 La identidad del hablante.
53
¿Cómo se ha abordado?
 Primer enfoque: Basan la IAL en el empleo de características
lingüísticas propias de cada lenguaje. Realizan segmentación
de fonemas y utilizan modelos de lenguaje.
 Sistemas basados en reconocimiento de fonemas
 Segundo enfoque: Explotar directamente la señal acústica para
la IAL, obteniendo características tales como la prosodia,
ritmo, entonación, entre otras.
 Sistemas no basados en reconocimiento de fonemas.
54
Dificultades del primer enfoque
 Necesidad de un estudio previo de cada lenguaje
 Un módulo para la segmentación de la señal de voz en fonemas
 Un proceso de etiquetado manual realizado por expertos a nivel fonético
 Necesidad de la creación de modelos de lenguaje
 Corpus grandes de texto y/o transcripciones ortográficas de grabaciones
 Estadística de todos las posibles combinaciones de fonemas
 No son de utilidad para lenguas que no cuentan con
convenciones claramente establecidas para su escritura
55
Segundo enfoque
 Los lingüistas parten de que existe otro tipo de
características las cuales no pueden segmentarse como
los fonemas, porque actúan simultáneamente sobre más
de un segmento.
 Suprasegmentos: el acento, el tono (sucesión de ellos –
entonación-) y la duración.
 El acento:
 Español normalmente grave
 Francés normalmente agudo
56
Características
suprasegmentales
 Tono: como recurso de diferenciación léxica, para
lenguas como el chino o el vietnamita.
 Por ejemplo: /ma/ puede significar varias cosas:
 con un tono estático alto significa madre
 con tono dinámico ascendente significa cáñamo
 con un tono dinámico ascendente-descendente significa caballo
 con un tono descendente significa riña
 Las lenguas de la familia congo-nigerianas, sino-
tibetanas y algunas de las lenguas indígenas de México
(otomí, mazahua, chichimeca entre otras)
57
Características
suprasegmentales
 Entonación: sucesión de tonos, como recurso de función
expresiva, para lenguas románicas
 Por ejemplo:
 ¿Cómo estás?
 ¿cómo? ¡estás!
 Ritmo: es la pauta de tensión formada por la
combinación de las sílabas tónicas y atonas, largas y
breves
 Ritmos: stress timed, syllable timed, acentual y
silábico.
58
El problema
 Como extraer las características suprasegmentales del
habla, como la prosodia, el ritmo, la entonación entre otras.
•[Li 1994] Localizar automáticamente el núcleo-silábico (por
ejemplo las vocales). Generar vectores espectrales de regiones
cercanas al núcleo silábico, tanto para entrenamiento como
prueba.
•[Itahasi 1994 y 1995] Uso la frecuencia fundamental (pitch) ya
que su estimación es más robusta en ambientes ruidosos que los
parámetros espectrales de Li
•[Thyme-Gobbel y Hutchins 1996] Caracterizaron la prosodia a
través contornos del pitch y la amplitud entre una sílaba y otra
59
Estado del arte
 Cummins et al 1999: El trabajo recae en la suposición de
que las variaciones de amplitud en la frecuencia
fundamental son importantes para percibir el ritmo en el
habla.
Alemán Español Japonés Mandarín
Inglés 52 62 57 58
Alemán - 51 58 65
Español - - 66 47
Japonés - - - 60
60
Estado del arte
 Rouas et al 2003 y 2005: Propone un método para identificar los
lenguajes en bases a su entonación y ritmo: caracteriza el ritmo en
función de intervalos vocálicos y consonánticos.
Alemán Español Mandarín Vietnamita Japonés Coreano Tamil Farsi
Inglés 60 68 75 68 68 79 77 76
Alemán _ 59 62 66 66 71 70 72
Español _ _ 81 62 63 76 65 67
Mandarín _ _ _ 50 51 74 74 76
Vietnamita _ _ _ _ 69 56 71 67
Japonés _ _ _ _ _ 66 59 67
Coreano _ _ _ _ _ _ 62 75
Tamil _ _ _ _ _ _ _ 70
61
Objetivo
 Desarrollar un método para la identificación del
lenguaje hablado sin recurrir a la representación
fonética de la señal de voz, con un nuevo método de
caracterización de los elementos suprasegmentales del
habla.
 Suposición: el ritmo puede ser una característica
fundamental para la identificación y éste se localiza en
las frecuencias bajas
62
Nueva caracterización del ritmo
 Procesamiento basado en Wavelets:
Hablante japonés Hablante español
63
Nueva caracterización
 Uso de la transformada Daubechies 4 coeficientes
 Muestras de 30 y 50 seg.
 Reducción de la información por medio de truncado de
aproximación con un umbral del 1%
64
Nueva caracterización del ritmo
Señal de voz
Lenguaje 1
Inglés
Señal de voz
Lenguaje 2
Español
Señal de voz
Lenguaje 1
Inglés
Señal de voz
Lenguaje 9
Farsi
Aplicación
Transformada
wavelet
Aplicación
Transformada
wavelet
Truncado
por método de
aproximación
Truncado
por método de
aproximación
Aplicación
Transformada
wavelet
Aplicación
Transformada
wavelet
Truncado
por método de
aproximación
Truncado
por método de
aproximación
Reducción de
dimensionalidad:
•Eliminar los coeficientes
irrelevantes
•Ganancia de información
Construcción
del clasificador
para lenguajes
1 y 2
Reducción de
Dimensionalidad:
•Eliminar los coeficientes
irrelevantes
•Ganancia de información.
Clasificador
Binario
Lenguajes
1 y 9
65
Nueva caracterización del ritmo
 Resultados entre paréntesis Rouas:
Alemán Español Mandarín Vietnamita Japonés Coreano Tamil Farsi
Inglés 97 (59.5) 97 (67.7) 93 (75.0) 94 (67.7) 96 (67.6) 95 (79.4) 99 (77.4) 96 (76.3)
Alemán - 93 (59.4) 94 (62.2) 93 (65.7) 98 (65.8) 98 (71.4) 94 (69.7) 91 (71.8)
Español - - 91 (80.6) 86 (62.1) 92 (62.5) 98 (75.9) 91 (65.4) 94 (66.7)
Mandarín - - - 95 (50.0) 95 (50.6) 93 (73.5) 89 (74.2) 94 (76.3)
Vietnamita - - - - 93 (68.6) 96 (56.2) 95 (71.4) 95 (66.7)
Japonés - - - - - 93 (65.7) 89 (59.4) 94 (66.7)
Coreano - - - - - - 95 (62.1) 91 (75.0)
Tamil - - - - - - - 90 (69.7)
66
Resultados promedio
50
55
60
65
70
75
80
85
90
95
100
Inglés Alemán Español Japonés M andarín Vietnamita Coreano Tamil Farsi
Rouas wavelet 10 seg wavelet 50 seg
67
Nueva caracterización del ritmo
 La nueva caracterización con wavelets obtiene mejores
resultados que los alcanzados por Rouas.
 Nos permite enfocarnos a las bajas frecuencias
 Buenos resultados con muestra de señal de voz más grandes.
 Umbral de truncado se obtuvo al procesar todos los idiomas,
podría determinarse por pares de idiomas.
68
Trabajo futuro
 Extender el método para trabajar con clasificadores
multiclase. Con la finalidad de comparar nuestra técnica
con los métodos que utilizan información fonotáctica de
los lenguajes.
 Mezclar diferentes extracciones de características de la
señal de voz tales como el ritmo de Rouas con los
coeficientes wavelet para generar características
suprasegmentales del habla híbridas.
 Utilizar los modelos de mezclas gaussianas, con la idea
de probar los métodos propuestos en la tarea de
verificación del idioma (NIST)
69
Lenguas indígenas mexicanas
 Corpus utilizado: el archivo de lenguas indígenas de
Latinoamérica, http://www.ailla.org
Náhuatl
Zoque
Español
 20 diferentes hablantes por cada lengua.
 Los tamaños de muestras variaron.
 El algoritmo de clasificación usado fue el de Naïve Bayes y
se utilizó la validación cruzada en 10 pliegues para su
evaluación.
70
Resultados utilizando MFCC:
3 segundos 7 segundos 10 segundos
Náhuatl Español Náhuatl Español Náhuatl Español
Zoque 85 95 94 93 87 93
Náhuatl - 100 - 97 - 94
71
 Un clasificador con los tres lenguajes.
Resultados multiclase
% Identificación de
los tres lenguajes
3 segundos 85
7 segundos 89
10 segundos 88
% Identificación de
los tres lenguajes
10 segundos 85
30 segundos 94
50 segundos 95
192 atributos de
MFCC
Transformada
wavelet
72
Experimentos Lengua no materna
 Grabaciones con la misma calidad
 Inglés 6 personas
 Francés 5 personas
 Español 6 personas
 Método utilizado wavelet Daubechies con 4 coeficientes y truncado de
aproximación
 Clasificador Naïve Bayes
 inglés-español español-francés inglés-francés
91.67% 81.82% 100%
a b a b a b
5 1 a=inglés 5 1 a=español 6 0 a=inglés
0 6 b=español 1 4 b=francés 0 5 b=francés

Más contenido relacionado

Similar a Fonetica fonologia

Concepto de comunicación, factores que inciden en la comunicación
Concepto de comunicación, factores que inciden en la comunicaciónConcepto de comunicación, factores que inciden en la comunicación
Concepto de comunicación, factores que inciden en la comunicaciónlilianalejaflor
 
Producción de voz - Wikipedia, la enciclopedia libre.pdf
Producción de voz - Wikipedia, la enciclopedia libre.pdfProducción de voz - Wikipedia, la enciclopedia libre.pdf
Producción de voz - Wikipedia, la enciclopedia libre.pdfFRANZ DANIEL FERNÁNDEZ VACA..
 
practicas sociales del lenguaje
practicas sociales del lenguajepracticas sociales del lenguaje
practicas sociales del lenguajeannmore05
 
Sesión 1 lectura previa la voz humana conceptos preliminares
Sesión 1 lectura previa la voz humana conceptos preliminaresSesión 1 lectura previa la voz humana conceptos preliminares
Sesión 1 lectura previa la voz humana conceptos preliminaresDora Cecilia Taborda Muñoz
 
Proceso de la comunicación oral y escrita.(zully)
Proceso  de  la comunicación  oral y escrita.(zully)Proceso  de  la comunicación  oral y escrita.(zully)
Proceso de la comunicación oral y escrita.(zully)vititovypavichenco
 
Comunicación en lenguaje natural
Comunicación en lenguaje naturalComunicación en lenguaje natural
Comunicación en lenguaje naturalFederico Peinado
 
Unidad2 3 principios-acustica-audiodigital-ups
Unidad2 3 principios-acustica-audiodigital-upsUnidad2 3 principios-acustica-audiodigital-ups
Unidad2 3 principios-acustica-audiodigital-upsOrlando Barcia
 
La comunicación lista para subir a blog
La comunicación lista para subir a blogLa comunicación lista para subir a blog
La comunicación lista para subir a blogsilvana legña
 
Concepto e importanica de la comunicación oral.(zully)
Concepto  e  importanica  de  la comunicación  oral.(zully)Concepto  e  importanica  de  la comunicación  oral.(zully)
Concepto e importanica de la comunicación oral.(zully)Joandra Lara Roa
 

Similar a Fonetica fonologia (20)

La I. A. y el reconocimiento de voz
La I. A. y el reconocimiento de vozLa I. A. y el reconocimiento de voz
La I. A. y el reconocimiento de voz
 
Sonido
SonidoSonido
Sonido
 
Presentación
PresentaciónPresentación
Presentación
 
Sonido2010
Sonido2010Sonido2010
Sonido2010
 
Concepto de comunicación, factores que inciden en la comunicación
Concepto de comunicación, factores que inciden en la comunicaciónConcepto de comunicación, factores que inciden en la comunicación
Concepto de comunicación, factores que inciden en la comunicación
 
Neurolinguist.
Neurolinguist.Neurolinguist.
Neurolinguist.
 
Fonacion
FonacionFonacion
Fonacion
 
L acomunicacion
 L acomunicacion L acomunicacion
L acomunicacion
 
Producción de voz - Wikipedia, la enciclopedia libre.pdf
Producción de voz - Wikipedia, la enciclopedia libre.pdfProducción de voz - Wikipedia, la enciclopedia libre.pdf
Producción de voz - Wikipedia, la enciclopedia libre.pdf
 
practicas sociales del lenguaje
practicas sociales del lenguajepracticas sociales del lenguaje
practicas sociales del lenguaje
 
fonatori.pdf
fonatori.pdffonatori.pdf
fonatori.pdf
 
La voz humana
La voz humanaLa voz humana
La voz humana
 
Sesión 1 lectura previa la voz humana conceptos preliminares
Sesión 1 lectura previa la voz humana conceptos preliminaresSesión 1 lectura previa la voz humana conceptos preliminares
Sesión 1 lectura previa la voz humana conceptos preliminares
 
Proceso de la comunicación oral y escrita.(zully)
Proceso  de  la comunicación  oral y escrita.(zully)Proceso  de  la comunicación  oral y escrita.(zully)
Proceso de la comunicación oral y escrita.(zully)
 
Vocaloid
VocaloidVocaloid
Vocaloid
 
Pln
PlnPln
Pln
 
Comunicación en lenguaje natural
Comunicación en lenguaje naturalComunicación en lenguaje natural
Comunicación en lenguaje natural
 
Unidad2 3 principios-acustica-audiodigital-ups
Unidad2 3 principios-acustica-audiodigital-upsUnidad2 3 principios-acustica-audiodigital-ups
Unidad2 3 principios-acustica-audiodigital-ups
 
La comunicación lista para subir a blog
La comunicación lista para subir a blogLa comunicación lista para subir a blog
La comunicación lista para subir a blog
 
Concepto e importanica de la comunicación oral.(zully)
Concepto  e  importanica  de  la comunicación  oral.(zully)Concepto  e  importanica  de  la comunicación  oral.(zully)
Concepto e importanica de la comunicación oral.(zully)
 

Fonetica fonologia

  • 2. 2 Contenido  ¿Qué es un reconocedor automático de habla?  Forma y contenido del habla  Principios físicos del sonido / habla  Mecanismos del lenguaje humano
  • 3. 3 ¿Qué es un reconocedor de habla?  Es un proceso que convierte una señal acústica (sonido) capturada por micrófono -u otro dispositivo- a un conjunto de palabras (texto)  Es la identificacion de las palabras de una elocución  (habla >> transcrición ortográfica)  Basado en técnicas de reconocimiento de patrones  Dichos patrones son aprendidos a partir de grandes conjuntos de datos, usando técnicas estocásticas
  • 4. Laboratorio de Tecnologías del Lenguaje 4 ¿Para qué sirve un reconocedor de habla?  Su principal objetivo es facilitar/mejorar la comunicación entre el hombre y la computadora, ya que la comunicación hablada es un medio natural para intercambio de información  Además, casi toda actividad humana es social y el habla es parte esencial de esa actividad
  • 5. Problemática  El habla es una compleja combinación de procesos a diferentes niveles que es usada para transmitir información  Variabilidad de la señal:  Variabilidad intra-locutor: estado emocional, ambiente, estado de salud, etc.  Variabilidad inter-locutor: diferencias fisiológicas, acento, dialectos, etc.  Canal acústico: Teléfono, micrófono, ruido ambiental, etc.
  • 6. 6 Características de un Reconocedor • Tipo de habla: aislada, continua • Dependiente o Independiente del locutor • Número de palabras que reconocen • Tipo de texto que reconocen • Tipo de canal
  • 7. Características de un Reconocedor Tipo de habla Hablantes Ambiente Vocabulario Palabra aislada Dependiente del locutor Libre de ruido Pequeño (<50) Palabras conectadas Multilocutor Oficina Mediano (<500) Habla continua Independiente del locutor Teléfono Grande (<5000) Habla espontánea Con ruido Muy grande (>5000)
  • 8. 8 Dos grandes áreas:  Principios físicos del sonido en particular del habla  Mecanismos del lenguaje a diferentes niveles (los primeros)
  • 9. 9 Principios físicos del sonido  Todos los sonidos, incluyendo el habla, provocan el movimiento de las moléculas del aire  Algunos producen un movimiento del aire en patrones regulares:  Al tocar una cuerda de una guitarra  Casos contrarios:  Cerrar una puerta  Gráficamente representamos un sonido como una curva senoidal  En un eje la presión del aire en otro eje el tiempo
  • 10. 10
  • 11. 11 Frecuencia y Amplitud  El número de vibraciones producidas por segundo es llamada frecuencia  Una vibración de 100 veces por segundo tiene una frecuencia de 100 ciclos por segundo o 100 Hertz (Hz)  Los sonidos agudos tienen una alta frecuencia los graves baja  La intensidad de un sonido es la cantidad de aire desplazado  La intensidad se describe en términos de la amplitud de la curva  La amplitud es medida en decibeles dB
  • 12. 12 Frecuencia Dominante  Los ejemplos anteriores son tonos puros  La mayoría de los sonidos son compuestos  Una frecuencia dominante o fundamental (pitch)  Acompañada de un conjunto de frecuencias secundarias (timbre)  En particular para el habla ciertas frecuencias secundarias llamadas formantes sirven para distinguir entre los fonemas
  • 13. 13
  • 16. Transcripción ortográfica • risas, ruidos, respiraciones, silencios, tartamudeos, etc.
  • 20. 20 Fonética  Entrada  Señal acústica  Salida  Alfabeto fonético  Estudia:  Formación de las consonantes y las vocales en el tracto vocal  Clasificación de vocales, consonantes por su forma, posición de la lengua y músculos bucales involucrados
  • 21. 21 Características de la Percepción Humana  El oído humano está especializado en el reconocimiento de voz  Aunque es capaz de detectar frecuencias de 20 Hz a 20000 Hz  Es mucho más sensible en el rango de la voz: 1000 Hz a 6000 Hz  No procesa las frecuencias de forma individual, sino por grupos de frecuencias
  • 22. 22 Ruido, voz y expectativa  Un oído especializado en el lenguaje  Discriminar entre ruido y palabra  ¡A pesar de que el ruido sea voz!  Capacidad para reconstruir un mensaje  Y si yo viera…  Que elocuente…
  • 23. 23 Ruido, voz y expectativa  Un oído especializado en el lenguaje  Discriminar entre ruido y palabra  ¡A pesar de que el ruido sea voz!  Capacidad para reconstruir un mensaje  Y si yo viera… te mojabas  Que elocuente… a todos los niños
  • 24. 24 Reconocer y Entender RAH  El primer paso para entender es reconocer  En los seres humanos estos dos procesos están fuertemente entrelazados RAH Entendimiento
  • 25. 25 Reconocer  Adquisición de la señal hablada  Extracción de características  Clasificación y modelado de las señales (dentro de esta parte se encuentran los modelos acústicos, léxicos y los de lenguaje).  Métodos de búsqueda y reconocimiento
  • 26. 26 Capturando la señal  La señal de voz es redundante y algunos datos irrelevantes para el proceso de reconocimiento  Para reducir la cantidad de datos:  Usar filtros para eliminar frecuencias arriba de 3100 Hz y debajo de 100 Hz
  • 27. 27 Capturando la señal...  El muestreo:  Tomamos rebanadas muestras de la señal (el cine es el mismo caso)  El número de muestras depende de las frecuencias que deseamos incluir en nuestro análisis:  La tasa de muestreo mínima es el doble de la más alta frecuencia de interés  Para una frecuencia de 3100 Hz necesitamos 6200 muestras por segundo
  • 28. 28 Procesamiento de Señal  Extracción de características  Llevar la señal digital a una representación matemática simple con la cual trabajar  Transformada de fourier discreta (DFT) o FFT  LPC  MFCC
  • 29. 29 Reconocimiento a partir de Patrones  Comparación de patrones Funcionamiento general de un comparador de patrones
  • 30. 30 Reconocimiento a partir de Patrones  Comparación de patrones  Vocabularios pequeños  Variabilidad fonética  Operación a nivel de palabra  Alineación temporal
  • 31. 31 Reconocimiento a partir de Patrones  Modelos estocásticos  Selección no-determinística entre un conjunto de posibilidades  A diferencia del apareo de patrones no existe una comparación entre los modelos almacenados y la entrada  Un análisis probabilístico es la base de la selección (modelos ocultos de Markov)  Grandes cantidades de datos para entrenamiento  Operación a nivel de fonemas y semi-fonemas
  • 32. 32 Reconocimiento a partir de Patrones  Modelos estocásticos  Estructura típica de un modelos ocultos de Markov (HMM)
  • 33. 33 Fenómenos del habla espontánea  La enunciación de una locución es un proceso complejo donde la construcción de la oración y su pronunciación son procesos interdependientes “Speech is more than just an audible version of text” (M. Hunt)
  • 34. 34 Aplicación: Búsqueda en Audio  Objetivo:  Dado un término en forma textual deseamos localizar dicho término en una colección de grabaciones (conversaciones, discursos, etc.)  Organizar las colecciones de audio por temas tratados, personajes entrevistados, etc.
  • 35. 35 Primer enfoque  Indexado a partir de la transcripción:  Después de transformar el audio en texto, con ayuda de un reconocedor gran vocabulario de habla continua, generamos un índice de las palabras presentes en la transcripción  Tratamos la transcripción con las técnicas actuales de recuperación y extracción de información.
  • 36. 36 Segundo enfoque  Indexado basado en fonemas:  La transformación del audio sólo llega hasta la etapa de fonemas, ésta es la base a partir de la cual se hará la búsqueda del texto deseado.  La búsqueda puede dar un mayor número de respuestas falsas que el enfoque anterior, pero tiene un mejor comportamiento con palabras fuera del diccionario (nombre de personas, lugares, términos extranjeros, etc.)
  • 37. 37 A notar…  El reconocimiento fonético aun está lejos de un reconocimiento perfecto  Usando información lingüística (modelos de lenguaje) es posible incrementar su rendimiento  Un modelo de lenguaje captura (probabilísticamente) las secuencias propias de un lenguaje  “El que madruga …  “A buen entendedor …
  • 38. 38 A notar…  El reconocimiento fonético aun está lejos de un reconocimiento perfecto  Usando información lingüística (modelos de lenguaje) es posible incrementar su rendimiento  Un modelo de lenguaje captura (probabilísticamente) las secuencias propias de un lenguaje  “El que madruga, Dios le ayuda”  “A buen entendedor, pocas palabras”
  • 39. 39 A notar…  Los modelos acústicos recuperan pistas auditivas las cuales son la base para la reconstrucción del mensaje.  Los modelos de lenguaje aportan información sobre el lenguaje y el contexto para la reconstrucción del lenguaje  Un modelo de lenguaje es más fácil de construir mientras más acotado sea el dominio
  • 40. 40 A notar…  El comportamiento de los reconocedores es mejor si el contexto es limitado.  En noticieros de 5 a 20% de error  Otros contenidos de 30 a 60% de error  Se puede indexar una hora de audio en 5 minutos (no se menciona la calidad)  Existen ya sistemas multilingües!
  • 41. 41 Una solución posible  Llegar a la transcripción pero apoyarse también en su información fonética Proponer un método para recuperación de información en documentos orales enriqueciendo su representación a través de codificación fonética.
  • 42. 42 Tipos Errores Correcta Unix Sun War in Iraq Transcrita Unique Some Ware in Irak Correcta Osama Bin Laden Our slugger encourage Transcrita Usama Bin Ladin Our sluggard emigrate Correcta I helped Apple recognize speech a country independent Transcrita I helped Apple wreck a nice beach a country in the pendant Substitución Más complejos (Combinación Inserción+Substitución)
  • 43. 43 Ej. Codificación Fonética Correcta Unix Sun War in Iraq Transcrita Unique Some Ware in Irak Soundex U520 S500 W600 I500 I620 Correcta Osama Bin Laden Our slugger encourage Transcrita Usama Bin Ladin Our sluggard emigrate Soundex O250 B500 L350 U250 B500 L350 O600 S426 E526  Mantiene la primera letra de la palabra  Convierte las letras a dígitos
  • 44. 44 Método 1. Filtrar las transcripciones eliminando palabras vacías. 2. Codificar las transcripciones usando el algoritmo Soundex. 3. Obtener las frecuencias de los códigos en la colección 4. Eliminar códigos frecuentes. 5. Agregar la codificación resultante a la transcripción.
  • 45. 45 Aplicación: Personalizando la Interfaz • Una interfaz dinámica que cambie su apariencia o que proponga los elementos más comúnmente utilizados por un usuario específico  La señal de voz abarca diferentes tipos de información:  Un mensaje.  Un lenguaje.  La emoción.  El género.  La edad.  La identidad del hablante.
  • 46. 46 Reconocimiento del hablante diferente a la Verificación de usuarios.  En la verificación del hablante lo que se desea es comprobar cuando la persona que habla es, o no es, la persona que afirma ser, en este caso, el sistema tiene información sobre la identidad del usuario.  Reconocimiento del hablante busca hacer una caracterización y reconocimiento de la identidad del hablante gracias a su señal de voz.
  • 47. 47 window window X1 X2 X13 … Cálculo de coeficientes MFCC ó LPC Caracterización de la Señal de Voz
  • 48. 48 Sin solapamiento Algoritmo 100ms 120ms 500ms MFCC knn (50) 29.35% 30.92% 32.70% knn (60) 29.19% 30.88% 31.58% LWR 56.42% 57.83% 47.11% SVM 62.65% 63.57% 42.49 % ANN 56.02% 55.78% 46.14%
  • 49. 49 Con solapamiento Tamaño del segmento Solapamiento 80ms 100ms 120ms MFCC & SVM 10ms 64.13% 63.05% 63.05% 20ms 68.80% 67.64% 64.41% 30ms 65.54% 70.05% 69.20%
  • 50. 50 Conclusiones  Método sencillo basado en un procesamiento directo de la señal acústica  Los resultados alentadores: 70% al usar SVM  100 hablantes  3.5 seg de señal de voz
  • 51. 51 Trabajo futuro  Extender los experimentos incluyendo más información descriptiva de la señal acústica  Deltas de los coeficientes  Componente de energía  Usar otras metodologías en el aprendizaje  Estudio de un Kernel no polinomial  Uso de ensambles  Extender el tamaño de las muestras de señal acústica
  • 52. 52 Aplicación: Personalizando la Interfaz • Una interfaz dinámica que cambie su apariencia o que proponga los elementos más comúnmente utilizados por un usuario específico  La señal de voz abarca diferentes tipos de información:  Un mensaje.  Un lenguaje.  La emoción.  El género.  La edad.  La identidad del hablante.
  • 53. 53 ¿Cómo se ha abordado?  Primer enfoque: Basan la IAL en el empleo de características lingüísticas propias de cada lenguaje. Realizan segmentación de fonemas y utilizan modelos de lenguaje.  Sistemas basados en reconocimiento de fonemas  Segundo enfoque: Explotar directamente la señal acústica para la IAL, obteniendo características tales como la prosodia, ritmo, entonación, entre otras.  Sistemas no basados en reconocimiento de fonemas.
  • 54. 54 Dificultades del primer enfoque  Necesidad de un estudio previo de cada lenguaje  Un módulo para la segmentación de la señal de voz en fonemas  Un proceso de etiquetado manual realizado por expertos a nivel fonético  Necesidad de la creación de modelos de lenguaje  Corpus grandes de texto y/o transcripciones ortográficas de grabaciones  Estadística de todos las posibles combinaciones de fonemas  No son de utilidad para lenguas que no cuentan con convenciones claramente establecidas para su escritura
  • 55. 55 Segundo enfoque  Los lingüistas parten de que existe otro tipo de características las cuales no pueden segmentarse como los fonemas, porque actúan simultáneamente sobre más de un segmento.  Suprasegmentos: el acento, el tono (sucesión de ellos – entonación-) y la duración.  El acento:  Español normalmente grave  Francés normalmente agudo
  • 56. 56 Características suprasegmentales  Tono: como recurso de diferenciación léxica, para lenguas como el chino o el vietnamita.  Por ejemplo: /ma/ puede significar varias cosas:  con un tono estático alto significa madre  con tono dinámico ascendente significa cáñamo  con un tono dinámico ascendente-descendente significa caballo  con un tono descendente significa riña  Las lenguas de la familia congo-nigerianas, sino- tibetanas y algunas de las lenguas indígenas de México (otomí, mazahua, chichimeca entre otras)
  • 57. 57 Características suprasegmentales  Entonación: sucesión de tonos, como recurso de función expresiva, para lenguas románicas  Por ejemplo:  ¿Cómo estás?  ¿cómo? ¡estás!  Ritmo: es la pauta de tensión formada por la combinación de las sílabas tónicas y atonas, largas y breves  Ritmos: stress timed, syllable timed, acentual y silábico.
  • 58. 58 El problema  Como extraer las características suprasegmentales del habla, como la prosodia, el ritmo, la entonación entre otras. •[Li 1994] Localizar automáticamente el núcleo-silábico (por ejemplo las vocales). Generar vectores espectrales de regiones cercanas al núcleo silábico, tanto para entrenamiento como prueba. •[Itahasi 1994 y 1995] Uso la frecuencia fundamental (pitch) ya que su estimación es más robusta en ambientes ruidosos que los parámetros espectrales de Li •[Thyme-Gobbel y Hutchins 1996] Caracterizaron la prosodia a través contornos del pitch y la amplitud entre una sílaba y otra
  • 59. 59 Estado del arte  Cummins et al 1999: El trabajo recae en la suposición de que las variaciones de amplitud en la frecuencia fundamental son importantes para percibir el ritmo en el habla. Alemán Español Japonés Mandarín Inglés 52 62 57 58 Alemán - 51 58 65 Español - - 66 47 Japonés - - - 60
  • 60. 60 Estado del arte  Rouas et al 2003 y 2005: Propone un método para identificar los lenguajes en bases a su entonación y ritmo: caracteriza el ritmo en función de intervalos vocálicos y consonánticos. Alemán Español Mandarín Vietnamita Japonés Coreano Tamil Farsi Inglés 60 68 75 68 68 79 77 76 Alemán _ 59 62 66 66 71 70 72 Español _ _ 81 62 63 76 65 67 Mandarín _ _ _ 50 51 74 74 76 Vietnamita _ _ _ _ 69 56 71 67 Japonés _ _ _ _ _ 66 59 67 Coreano _ _ _ _ _ _ 62 75 Tamil _ _ _ _ _ _ _ 70
  • 61. 61 Objetivo  Desarrollar un método para la identificación del lenguaje hablado sin recurrir a la representación fonética de la señal de voz, con un nuevo método de caracterización de los elementos suprasegmentales del habla.  Suposición: el ritmo puede ser una característica fundamental para la identificación y éste se localiza en las frecuencias bajas
  • 62. 62 Nueva caracterización del ritmo  Procesamiento basado en Wavelets: Hablante japonés Hablante español
  • 63. 63 Nueva caracterización  Uso de la transformada Daubechies 4 coeficientes  Muestras de 30 y 50 seg.  Reducción de la información por medio de truncado de aproximación con un umbral del 1%
  • 64. 64 Nueva caracterización del ritmo Señal de voz Lenguaje 1 Inglés Señal de voz Lenguaje 2 Español Señal de voz Lenguaje 1 Inglés Señal de voz Lenguaje 9 Farsi Aplicación Transformada wavelet Aplicación Transformada wavelet Truncado por método de aproximación Truncado por método de aproximación Aplicación Transformada wavelet Aplicación Transformada wavelet Truncado por método de aproximación Truncado por método de aproximación Reducción de dimensionalidad: •Eliminar los coeficientes irrelevantes •Ganancia de información Construcción del clasificador para lenguajes 1 y 2 Reducción de Dimensionalidad: •Eliminar los coeficientes irrelevantes •Ganancia de información. Clasificador Binario Lenguajes 1 y 9
  • 65. 65 Nueva caracterización del ritmo  Resultados entre paréntesis Rouas: Alemán Español Mandarín Vietnamita Japonés Coreano Tamil Farsi Inglés 97 (59.5) 97 (67.7) 93 (75.0) 94 (67.7) 96 (67.6) 95 (79.4) 99 (77.4) 96 (76.3) Alemán - 93 (59.4) 94 (62.2) 93 (65.7) 98 (65.8) 98 (71.4) 94 (69.7) 91 (71.8) Español - - 91 (80.6) 86 (62.1) 92 (62.5) 98 (75.9) 91 (65.4) 94 (66.7) Mandarín - - - 95 (50.0) 95 (50.6) 93 (73.5) 89 (74.2) 94 (76.3) Vietnamita - - - - 93 (68.6) 96 (56.2) 95 (71.4) 95 (66.7) Japonés - - - - - 93 (65.7) 89 (59.4) 94 (66.7) Coreano - - - - - - 95 (62.1) 91 (75.0) Tamil - - - - - - - 90 (69.7)
  • 66. 66 Resultados promedio 50 55 60 65 70 75 80 85 90 95 100 Inglés Alemán Español Japonés M andarín Vietnamita Coreano Tamil Farsi Rouas wavelet 10 seg wavelet 50 seg
  • 67. 67 Nueva caracterización del ritmo  La nueva caracterización con wavelets obtiene mejores resultados que los alcanzados por Rouas.  Nos permite enfocarnos a las bajas frecuencias  Buenos resultados con muestra de señal de voz más grandes.  Umbral de truncado se obtuvo al procesar todos los idiomas, podría determinarse por pares de idiomas.
  • 68. 68 Trabajo futuro  Extender el método para trabajar con clasificadores multiclase. Con la finalidad de comparar nuestra técnica con los métodos que utilizan información fonotáctica de los lenguajes.  Mezclar diferentes extracciones de características de la señal de voz tales como el ritmo de Rouas con los coeficientes wavelet para generar características suprasegmentales del habla híbridas.  Utilizar los modelos de mezclas gaussianas, con la idea de probar los métodos propuestos en la tarea de verificación del idioma (NIST)
  • 69. 69 Lenguas indígenas mexicanas  Corpus utilizado: el archivo de lenguas indígenas de Latinoamérica, http://www.ailla.org Náhuatl Zoque Español  20 diferentes hablantes por cada lengua.  Los tamaños de muestras variaron.  El algoritmo de clasificación usado fue el de Naïve Bayes y se utilizó la validación cruzada en 10 pliegues para su evaluación.
  • 70. 70 Resultados utilizando MFCC: 3 segundos 7 segundos 10 segundos Náhuatl Español Náhuatl Español Náhuatl Español Zoque 85 95 94 93 87 93 Náhuatl - 100 - 97 - 94
  • 71. 71  Un clasificador con los tres lenguajes. Resultados multiclase % Identificación de los tres lenguajes 3 segundos 85 7 segundos 89 10 segundos 88 % Identificación de los tres lenguajes 10 segundos 85 30 segundos 94 50 segundos 95 192 atributos de MFCC Transformada wavelet
  • 72. 72 Experimentos Lengua no materna  Grabaciones con la misma calidad  Inglés 6 personas  Francés 5 personas  Español 6 personas  Método utilizado wavelet Daubechies con 4 coeficientes y truncado de aproximación  Clasificador Naïve Bayes  inglés-español español-francés inglés-francés 91.67% 81.82% 100% a b a b a b 5 1 a=inglés 5 1 a=español 6 0 a=inglés 0 6 b=español 1 4 b=francés 0 5 b=francés