Tecnologias del habla_reconocimiento

Universidad Nacional Autónoma de México
Instituto de Investigación en
Matemáticas Aplicadas y en Sistemas
Departamento de Ciencias de la Computación
Grupo de Sistemas Multimodales Inteligentes

Reconocimiento de Voz
M.C. Esmeralda Uraga
euraga@leibniz.iimas.unam.mx

Contenido
•Introducción
•Características
•Cómo se desarrollan
•Modelos utilizados
•Resultados
•Aplicaciones
•Conclusiones

Introducción
El habla es la forma de comunicación humana más natural y eficiente
(Cole95).
Los sistemas de lenguaje hablado hacen posible que las personas interactúen
con las computadoras usando el habla (además del monitor, mouse, etc.).
Un sistema de lenguaje hablado (operadora) funciona así:
•Reconoce las palabras que pronuncia una persona (¿Cuál es el número?)
•Interpreta la secuencia de palabras para obtener un significado en
términos de la aplicación del sistema (¿Directorio telefónico o dirección?
•Proporciona una respuesta apropiada al usuario. (15-12-58 o #37)
Actualmente, los sistemas que son capaces de manejar lenguaje natural deben
su éxito al enfocarse a resolver tareas específicas sobre dominios restringidos.
Ej. C-STAR, TRAINS

Reconocimiento de voz
El reconocimiento de voz consiste en convertir una señal acústica
de voz a una secuencia de palabras.

cuál es el número

¿Cuál es el número?

Ej. Dictado automático

Síntesis de voz
La síntesis de voz consiste en convertir un texto a voz artificial.

El número es 15 12 58

¿Por qué usar
reconocimiento de voz?
Razones de mercado, tecnológicas, científicas, sociales, etc.
•Mayor productividad
•Recuperación rápida de la inversión
•Acceso a nuevos mercados, nuevos clientes
•Diferencia entre compañías
•Control del ambiente o de los sistemas
•Computadoras que den servicios de información
•Para proponer y probar modelos (redes neuronales)
•La gente que sabe hablar podría usar las computadoras
•Las computadoras podrían enseñar
•Sistemas de diagnóstico y rehabilitación

¿Cómo avanzó el área de
reconocimiento de voz?
1870’s Alexander Graham Bell. Quería construir un sistema que permitiera ver
el habla a personas con problemas auditivos. Resultado: el teléfono.
1880’s Tihamir Nemes. Quería patentar un sistema que identificara secuencias
de sonido y las imprimiera (texto). Rechazado como proyecto no realista.
1950’s Laboratorios Bell AT&T construye la primer máquina capaz de
reconocer los 10 dígitos en inglés (por una persona). Surge la esperanza de que
el reconocimiento de voz es simple y directo.
1960’s Se reconoce que este proceso es más difícil de lo que se había pensado. Se
reducen los alcances y se enfocan a sistemas más sencillos: (un hablante,
palabras aisladas, vocabulario pequeño).
1970’s Reconocimiento de voz continua (un hablante).
1980’s y 90’s Computadoras más poderosas y más baratas. Gran desarrollo de
las telecomunicaciones. Apoyo gubernamental y empresarial. Sistemas de habla
espontánea, independientes del hablante y con vocabulario grande.

Características de los sistemas
de reconocimiento de voz
•Forma de reconocimiento:
•palabras aisladas vs voz continua vs habla espontánea (ej. look & tel.)
•Dependencia (reconocimiento del hablante) vs Independencia del hablante
•Adaptación al hablante
•Tamaño del vocabulario: pequeño, mediano, grande o muy grande
•Gramática
•Tolerancia al ruido: no tolerante, tolerante, capacidad de rechazo, robusto

Planteamiento del problema
El problema que se aborda aquí es el de reconocimiento de voz continua para el
español hablado en México.
El habla continua se distingue del habla espontánea en que sus alcances no
abarcan el reconocimiento de titubeos, de correcciones y cambios de
comportamiento al hablar.
La dificultad de reconocer voz continua se debe a algunas propiedades de ésta,
entre las cuales están las siguientes:
•La complejidad de la voz producida sin hacer pausas al hablar. Esto causa
que la pronunciación de una palabra afecte la pronunciación de las
palabras en su contexto. (ej. Los rosales, David Rosales).
•Efectos en la voz continua. La pronunciación de un fonema se ve afectado
por su contexto. (ej. Mano, mango).
•Difícil localización de fronteras entre palabras. (ej. Va a Alemania).
• Las fuentes de variabilidad como la velocidad y el tono de voz.

Un sistema de
reconocimiento de voz
habla

Modelo
Language Pronunciation Palabras
Modelo Pronunciación
Aplicación
Model
Model
Lenguaje

Acoustic
Modelo
Model
Acústico

1

2

3

23 HMM:
•22 fonemas
• 1 silencio

Entrenamiento de los Modelos
Definición de
MOM o RN
Vectores de
Características

Transcripción

Lexicón

Gramática
Entrenamiento
Entrenamiento
de los modelos
de los modelos
Modelos Acústicos

∀W P(S|W= w1,w2,…,wn)

Frecuencia Amplitud

Crear un corpus de voz:
•Diseño (Dominio, aplicación, contenido lingüístico, hablantes)
•Grabación (ambiente, equipo, muestreo, entrenamiento, evaluación)
•Transcripción (niveles, unidades de voz, clasificación de unidades, léxico)
ej. pa’que, oye pa’ onta mi amá

Forma de onda de la señal de voz:
Espectrograma de la señal de voz:

Transcripción ortográfica y fonética:
Tiempo (mseg)

Grabaciones
Duración
Hablantes
Habla
Grabado por
Ambiente

4 hrs.
83 (42h, 41m)
Continua
Micrófono
Oficina

Transcripción fonética

Forced Alignment

El modelo del lenguaje
habla

Acoustic
Modelo
Model
Acústico

W1
W2
W3
Wn

Back-off bigram
word-loop network

Modelo
Modelo
Aplicación
Lenguaje Pronunciación
Model
Model

Training
Corpus
Domain

DIME

Utterances

5140

Speakers

16

Speech

Spont. & Cont.

Recorded by

Microphone

Duration

7 hrs.

Kitchen design

Cómo se obtienen los
Modelos del Lenguaje
Corpus textual

Vocabulario

Conjunto de
frases
Generación de
Generación de
n-gramas
n-gramas
w1,w2,…,wn
Modelos del Lenguaje

∀W P(W= w1,w2,…,wn)

Corpus DIME

Diálogo 13
(U)
(S)
(U)
(S)
(U)
(S)
(U)

utt34:
utt35:
utt36:
utt37:
utt38:
utt39:
utt40:
utt41:
utt41:
utt43:

este <sil> eh me puede mostrar <sil> los fregaderos ?
contamos <sil> con estos <sil> cuatro fregader[os]
eh <sil> favor de elegir el fregadero con alacena
éste ?
ajá
y lo colocamos abajo de la vent [ana] de las ventanas
de acuerdo
ahí está bien ?
sí
así está bien

Modelo de Pronunciación
habla

Acoustic
Modelo
Model
Acústico

Modelo
Modelo
Aplicación
Lenguaje Pronunciación
Model
Model

ABAJO
ACÁ
ALACENA
ALGÚN
ARRIBA
BIEN

aVaxo
aka
alasena
algun
a rr i V a
bjen

Pronunciación Canónica

Evaluación del reconocedor
Transcripciones

Datos de voz
Modelo del
Lenguaje
Modelos
Acústicos

Reconocimiento
Reconocimiento
de voz
de voz

Palabras
reconocidas

Diferencias
Diferencias
% palabras
reconocidas

Lexicón

Evaluación del reconocedor con
diferentes modelos acústicos:
Resultados:

RN

% palabras reconocidas 96.79%

MOM-RN MOM
92.55%

91.09%

Características de las
aplicaciones
El problema general de reconocimiento de voz no está resuelto todavía!
Con la tecnología actual, los sistemas convierten el problema general en otro
más simple o fácil por medio de:
•limitando el tamaño del vocabulario
•limitando la forma de hablar
•restringiendo el rango posible de hablantes
•limitando el tipo de ruido ambiental
•limitando el tipo de habla (continua, espontánea)
Características deseables: Quitar los límites.
La idea es tener un sistema con vocabulario grande, que reconozca a
cualquier persona, que pueda manejar cualquier dominio del discurso y
cualquier estilo de hablar además de que pueda operar en cualquier
ambiente acústico.

Procesamiento del lenguaje
a varios niveles
El habla puede ser vista como una combinación compleja de información
de varios niveles usada para enviar un mensaje.
Niveles:
•Fonético y fonológico
•Léxico
•Morfológico
•Sintáctico
•Semántico
•Pragmático
•Del discurso
•Del mundo
Del reconocimiento de voz al entendimiento del lenguaje natural
utilizando sistemas multimodales.

Aplicaciones
•Dictado automático
•Para controlar equipos mecánicos y servicios
•Para ayudar a personas discapacitadas
(acceso, llamadas telefónicas, para aprender a hablar)
•Sistemas automovilísticos
•Para dar y obtener información (bases de datos, censo)
•Sistemas bancarios
•Solicitud de servicios (pizza, mensajería, directorio
telefónico)
•Diálogos en tareas cooperativas para lograr una meta
(reservación de vuelos)
•Navegar en Internet por medio de voz
•Traducción de conversaciones en varios idiomas

Conclusiones
•Es necesario generar más recursos lingüísticos en México para poder
desarrollar sistemas de reconocimiento de voz robustos.
•Es importante promover el área de tecnología del habla para formar grupos
de trabajo multidisciplinarios para investigación y educación en ésta área.
•Es necesario capacitar personas para que desarrollen sistemas de
reconocimiento de voz.
•El desarrollo de sistemas de lenguaje hablado permitirá que las personas
interactúen con las computadoras (vía telefónica o directa) usando el
lenguaje natural hablado.

¿Preguntas?

M.C. Esmeralda Uraga
euraga@leibniz.iimas.unam.mx

Tecnologias del habla_reconocimiento

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (8)

Similar a Tecnologias del habla_reconocimiento

Similar a Tecnologias del habla_reconocimiento (20)

Último

Último (20)

Tecnologias del habla_reconocimiento

Notas del editor