SlideShare una empresa de Scribd logo
Universidad Nacional Autónoma de México
Instituto de Investigación en
Matemáticas Aplicadas y en Sistemas
Departamento de Ciencias de la Computación
Grupo de Sistemas Multimodales Inteligentes

Reconocimiento de Voz
M.C. Esmeralda Uraga
euraga@leibniz.iimas.unam.mx
Contenido
•Introducción
•Características
•Cómo se desarrollan
•Modelos utilizados
•Resultados
•Aplicaciones
•Conclusiones
Introducción
El habla es la forma de comunicación humana más natural y eficiente
(Cole95).
Los sistemas de lenguaje hablado hacen posible que las personas interactúen
con las computadoras usando el habla (además del monitor, mouse, etc.).
Un sistema de lenguaje hablado (operadora) funciona así:
•Reconoce las palabras que pronuncia una persona (¿Cuál es el número?)
•Interpreta la secuencia de palabras para obtener un significado en
términos de la aplicación del sistema (¿Directorio telefónico o dirección?
•Proporciona una respuesta apropiada al usuario. (15-12-58 o #37)
Actualmente, los sistemas que son capaces de manejar lenguaje natural deben
su éxito al enfocarse a resolver tareas específicas sobre dominios restringidos.
Ej. C-STAR, TRAINS
Reconocimiento de voz
El reconocimiento de voz consiste en convertir una señal acústica
de voz a una secuencia de palabras.

cuál es el número

¿Cuál es el número?

Ej. Dictado automático
Síntesis de voz
La síntesis de voz consiste en convertir un texto a voz artificial.

El número es 15 12 58
¿Por qué usar
reconocimiento de voz?
Razones de mercado, tecnológicas, científicas, sociales, etc.
•Mayor productividad
•Recuperación rápida de la inversión
•Acceso a nuevos mercados, nuevos clientes
•Diferencia entre compañías
•Control del ambiente o de los sistemas
•Computadoras que den servicios de información
•Para proponer y probar modelos (redes neuronales)
•La gente que sabe hablar podría usar las computadoras
•Las computadoras podrían enseñar
•Sistemas de diagnóstico y rehabilitación
¿Cómo avanzó el área de
reconocimiento de voz?
1870’s Alexander Graham Bell. Quería construir un sistema que permitiera ver
el habla a personas con problemas auditivos. Resultado: el teléfono.
1880’s Tihamir Nemes. Quería patentar un sistema que identificara secuencias
de sonido y las imprimiera (texto). Rechazado como proyecto no realista.
1950’s Laboratorios Bell AT&T construye la primer máquina capaz de
reconocer los 10 dígitos en inglés (por una persona). Surge la esperanza de que
el reconocimiento de voz es simple y directo.
1960’s Se reconoce que este proceso es más difícil de lo que se había pensado. Se
reducen los alcances y se enfocan a sistemas más sencillos: (un hablante,
palabras aisladas, vocabulario pequeño).
1970’s Reconocimiento de voz continua (un hablante).
1980’s y 90’s Computadoras más poderosas y más baratas. Gran desarrollo de
las telecomunicaciones. Apoyo gubernamental y empresarial. Sistemas de habla
espontánea, independientes del hablante y con vocabulario grande.
Características de los sistemas
de reconocimiento de voz
•Forma de reconocimiento:
•palabras aisladas vs voz continua vs habla espontánea (ej. look & tel.)
•Dependencia (reconocimiento del hablante) vs Independencia del hablante
•Adaptación al hablante
•Tamaño del vocabulario: pequeño, mediano, grande o muy grande
•Gramática
•Tolerancia al ruido: no tolerante, tolerante, capacidad de rechazo, robusto
Planteamiento del problema
El problema que se aborda aquí es el de reconocimiento de voz continua para el
español hablado en México.
El habla continua se distingue del habla espontánea en que sus alcances no
abarcan el reconocimiento de titubeos, de correcciones y cambios de
comportamiento al hablar.
La dificultad de reconocer voz continua se debe a algunas propiedades de ésta,
entre las cuales están las siguientes:
•La complejidad de la voz producida sin hacer pausas al hablar. Esto causa
que la pronunciación de una palabra afecte la pronunciación de las
palabras en su contexto. (ej. Los rosales, David Rosales).
•Efectos en la voz continua. La pronunciación de un fonema se ve afectado
por su contexto. (ej. Mano, mango).
•Difícil localización de fronteras entre palabras. (ej. Va a Alemania).
• Las fuentes de variabilidad como la velocidad y el tono de voz.
Un sistema de
reconocimiento de voz
habla

Modelo
Language Pronunciation Palabras
Modelo Pronunciación
Aplicación
Model
Model
Lenguaje

Acoustic
Modelo
Model
Acústico

1

2

3

23 HMM:
•22 fonemas
• 1 silencio
Entrenamiento de los Modelos
Definición de
MOM o RN
Vectores de
Características

Transcripción

Lexicón

Gramática
Entrenamiento
Entrenamiento
de los modelos
de los modelos
Modelos Acústicos

∀W P(S|W= w1,w2,…,wn)
Frecuencia Amplitud

Crear un corpus de voz:
•Diseño (Dominio, aplicación, contenido lingüístico, hablantes)
•Grabación (ambiente, equipo, muestreo, entrenamiento, evaluación)
•Transcripción (niveles, unidades de voz, clasificación de unidades, léxico)
ej. pa’que, oye pa’ onta mi amá

Forma de onda de la señal de voz:
Espectrograma de la señal de voz:

Transcripción ortográfica y fonética:
Tiempo (mseg)
Grabaciones
Duración
Hablantes
Habla
Grabado por
Ambiente

4 hrs.
83 (42h, 41m)
Continua
Micrófono
Oficina
Transcripción fonética

Forced Alignment
El modelo del lenguaje
habla

Acoustic
Modelo
Model
Acústico

W1
W2
W3
Wn

Back-off bigram
word-loop network

Language Pronunciation Palabras
Modelo
Modelo
Aplicación
Lenguaje Pronunciación
Model
Model

Training
Corpus
Domain

DIME

Utterances

5140

Speakers

16

Speech

Spont. & Cont.

Recorded by

Microphone

Duration

7 hrs.

Kitchen design
Cómo se obtienen los
Modelos del Lenguaje
Corpus textual

Vocabulario

Conjunto de
frases
Generación de
Generación de
n-gramas
n-gramas
w1,w2,…,wn
Modelos del Lenguaje

∀W P(W= w1,w2,…,wn)
Corpus DIME

Diálogo 13
(U)
(S)
(U)
(S)
(U)
(S)
(U)

utt34:
utt35:
utt36:
utt37:
utt38:
utt39:
utt40:
utt41:
utt41:
utt43:

este <sil> eh me puede mostrar <sil> los fregaderos ?
contamos <sil> con estos <sil> cuatro fregader[os]
eh <sil> favor de elegir el fregadero con alacena
éste ?
ajá
y lo colocamos abajo de la vent [ana] de las ventanas
de acuerdo
ahí está bien ?
sí
así está bien
Modelo de Pronunciación
habla

Acoustic
Modelo
Model
Acústico

Language Pronunciation Palabras
Modelo
Modelo
Aplicación
Lenguaje Pronunciación
Model
Model

ABAJO
ACÁ
ALACENA
ALGÚN
ARRIBA
BIEN

aVaxo
aka
alasena
algun
a rr i V a
bjen

Pronunciación Canónica
Evaluación del reconocedor
Transcripciones

Datos de voz
Modelo del
Lenguaje
Modelos
Acústicos

Reconocimiento
Reconocimiento
de voz
de voz

Palabras
reconocidas

Diferencias
Diferencias
% palabras
reconocidas

Lexicón

Evaluación del reconocedor con
diferentes modelos acústicos:
Resultados:

RN

% palabras reconocidas 96.79%

MOM-RN MOM
92.55%

91.09%
Características de las
aplicaciones
El problema general de reconocimiento de voz no está resuelto todavía!
Con la tecnología actual, los sistemas convierten el problema general en otro
más simple o fácil por medio de:
•limitando el tamaño del vocabulario
•limitando la forma de hablar
•restringiendo el rango posible de hablantes
•limitando el tipo de ruido ambiental
•limitando el tipo de habla (continua, espontánea)
Características deseables: Quitar los límites.
La idea es tener un sistema con vocabulario grande, que reconozca a
cualquier persona, que pueda manejar cualquier dominio del discurso y
cualquier estilo de hablar además de que pueda operar en cualquier
ambiente acústico.
Procesamiento del lenguaje
a varios niveles
El habla puede ser vista como una combinación compleja de información
de varios niveles usada para enviar un mensaje.
Niveles:
•Fonético y fonológico
•Léxico
•Morfológico
•Sintáctico
•Semántico
•Pragmático
•Del discurso
•Del mundo
Del reconocimiento de voz al entendimiento del lenguaje natural
utilizando sistemas multimodales.
Aplicaciones
•Dictado automático
•Para controlar equipos mecánicos y servicios
•Para ayudar a personas discapacitadas
(acceso, llamadas telefónicas, para aprender a hablar)
•Sistemas automovilísticos
•Para dar y obtener información (bases de datos, censo)
•Sistemas bancarios
•Solicitud de servicios (pizza, mensajería, directorio
telefónico)
•Diálogos en tareas cooperativas para lograr una meta
(reservación de vuelos)
•Navegar en Internet por medio de voz
•Traducción de conversaciones en varios idiomas
Conclusiones
•Es necesario generar más recursos lingüísticos en México para poder
desarrollar sistemas de reconocimiento de voz robustos.
•Es importante promover el área de tecnología del habla para formar grupos
de trabajo multidisciplinarios para investigación y educación en ésta área.
•Es necesario capacitar personas para que desarrollen sistemas de
reconocimiento de voz.
•El desarrollo de sistemas de lenguaje hablado permitirá que las personas
interactúen con las computadoras (vía telefónica o directa) usando el
lenguaje natural hablado.
¿Preguntas?

M.C. Esmeralda Uraga
euraga@leibniz.iimas.unam.mx

Más contenido relacionado

Destacado

Inestabilidad, perdida, desdoblamiento
Inestabilidad, perdida, desdoblamientoInestabilidad, perdida, desdoblamiento
Inestabilidad, perdida, desdoblamientoGablot Ier Van
 
Fonologizacion re trans
Fonologizacion re transFonologizacion re trans
Fonologizacion re transGablot Ier Van
 
Secuencias vocálicas
Secuencias vocálicasSecuencias vocálicas
Secuencias vocálicas
Gablot Ier Van
 
Sistema consonántico
Sistema consonántico Sistema consonántico
Sistema consonántico
Viana Prato
 
Transcripción fonética
Transcripción fonéticaTranscripción fonética
Transcripción fonética
LIAM PAYNE
 
Punto y modo de articulacion.
Punto y modo de articulacion.Punto y modo de articulacion.
Punto y modo de articulacion.
guestfc76f9b
 

Destacado (8)

Inestabilidad, perdida, desdoblamiento
Inestabilidad, perdida, desdoblamientoInestabilidad, perdida, desdoblamiento
Inestabilidad, perdida, desdoblamiento
 
Fonetica y poesia
Fonetica y poesiaFonetica y poesia
Fonetica y poesia
 
Fonologizacion re trans
Fonologizacion re transFonologizacion re trans
Fonologizacion re trans
 
Secuencias vocálicas
Secuencias vocálicasSecuencias vocálicas
Secuencias vocálicas
 
Sistema consonántico
Sistema consonántico Sistema consonántico
Sistema consonántico
 
Transcripción fonética
Transcripción fonéticaTranscripción fonética
Transcripción fonética
 
Fonemas vocálicos
Fonemas vocálicosFonemas vocálicos
Fonemas vocálicos
 
Punto y modo de articulacion.
Punto y modo de articulacion.Punto y modo de articulacion.
Punto y modo de articulacion.
 

Similar a Tecnologias del habla_reconocimiento

Machine Learning y Tecnologías del Habla - Into Talk
Machine Learning y Tecnologías del Habla - Into TalkMachine Learning y Tecnologías del Habla - Into Talk
Machine Learning y Tecnologías del Habla - Into Talk
Corvalius
 
Validador reconocimiento de voz.
Validador reconocimiento de voz.Validador reconocimiento de voz.
Validador reconocimiento de voz.
DannaTovar2
 
Fonetica fonologia
Fonetica fonologiaFonetica fonologia
Fonetica fonologiaelkinvillasz
 
Inteligencia artificial rosaury rivera
Inteligencia artificial   rosaury riveraInteligencia artificial   rosaury rivera
Inteligencia artificial rosaury riveraRosaury Rivera
 
El reconocimiento de voz
El reconocimiento de vozEl reconocimiento de voz
El reconocimiento de voz
Lizbeth Muñoz Cabildo
 
Primera parte 1
Primera parte 1Primera parte 1
Primera parte 1vivibrade
 
Grupo # 2 la radio en la web
Grupo # 2 la radio en la webGrupo # 2 la radio en la web
Grupo # 2 la radio en la webvivibrade
 
Trabajos del alumnos del IES Antonio López, Curso 2017-2018: Relación entre l...
Trabajos del alumnos del IES Antonio López, Curso 2017-2018: Relación entre l...Trabajos del alumnos del IES Antonio López, Curso 2017-2018: Relación entre l...
Trabajos del alumnos del IES Antonio López, Curso 2017-2018: Relación entre l...
planificupmich
 
Reconocimiento de voz
Reconocimiento de vozReconocimiento de voz
Reconocimiento de voz
PaulaAlejandra44
 
Reconocimiento de voz
Reconocimiento de vozReconocimiento de voz
Reconocimiento de voz
SaraLucia11
 
Reconocimiento
ReconocimientoReconocimiento
Reconocimiento
juli_ceti
 
Reconocimiento de voz y procesamiento de lenguaje natural
Reconocimiento de voz y procesamiento de lenguaje naturalReconocimiento de voz y procesamiento de lenguaje natural
Reconocimiento de voz y procesamiento de lenguaje natural
_ranfis
 
Lenguaje de programación
Lenguaje de programaciónLenguaje de programación
Lenguaje de programación
Thalia Regalado Juape
 
natalia dopazo couto
natalia dopazo coutonatalia dopazo couto
natalia dopazo coutoecursocig
 
Traductoresy aprendizaje
Traductoresy aprendizajeTraductoresy aprendizaje
Traductoresy aprendizajeDolors Capdet
 
Comunicación en lenguaje natural
Comunicación en lenguaje naturalComunicación en lenguaje natural
Comunicación en lenguaje natural
Federico Peinado
 

Similar a Tecnologias del habla_reconocimiento (20)

La I. A. y el reconocimiento de voz
La I. A. y el reconocimiento de vozLa I. A. y el reconocimiento de voz
La I. A. y el reconocimiento de voz
 
Machine Learning y Tecnologías del Habla - Into Talk
Machine Learning y Tecnologías del Habla - Into TalkMachine Learning y Tecnologías del Habla - Into Talk
Machine Learning y Tecnologías del Habla - Into Talk
 
Validador reconocimiento de voz.
Validador reconocimiento de voz.Validador reconocimiento de voz.
Validador reconocimiento de voz.
 
Fonetica fonologia
Fonetica fonologiaFonetica fonologia
Fonetica fonologia
 
Inteligencia artificial rosaury rivera
Inteligencia artificial   rosaury riveraInteligencia artificial   rosaury rivera
Inteligencia artificial rosaury rivera
 
El reconocimiento de voz
El reconocimiento de vozEl reconocimiento de voz
El reconocimiento de voz
 
Primera parte 1
Primera parte 1Primera parte 1
Primera parte 1
 
Grupo # 2 la radio en la web
Grupo # 2 la radio en la webGrupo # 2 la radio en la web
Grupo # 2 la radio en la web
 
Pln
PlnPln
Pln
 
Marco teorico
Marco teoricoMarco teorico
Marco teorico
 
Sistemas de dialogos
Sistemas de dialogosSistemas de dialogos
Sistemas de dialogos
 
Trabajos del alumnos del IES Antonio López, Curso 2017-2018: Relación entre l...
Trabajos del alumnos del IES Antonio López, Curso 2017-2018: Relación entre l...Trabajos del alumnos del IES Antonio López, Curso 2017-2018: Relación entre l...
Trabajos del alumnos del IES Antonio López, Curso 2017-2018: Relación entre l...
 
Reconocimiento de voz
Reconocimiento de vozReconocimiento de voz
Reconocimiento de voz
 
Reconocimiento de voz
Reconocimiento de vozReconocimiento de voz
Reconocimiento de voz
 
Reconocimiento
ReconocimientoReconocimiento
Reconocimiento
 
Reconocimiento de voz y procesamiento de lenguaje natural
Reconocimiento de voz y procesamiento de lenguaje naturalReconocimiento de voz y procesamiento de lenguaje natural
Reconocimiento de voz y procesamiento de lenguaje natural
 
Lenguaje de programación
Lenguaje de programaciónLenguaje de programación
Lenguaje de programación
 
natalia dopazo couto
natalia dopazo coutonatalia dopazo couto
natalia dopazo couto
 
Traductoresy aprendizaje
Traductoresy aprendizajeTraductoresy aprendizaje
Traductoresy aprendizaje
 
Comunicación en lenguaje natural
Comunicación en lenguaje naturalComunicación en lenguaje natural
Comunicación en lenguaje natural
 

Último

Asistencia Tecnica Cultura Escolar Inclusiva Ccesa007.pdf
Asistencia Tecnica Cultura Escolar Inclusiva Ccesa007.pdfAsistencia Tecnica Cultura Escolar Inclusiva Ccesa007.pdf
Asistencia Tecnica Cultura Escolar Inclusiva Ccesa007.pdf
Demetrio Ccesa Rayme
 
PRÁCTICAS PEDAGOGÍA.pdf_Educación Y Sociedad_AnaFernández
PRÁCTICAS PEDAGOGÍA.pdf_Educación Y Sociedad_AnaFernándezPRÁCTICAS PEDAGOGÍA.pdf_Educación Y Sociedad_AnaFernández
PRÁCTICAS PEDAGOGÍA.pdf_Educación Y Sociedad_AnaFernández
Ruben53283
 
True Mother's Speech at THE PENTECOST SERVICE..pdf
True Mother's Speech at THE PENTECOST SERVICE..pdfTrue Mother's Speech at THE PENTECOST SERVICE..pdf
True Mother's Speech at THE PENTECOST SERVICE..pdf
Mercedes Gonzalez
 
CONCLUSIONES-DESCRIPTIVAS NIVEL PRIMARIA
CONCLUSIONES-DESCRIPTIVAS NIVEL PRIMARIACONCLUSIONES-DESCRIPTIVAS NIVEL PRIMARIA
CONCLUSIONES-DESCRIPTIVAS NIVEL PRIMARIA
BetzabePecheSalcedo1
 
Fase 1, Lenguaje algebraico y pensamiento funcional
Fase 1, Lenguaje algebraico y pensamiento funcionalFase 1, Lenguaje algebraico y pensamiento funcional
Fase 1, Lenguaje algebraico y pensamiento funcional
YasneidyGonzalez
 
Horarios y fechas de la PAU 2024 en la Comunidad Valenciana.
Horarios y fechas de la PAU 2024 en la Comunidad Valenciana.Horarios y fechas de la PAU 2024 en la Comunidad Valenciana.
Horarios y fechas de la PAU 2024 en la Comunidad Valenciana.
20minutos
 
Un libro sin recetas, para la maestra y el maestro Fase 3.pdf
Un libro sin recetas, para la maestra y el maestro Fase 3.pdfUn libro sin recetas, para la maestra y el maestro Fase 3.pdf
Un libro sin recetas, para la maestra y el maestro Fase 3.pdf
sandradianelly
 
PRESENTACION DE LA SEMANA NUMERO 8 EN APLICACIONES DE INTERNET
PRESENTACION DE LA SEMANA NUMERO 8 EN APLICACIONES DE INTERNETPRESENTACION DE LA SEMANA NUMERO 8 EN APLICACIONES DE INTERNET
PRESENTACION DE LA SEMANA NUMERO 8 EN APLICACIONES DE INTERNET
CESAR MIJAEL ESPINOZA SALAZAR
 
Horarios Exámenes EVAU Ordinaria 2024 de Madrid
Horarios Exámenes EVAU Ordinaria 2024 de MadridHorarios Exámenes EVAU Ordinaria 2024 de Madrid
Horarios Exámenes EVAU Ordinaria 2024 de Madrid
20minutos
 
CLASE N.1 ANÁLISIS ADMINISTRATIVO EMPRESARIAL presentación.pptx
CLASE N.1 ANÁLISIS ADMINISTRATIVO EMPRESARIAL presentación.pptxCLASE N.1 ANÁLISIS ADMINISTRATIVO EMPRESARIAL presentación.pptx
CLASE N.1 ANÁLISIS ADMINISTRATIVO EMPRESARIAL presentación.pptx
LilianaRivera778668
 
El fundamento del gobierno de Dios. El amor
El fundamento del gobierno de Dios. El amorEl fundamento del gobierno de Dios. El amor
El fundamento del gobierno de Dios. El amor
Alejandrino Halire Ccahuana
 
Semana 10-TSM-del 27 al 31 de mayo 2024.pptx
Semana 10-TSM-del 27 al 31 de mayo 2024.pptxSemana 10-TSM-del 27 al 31 de mayo 2024.pptx
Semana 10-TSM-del 27 al 31 de mayo 2024.pptx
LorenaCovarrubias12
 
Introducción a la ciencia de datos con power BI
Introducción a la ciencia de datos con power BIIntroducción a la ciencia de datos con power BI
Introducción a la ciencia de datos con power BI
arleyo2006
 
Libro infantil sapo y sepo un año entero pdf
Libro infantil sapo y sepo un año entero pdfLibro infantil sapo y sepo un año entero pdf
Libro infantil sapo y sepo un año entero pdf
danitarb
 
Testimonio Paco Z PATRONATO_Valencia_24.pdf
Testimonio Paco Z PATRONATO_Valencia_24.pdfTestimonio Paco Z PATRONATO_Valencia_24.pdf
Testimonio Paco Z PATRONATO_Valencia_24.pdf
Txema Gs
 
UNIDAD DE APRENDIZAJE DEL MES Junio 2024
UNIDAD DE APRENDIZAJE DEL MES  Junio 2024UNIDAD DE APRENDIZAJE DEL MES  Junio 2024
UNIDAD DE APRENDIZAJE DEL MES Junio 2024
EdwardYumbato1
 
evalaución de reforzamiento de cuarto de secundaria de la competencia lee
evalaución de reforzamiento de cuarto de secundaria de la competencia leeevalaución de reforzamiento de cuarto de secundaria de la competencia lee
evalaución de reforzamiento de cuarto de secundaria de la competencia lee
MaribelGaitanRamosRa
 
El Liberalismo económico en la sociedad y en el mundo
El Liberalismo económico en la sociedad y en el mundoEl Liberalismo económico en la sociedad y en el mundo
El Liberalismo económico en la sociedad y en el mundo
SandraBenitez52
 
Portafolio de servicios Centro de Educación Continua EPN
Portafolio de servicios Centro de Educación Continua EPNPortafolio de servicios Centro de Educación Continua EPN
Portafolio de servicios Centro de Educación Continua EPN
jmorales40
 
Texto_de_Aprendizaje-1ro_secundaria-2024.pdf
Texto_de_Aprendizaje-1ro_secundaria-2024.pdfTexto_de_Aprendizaje-1ro_secundaria-2024.pdf
Texto_de_Aprendizaje-1ro_secundaria-2024.pdf
ClaudiaAlcondeViadez
 

Último (20)

Asistencia Tecnica Cultura Escolar Inclusiva Ccesa007.pdf
Asistencia Tecnica Cultura Escolar Inclusiva Ccesa007.pdfAsistencia Tecnica Cultura Escolar Inclusiva Ccesa007.pdf
Asistencia Tecnica Cultura Escolar Inclusiva Ccesa007.pdf
 
PRÁCTICAS PEDAGOGÍA.pdf_Educación Y Sociedad_AnaFernández
PRÁCTICAS PEDAGOGÍA.pdf_Educación Y Sociedad_AnaFernándezPRÁCTICAS PEDAGOGÍA.pdf_Educación Y Sociedad_AnaFernández
PRÁCTICAS PEDAGOGÍA.pdf_Educación Y Sociedad_AnaFernández
 
True Mother's Speech at THE PENTECOST SERVICE..pdf
True Mother's Speech at THE PENTECOST SERVICE..pdfTrue Mother's Speech at THE PENTECOST SERVICE..pdf
True Mother's Speech at THE PENTECOST SERVICE..pdf
 
CONCLUSIONES-DESCRIPTIVAS NIVEL PRIMARIA
CONCLUSIONES-DESCRIPTIVAS NIVEL PRIMARIACONCLUSIONES-DESCRIPTIVAS NIVEL PRIMARIA
CONCLUSIONES-DESCRIPTIVAS NIVEL PRIMARIA
 
Fase 1, Lenguaje algebraico y pensamiento funcional
Fase 1, Lenguaje algebraico y pensamiento funcionalFase 1, Lenguaje algebraico y pensamiento funcional
Fase 1, Lenguaje algebraico y pensamiento funcional
 
Horarios y fechas de la PAU 2024 en la Comunidad Valenciana.
Horarios y fechas de la PAU 2024 en la Comunidad Valenciana.Horarios y fechas de la PAU 2024 en la Comunidad Valenciana.
Horarios y fechas de la PAU 2024 en la Comunidad Valenciana.
 
Un libro sin recetas, para la maestra y el maestro Fase 3.pdf
Un libro sin recetas, para la maestra y el maestro Fase 3.pdfUn libro sin recetas, para la maestra y el maestro Fase 3.pdf
Un libro sin recetas, para la maestra y el maestro Fase 3.pdf
 
PRESENTACION DE LA SEMANA NUMERO 8 EN APLICACIONES DE INTERNET
PRESENTACION DE LA SEMANA NUMERO 8 EN APLICACIONES DE INTERNETPRESENTACION DE LA SEMANA NUMERO 8 EN APLICACIONES DE INTERNET
PRESENTACION DE LA SEMANA NUMERO 8 EN APLICACIONES DE INTERNET
 
Horarios Exámenes EVAU Ordinaria 2024 de Madrid
Horarios Exámenes EVAU Ordinaria 2024 de MadridHorarios Exámenes EVAU Ordinaria 2024 de Madrid
Horarios Exámenes EVAU Ordinaria 2024 de Madrid
 
CLASE N.1 ANÁLISIS ADMINISTRATIVO EMPRESARIAL presentación.pptx
CLASE N.1 ANÁLISIS ADMINISTRATIVO EMPRESARIAL presentación.pptxCLASE N.1 ANÁLISIS ADMINISTRATIVO EMPRESARIAL presentación.pptx
CLASE N.1 ANÁLISIS ADMINISTRATIVO EMPRESARIAL presentación.pptx
 
El fundamento del gobierno de Dios. El amor
El fundamento del gobierno de Dios. El amorEl fundamento del gobierno de Dios. El amor
El fundamento del gobierno de Dios. El amor
 
Semana 10-TSM-del 27 al 31 de mayo 2024.pptx
Semana 10-TSM-del 27 al 31 de mayo 2024.pptxSemana 10-TSM-del 27 al 31 de mayo 2024.pptx
Semana 10-TSM-del 27 al 31 de mayo 2024.pptx
 
Introducción a la ciencia de datos con power BI
Introducción a la ciencia de datos con power BIIntroducción a la ciencia de datos con power BI
Introducción a la ciencia de datos con power BI
 
Libro infantil sapo y sepo un año entero pdf
Libro infantil sapo y sepo un año entero pdfLibro infantil sapo y sepo un año entero pdf
Libro infantil sapo y sepo un año entero pdf
 
Testimonio Paco Z PATRONATO_Valencia_24.pdf
Testimonio Paco Z PATRONATO_Valencia_24.pdfTestimonio Paco Z PATRONATO_Valencia_24.pdf
Testimonio Paco Z PATRONATO_Valencia_24.pdf
 
UNIDAD DE APRENDIZAJE DEL MES Junio 2024
UNIDAD DE APRENDIZAJE DEL MES  Junio 2024UNIDAD DE APRENDIZAJE DEL MES  Junio 2024
UNIDAD DE APRENDIZAJE DEL MES Junio 2024
 
evalaución de reforzamiento de cuarto de secundaria de la competencia lee
evalaución de reforzamiento de cuarto de secundaria de la competencia leeevalaución de reforzamiento de cuarto de secundaria de la competencia lee
evalaución de reforzamiento de cuarto de secundaria de la competencia lee
 
El Liberalismo económico en la sociedad y en el mundo
El Liberalismo económico en la sociedad y en el mundoEl Liberalismo económico en la sociedad y en el mundo
El Liberalismo económico en la sociedad y en el mundo
 
Portafolio de servicios Centro de Educación Continua EPN
Portafolio de servicios Centro de Educación Continua EPNPortafolio de servicios Centro de Educación Continua EPN
Portafolio de servicios Centro de Educación Continua EPN
 
Texto_de_Aprendizaje-1ro_secundaria-2024.pdf
Texto_de_Aprendizaje-1ro_secundaria-2024.pdfTexto_de_Aprendizaje-1ro_secundaria-2024.pdf
Texto_de_Aprendizaje-1ro_secundaria-2024.pdf
 

Tecnologias del habla_reconocimiento

  • 1. Universidad Nacional Autónoma de México Instituto de Investigación en Matemáticas Aplicadas y en Sistemas Departamento de Ciencias de la Computación Grupo de Sistemas Multimodales Inteligentes Reconocimiento de Voz M.C. Esmeralda Uraga euraga@leibniz.iimas.unam.mx
  • 2. Contenido •Introducción •Características •Cómo se desarrollan •Modelos utilizados •Resultados •Aplicaciones •Conclusiones
  • 3. Introducción El habla es la forma de comunicación humana más natural y eficiente (Cole95). Los sistemas de lenguaje hablado hacen posible que las personas interactúen con las computadoras usando el habla (además del monitor, mouse, etc.). Un sistema de lenguaje hablado (operadora) funciona así: •Reconoce las palabras que pronuncia una persona (¿Cuál es el número?) •Interpreta la secuencia de palabras para obtener un significado en términos de la aplicación del sistema (¿Directorio telefónico o dirección? •Proporciona una respuesta apropiada al usuario. (15-12-58 o #37) Actualmente, los sistemas que son capaces de manejar lenguaje natural deben su éxito al enfocarse a resolver tareas específicas sobre dominios restringidos. Ej. C-STAR, TRAINS
  • 4. Reconocimiento de voz El reconocimiento de voz consiste en convertir una señal acústica de voz a una secuencia de palabras. cuál es el número ¿Cuál es el número? Ej. Dictado automático
  • 5. Síntesis de voz La síntesis de voz consiste en convertir un texto a voz artificial. El número es 15 12 58
  • 6. ¿Por qué usar reconocimiento de voz? Razones de mercado, tecnológicas, científicas, sociales, etc. •Mayor productividad •Recuperación rápida de la inversión •Acceso a nuevos mercados, nuevos clientes •Diferencia entre compañías •Control del ambiente o de los sistemas •Computadoras que den servicios de información •Para proponer y probar modelos (redes neuronales) •La gente que sabe hablar podría usar las computadoras •Las computadoras podrían enseñar •Sistemas de diagnóstico y rehabilitación
  • 7. ¿Cómo avanzó el área de reconocimiento de voz? 1870’s Alexander Graham Bell. Quería construir un sistema que permitiera ver el habla a personas con problemas auditivos. Resultado: el teléfono. 1880’s Tihamir Nemes. Quería patentar un sistema que identificara secuencias de sonido y las imprimiera (texto). Rechazado como proyecto no realista. 1950’s Laboratorios Bell AT&T construye la primer máquina capaz de reconocer los 10 dígitos en inglés (por una persona). Surge la esperanza de que el reconocimiento de voz es simple y directo. 1960’s Se reconoce que este proceso es más difícil de lo que se había pensado. Se reducen los alcances y se enfocan a sistemas más sencillos: (un hablante, palabras aisladas, vocabulario pequeño). 1970’s Reconocimiento de voz continua (un hablante). 1980’s y 90’s Computadoras más poderosas y más baratas. Gran desarrollo de las telecomunicaciones. Apoyo gubernamental y empresarial. Sistemas de habla espontánea, independientes del hablante y con vocabulario grande.
  • 8. Características de los sistemas de reconocimiento de voz •Forma de reconocimiento: •palabras aisladas vs voz continua vs habla espontánea (ej. look & tel.) •Dependencia (reconocimiento del hablante) vs Independencia del hablante •Adaptación al hablante •Tamaño del vocabulario: pequeño, mediano, grande o muy grande •Gramática •Tolerancia al ruido: no tolerante, tolerante, capacidad de rechazo, robusto
  • 9. Planteamiento del problema El problema que se aborda aquí es el de reconocimiento de voz continua para el español hablado en México. El habla continua se distingue del habla espontánea en que sus alcances no abarcan el reconocimiento de titubeos, de correcciones y cambios de comportamiento al hablar. La dificultad de reconocer voz continua se debe a algunas propiedades de ésta, entre las cuales están las siguientes: •La complejidad de la voz producida sin hacer pausas al hablar. Esto causa que la pronunciación de una palabra afecte la pronunciación de las palabras en su contexto. (ej. Los rosales, David Rosales). •Efectos en la voz continua. La pronunciación de un fonema se ve afectado por su contexto. (ej. Mano, mango). •Difícil localización de fronteras entre palabras. (ej. Va a Alemania). • Las fuentes de variabilidad como la velocidad y el tono de voz.
  • 10. Un sistema de reconocimiento de voz habla Modelo Language Pronunciation Palabras Modelo Pronunciación Aplicación Model Model Lenguaje Acoustic Modelo Model Acústico 1 2 3 23 HMM: •22 fonemas • 1 silencio
  • 11. Entrenamiento de los Modelos Definición de MOM o RN Vectores de Características Transcripción Lexicón Gramática Entrenamiento Entrenamiento de los modelos de los modelos Modelos Acústicos ∀W P(S|W= w1,w2,…,wn)
  • 12. Frecuencia Amplitud Crear un corpus de voz: •Diseño (Dominio, aplicación, contenido lingüístico, hablantes) •Grabación (ambiente, equipo, muestreo, entrenamiento, evaluación) •Transcripción (niveles, unidades de voz, clasificación de unidades, léxico) ej. pa’que, oye pa’ onta mi amá Forma de onda de la señal de voz: Espectrograma de la señal de voz: Transcripción ortográfica y fonética: Tiempo (mseg)
  • 15. El modelo del lenguaje habla Acoustic Modelo Model Acústico W1 W2 W3 Wn Back-off bigram word-loop network Language Pronunciation Palabras Modelo Modelo Aplicación Lenguaje Pronunciación Model Model Training Corpus Domain DIME Utterances 5140 Speakers 16 Speech Spont. & Cont. Recorded by Microphone Duration 7 hrs. Kitchen design
  • 16. Cómo se obtienen los Modelos del Lenguaje Corpus textual Vocabulario Conjunto de frases Generación de Generación de n-gramas n-gramas w1,w2,…,wn Modelos del Lenguaje ∀W P(W= w1,w2,…,wn)
  • 17. Corpus DIME Diálogo 13 (U) (S) (U) (S) (U) (S) (U) utt34: utt35: utt36: utt37: utt38: utt39: utt40: utt41: utt41: utt43: este <sil> eh me puede mostrar <sil> los fregaderos ? contamos <sil> con estos <sil> cuatro fregader[os] eh <sil> favor de elegir el fregadero con alacena éste ? ajá y lo colocamos abajo de la vent [ana] de las ventanas de acuerdo ahí está bien ? sí así está bien
  • 18. Modelo de Pronunciación habla Acoustic Modelo Model Acústico Language Pronunciation Palabras Modelo Modelo Aplicación Lenguaje Pronunciación Model Model ABAJO ACÁ ALACENA ALGÚN ARRIBA BIEN aVaxo aka alasena algun a rr i V a bjen Pronunciación Canónica
  • 19. Evaluación del reconocedor Transcripciones Datos de voz Modelo del Lenguaje Modelos Acústicos Reconocimiento Reconocimiento de voz de voz Palabras reconocidas Diferencias Diferencias % palabras reconocidas Lexicón Evaluación del reconocedor con diferentes modelos acústicos: Resultados: RN % palabras reconocidas 96.79% MOM-RN MOM 92.55% 91.09%
  • 20. Características de las aplicaciones El problema general de reconocimiento de voz no está resuelto todavía! Con la tecnología actual, los sistemas convierten el problema general en otro más simple o fácil por medio de: •limitando el tamaño del vocabulario •limitando la forma de hablar •restringiendo el rango posible de hablantes •limitando el tipo de ruido ambiental •limitando el tipo de habla (continua, espontánea) Características deseables: Quitar los límites. La idea es tener un sistema con vocabulario grande, que reconozca a cualquier persona, que pueda manejar cualquier dominio del discurso y cualquier estilo de hablar además de que pueda operar en cualquier ambiente acústico.
  • 21. Procesamiento del lenguaje a varios niveles El habla puede ser vista como una combinación compleja de información de varios niveles usada para enviar un mensaje. Niveles: •Fonético y fonológico •Léxico •Morfológico •Sintáctico •Semántico •Pragmático •Del discurso •Del mundo Del reconocimiento de voz al entendimiento del lenguaje natural utilizando sistemas multimodales.
  • 22. Aplicaciones •Dictado automático •Para controlar equipos mecánicos y servicios •Para ayudar a personas discapacitadas (acceso, llamadas telefónicas, para aprender a hablar) •Sistemas automovilísticos •Para dar y obtener información (bases de datos, censo) •Sistemas bancarios •Solicitud de servicios (pizza, mensajería, directorio telefónico) •Diálogos en tareas cooperativas para lograr una meta (reservación de vuelos) •Navegar en Internet por medio de voz •Traducción de conversaciones en varios idiomas
  • 23. Conclusiones •Es necesario generar más recursos lingüísticos en México para poder desarrollar sistemas de reconocimiento de voz robustos. •Es importante promover el área de tecnología del habla para formar grupos de trabajo multidisciplinarios para investigación y educación en ésta área. •Es necesario capacitar personas para que desarrollen sistemas de reconocimiento de voz. •El desarrollo de sistemas de lenguaje hablado permitirá que las personas interactúen con las computadoras (vía telefónica o directa) usando el lenguaje natural hablado.

Notas del editor

  1. Se grabaron hablantes de diferente sexo, edad, lugar de nacimiento, todos los hablantes nacieron y han vivido en México, su lengua materna es el español 50% son de la zona centro, principalmente de DF y edo. de méxico sureste, noroeste, costa del golfo y del pacifico