Un sistema de reconocimiento de voz es una herramienta computacional capaz de procesar la señal de voz emitida por el ser humano y reconocer la información contenida en ésta, convirtiéndola en texto o emitiendo órdenes que actúan sobre un proceso.
Un sistema de reconocimiento de voz es una herramienta computacional capaz de procesar la señal de voz emitida por el ser humano y reconocer la información contenida en ésta, convirtiéndola en texto o emitiendo órdenes que actúan sobre un proceso.
Machine Learning y Tecnologías del Habla - Into TalkCorvalius
Introduction to the subject of Machine Learning Techniques Applied to Speech Technology Problems.
It briefly introduces Deep Learning algorithms for Speech Recognition.
Trabajos del alumnos del IES Antonio López, Curso 2017-2018: Relación entre l...planificupmich
Más información en:
http://www.universidadpopularc3c.es/index.php/actividades/conferencias/details/3066
Ponente: Álvaro Doval Corredera
Tema: Relación entre los lenguajes de programación y el lenguaje humano
Fecha: 14 de marzo de 2018
Lugar: Universidad Popular Carmen de Michelena de Tres Cantos
Resumen:
Este proyecto es un estudio de los lenguajes de programación en relación con los lenguajes cotidianos utilizados por los humanos. Para ello, ha sido necesario realizar un análisis de ambos tipos de lenguajes, estudiando sus definiciones, sus orígenes y su procesamiento. El elemento más importante del proyecto ha sido el análisis del procesamiento de los dos tipos de lenguajes por parte de los ordenadores y del cerebro humano. Para ejemplificar este último análisis de diferencias y semejanzas se ha realizado un mismo programa informático en lenguajes Python y JavaScript y a posteriori, se ha traducido a un lenguaje humano, el escrito, usando la lengua española.
Machine Learning y Tecnologías del Habla - Into TalkCorvalius
Introduction to the subject of Machine Learning Techniques Applied to Speech Technology Problems.
It briefly introduces Deep Learning algorithms for Speech Recognition.
Trabajos del alumnos del IES Antonio López, Curso 2017-2018: Relación entre l...planificupmich
Más información en:
http://www.universidadpopularc3c.es/index.php/actividades/conferencias/details/3066
Ponente: Álvaro Doval Corredera
Tema: Relación entre los lenguajes de programación y el lenguaje humano
Fecha: 14 de marzo de 2018
Lugar: Universidad Popular Carmen de Michelena de Tres Cantos
Resumen:
Este proyecto es un estudio de los lenguajes de programación en relación con los lenguajes cotidianos utilizados por los humanos. Para ello, ha sido necesario realizar un análisis de ambos tipos de lenguajes, estudiando sus definiciones, sus orígenes y su procesamiento. El elemento más importante del proyecto ha sido el análisis del procesamiento de los dos tipos de lenguajes por parte de los ordenadores y del cerebro humano. Para ejemplificar este último análisis de diferencias y semejanzas se ha realizado un mismo programa informático en lenguajes Python y JavaScript y a posteriori, se ha traducido a un lenguaje humano, el escrito, usando la lengua española.
Reconocimiento de voz y procesamiento de lenguaje natural_ranfis
Presentacion sobre Reconocimiento de Voz y Procesamiento de Lenguaje Natural para la clase de Inteligencia Artificial de la Universidad Iberoamericana.
En este trabajo analizamos la definición, sus características, clasificación y generación de los lenguajes de programación para ampliar nuestros conocimientos.
Curso teórico-práctico sobre Inteligencia Artificial para Videojuegos (IAV) basado en el modelo de propone Ian Millington en su libro, impartido en la Universidad Complutense de Madrid.
Similar a Tecnologias del habla_reconocimiento (20)
Today is Pentecost. Who is it that is here in front of you? (Wang Omma.) Jesus Christ and the substantial Holy Spirit, the only Begotten Daughter, Wang Omma, are both here. I am here because of Jesus's hope. Having no recourse but to go to the cross, he promised to return. Christianity began with the apostles, with their resurrection through the Holy Spirit at Pentecost.
Hoy es Pentecostés. ¿Quién es el que está aquí frente a vosotros? (Wang Omma.) Jesucristo y el Espíritu Santo sustancial, la única Hija Unigénita, Wang Omma, están ambos aquí. Estoy aquí por la esperanza de Jesús. No teniendo más remedio que ir a la cruz, prometió regresar. El cristianismo comenzó con los apóstoles, con su resurrección por medio del Espíritu Santo en Pentecostés.
Un libro sin recetas, para la maestra y el maestro Fase 3.pdfsandradianelly
Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestra y el maestro Fase 3Un libro sin recetas, para la maestr
1. Universidad Nacional Autónoma de México
Instituto de Investigación en
Matemáticas Aplicadas y en Sistemas
Departamento de Ciencias de la Computación
Grupo de Sistemas Multimodales Inteligentes
Reconocimiento de Voz
M.C. Esmeralda Uraga
euraga@leibniz.iimas.unam.mx
3. Introducción
El habla es la forma de comunicación humana más natural y eficiente
(Cole95).
Los sistemas de lenguaje hablado hacen posible que las personas interactúen
con las computadoras usando el habla (además del monitor, mouse, etc.).
Un sistema de lenguaje hablado (operadora) funciona así:
•Reconoce las palabras que pronuncia una persona (¿Cuál es el número?)
•Interpreta la secuencia de palabras para obtener un significado en
términos de la aplicación del sistema (¿Directorio telefónico o dirección?
•Proporciona una respuesta apropiada al usuario. (15-12-58 o #37)
Actualmente, los sistemas que son capaces de manejar lenguaje natural deben
su éxito al enfocarse a resolver tareas específicas sobre dominios restringidos.
Ej. C-STAR, TRAINS
4. Reconocimiento de voz
El reconocimiento de voz consiste en convertir una señal acústica
de voz a una secuencia de palabras.
cuál es el número
¿Cuál es el número?
Ej. Dictado automático
5. Síntesis de voz
La síntesis de voz consiste en convertir un texto a voz artificial.
El número es 15 12 58
6. ¿Por qué usar
reconocimiento de voz?
Razones de mercado, tecnológicas, científicas, sociales, etc.
•Mayor productividad
•Recuperación rápida de la inversión
•Acceso a nuevos mercados, nuevos clientes
•Diferencia entre compañías
•Control del ambiente o de los sistemas
•Computadoras que den servicios de información
•Para proponer y probar modelos (redes neuronales)
•La gente que sabe hablar podría usar las computadoras
•Las computadoras podrían enseñar
•Sistemas de diagnóstico y rehabilitación
7. ¿Cómo avanzó el área de
reconocimiento de voz?
1870’s Alexander Graham Bell. Quería construir un sistema que permitiera ver
el habla a personas con problemas auditivos. Resultado: el teléfono.
1880’s Tihamir Nemes. Quería patentar un sistema que identificara secuencias
de sonido y las imprimiera (texto). Rechazado como proyecto no realista.
1950’s Laboratorios Bell AT&T construye la primer máquina capaz de
reconocer los 10 dígitos en inglés (por una persona). Surge la esperanza de que
el reconocimiento de voz es simple y directo.
1960’s Se reconoce que este proceso es más difícil de lo que se había pensado. Se
reducen los alcances y se enfocan a sistemas más sencillos: (un hablante,
palabras aisladas, vocabulario pequeño).
1970’s Reconocimiento de voz continua (un hablante).
1980’s y 90’s Computadoras más poderosas y más baratas. Gran desarrollo de
las telecomunicaciones. Apoyo gubernamental y empresarial. Sistemas de habla
espontánea, independientes del hablante y con vocabulario grande.
8. Características de los sistemas
de reconocimiento de voz
•Forma de reconocimiento:
•palabras aisladas vs voz continua vs habla espontánea (ej. look & tel.)
•Dependencia (reconocimiento del hablante) vs Independencia del hablante
•Adaptación al hablante
•Tamaño del vocabulario: pequeño, mediano, grande o muy grande
•Gramática
•Tolerancia al ruido: no tolerante, tolerante, capacidad de rechazo, robusto
9. Planteamiento del problema
El problema que se aborda aquí es el de reconocimiento de voz continua para el
español hablado en México.
El habla continua se distingue del habla espontánea en que sus alcances no
abarcan el reconocimiento de titubeos, de correcciones y cambios de
comportamiento al hablar.
La dificultad de reconocer voz continua se debe a algunas propiedades de ésta,
entre las cuales están las siguientes:
•La complejidad de la voz producida sin hacer pausas al hablar. Esto causa
que la pronunciación de una palabra afecte la pronunciación de las
palabras en su contexto. (ej. Los rosales, David Rosales).
•Efectos en la voz continua. La pronunciación de un fonema se ve afectado
por su contexto. (ej. Mano, mango).
•Difícil localización de fronteras entre palabras. (ej. Va a Alemania).
• Las fuentes de variabilidad como la velocidad y el tono de voz.
10. Un sistema de
reconocimiento de voz
habla
Modelo
Language Pronunciation Palabras
Modelo Pronunciación
Aplicación
Model
Model
Lenguaje
Acoustic
Modelo
Model
Acústico
1
2
3
23 HMM:
•22 fonemas
• 1 silencio
11. Entrenamiento de los Modelos
Definición de
MOM o RN
Vectores de
Características
Transcripción
Lexicón
Gramática
Entrenamiento
Entrenamiento
de los modelos
de los modelos
Modelos Acústicos
∀W P(S|W= w1,w2,…,wn)
12. Frecuencia Amplitud
Crear un corpus de voz:
•Diseño (Dominio, aplicación, contenido lingüístico, hablantes)
•Grabación (ambiente, equipo, muestreo, entrenamiento, evaluación)
•Transcripción (niveles, unidades de voz, clasificación de unidades, léxico)
ej. pa’que, oye pa’ onta mi amá
Forma de onda de la señal de voz:
Espectrograma de la señal de voz:
Transcripción ortográfica y fonética:
Tiempo (mseg)
15. El modelo del lenguaje
habla
Acoustic
Modelo
Model
Acústico
W1
W2
W3
Wn
Back-off bigram
word-loop network
Language Pronunciation Palabras
Modelo
Modelo
Aplicación
Lenguaje Pronunciación
Model
Model
Training
Corpus
Domain
DIME
Utterances
5140
Speakers
16
Speech
Spont. & Cont.
Recorded by
Microphone
Duration
7 hrs.
Kitchen design
16. Cómo se obtienen los
Modelos del Lenguaje
Corpus textual
Vocabulario
Conjunto de
frases
Generación de
Generación de
n-gramas
n-gramas
w1,w2,…,wn
Modelos del Lenguaje
∀W P(W= w1,w2,…,wn)
19. Evaluación del reconocedor
Transcripciones
Datos de voz
Modelo del
Lenguaje
Modelos
Acústicos
Reconocimiento
Reconocimiento
de voz
de voz
Palabras
reconocidas
Diferencias
Diferencias
% palabras
reconocidas
Lexicón
Evaluación del reconocedor con
diferentes modelos acústicos:
Resultados:
RN
% palabras reconocidas 96.79%
MOM-RN MOM
92.55%
91.09%
20. Características de las
aplicaciones
El problema general de reconocimiento de voz no está resuelto todavía!
Con la tecnología actual, los sistemas convierten el problema general en otro
más simple o fácil por medio de:
•limitando el tamaño del vocabulario
•limitando la forma de hablar
•restringiendo el rango posible de hablantes
•limitando el tipo de ruido ambiental
•limitando el tipo de habla (continua, espontánea)
Características deseables: Quitar los límites.
La idea es tener un sistema con vocabulario grande, que reconozca a
cualquier persona, que pueda manejar cualquier dominio del discurso y
cualquier estilo de hablar además de que pueda operar en cualquier
ambiente acústico.
21. Procesamiento del lenguaje
a varios niveles
El habla puede ser vista como una combinación compleja de información
de varios niveles usada para enviar un mensaje.
Niveles:
•Fonético y fonológico
•Léxico
•Morfológico
•Sintáctico
•Semántico
•Pragmático
•Del discurso
•Del mundo
Del reconocimiento de voz al entendimiento del lenguaje natural
utilizando sistemas multimodales.
22. Aplicaciones
•Dictado automático
•Para controlar equipos mecánicos y servicios
•Para ayudar a personas discapacitadas
(acceso, llamadas telefónicas, para aprender a hablar)
•Sistemas automovilísticos
•Para dar y obtener información (bases de datos, censo)
•Sistemas bancarios
•Solicitud de servicios (pizza, mensajería, directorio
telefónico)
•Diálogos en tareas cooperativas para lograr una meta
(reservación de vuelos)
•Navegar en Internet por medio de voz
•Traducción de conversaciones en varios idiomas
23. Conclusiones
•Es necesario generar más recursos lingüísticos en México para poder
desarrollar sistemas de reconocimiento de voz robustos.
•Es importante promover el área de tecnología del habla para formar grupos
de trabajo multidisciplinarios para investigación y educación en ésta área.
•Es necesario capacitar personas para que desarrollen sistemas de
reconocimiento de voz.
•El desarrollo de sistemas de lenguaje hablado permitirá que las personas
interactúen con las computadoras (vía telefónica o directa) usando el
lenguaje natural hablado.
Se grabaron hablantes de diferente sexo, edad, lugar de nacimiento,
todos los hablantes nacieron y han vivido en México, su lengua materna es el español
50% son de la zona centro, principalmente de DF y edo. de méxico
sureste, noroeste, costa del golfo y del pacifico