Este documento resume las principales tecnologías relacionadas con el habla, incluyendo el reconocimiento del habla, la identificación de locutores, y la síntesis del habla. Describe brevemente los métodos, desafíos y aplicaciones de estas tecnologías.
11. SI
No se dispone
de experiencia
humana,
Es difícil
explicitar la
experiencia
humana,
Machine
Learning
Las soluciones
cambian con el
tiempo
NO
Cuando se
conocen las
relaciones entre
variables del
sistema,
En la mayoría de
los casos reales
esto no se
cumple
12. Machine
Learning
Función de
Costo
Datos de
Entrenamiento
Representación
de Entradas
• Aprendizaje
Generativo
• Aprendizaje
Discriminativo
• Aprendizaje
Supervisado
• Aprendizaje SemiSupervisado
• Aprendizaje no
Supervisado
• Aprendizaje Activo
• Representaciones
Esparsas
• Aprendizaje
Profundo
PARADIGMAS
13. Tecnologías
del Habla
Vinculadas con alguna
interacción mediante voz.
Areas de Investigación.
Reconocimiento
del Habla (ASR)
Síntesis del
Habla (TTS)
Realce del Habla
Identificación de
Hablantes (SID)
Identificación del
Lenguaje
Hablado (LID)
Codificación de
Habla
Interacción
Multimodal
14. HCI
Comunicación
Biometría y Clínica
•
•
•
•
• Filtrado
• Encoders
• Realces
• Reconocimiento de
hablantes
• Detección de patologías
• Terapéuticas
Entretenimiento
Educación
Varios
•
•
•
•
•
• Enseñanza Idiomas
• Canto
• Traducción habla-habla
• Speech analytics
• Monitoreo de medios
Agentes inteligentes
IVR
Comandos por voz
Navegación por voz
Síntesis de Canto
Conversión de voces
Avatares
Video Juegos
Juguetes
APLICACIONES DE TECNOLOGIAS DEL HABLA
21. Reconocimiento del Habla e
Identificación de Locutores
Voz a
Texto
Texto a
Texto
Síntesis del Habla
LA SOLUCIÓN
Texto a
Voz
22. Reconocimiento del Habla e
Identificación de Locutores
Voz a
Texto
Texto a
Texto
Síntesis del Habla
LA SOLUCIÓN
Texto a
Voz
23. Tecnologías
del Habla
Conversión de señal de voz a
secuencias de palabras
Tareas Relacionadas
Comprensión
del Habla
(ASU)
Detección de
Habla (SAD)
Identificación
de Hablantes
(SID)
RECONOCIMIENTO DEL HABLA
Realce de
Habla
24. Tecnologías
del Habla
- Complejidad
Tipo de Habla
Vocabulario
Conocimiento
del Usuario
Condiciones
de Uso
Tipo de
Aplicación
• Aislada
• Pequeño
• Dependiente
• Laboratorio
• Comando
• Conectada
• Mediano
• Adaptable
• Robusto
• Palabras clave
• Continua
• Grande
• Independiente
• Diálogo
• Dictado
• Close caption
+ Complejidad
TIPOS DE RECONOCEDORES
29. Tecnologías
del Habla
1
Construcción de
Corpus de Texto
Construcción de
Modelo de
Lenguaje
Parametrización
2
Construcción
de Corpus de
Habla
Construcción de
Diccionario de
Pronunciaciones
Construcción
de Modelo
Acústico
de la Señal
3
Decodificador
CONSTRUCCION DE UN RECONOCEDOR
30. Tecnologías
del Habla
Objetivo: obtener datos de cómo
se usa el lenguaje en el dominio de
interés
Métodos: Web as a Corpus, libros,
diarios, subtítulos, etc.
Desafíos : Cómo conseguir el
dataset más parecidos a lo que se
deberá reconocer, cómo adaptar
corpus
Selección
Normalización
Base de Datos
CONSTRUCCION DE UN CORPUS DE TEXTO
31. Tecnologías
del Habla
Objetivo: Modelar frases
"aceptables" de acuerdo a una
sintaxis
Métodos: Basados en reglas (CFG)
o estadísticos (N-gramas)
Desafíos : Cómo construir rápida y
eficientemente un modelo de
lenguaje para una tarea nueva (otro
contexto)
unigrama
el
P(gato | el)
bigramas
perro
gato
P(ronrronea | el, gato)
trigramas
ladra
corre
ronrronea
CONSTRUCCION DEL MODELO DE LENGUAJE
32. Disponibilidad de Datos
Tecnologías
del Habla
Contenido por frase:
Tipos de Frases:
file.txt: transcripción ortográfica
SX: fonéticamente compactas Buena
file.wav archivo con la señal
cobertura de cada par de fonos
acústica
SI: diversidad fonética, para
file.phn anotación fonética con
diferentes contextos alofónicos
segmentación temporal
SA: diversas pronunciaciones
file.wrd anotación ortográfica con
dialectales
alineamiento temporal a nivel
palabras
CONSTRUCCION DE UN CORPUS DE HABLA
33. Tecnologías
del Habla
Objetivo: extraer características
robustas y relevantes para clasificar
los patrones
Métodos: Análisis STF (MFCC,
LPC, Rasta), compensaciones no
lineales y normalización. Cada
ventana se representa usando
~40 rasgos.
Desafíos : robustez al entorno,
dispositivos, locutores, ruido y ecos.
PARAMETRIZACION DEL HABLA
34. Tecnologías
del Habla
tapas
Objetivo: Obtener modelos que
permitan caracterizar los sonidos del
habla
mapas
Métodos: Se representa cada unidad
acústica con HMMs . Probabilidades
Trifono
/apa/
de emisión fdp GMM o ANN
Desafíos : precisión, robustez al
rapada
entorno, dispositivos, locutores, ruidos
y ecos.
CONSTRUCCION DEL MODELO ACUSTICO
35. Tecnologías
del Habla
• Capaces de resolver
implícitamente segmentación y
clasificación de unidades
• Entrenamiento escalable, métodos
eficientes para aprendizaje y
decodificación, buen desempeño
• Estado del arte desde hace más de
30 años
MODELOS OCULTOS DE MARKOV
36. Tecnologías
del Habla
Modelan procesos temporales discretos bivariados:
Cada HMM está caracterizado por la tupla 𝜆 𝑺, 𝑨, 𝑩, 𝝅, 𝒀
• 𝑺 = 𝑆1 , 𝑆2 , ⋯ , 𝑆 𝑁 estados posibles del modelo.
• 𝑨 = 𝑎 𝑖𝑗 matriz de transiciones entre estados
• 𝐵 = 𝑏 𝑗 (𝑘) probabilidad de emisión del símbolo 𝑦 𝑘 al activarse 𝑆 𝑗
• π = {𝜋(𝑖)} distribución de probabilidades para estados iniciales
• 𝑌 = 𝑦1 , 𝑦2 , ⋯ , 𝑦 𝑀 posibles observaciones de las emisiones.
MODELOS OCULTOS DE MARKOV
𝑆 𝑘, 𝑌𝑘
37. Tecnologías
del Habla
Objetivo: Mapear representaciones
casa
hongo
Argentina
acústicas y grafémicas
Métodos: Basados en reglas, o en
Machine Learning
Desafíos : Cómo generar de manera
automática un lexicón, agregar nuevas
variantes dialectales y pronunciaciones
kasa
ONGo
arCentina
CONSTRUCCION MODELO DE PRONUNCIACIONES
38. Tecnologías
del Habla
Modelos
Acústicos
Modelo de
Lenguaje
Objetivo: generar secuencia óptima de
palabras combinando el modelo
acústico, de lenguaje y de
pronunciaciones
Métodos: algoritmo de Viterbi
Evidencias
Acústicas
Desafíos : Construir estructuras
eficientes para decodificación y
búsqueda en tareas de gran vocabulario
y modelos de lenguajes complejos.
Modelos de
Pronunciaciones
Decodificador
N-Mejores Hipótesis
CONSTRUCCION DEL DECODIFICADOR
39. Tecnologías
del Habla
• Marco matemático bien definido
• Usan ejemplos etiquetados y algoritmos de entrenamiento
para obtener modelos de los patrones de voz
• Representación mediante plantillas, o modelos estadísticos
• Se puede construir modelos de diferentes unidades acústicas
(fonemas, sílabas, palabras, etc.)
RECONOCEDORES ESTADÍSTICOS
41. Reconocimiento del Habla e
Identificación de Locutores
Voz a
Texto
Texto a
Texto
Síntesis del Habla
LA SOLUCIÓN
Texto a
Voz
42. Tecnologías
del Habla
Inferir la identidad de hablantes a partir de
sus señales de habla
Verificación
Identificación
Valida mediante
la voz si un
hablante es
quien dice ser
Determina de
quién es una
muestra de habla
determinada
Decisión binaria.
Ej. Sistemas de
acceso
Decisión 1 de N.
Ej. Quién hizo
una llamada
extorsiva?
IDENTIFICACIÓN DE HABLANTES
43. Tecnologías
del Habla
Parámetros de alto nivel
(componentes adquiridos)
…
<S> dale, te copio
Idiolecto
Prosodia
/O/ /N/ /G/ /o/
Parámetros de bajo nivel
(componentes físicos)
ATRIBUTOS EMPLEADOS
Fonética
Espectral
44. Objetivo: Mapear representaciones
acústicas y grafémicas
Métodos: Supervectores, JFA,
i-Vectores, PLDA
Desafíos : Cómo enrolar con pocas
muestras nuevos hablantes, hacer el
proceso adaptable a cambios del locutor
y canal
ATRIBUTOS EMPLEADOS
Tecnologías
del Habla
45. Reconocimiento del Habla e
Identificación de Locutores
Voz a
Texto
Texto a
Texto
Síntesis del Habla
LA SOLUCIÓN
Texto a
Voz
46. Tecnologías
del Habla
Generación artificial de habla humana a partir
de un texto de entrada, con el objetivo de
que suene inteligible y natural
Estado de las implementaciones comerciales:
• Inteligibilidad: próxima a la del habla humana.
• Naturalidad: deficiente debido a una inadecuada predicción
de la prosodia, y/o problemas en la concatenación debido a la
selección de unidades
SÍNTESIS DEL HABLA
49. Tecnologías
del Habla
1. Síntesis concatenativa: se construye una BD de unidades
acústicas, que se seleccionan y concatenan para generar
habla.
2. Síntesis Paramétrica-Estadística: usa HMMs como
modelos generativos para producir habla. Usan modelos
acústicos dependientes del contexto.
PARADIGMAS DE SÍNTESIS DEL HABLA
50. Conversor Texto a Voz
Texto
• Normalización
• Preprocesamiento
Análisis de • POS Tagging
Base de
Unidades
Análisis
Fonético
Análisis
Prosódico
• Conversor Grafema a
Fonema
• Pausas
• Entonación
• Duraciones
Sintetizador
Procesador NLP
Texto
SÍNTESIS CONCATENATIVA
Selección Segmentos
Habla
Postprocesamiento
• Estilizado Espectral
• Adaptación Prosódica
51. Conversor Texto a Voz
Texto
• Normalización
• Preprocesamiento
Análisis de • POS Tagging
Modelos
Acústicos
Análisis
Fonético
Análisis
Prosódico
• Conversor Grafema a
Fonema
• Pausas
• Entonación
• Duraciones
SÍNTESIS PARAMÉTRICA
Sintetizador
Procesador NLP
Texto
Generación de
Unidades
Habla
Postprocesamiento
• Estilizado Espectral
• Adaptación Prosódica
52. Normalización del Texto
• Detecta símbolos
Registro Nº 57 del 20/10/13. El Sr. Pérez depositó $100.000.
Dirección: L.N. Além 255, CABA
ortográficos y resuelve
ambigüedades
Registro Nº 57 del 20/10/13. El Sr. Pérez depositó $100,000.
Dirección: L.N. Além 255, CABA
• Tokeniza
• Clasifica palabras según
sus rasgos
Registro (Nº 57)Num, del (20/10/13)Date
El (Sr. Pérez)Name depositó ($100)Currency
Dirección: ( L.N. Além 255, CABA)Address
PROCESAMIENTO DE TEXTO
53. Preprocesamiento
• Expande abreviaturas, deletrea
acrónimos, transforma números,
separa en sílabas.
• Determina la tonicidad de las
palabras
PROCESAMIENTO DE TEXTO
El 20/10/13 el
Sr. Pérez
depositó $100
El 20 de
octubre de
2013 el Sr.
Pérez depositó
$100
El veinte de
octubre de dos
mil trece el
señor Pérez
depositó cien
pesos
54. Analizador Morfo-Sintáctico
• Localiza y etiqueta estructuras sintácticas en frases de
entrada
Raíz
Sujeto
el
señor
Predicado
Pérez
Verbo
depositó
PROCESAMIENTO DE TEXTO
Objeto
cien mil
pesos
55. Preferencia por TTS basado en HMMs
HMM requieren menos espacio de
almacenamiento que las señales, menor
complejidad de búsqueda
Se busca adaptar los sintetizadores a voces
específicas requiriendo pocas muestras
TENDENCIAS ACTUALES
57. Tecnologías
del Habla
• Algoritmos de ML, sometidos a la “curse of dimensionality”
• Estrategia usada para superar ese problema: pre-procesar los datos
para reducir su dimensionalidad (pérdida de información)
• El cerebro no pre-procesa información sensorial, sino que permite
su propagación por módulos que aprenden a representar las
observaciones
DEEP LEARNING
58. Tecnologías
del Habla
• Modelos computacionales para representación de información
inspirados en la neocorteza: emplean abstracciones jerárquicas
y construcción gradual de representaciones en niveles
incrementales de abstracción
• Buscan capturar dependencias espacio-temporales en base a
regularidades en las observaciones
DEEP LEARNING
59. Tecnologías
del Habla
• Dificultades para entrenar redes neuronales con más de 2
capas (“vanishing gradients”)
• Introducción de Redes de Creencia Profunda (DBN) y
algoritmos basados en auto-codificadores, permiten entrenar
múltiples capas intermedias
• Guían el entrenamiento de los niveles de representación
intermedios usando aprendizaje no supervisado a nivel local
DEEP LEARNING
60. Redes neuronales estocásticas compuestas por:
1. Capa de unidades visibles (𝑣 𝑖 )
2. Capa de unidades ocultas (ℎ 𝑖 )
3. Unidad de bias (𝑏)
• Unidades visibles conectadas a todas las unidades ocultas.
• Unidad de bias conectada a unidades visibles y ocultas.
• Sin conexiones entre unidades visibles ni entre unidades ocultas
RBMs
61. • Conformados por conjuntos
de RBM
• Cada capa representa un
atributo latente del dominio
• Nodos latentes de capas
previas pasan a ser entradas
de las capas siguientes
REDES DE CREENCIA PROFUNDA
62. • Se trata cada capa como una RBM entrenada mediante
convergencia contrastiva
• Se van entrenando desde la capa inferior hacia arriba
• Cuando se entrena la k-ésima capa, se usa como entrada
los nodos latentes de la capa k-1
• Aprendizaje goloso, no hay garantía de optimalidad
• Este pre-entrenamiento genera una buena inicialización
para un entrenamiento supervisado posterior
ENTRENAMIENTO POR CAPAS
64. DBN, modelos generativos, se pueden emplear en tareas
discriminativas
• Se hace un pre-entrenamiento de las DBNs donde se
ajustan los pesos para representar los atributos latentes
• Se inicializan los pesos de una ANN con los de la DBN
entrenada
• Se efectúa un ajuste fino de manera supervisada
empleando backpropagation convencional
ENTRENAMIENTO POR CAPAS
65. Aplicaciones
Deep Belief Networks for Phone Recognition. [Mohamed, Dahl,
Hinton]. Proc. NIPS Workshop, 2009
• Corpus TIMIT
• Modelo de
Lenguaje de
Bigramas sobre
fonos
Method
PER %
Recurrent Neural Network
26,1
Bayesian Triphone HMM
25,6
Monophone HTM
24,8
Heterogeneous Classifiers
24,4
DBNs
23,0
66. Aplicaciones
[Dahl, Yu, Deng, Acero] Context-Dependent Pre-Trained DNN for LVSR
IEEE Trans. On Audio, Speech, And Language Processing, Vol. 20 (2012)
Model
Sentence Error (%)
CD-GMM-HMM ML
39.6
CD-GMM-HMM MMI
37.2
CD-GMM-HMM MPE
36.2
CD-DNN-HMM (5 hidden layers)
30.4
73. Asumiendo conocidos los pesos de conexión 𝑤,
1. Calcular la energía de activación de la unidad 𝑖 :
𝑎𝑖 =
ω 𝑖𝑗 𝑣 𝑗
𝑗
2. Calcular 𝑝 𝑖 , la probabilidad de activación de la unidad 𝑖:
1
𝑝𝑖 = σ 𝑎 𝑖 =
1 + 𝑒 −𝑎 𝑖
3. Para energías de activación positivas grandes 𝑝 𝑖 tiende a
1 y a 0 para energías de activación negativas
ENTRENAMIENTO DE RBM. ACTIVACIÓN
74. Dado un conjunto de entrenamiento binario, para cada época:
1. Setear el estado de las unidades visibles a los valores del vector
observado (𝒗 = 𝒙)
2. Actualizar los estados de las unidades ocultas ℎ 𝑗 calculando la
energía de activación:
𝑎𝑗 =
𝑖 ω 𝑖𝑗 𝑣 𝑖
3. Hacer ℎ 𝑗 =1 con probabilidad σ 𝑎 𝑗
APRENDIZAJE DE PESOS
75. 4.Para cada arco
𝑒 𝑖𝑗
calcular:
Positivos(𝑒 𝑖𝑗 )= 𝑥 𝑖 ∗ 𝑥 𝑗
5.Reconstruir las unidades visibles de igual manera:
para cada neurona visible calcular su energía de
activación 𝑎 𝑖 y actualizar su estado.
6.A partir de los valores de unidades visibles
reconstruidos, actualizar las unidades ocultas y
calcular para cada arco:
Negativos(𝑒 𝑖𝑗 )= 𝑥 𝑖 ∗ 𝑥 𝑗
APRENDIZAJE DE PESOS
76. 7. Actualizar los pesos para cada arco 𝑒 𝑖𝑗 haciendo:
ω 𝑖𝑗 = ω 𝑖𝑗 + 𝐿 ∗ [Positivos(𝑒 𝑖𝑗 ) - Negativos(𝑒 𝑖𝑗 )]
donde L es la tasa de aprendizaje.
8. Repetir el procedimiento para todos los casos de
entrenamiento. Continuar hasta la convergencia de
la red o un límite de épocas.
Esta regla de actualización de pesos se conoce como
divergencia contrastiva
APRENDIZAJE DE PESOS