Machine Learning y Tecnologías del Habla - Into Talk

¿Se dieron cuenta que …?

INTRODUCCIÓN

Where can I
find a pack
of Camels?

‫أين يمكنني أن أجد مجموعة من الجمل؟‬

‫يمكن بلدي الزوجة‬
... ‫مساعدة‬

My wives can help…

EL PROBLEMA

Machine
Learning

Tecnologías
del Habla

LA SOLUCIÓN

Machine
Learning

Proceso que permite a las

computadoras aprender de
los datos.

Machine
Learning

Algoritmos ML: descubren
relaciones entre las variables
de un sistema a partir de

observaciones del mismo.

Machine
Learning

𝑥1
𝑥2
⋮
𝑥𝑁
𝒙: Variables de
Entrada

Sistema
ℎ1 , ℎ2 , ⋯ , ℎ 𝐾
𝒉: Variables
Ocultas

𝑦1
𝑦2
⋮
𝑦𝑀
𝒚: Variables de
Salida

SI

No se dispone
de experiencia
humana,

Es difícil
explicitar la
experiencia
humana,

Machine
Learning

Las soluciones
cambian con el
tiempo

NO

Cuando se
conocen las
relaciones entre
variables del
sistema,
En la mayoría de
los casos reales
esto no se
cumple

Machine
Learning

Función de
Costo

Datos de
Entrenamiento

Representación
de Entradas

• Aprendizaje
Generativo
• Aprendizaje
Discriminativo

• Aprendizaje
Supervisado
• Aprendizaje SemiSupervisado
• Aprendizaje no
Supervisado
• Aprendizaje Activo

• Representaciones
Esparsas
• Aprendizaje
Profundo

PARADIGMAS

Tecnologías
del Habla

Vinculadas con alguna

interacción mediante voz.
Areas de Investigación.

Reconocimiento
del Habla (ASR)

Síntesis del
Habla (TTS)

Realce del Habla

Identificación de
Hablantes (SID)

Identificación del
Lenguaje
Hablado (LID)

Codificación de
Habla

Interacción
Multimodal

HCI

Comunicación

Biometría y Clínica

•
•
•
•

• Filtrado
• Encoders
• Realces

• Reconocimiento de
hablantes
• Detección de patologías
• Terapéuticas

Entretenimiento

Educación

Varios

•
•
•
•
•

• Enseñanza Idiomas
• Canto

• Traducción habla-habla
• Speech analytics
• Monitoreo de medios

Agentes inteligentes
IVR
Comandos por voz
Navegación por voz

Síntesis de Canto
Conversión de voces
Avatares
Video Juegos
Juguetes

APLICACIONES DE TECNOLOGIAS DEL HABLA

Tecnologías
del Habla

Variabilidad, naturaleza

Disponibilidad de

Problema no resuelto, de

secuencial y dinámica

datos estandarizados

interés comercial

ATRACTIVOS DEL PROBLEMA

Variabilidad, naturaleza

Tecnologías
del Habla

secuencial y dinámica

Variabilidad

Variabilidad

Intra-Locutores

Inter-Locutores

• Estilos y velocidad
• Coarticulación
• Salud, Emociones
• Interlocutor
• Prosodia

DIFICULTADES

• Diferencias
anatómicas
• Socio-Culturales
• Acentos

Ruidos e
Interferencias
• Del locutor
• Externas

Variaciones en
el Medio
• En sensores
• Canales
• Codecs

Tecnologías
del Habla

DARPA: construcción de Corpus - definición de tareas
Corpus

Hs.

Lexicón

Locutores

Estilo

ATIS

10,2

< 2000

36

Habla espontánea, dominio
restringido

WSJ

73+8

5000 – 20000

?

Leída, continua

TIMIT

5,3

6100

630

Leída, continua

Switchboard

240

>3M

543

Espontánea, telefónica,
dominio restringido

Broadcast News

104

>1M

?

Leída, diálogos

DISPONIBILIDAD DE DATOS

Reconocimiento del Habla e
Identificación de Locutores

Voz a
Texto

Texto a
Texto

Síntesis del Habla

LA SOLUCIÓN

Texto a
Voz

Tecnologías
del Habla

Conversión de señal de voz a

secuencias de palabras
Tareas Relacionadas
Comprensión
del Habla
(ASU)

Detección de
Habla (SAD)

Identificación
de Hablantes
(SID)

RECONOCIMIENTO DEL HABLA

Realce de
Habla

Tecnologías
del Habla

- Complejidad

Tipo de Habla

Vocabulario

Conocimiento
del Usuario

Condiciones
de Uso

Tipo de
Aplicación

• Aislada

• Pequeño

• Dependiente

• Laboratorio

• Comando

• Conectada

• Mediano

• Adaptable

• Robusto

• Palabras clave

• Continua

• Grande

• Independiente

• Diálogo

• Dictado
• Close caption

+ Complejidad

TIPOS DE RECONOCEDORES

Tecnologías
del Habla

EVOLUCION HISTORICA

Tecnologías
del Habla

• Modelo de transmisión de
ideas entre humanos
• Contempla Síntesis,
Reconocimiento-Comprensión

CADENA DEL HABLA

Tecnologías
del Habla

Modelos
Acústicos

Habla
Parametrización
de la Señal

Decodificador

Posprocesamiento

Texto
Modelo de
Lenguaje

Diccionario de
Pronunciaciones

SISTEMA TÍPICO DE RECONOCIMIENTO DEL HABLA

Tecnologías
del Habla

1

Construcción de
Corpus de Texto

Construcción de
Modelo de
Lenguaje

Parametrización
2

Construcción
de Corpus de
Habla

Construcción de
Diccionario de
Pronunciaciones

Construcción
de Modelo
Acústico

de la Señal
3

Decodificador

CONSTRUCCION DE UN RECONOCEDOR

Tecnologías
del Habla

Objetivo: obtener datos de cómo
se usa el lenguaje en el dominio de
interés

Métodos: Web as a Corpus, libros,
diarios, subtítulos, etc.
Desafíos : Cómo conseguir el
dataset más parecidos a lo que se
deberá reconocer, cómo adaptar
corpus

Selección
Normalización

Base de Datos

CONSTRUCCION DE UN CORPUS DE TEXTO

Tecnologías
del Habla

Objetivo: Modelar frases
"aceptables" de acuerdo a una

sintaxis
Métodos: Basados en reglas (CFG)
o estadísticos (N-gramas)
Desafíos : Cómo construir rápida y
eficientemente un modelo de
lenguaje para una tarea nueva (otro
contexto)

unigrama

el
P(gato | el)

bigramas

perro

gato
P(ronrronea | el, gato)

trigramas

ladra

corre

ronrronea

CONSTRUCCION DEL MODELO DE LENGUAJE

Disponibilidad de Datos

Tecnologías
del Habla

Contenido por frase:

Tipos de Frases:

file.txt: transcripción ortográfica

SX: fonéticamente compactas Buena

file.wav archivo con la señal

cobertura de cada par de fonos

acústica

SI: diversidad fonética, para

file.phn anotación fonética con

diferentes contextos alofónicos

segmentación temporal

SA: diversas pronunciaciones

file.wrd anotación ortográfica con

dialectales

alineamiento temporal a nivel
palabras

CONSTRUCCION DE UN CORPUS DE HABLA

Tecnologías
del Habla

Objetivo: extraer características
robustas y relevantes para clasificar
los patrones
Métodos: Análisis STF (MFCC,
LPC, Rasta), compensaciones no
lineales y normalización. Cada
ventana se representa usando
~40 rasgos.
Desafíos : robustez al entorno,
dispositivos, locutores, ruido y ecos.

PARAMETRIZACION DEL HABLA

Tecnologías
del Habla

tapas
Objetivo: Obtener modelos que

permitan caracterizar los sonidos del
habla

mapas

Métodos: Se representa cada unidad

acústica con HMMs . Probabilidades

Trifono
/apa/

de emisión fdp GMM o ANN
Desafíos : precisión, robustez al

rapada

entorno, dispositivos, locutores, ruidos

y ecos.

CONSTRUCCION DEL MODELO ACUSTICO

Tecnologías
del Habla

• Capaces de resolver
implícitamente segmentación y

clasificación de unidades
• Entrenamiento escalable, métodos
eficientes para aprendizaje y
decodificación, buen desempeño
• Estado del arte desde hace más de
30 años

MODELOS OCULTOS DE MARKOV

Tecnologías
del Habla

Modelan procesos temporales discretos bivariados:

Cada HMM está caracterizado por la tupla 𝜆 𝑺, 𝑨, 𝑩, 𝝅, 𝒀
• 𝑺 = 𝑆1 , 𝑆2 , ⋯ , 𝑆 𝑁 estados posibles del modelo.
• 𝑨 = 𝑎 𝑖𝑗 matriz de transiciones entre estados
• 𝐵 = 𝑏 𝑗 (𝑘) probabilidad de emisión del símbolo 𝑦 𝑘 al activarse 𝑆 𝑗
• π = {𝜋(𝑖)} distribución de probabilidades para estados iniciales

• 𝑌 = 𝑦1 , 𝑦2 , ⋯ , 𝑦 𝑀 posibles observaciones de las emisiones.

MODELOS OCULTOS DE MARKOV

𝑆 𝑘, 𝑌𝑘

Tecnologías
del Habla

Objetivo: Mapear representaciones

casa
hongo
Argentina

acústicas y grafémicas
Métodos: Basados en reglas, o en
Machine Learning
Desafíos : Cómo generar de manera
automática un lexicón, agregar nuevas
variantes dialectales y pronunciaciones

kasa
ONGo
arCentina

CONSTRUCCION MODELO DE PRONUNCIACIONES

Tecnologías
del Habla

Modelos
Acústicos

Modelo de
Lenguaje

Objetivo: generar secuencia óptima de
palabras combinando el modelo
acústico, de lenguaje y de
pronunciaciones
Métodos: algoritmo de Viterbi

Evidencias
Acústicas

Desafíos : Construir estructuras
eficientes para decodificación y
búsqueda en tareas de gran vocabulario
y modelos de lenguajes complejos.

Modelos de
Pronunciaciones
Decodificador

N-Mejores Hipótesis

CONSTRUCCION DEL DECODIFICADOR

Tecnologías
del Habla

• Marco matemático bien definido
• Usan ejemplos etiquetados y algoritmos de entrenamiento
para obtener modelos de los patrones de voz
• Representación mediante plantillas, o modelos estadísticos
• Se puede construir modelos de diferentes unidades acústicas
(fonemas, sílabas, palabras, etc.)

RECONOCEDORES ESTADÍSTICOS

Habla
Entrenamiento

Texto

Transcripción

Análisis Léxico

Modelo de
Lenguaje

COMO FUNCIONA

Procesamiento
de Señales

Corpus
Orales

Modelo
Acústico

Procesamiento
de Señales

P (O | W)

Búsqueda
P (W)

Reconocimiento

Texto

Análisis
Gramatical

Habla

Tecnologías
del Habla

Inferir la identidad de hablantes a partir de
sus señales de habla
Verificación

Identificación

Valida mediante
la voz si un
hablante es
quien dice ser

Determina de
quién es una
muestra de habla
determinada

Decisión binaria.
Ej. Sistemas de
acceso

Decisión 1 de N.
Ej. Quién hizo
una llamada
extorsiva?

IDENTIFICACIÓN DE HABLANTES

Tecnologías
del Habla

Parámetros de alto nivel
(componentes adquiridos)

…
<S> dale, te copio

Idiolecto
Prosodia

/O/ /N/ /G/ /o/

Parámetros de bajo nivel
(componentes físicos)

ATRIBUTOS EMPLEADOS

Fonética
Espectral

Objetivo: Mapear representaciones
acústicas y grafémicas
Métodos: Supervectores, JFA,
i-Vectores, PLDA
Desafíos : Cómo enrolar con pocas
muestras nuevos hablantes, hacer el
proceso adaptable a cambios del locutor

y canal

ATRIBUTOS EMPLEADOS

Tecnologías
del Habla

Tecnologías
del Habla

Generación artificial de habla humana a partir
de un texto de entrada, con el objetivo de
que suene inteligible y natural

Estado de las implementaciones comerciales:
• Inteligibilidad: próxima a la del habla humana.
• Naturalidad: deficiente debido a una inadecuada predicción
de la prosodia, y/o problemas en la concatenación debido a la
selección de unidades

SÍNTESIS DEL HABLA

Tecnologías
del Habla

Haskins,
1959

Dec
Talk
1987

MIT,
1976

KTHStocholm,
1962

Speak
‘N Spell,
1980

EVOLUCIÓN DE LA SÍNTESIS DEL HABLA

Tecnologías
del Habla

Nuance

Loquendo

Cepstral

AT&T

ESTADO ACTUAL

Tecnologías
del Habla

1. Síntesis concatenativa: se construye una BD de unidades
acústicas, que se seleccionan y concatenan para generar
habla.
2. Síntesis Paramétrica-Estadística: usa HMMs como
modelos generativos para producir habla. Usan modelos
acústicos dependientes del contexto.

PARADIGMAS DE SÍNTESIS DEL HABLA

Conversor Texto a Voz
Texto
• Normalización
• Preprocesamiento
Análisis de • POS Tagging

Base de
Unidades

Análisis
Fonético

Análisis
Prosódico

• Conversor Grafema a
Fonema

• Pausas
• Entonación
• Duraciones

Sintetizador

Procesador NLP

Texto

SÍNTESIS CONCATENATIVA

Selección Segmentos

Habla
Postprocesamiento
• Estilizado Espectral
• Adaptación Prosódica

Conversor Texto a Voz
Texto
• Normalización
• Preprocesamiento
Análisis de • POS Tagging

Modelos
Acústicos

Análisis
Fonético

Análisis
Prosódico

• Conversor Grafema a
Fonema

• Pausas
• Entonación
• Duraciones

SÍNTESIS PARAMÉTRICA

Sintetizador

Procesador NLP

Texto

Generación de
Unidades

Habla
Postprocesamiento
• Estilizado Espectral
• Adaptación Prosódica

Normalización del Texto
• Detecta símbolos

Registro Nº 57 del 20/10/13. El Sr. Pérez depositó $100.000.
Dirección: L.N. Além 255, CABA

ortográficos y resuelve
ambigüedades

Registro Nº 57 del 20/10/13. El Sr. Pérez depositó $100,000.
Dirección: L.N. Além 255, CABA

• Tokeniza
• Clasifica palabras según
sus rasgos

Registro (Nº 57)Num, del (20/10/13)Date
El (Sr. Pérez)Name depositó ($100)Currency
Dirección: ( L.N. Além 255, CABA)Address

PROCESAMIENTO DE TEXTO

Preprocesamiento
• Expande abreviaturas, deletrea
acrónimos, transforma números,
separa en sílabas.

• Determina la tonicidad de las
palabras


El 20/10/13 el
Sr. Pérez
depositó $100

El 20 de
octubre de
2013 el Sr.
Pérez depositó
$100
El veinte de
octubre de dos
mil trece el
señor Pérez
depositó cien
pesos

Analizador Morfo-Sintáctico

• Localiza y etiqueta estructuras sintácticas en frases de
entrada

Raíz

Sujeto

el

señor

Predicado

Pérez

Verbo

depositó


Objeto

cien mil

pesos

Preferencia por TTS basado en HMMs

HMM requieren menos espacio de
almacenamiento que las señales, menor
complejidad de búsqueda
Se busca adaptar los sintetizadores a voces
específicas requiriendo pocas muestras

TENDENCIAS ACTUALES

Tecnologías
del Habla

• Algoritmos de ML, sometidos a la “curse of dimensionality”
• Estrategia usada para superar ese problema: pre-procesar los datos

para reducir su dimensionalidad (pérdida de información)
• El cerebro no pre-procesa información sensorial, sino que permite

su propagación por módulos que aprenden a representar las
observaciones

DEEP LEARNING

Tecnologías
del Habla

• Modelos computacionales para representación de información
inspirados en la neocorteza: emplean abstracciones jerárquicas

y construcción gradual de representaciones en niveles
incrementales de abstracción

• Buscan capturar dependencias espacio-temporales en base a
regularidades en las observaciones

DEEP LEARNING

Tecnologías
del Habla

• Dificultades para entrenar redes neuronales con más de 2
capas (“vanishing gradients”)

• Introducción de Redes de Creencia Profunda (DBN) y
algoritmos basados en auto-codificadores, permiten entrenar
múltiples capas intermedias
• Guían el entrenamiento de los niveles de representación
intermedios usando aprendizaje no supervisado a nivel local

DEEP LEARNING

Redes neuronales estocásticas compuestas por:
1. Capa de unidades visibles (𝑣 𝑖 )
2. Capa de unidades ocultas (ℎ 𝑖 )
3. Unidad de bias (𝑏)

• Unidades visibles conectadas a todas las unidades ocultas.

• Unidad de bias conectada a unidades visibles y ocultas.
• Sin conexiones entre unidades visibles ni entre unidades ocultas

RBMs

• Conformados por conjuntos

de RBM
• Cada capa representa un

atributo latente del dominio
• Nodos latentes de capas

previas pasan a ser entradas
de las capas siguientes

REDES DE CREENCIA PROFUNDA

• Se trata cada capa como una RBM entrenada mediante
convergencia contrastiva
• Se van entrenando desde la capa inferior hacia arriba
• Cuando se entrena la k-ésima capa, se usa como entrada
los nodos latentes de la capa k-1
• Aprendizaje goloso, no hay garantía de optimalidad
• Este pre-entrenamiento genera una buena inicialización
para un entrenamiento supervisado posterior

ENTRENAMIENTO POR CAPAS

Tecnologías
del Habla


DBN, modelos generativos, se pueden emplear en tareas
discriminativas
• Se hace un pre-entrenamiento de las DBNs donde se
ajustan los pesos para representar los atributos latentes
• Se inicializan los pesos de una ANN con los de la DBN
entrenada
• Se efectúa un ajuste fino de manera supervisada
empleando backpropagation convencional


Aplicaciones
Deep Belief Networks for Phone Recognition. [Mohamed, Dahl,
Hinton]. Proc. NIPS Workshop, 2009

• Corpus TIMIT
• Modelo de
Lenguaje de
Bigramas sobre
fonos

Method

PER %

Recurrent Neural Network

26,1

Bayesian Triphone HMM

25,6

Monophone HTM

24,8

Heterogeneous Classifiers

24,4

DBNs

23,0

Aplicaciones
[Dahl, Yu, Deng, Acero] Context-Dependent Pre-Trained DNN for LVSR
IEEE Trans. On Audio, Speech, And Language Processing, Vol. 20 (2012)

Model

Sentence Error (%)

CD-GMM-HMM ML

39.6

CD-GMM-HMM MMI

37.2

CD-GMM-HMM MPE

36.2

CD-DNN-HMM (5 hidden layers)

30.4

Reconocimiento

Sistemas
- HTK
- KALDI
- Sphinx
Datos
- VoxForge

RECURSOS DISPONIBLES

Síntesis

Sistemas
- Festival
- Mary

Asumiendo conocidos los pesos de conexión 𝑤,
1. Calcular la energía de activación de la unidad 𝑖 :
𝑎𝑖 =

ω 𝑖𝑗 𝑣 𝑗
𝑗

2. Calcular 𝑝 𝑖 , la probabilidad de activación de la unidad 𝑖:
1
𝑝𝑖 = σ 𝑎 𝑖 =
1 + 𝑒 −𝑎 𝑖
3. Para energías de activación positivas grandes 𝑝 𝑖 tiende a
1 y a 0 para energías de activación negativas

ENTRENAMIENTO DE RBM. ACTIVACIÓN

Dado un conjunto de entrenamiento binario, para cada época:
1. Setear el estado de las unidades visibles a los valores del vector
observado (𝒗 = 𝒙)

2. Actualizar los estados de las unidades ocultas ℎ 𝑗 calculando la
energía de activación:
𝑎𝑗 =

𝑖 ω 𝑖𝑗 𝑣 𝑖

3. Hacer ℎ 𝑗 =1 con probabilidad σ 𝑎 𝑗

APRENDIZAJE DE PESOS

4.Para cada arco

𝑒 𝑖𝑗

calcular:
Positivos(𝑒 𝑖𝑗 )= 𝑥 𝑖 ∗ 𝑥 𝑗

5.Reconstruir las unidades visibles de igual manera:
para cada neurona visible calcular su energía de
activación 𝑎 𝑖 y actualizar su estado.
6.A partir de los valores de unidades visibles
reconstruidos, actualizar las unidades ocultas y
calcular para cada arco:
Negativos(𝑒 𝑖𝑗 )= 𝑥 𝑖 ∗ 𝑥 𝑗


7. Actualizar los pesos para cada arco 𝑒 𝑖𝑗 haciendo:
ω 𝑖𝑗 = ω 𝑖𝑗 + 𝐿 ∗ [Positivos(𝑒 𝑖𝑗 ) - Negativos(𝑒 𝑖𝑗 )]
donde L es la tasa de aprendizaje.
8. Repetir el procedimiento para todos los casos de
entrenamiento. Continuar hasta la convergencia de
la red o un límite de épocas.
Esta regla de actualización de pesos se conoce como
divergencia contrastiva


Machine Learning y Tecnologías del Habla - Into Talk

Machine Learning y Tecnologías del Habla - Into Talk

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (6)

Similar a Machine Learning y Tecnologías del Habla - Into Talk

Similar a Machine Learning y Tecnologías del Habla - Into Talk (20)

Más de Corvalius

Más de Corvalius (15)

Último

Último (20)

Machine Learning y Tecnologías del Habla - Into Talk