SlideShare una empresa de Scribd logo
1 de 77
Descargar para leer sin conexión
¿Se dieron cuenta que …?

INTRODUCCIÓN
Where can I
find a pack
of Camels?

‫أين يمكنني أن أجد مجموعة من الجمل؟‬

‫يمكن بلدي الزوجة‬
... ‫مساعدة‬

My wives can help…

EL PROBLEMA
Machine
Learning

Tecnologías
del Habla

LA SOLUCIÓN
Machine Learning
Machine
Learning

Proceso que permite a las

computadoras aprender de
los datos.
Machine
Learning

Algoritmos ML: descubren
relaciones entre las variables
de un sistema a partir de

observaciones del mismo.
Machine
Learning

𝑥1
𝑥2
⋮
𝑥𝑁
𝒙: Variables de
Entrada

Sistema
ℎ1 , ℎ2 , ⋯ , ℎ 𝐾
𝒉: Variables
Ocultas

𝑦1
𝑦2
⋮
𝑦𝑀
𝒚: Variables de
Salida
SI

No se dispone
de experiencia
humana,

Es difícil
explicitar la
experiencia
humana,

Machine
Learning

Las soluciones
cambian con el
tiempo

NO

Cuando se
conocen las
relaciones entre
variables del
sistema,
En la mayoría de
los casos reales
esto no se
cumple
Machine
Learning

Función de
Costo

Datos de
Entrenamiento

Representación
de Entradas

• Aprendizaje
Generativo
• Aprendizaje
Discriminativo

• Aprendizaje
Supervisado
• Aprendizaje SemiSupervisado
• Aprendizaje no
Supervisado
• Aprendizaje Activo

• Representaciones
Esparsas
• Aprendizaje
Profundo

PARADIGMAS
Tecnologías
del Habla

Vinculadas con alguna

interacción mediante voz.
Areas de Investigación.

Reconocimiento
del Habla (ASR)

Síntesis del
Habla (TTS)

Realce del Habla

Identificación de
Hablantes (SID)

Identificación del
Lenguaje
Hablado (LID)

Codificación de
Habla

Interacción
Multimodal
HCI

Comunicación

Biometría y Clínica

•
•
•
•

• Filtrado
• Encoders
• Realces

• Reconocimiento de
hablantes
• Detección de patologías
• Terapéuticas

Entretenimiento

Educación

Varios

•
•
•
•
•

• Enseñanza Idiomas
• Canto

• Traducción habla-habla
• Speech analytics
• Monitoreo de medios

Agentes inteligentes
IVR
Comandos por voz
Navegación por voz

Síntesis de Canto
Conversión de voces
Avatares
Video Juegos
Juguetes

APLICACIONES DE TECNOLOGIAS DEL HABLA
Tecnologías
del Habla
Tecnologías
del Habla

Variabilidad, naturaleza

Disponibilidad de

Problema no resuelto, de

secuencial y dinámica

datos estandarizados

interés comercial

ATRACTIVOS DEL PROBLEMA
Variabilidad, naturaleza

Tecnologías
del Habla

secuencial y dinámica

Variabilidad

Variabilidad

Intra-Locutores

Inter-Locutores

• Estilos y velocidad
• Coarticulación
• Salud, Emociones
• Interlocutor
• Prosodia

DIFICULTADES

• Diferencias
anatómicas
• Socio-Culturales
• Acentos

Ruidos e
Interferencias
• Del locutor
• Externas

Variaciones en
el Medio
• En sensores
• Canales
• Codecs
Tecnologías
del Habla

DARPA: construcción de Corpus - definición de tareas
Corpus

Hs.

Lexicón

Locutores

Estilo

ATIS

10,2

< 2000

36

Habla espontánea, dominio
restringido

WSJ

73+8

5000 – 20000

?

Leída, continua

TIMIT

5,3

6100

630

Leída, continua

Switchboard

240

>3M

543

Espontánea, telefónica,
dominio restringido

Broadcast News

104

>1M

?

Leída, diálogos

DISPONIBILIDAD DE DATOS
Where can I
find a pack
of Camels?

‫أين يمكنني أن أجد مجموعة من الجمل؟‬

‫يمكن بلدي الزوجة‬
... ‫مساعدة‬

My wives can help…

EL PROBLEMA
Machine
Learning

Tecnologías
del Habla

LA SOLUCIÓN
Reconocimiento del Habla e
Identificación de Locutores

Voz a
Texto

Texto a
Texto

Síntesis del Habla

LA SOLUCIÓN

Texto a
Voz
Reconocimiento del Habla e
Identificación de Locutores

Voz a
Texto

Texto a
Texto

Síntesis del Habla

LA SOLUCIÓN

Texto a
Voz
Tecnologías
del Habla

Conversión de señal de voz a

secuencias de palabras
Tareas Relacionadas
Comprensión
del Habla
(ASU)

Detección de
Habla (SAD)

Identificación
de Hablantes
(SID)

RECONOCIMIENTO DEL HABLA

Realce de
Habla
Tecnologías
del Habla

- Complejidad

Tipo de Habla

Vocabulario

Conocimiento
del Usuario

Condiciones
de Uso

Tipo de
Aplicación

• Aislada

• Pequeño

• Dependiente

• Laboratorio

• Comando

• Conectada

• Mediano

• Adaptable

• Robusto

• Palabras clave

• Continua

• Grande

• Independiente

• Diálogo

• Dictado
• Close caption

+ Complejidad

TIPOS DE RECONOCEDORES
Tecnologías
del Habla

EVOLUCION HISTORICA
Tecnologías
del Habla

EVOLUCION HISTORICA
Tecnologías
del Habla

• Modelo de transmisión de
ideas entre humanos
• Contempla Síntesis,
Reconocimiento-Comprensión

CADENA DEL HABLA
Tecnologías
del Habla

Modelos
Acústicos

Habla
Parametrización
de la Señal

Decodificador

Posprocesamiento

Texto
Modelo de
Lenguaje

Diccionario de
Pronunciaciones

SISTEMA TÍPICO DE RECONOCIMIENTO DEL HABLA
Tecnologías
del Habla

1

Construcción de
Corpus de Texto

Construcción de
Modelo de
Lenguaje

Parametrización
2

Construcción
de Corpus de
Habla

Construcción de
Diccionario de
Pronunciaciones

Construcción
de Modelo
Acústico

de la Señal
3

Decodificador

CONSTRUCCION DE UN RECONOCEDOR
Tecnologías
del Habla

Objetivo: obtener datos de cómo
se usa el lenguaje en el dominio de
interés

Métodos: Web as a Corpus, libros,
diarios, subtítulos, etc.
Desafíos : Cómo conseguir el
dataset más parecidos a lo que se
deberá reconocer, cómo adaptar
corpus

Selección
Normalización

Base de Datos

CONSTRUCCION DE UN CORPUS DE TEXTO
Tecnologías
del Habla

Objetivo: Modelar frases
"aceptables" de acuerdo a una

sintaxis
Métodos: Basados en reglas (CFG)
o estadísticos (N-gramas)
Desafíos : Cómo construir rápida y
eficientemente un modelo de
lenguaje para una tarea nueva (otro
contexto)

unigrama

el
P(gato | el)

bigramas

perro

gato
P(ronrronea | el, gato)

trigramas

ladra

corre

ronrronea

CONSTRUCCION DEL MODELO DE LENGUAJE
Disponibilidad de Datos

Tecnologías
del Habla

Contenido por frase:

Tipos de Frases:

file.txt: transcripción ortográfica

SX: fonéticamente compactas Buena

file.wav archivo con la señal

cobertura de cada par de fonos

acústica

SI: diversidad fonética, para

file.phn anotación fonética con

diferentes contextos alofónicos

segmentación temporal

SA: diversas pronunciaciones

file.wrd anotación ortográfica con

dialectales

alineamiento temporal a nivel
palabras

CONSTRUCCION DE UN CORPUS DE HABLA
Tecnologías
del Habla

Objetivo: extraer características
robustas y relevantes para clasificar
los patrones
Métodos: Análisis STF (MFCC,
LPC, Rasta), compensaciones no
lineales y normalización. Cada
ventana se representa usando
~40 rasgos.
Desafíos : robustez al entorno,
dispositivos, locutores, ruido y ecos.

PARAMETRIZACION DEL HABLA
Tecnologías
del Habla

tapas
Objetivo: Obtener modelos que

permitan caracterizar los sonidos del
habla

mapas

Métodos: Se representa cada unidad

acústica con HMMs . Probabilidades

Trifono
/apa/

de emisión fdp GMM o ANN
Desafíos : precisión, robustez al

rapada

entorno, dispositivos, locutores, ruidos

y ecos.

CONSTRUCCION DEL MODELO ACUSTICO
Tecnologías
del Habla

• Capaces de resolver
implícitamente segmentación y

clasificación de unidades
• Entrenamiento escalable, métodos
eficientes para aprendizaje y
decodificación, buen desempeño
• Estado del arte desde hace más de
30 años

MODELOS OCULTOS DE MARKOV
Tecnologías
del Habla

Modelan procesos temporales discretos bivariados:

Cada HMM está caracterizado por la tupla 𝜆 𝑺, 𝑨, 𝑩, 𝝅, 𝒀
• 𝑺 = 𝑆1 , 𝑆2 , ⋯ , 𝑆 𝑁 estados posibles del modelo.
• 𝑨 = 𝑎 𝑖𝑗 matriz de transiciones entre estados
• 𝐵 = 𝑏 𝑗 (𝑘) probabilidad de emisión del símbolo 𝑦 𝑘 al activarse 𝑆 𝑗
• π = {𝜋(𝑖)} distribución de probabilidades para estados iniciales

• 𝑌 = 𝑦1 , 𝑦2 , ⋯ , 𝑦 𝑀 posibles observaciones de las emisiones.

MODELOS OCULTOS DE MARKOV

𝑆 𝑘, 𝑌𝑘
Tecnologías
del Habla

Objetivo: Mapear representaciones

casa
hongo
Argentina

acústicas y grafémicas
Métodos: Basados en reglas, o en
Machine Learning
Desafíos : Cómo generar de manera
automática un lexicón, agregar nuevas
variantes dialectales y pronunciaciones

kasa
ONGo
arCentina

CONSTRUCCION MODELO DE PRONUNCIACIONES
Tecnologías
del Habla

Modelos
Acústicos

Modelo de
Lenguaje

Objetivo: generar secuencia óptima de
palabras combinando el modelo
acústico, de lenguaje y de
pronunciaciones
Métodos: algoritmo de Viterbi

Evidencias
Acústicas

Desafíos : Construir estructuras
eficientes para decodificación y
búsqueda en tareas de gran vocabulario
y modelos de lenguajes complejos.

Modelos de
Pronunciaciones
Decodificador

N-Mejores Hipótesis

CONSTRUCCION DEL DECODIFICADOR
Tecnologías
del Habla

• Marco matemático bien definido
• Usan ejemplos etiquetados y algoritmos de entrenamiento
para obtener modelos de los patrones de voz
• Representación mediante plantillas, o modelos estadísticos
• Se puede construir modelos de diferentes unidades acústicas
(fonemas, sílabas, palabras, etc.)

RECONOCEDORES ESTADÍSTICOS
Habla
Entrenamiento

Texto

Transcripción

Análisis Léxico

Modelo de
Lenguaje

COMO FUNCIONA

Procesamiento
de Señales

Corpus
Orales

Modelo
Acústico

Procesamiento
de Señales

P (O | W)

Búsqueda
P (W)

Reconocimiento

Texto

Análisis
Gramatical

Habla
Reconocimiento del Habla e
Identificación de Locutores

Voz a
Texto

Texto a
Texto

Síntesis del Habla

LA SOLUCIÓN

Texto a
Voz
Tecnologías
del Habla

Inferir la identidad de hablantes a partir de
sus señales de habla
Verificación

Identificación

Valida mediante
la voz si un
hablante es
quien dice ser

Determina de
quién es una
muestra de habla
determinada

Decisión binaria.
Ej. Sistemas de
acceso

Decisión 1 de N.
Ej. Quién hizo
una llamada
extorsiva?

IDENTIFICACIÓN DE HABLANTES
Tecnologías
del Habla

Parámetros de alto nivel
(componentes adquiridos)

…
<S> dale, te copio

Idiolecto
Prosodia

/O/ /N/ /G/ /o/

Parámetros de bajo nivel
(componentes físicos)

ATRIBUTOS EMPLEADOS

Fonética
Espectral
Objetivo: Mapear representaciones
acústicas y grafémicas
Métodos: Supervectores, JFA,
i-Vectores, PLDA
Desafíos : Cómo enrolar con pocas
muestras nuevos hablantes, hacer el
proceso adaptable a cambios del locutor

y canal

ATRIBUTOS EMPLEADOS

Tecnologías
del Habla
Reconocimiento del Habla e
Identificación de Locutores

Voz a
Texto

Texto a
Texto

Síntesis del Habla

LA SOLUCIÓN

Texto a
Voz
Tecnologías
del Habla

Generación artificial de habla humana a partir
de un texto de entrada, con el objetivo de
que suene inteligible y natural

Estado de las implementaciones comerciales:
• Inteligibilidad: próxima a la del habla humana.
• Naturalidad: deficiente debido a una inadecuada predicción
de la prosodia, y/o problemas en la concatenación debido a la
selección de unidades

SÍNTESIS DEL HABLA
Tecnologías
del Habla

Haskins,
1959

Dec
Talk
1987

MIT,
1976

KTHStocholm,
1962

Speak
‘N Spell,
1980

EVOLUCIÓN DE LA SÍNTESIS DEL HABLA
Tecnologías
del Habla

Nuance

Loquendo

Cepstral

AT&T

ESTADO ACTUAL
Tecnologías
del Habla

1. Síntesis concatenativa: se construye una BD de unidades
acústicas, que se seleccionan y concatenan para generar
habla.
2. Síntesis Paramétrica-Estadística: usa HMMs como
modelos generativos para producir habla. Usan modelos
acústicos dependientes del contexto.

PARADIGMAS DE SÍNTESIS DEL HABLA
Conversor Texto a Voz
Texto
• Normalización
• Preprocesamiento
Análisis de • POS Tagging

Base de
Unidades

Análisis
Fonético

Análisis
Prosódico

• Conversor Grafema a
Fonema

• Pausas
• Entonación
• Duraciones

Sintetizador

Procesador NLP

Texto

SÍNTESIS CONCATENATIVA

Selección Segmentos

Habla
Postprocesamiento
• Estilizado Espectral
• Adaptación Prosódica
Conversor Texto a Voz
Texto
• Normalización
• Preprocesamiento
Análisis de • POS Tagging

Modelos
Acústicos

Análisis
Fonético

Análisis
Prosódico

• Conversor Grafema a
Fonema

• Pausas
• Entonación
• Duraciones

SÍNTESIS PARAMÉTRICA

Sintetizador

Procesador NLP

Texto

Generación de
Unidades

Habla
Postprocesamiento
• Estilizado Espectral
• Adaptación Prosódica
Normalización del Texto
• Detecta símbolos

Registro Nº 57 del 20/10/13. El Sr. Pérez depositó $100.000.
Dirección: L.N. Além 255, CABA

ortográficos y resuelve
ambigüedades

Registro Nº 57 del 20/10/13. El Sr. Pérez depositó $100,000.
Dirección: L.N. Além 255, CABA

• Tokeniza
• Clasifica palabras según
sus rasgos

Registro (Nº 57)Num, del (20/10/13)Date
El (Sr. Pérez)Name depositó ($100)Currency
Dirección: ( L.N. Além 255, CABA)Address

PROCESAMIENTO DE TEXTO
Preprocesamiento
• Expande abreviaturas, deletrea
acrónimos, transforma números,
separa en sílabas.

• Determina la tonicidad de las
palabras

PROCESAMIENTO DE TEXTO

El 20/10/13 el
Sr. Pérez
depositó $100

El 20 de
octubre de
2013 el Sr.
Pérez depositó
$100
El veinte de
octubre de dos
mil trece el
señor Pérez
depositó cien
pesos
Analizador Morfo-Sintáctico

• Localiza y etiqueta estructuras sintácticas en frases de
entrada

Raíz

Sujeto

el

señor

Predicado

Pérez

Verbo

depositó

PROCESAMIENTO DE TEXTO

Objeto

cien mil

pesos
Preferencia por TTS basado en HMMs

HMM requieren menos espacio de
almacenamiento que las señales, menor
complejidad de búsqueda
Se busca adaptar los sintetizadores a voces
específicas requiriendo pocas muestras

TENDENCIAS ACTUALES
Deep Learning
Tecnologías
del Habla

• Algoritmos de ML, sometidos a la “curse of dimensionality”
• Estrategia usada para superar ese problema: pre-procesar los datos

para reducir su dimensionalidad (pérdida de información)
• El cerebro no pre-procesa información sensorial, sino que permite

su propagación por módulos que aprenden a representar las
observaciones

DEEP LEARNING
Tecnologías
del Habla

• Modelos computacionales para representación de información
inspirados en la neocorteza: emplean abstracciones jerárquicas

y construcción gradual de representaciones en niveles
incrementales de abstracción

• Buscan capturar dependencias espacio-temporales en base a
regularidades en las observaciones

DEEP LEARNING
Tecnologías
del Habla

• Dificultades para entrenar redes neuronales con más de 2
capas (“vanishing gradients”)

• Introducción de Redes de Creencia Profunda (DBN) y
algoritmos basados en auto-codificadores, permiten entrenar
múltiples capas intermedias
• Guían el entrenamiento de los niveles de representación
intermedios usando aprendizaje no supervisado a nivel local

DEEP LEARNING
Redes neuronales estocásticas compuestas por:
1. Capa de unidades visibles (𝑣 𝑖 )
2. Capa de unidades ocultas (ℎ 𝑖 )
3. Unidad de bias (𝑏)

• Unidades visibles conectadas a todas las unidades ocultas.

• Unidad de bias conectada a unidades visibles y ocultas.
• Sin conexiones entre unidades visibles ni entre unidades ocultas

RBMs
• Conformados por conjuntos

de RBM
• Cada capa representa un

atributo latente del dominio
• Nodos latentes de capas

previas pasan a ser entradas
de las capas siguientes

REDES DE CREENCIA PROFUNDA
• Se trata cada capa como una RBM entrenada mediante
convergencia contrastiva
• Se van entrenando desde la capa inferior hacia arriba
• Cuando se entrena la k-ésima capa, se usa como entrada
los nodos latentes de la capa k-1
• Aprendizaje goloso, no hay garantía de optimalidad
• Este pre-entrenamiento genera una buena inicialización
para un entrenamiento supervisado posterior

ENTRENAMIENTO POR CAPAS
Tecnologías
del Habla

ENTRENAMIENTO POR CAPAS
DBN, modelos generativos, se pueden emplear en tareas
discriminativas
• Se hace un pre-entrenamiento de las DBNs donde se
ajustan los pesos para representar los atributos latentes
• Se inicializan los pesos de una ANN con los de la DBN
entrenada
• Se efectúa un ajuste fino de manera supervisada
empleando backpropagation convencional

ENTRENAMIENTO POR CAPAS
Aplicaciones
Deep Belief Networks for Phone Recognition. [Mohamed, Dahl,
Hinton]. Proc. NIPS Workshop, 2009

• Corpus TIMIT
• Modelo de
Lenguaje de
Bigramas sobre
fonos

Method

PER %

Recurrent Neural Network

26,1

Bayesian Triphone HMM

25,6

Monophone HTM

24,8

Heterogeneous Classifiers

24,4

DBNs

23,0
Aplicaciones
[Dahl, Yu, Deng, Acero] Context-Dependent Pre-Trained DNN for LVSR
IEEE Trans. On Audio, Speech, And Language Processing, Vol. 20 (2012)

Model

Sentence Error (%)

CD-GMM-HMM ML

39.6

CD-GMM-HMM MMI

37.2

CD-GMM-HMM MPE

36.2

CD-DNN-HMM (5 hidden layers)

30.4
Como Seguir…
Reconocimiento

Sistemas
- HTK
- KALDI
- Sphinx
Datos
- VoxForge

RECURSOS DISPONIBLES

Síntesis

Sistemas
- Festival
- Mary
CRASH
COURSE
Gracias.
Anexo
Asumiendo conocidos los pesos de conexión 𝑤,
1. Calcular la energía de activación de la unidad 𝑖 :
𝑎𝑖 =

ω 𝑖𝑗 𝑣 𝑗
𝑗

2. Calcular 𝑝 𝑖 , la probabilidad de activación de la unidad 𝑖:
1
𝑝𝑖 = σ 𝑎 𝑖 =
1 + 𝑒 −𝑎 𝑖
3. Para energías de activación positivas grandes 𝑝 𝑖 tiende a
1 y a 0 para energías de activación negativas

ENTRENAMIENTO DE RBM. ACTIVACIÓN
Dado un conjunto de entrenamiento binario, para cada época:
1. Setear el estado de las unidades visibles a los valores del vector
observado (𝒗 = 𝒙)

2. Actualizar los estados de las unidades ocultas ℎ 𝑗 calculando la
energía de activación:
𝑎𝑗 =

𝑖 ω 𝑖𝑗 𝑣 𝑖

3. Hacer ℎ 𝑗 =1 con probabilidad σ 𝑎 𝑗

APRENDIZAJE DE PESOS
4.Para cada arco

𝑒 𝑖𝑗

calcular:
Positivos(𝑒 𝑖𝑗 )= 𝑥 𝑖 ∗ 𝑥 𝑗

5.Reconstruir las unidades visibles de igual manera:
para cada neurona visible calcular su energía de
activación 𝑎 𝑖 y actualizar su estado.
6.A partir de los valores de unidades visibles
reconstruidos, actualizar las unidades ocultas y
calcular para cada arco:
Negativos(𝑒 𝑖𝑗 )= 𝑥 𝑖 ∗ 𝑥 𝑗

APRENDIZAJE DE PESOS
7. Actualizar los pesos para cada arco 𝑒 𝑖𝑗 haciendo:
ω 𝑖𝑗 = ω 𝑖𝑗 + 𝐿 ∗ [Positivos(𝑒 𝑖𝑗 ) - Negativos(𝑒 𝑖𝑗 )]
donde L es la tasa de aprendizaje.
8. Repetir el procedimiento para todos los casos de
entrenamiento. Continuar hasta la convergencia de
la red o un límite de épocas.
Esta regla de actualización de pesos se conoce como
divergencia contrastiva

APRENDIZAJE DE PESOS
Machine Learning y Tecnologías del Habla - Into Talk

Más contenido relacionado

Destacado

VilanovaDIBA14 Ferran Adria Cristina Crespo
VilanovaDIBA14 Ferran Adria Cristina CrespoVilanovaDIBA14 Ferran Adria Cristina Crespo
VilanovaDIBA14 Ferran Adria Cristina Crespo648984564
 
Cómo vencer la resistencia a UX - Keikendo UX Summit 2013
Cómo vencer la resistencia a UX - Keikendo UX Summit 2013Cómo vencer la resistencia a UX - Keikendo UX Summit 2013
Cómo vencer la resistencia a UX - Keikendo UX Summit 2013Juan Manuel Carraro
 
Vencer la resistencia al Diseño Centrado en el Usuario
Vencer la resistencia al Diseño Centrado en el UsuarioVencer la resistencia al Diseño Centrado en el Usuario
Vencer la resistencia al Diseño Centrado en el UsuarioJuan Manuel Carraro
 
Diseño de Interfaces y Usabilidad
Diseño de Interfaces y UsabilidadDiseño de Interfaces y Usabilidad
Diseño de Interfaces y UsabilidadJuan Manuel Carraro
 

Destacado (6)

VilanovaDIBA14 Ferran Adria Cristina Crespo
VilanovaDIBA14 Ferran Adria Cristina CrespoVilanovaDIBA14 Ferran Adria Cristina Crespo
VilanovaDIBA14 Ferran Adria Cristina Crespo
 
Keikendo
KeikendoKeikendo
Keikendo
 
Cómo vencer la resistencia a UX - Keikendo UX Summit 2013
Cómo vencer la resistencia a UX - Keikendo UX Summit 2013Cómo vencer la resistencia a UX - Keikendo UX Summit 2013
Cómo vencer la resistencia a UX - Keikendo UX Summit 2013
 
Vencer la resistencia al Diseño Centrado en el Usuario
Vencer la resistencia al Diseño Centrado en el UsuarioVencer la resistencia al Diseño Centrado en el Usuario
Vencer la resistencia al Diseño Centrado en el Usuario
 
Diseño de Interfaces y Usabilidad
Diseño de Interfaces y UsabilidadDiseño de Interfaces y Usabilidad
Diseño de Interfaces y Usabilidad
 
Lean UX
Lean UXLean UX
Lean UX
 

Similar a Machine Learning y Tecnologías del Habla - Into Talk

Tecnologias del habla_reconocimiento
Tecnologias del habla_reconocimientoTecnologias del habla_reconocimiento
Tecnologias del habla_reconocimientoGablot Ier Van
 
Qué es la Inteligencia artificial generativa
Qué es la Inteligencia artificial generativaQué es la Inteligencia artificial generativa
Qué es la Inteligencia artificial generativaDecaunlz
 
natalia dopazo couto
natalia dopazo coutonatalia dopazo couto
natalia dopazo coutoecursocig
 
Presentacion traduccion automatica
Presentacion traduccion automaticaPresentacion traduccion automatica
Presentacion traduccion automaticadelpblan
 
C:\fakepath\necesidades educativas especiales
C:\fakepath\necesidades educativas especialesC:\fakepath\necesidades educativas especiales
C:\fakepath\necesidades educativas especialesnrestrepo14
 
Aprender ruby
Aprender rubyAprender ruby
Aprender rubyRené M
 
Tendencias y aplicaciones prácticas sobre tecnologías del habla - Pablo Gil |...
Tendencias y aplicaciones prácticas sobre tecnologías del habla - Pablo Gil |...Tendencias y aplicaciones prácticas sobre tecnologías del habla - Pablo Gil |...
Tendencias y aplicaciones prácticas sobre tecnologías del habla - Pablo Gil |...VOIP2DAY
 
Procesamiento del Lenguaje Natural
Procesamiento del Lenguaje NaturalProcesamiento del Lenguaje Natural
Procesamiento del Lenguaje Naturalmenamigue
 
ETAPAS DE PRODUCCIÓN DE RADIO
ETAPAS DE PRODUCCIÓN DE RADIOETAPAS DE PRODUCCIÓN DE RADIO
ETAPAS DE PRODUCCIÓN DE RADIOSalim Cassab
 
Complement del verb
Complement del verbComplement del verb
Complement del verbguest9f5196
 
Thesis presentation (WSD and Semantic Classes)
Thesis presentation (WSD and Semantic Classes)Thesis presentation (WSD and Semantic Classes)
Thesis presentation (WSD and Semantic Classes)Rubén Izquierdo Beviá
 
Inteligencia artificial rosaury rivera
Inteligencia artificial   rosaury riveraInteligencia artificial   rosaury rivera
Inteligencia artificial rosaury riveraRosaury Rivera
 

Similar a Machine Learning y Tecnologías del Habla - Into Talk (20)

Tecnologias del habla_reconocimiento
Tecnologias del habla_reconocimientoTecnologias del habla_reconocimiento
Tecnologias del habla_reconocimiento
 
La I. A. y el reconocimiento de voz
La I. A. y el reconocimiento de vozLa I. A. y el reconocimiento de voz
La I. A. y el reconocimiento de voz
 
Qué es la Inteligencia artificial generativa
Qué es la Inteligencia artificial generativaQué es la Inteligencia artificial generativa
Qué es la Inteligencia artificial generativa
 
natalia dopazo couto
natalia dopazo coutonatalia dopazo couto
natalia dopazo couto
 
Presentacion traduccion automatica
Presentacion traduccion automaticaPresentacion traduccion automatica
Presentacion traduccion automatica
 
C:\fakepath\necesidades educativas especiales
C:\fakepath\necesidades educativas especialesC:\fakepath\necesidades educativas especiales
C:\fakepath\necesidades educativas especiales
 
Aprender ruby
Aprender rubyAprender ruby
Aprender ruby
 
Clase 15 06
Clase 15 06Clase 15 06
Clase 15 06
 
Tendencias y aplicaciones prácticas sobre tecnologías del habla - Pablo Gil |...
Tendencias y aplicaciones prácticas sobre tecnologías del habla - Pablo Gil |...Tendencias y aplicaciones prácticas sobre tecnologías del habla - Pablo Gil |...
Tendencias y aplicaciones prácticas sobre tecnologías del habla - Pablo Gil |...
 
Procesamiento del Lenguaje Natural
Procesamiento del Lenguaje NaturalProcesamiento del Lenguaje Natural
Procesamiento del Lenguaje Natural
 
Radio
RadioRadio
Radio
 
Radio
RadioRadio
Radio
 
ETAPAS DE PRODUCCIÓN DE RADIO
ETAPAS DE PRODUCCIÓN DE RADIOETAPAS DE PRODUCCIÓN DE RADIO
ETAPAS DE PRODUCCIÓN DE RADIO
 
Radio
RadioRadio
Radio
 
Clase02 paradigmas
Clase02 paradigmasClase02 paradigmas
Clase02 paradigmas
 
Marco teorico
Marco teoricoMarco teorico
Marco teorico
 
Complement del verb
Complement del verbComplement del verb
Complement del verb
 
Thesis presentation (WSD and Semantic Classes)
Thesis presentation (WSD and Semantic Classes)Thesis presentation (WSD and Semantic Classes)
Thesis presentation (WSD and Semantic Classes)
 
Inteligencia artificial rosaury rivera
Inteligencia artificial   rosaury riveraInteligencia artificial   rosaury rivera
Inteligencia artificial rosaury rivera
 
Tics 1a version
Tics 1a versionTics 1a version
Tics 1a version
 

Más de Corvalius

Corvalius - More about us
Corvalius - More about usCorvalius - More about us
Corvalius - More about usCorvalius
 
Corvalius - Learn the basics about us
Corvalius - Learn the basics about usCorvalius - Learn the basics about us
Corvalius - Learn the basics about usCorvalius
 
Brochure (Español)
Brochure (Español)Brochure (Español)
Brochure (Español)Corvalius
 
Programming collaboratively in geographically distributed team
Programming collaboratively in geographically distributed teamProgramming collaboratively in geographically distributed team
Programming collaboratively in geographically distributed teamCorvalius
 
Requirements gathering with geographically distributed teams
Requirements gathering with geographically distributed teamsRequirements gathering with geographically distributed teams
Requirements gathering with geographically distributed teamsCorvalius
 
Keikendo - CodeCamp 2010
Keikendo - CodeCamp 2010Keikendo - CodeCamp 2010
Keikendo - CodeCamp 2010Corvalius
 
Observando lo observable (de t) CodeCamp 2010
Observando lo observable (de t) CodeCamp 2010Observando lo observable (de t) CodeCamp 2010
Observando lo observable (de t) CodeCamp 2010Corvalius
 
ECIMag 2010 - Clase 5/5
ECIMag 2010 - Clase 5/5ECIMag 2010 - Clase 5/5
ECIMag 2010 - Clase 5/5Corvalius
 
ECIMag 2010 - Clase 4/5
ECIMag 2010 - Clase 4/5ECIMag 2010 - Clase 4/5
ECIMag 2010 - Clase 4/5Corvalius
 
ECImag 2010 - Clase 3/5
ECImag 2010 - Clase 3/5ECImag 2010 - Clase 3/5
ECImag 2010 - Clase 3/5Corvalius
 
ECImag 2010 - Clase 2/5
ECImag 2010 - Clase 2/5ECImag 2010 - Clase 2/5
ECImag 2010 - Clase 2/5Corvalius
 
ECImag 2010 - Clase 1/5
ECImag 2010 - Clase 1/5ECImag 2010 - Clase 1/5
ECImag 2010 - Clase 1/5Corvalius
 
Run Reloaded 2009 Office Development
Run Reloaded 2009 Office DevelopmentRun Reloaded 2009 Office Development
Run Reloaded 2009 Office DevelopmentCorvalius
 
Code Camp 2009 Microsoft Surface
Code Camp 2009  Microsoft SurfaceCode Camp 2009  Microsoft Surface
Code Camp 2009 Microsoft SurfaceCorvalius
 
Code Camp 2009 - Cocinando Una Aplicación Silverlight 3
Code Camp 2009 - Cocinando Una Aplicación Silverlight 3Code Camp 2009 - Cocinando Una Aplicación Silverlight 3
Code Camp 2009 - Cocinando Una Aplicación Silverlight 3Corvalius
 

Más de Corvalius (15)

Corvalius - More about us
Corvalius - More about usCorvalius - More about us
Corvalius - More about us
 
Corvalius - Learn the basics about us
Corvalius - Learn the basics about usCorvalius - Learn the basics about us
Corvalius - Learn the basics about us
 
Brochure (Español)
Brochure (Español)Brochure (Español)
Brochure (Español)
 
Programming collaboratively in geographically distributed team
Programming collaboratively in geographically distributed teamProgramming collaboratively in geographically distributed team
Programming collaboratively in geographically distributed team
 
Requirements gathering with geographically distributed teams
Requirements gathering with geographically distributed teamsRequirements gathering with geographically distributed teams
Requirements gathering with geographically distributed teams
 
Keikendo - CodeCamp 2010
Keikendo - CodeCamp 2010Keikendo - CodeCamp 2010
Keikendo - CodeCamp 2010
 
Observando lo observable (de t) CodeCamp 2010
Observando lo observable (de t) CodeCamp 2010Observando lo observable (de t) CodeCamp 2010
Observando lo observable (de t) CodeCamp 2010
 
ECIMag 2010 - Clase 5/5
ECIMag 2010 - Clase 5/5ECIMag 2010 - Clase 5/5
ECIMag 2010 - Clase 5/5
 
ECIMag 2010 - Clase 4/5
ECIMag 2010 - Clase 4/5ECIMag 2010 - Clase 4/5
ECIMag 2010 - Clase 4/5
 
ECImag 2010 - Clase 3/5
ECImag 2010 - Clase 3/5ECImag 2010 - Clase 3/5
ECImag 2010 - Clase 3/5
 
ECImag 2010 - Clase 2/5
ECImag 2010 - Clase 2/5ECImag 2010 - Clase 2/5
ECImag 2010 - Clase 2/5
 
ECImag 2010 - Clase 1/5
ECImag 2010 - Clase 1/5ECImag 2010 - Clase 1/5
ECImag 2010 - Clase 1/5
 
Run Reloaded 2009 Office Development
Run Reloaded 2009 Office DevelopmentRun Reloaded 2009 Office Development
Run Reloaded 2009 Office Development
 
Code Camp 2009 Microsoft Surface
Code Camp 2009  Microsoft SurfaceCode Camp 2009  Microsoft Surface
Code Camp 2009 Microsoft Surface
 
Code Camp 2009 - Cocinando Una Aplicación Silverlight 3
Code Camp 2009 - Cocinando Una Aplicación Silverlight 3Code Camp 2009 - Cocinando Una Aplicación Silverlight 3
Code Camp 2009 - Cocinando Una Aplicación Silverlight 3
 

Último

Tema 17. Biología de los microorganismos 2024
Tema 17. Biología de los microorganismos 2024Tema 17. Biología de los microorganismos 2024
Tema 17. Biología de los microorganismos 2024IES Vicent Andres Estelles
 
Tema 19. Inmunología y el sistema inmunitario 2024
Tema 19. Inmunología y el sistema inmunitario 2024Tema 19. Inmunología y el sistema inmunitario 2024
Tema 19. Inmunología y el sistema inmunitario 2024IES Vicent Andres Estelles
 
La Evaluacion Formativa SM6 Ccesa007.pdf
La Evaluacion Formativa SM6  Ccesa007.pdfLa Evaluacion Formativa SM6  Ccesa007.pdf
La Evaluacion Formativa SM6 Ccesa007.pdfDemetrio Ccesa Rayme
 
animalesdelaproincia de beunos aires.pdf
animalesdelaproincia de beunos aires.pdfanimalesdelaproincia de beunos aires.pdf
animalesdelaproincia de beunos aires.pdfSofiaArias58
 
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESOPrueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESOluismii249
 
ACERTIJO EL NÚMERO PI COLOREA EMBLEMA OLÍMPICO DE PARÍS. Por JAVIER SOLIS NOYOLA
ACERTIJO EL NÚMERO PI COLOREA EMBLEMA OLÍMPICO DE PARÍS. Por JAVIER SOLIS NOYOLAACERTIJO EL NÚMERO PI COLOREA EMBLEMA OLÍMPICO DE PARÍS. Por JAVIER SOLIS NOYOLA
ACERTIJO EL NÚMERO PI COLOREA EMBLEMA OLÍMPICO DE PARÍS. Por JAVIER SOLIS NOYOLAJAVIER SOLIS NOYOLA
 
Plan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdf
Plan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdfPlan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdf
Plan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdfcarolinamartinezsev
 
Actividades para el 11 de Mayo día del himno.docx
Actividades para el 11 de Mayo día del himno.docxActividades para el 11 de Mayo día del himno.docx
Actividades para el 11 de Mayo día del himno.docxpaogar2178
 
Planeacion para 1er Grado - (2023-2024)-1.docx
Planeacion para 1er Grado - (2023-2024)-1.docxPlaneacion para 1er Grado - (2023-2024)-1.docx
Planeacion para 1er Grado - (2023-2024)-1.docxSarisdelosSantos1
 
10-08 Avances tecnológicos del siglo XXI.pdf
10-08 Avances tecnológicos del siglo XXI.pdf10-08 Avances tecnológicos del siglo XXI.pdf
10-08 Avances tecnológicos del siglo XXI.pdfVanyraCumplido
 
Diapositivas unidad de trabajo 7 sobre Coloración temporal y semipermanente
Diapositivas unidad de trabajo 7 sobre Coloración temporal y semipermanenteDiapositivas unidad de trabajo 7 sobre Coloración temporal y semipermanente
Diapositivas unidad de trabajo 7 sobre Coloración temporal y semipermanenteinmaculadatorressanc
 
Presentación de la propuesta de clase.pdf
Presentación de la propuesta de clase.pdfPresentación de la propuesta de clase.pdf
Presentación de la propuesta de clase.pdfFranciscoJavierEstra11
 
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESOPrueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESOluismii249
 
UNIDAD DIDACTICA nivel inicial EL SUPERMERCADO.docx
UNIDAD DIDACTICA nivel inicial EL SUPERMERCADO.docxUNIDAD DIDACTICA nivel inicial EL SUPERMERCADO.docx
UNIDAD DIDACTICA nivel inicial EL SUPERMERCADO.docxMaria Jimena Leon Malharro
 
Educacion Basada en Evidencias SM5 Ccesa007.pdf
Educacion Basada en Evidencias  SM5  Ccesa007.pdfEducacion Basada en Evidencias  SM5  Ccesa007.pdf
Educacion Basada en Evidencias SM5 Ccesa007.pdfDemetrio Ccesa Rayme
 

Último (20)

Tema 17. Biología de los microorganismos 2024
Tema 17. Biología de los microorganismos 2024Tema 17. Biología de los microorganismos 2024
Tema 17. Biología de los microorganismos 2024
 
Tema 19. Inmunología y el sistema inmunitario 2024
Tema 19. Inmunología y el sistema inmunitario 2024Tema 19. Inmunología y el sistema inmunitario 2024
Tema 19. Inmunología y el sistema inmunitario 2024
 
La Evaluacion Formativa SM6 Ccesa007.pdf
La Evaluacion Formativa SM6  Ccesa007.pdfLa Evaluacion Formativa SM6  Ccesa007.pdf
La Evaluacion Formativa SM6 Ccesa007.pdf
 
animalesdelaproincia de beunos aires.pdf
animalesdelaproincia de beunos aires.pdfanimalesdelaproincia de beunos aires.pdf
animalesdelaproincia de beunos aires.pdf
 
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESOPrueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
 
ACERTIJO EL NÚMERO PI COLOREA EMBLEMA OLÍMPICO DE PARÍS. Por JAVIER SOLIS NOYOLA
ACERTIJO EL NÚMERO PI COLOREA EMBLEMA OLÍMPICO DE PARÍS. Por JAVIER SOLIS NOYOLAACERTIJO EL NÚMERO PI COLOREA EMBLEMA OLÍMPICO DE PARÍS. Por JAVIER SOLIS NOYOLA
ACERTIJO EL NÚMERO PI COLOREA EMBLEMA OLÍMPICO DE PARÍS. Por JAVIER SOLIS NOYOLA
 
Plan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdf
Plan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdfPlan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdf
Plan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdf
 
Actividades para el 11 de Mayo día del himno.docx
Actividades para el 11 de Mayo día del himno.docxActividades para el 11 de Mayo día del himno.docx
Actividades para el 11 de Mayo día del himno.docx
 
Sesión de clase APC: Los dos testigos.pdf
Sesión de clase APC: Los dos testigos.pdfSesión de clase APC: Los dos testigos.pdf
Sesión de clase APC: Los dos testigos.pdf
 
Planeacion para 1er Grado - (2023-2024)-1.docx
Planeacion para 1er Grado - (2023-2024)-1.docxPlaneacion para 1er Grado - (2023-2024)-1.docx
Planeacion para 1er Grado - (2023-2024)-1.docx
 
Los dos testigos. Testifican de la Verdad
Los dos testigos. Testifican de la VerdadLos dos testigos. Testifican de la Verdad
Los dos testigos. Testifican de la Verdad
 
Power Point E. S.: Los dos testigos.pptx
Power Point E. S.: Los dos testigos.pptxPower Point E. S.: Los dos testigos.pptx
Power Point E. S.: Los dos testigos.pptx
 
10-08 Avances tecnológicos del siglo XXI.pdf
10-08 Avances tecnológicos del siglo XXI.pdf10-08 Avances tecnológicos del siglo XXI.pdf
10-08 Avances tecnológicos del siglo XXI.pdf
 
TÉCNICAS OBSERVACIONALES Y TEXTUALES.pdf
TÉCNICAS OBSERVACIONALES Y TEXTUALES.pdfTÉCNICAS OBSERVACIONALES Y TEXTUALES.pdf
TÉCNICAS OBSERVACIONALES Y TEXTUALES.pdf
 
Diapositivas unidad de trabajo 7 sobre Coloración temporal y semipermanente
Diapositivas unidad de trabajo 7 sobre Coloración temporal y semipermanenteDiapositivas unidad de trabajo 7 sobre Coloración temporal y semipermanente
Diapositivas unidad de trabajo 7 sobre Coloración temporal y semipermanente
 
Presentación de la propuesta de clase.pdf
Presentación de la propuesta de clase.pdfPresentación de la propuesta de clase.pdf
Presentación de la propuesta de clase.pdf
 
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESOPrueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESO
 
UNIDAD DIDACTICA nivel inicial EL SUPERMERCADO.docx
UNIDAD DIDACTICA nivel inicial EL SUPERMERCADO.docxUNIDAD DIDACTICA nivel inicial EL SUPERMERCADO.docx
UNIDAD DIDACTICA nivel inicial EL SUPERMERCADO.docx
 
Novena de Pentecostés con textos de san Juan Eudes
Novena de Pentecostés con textos de san Juan EudesNovena de Pentecostés con textos de san Juan Eudes
Novena de Pentecostés con textos de san Juan Eudes
 
Educacion Basada en Evidencias SM5 Ccesa007.pdf
Educacion Basada en Evidencias  SM5  Ccesa007.pdfEducacion Basada en Evidencias  SM5  Ccesa007.pdf
Educacion Basada en Evidencias SM5 Ccesa007.pdf
 

Machine Learning y Tecnologías del Habla - Into Talk

  • 1.
  • 2. ¿Se dieron cuenta que …? INTRODUCCIÓN
  • 3.
  • 4. Where can I find a pack of Camels? ‫أين يمكنني أن أجد مجموعة من الجمل؟‬ ‫يمكن بلدي الزوجة‬ ... ‫مساعدة‬ My wives can help… EL PROBLEMA
  • 6.
  • 8. Machine Learning Proceso que permite a las computadoras aprender de los datos.
  • 9. Machine Learning Algoritmos ML: descubren relaciones entre las variables de un sistema a partir de observaciones del mismo.
  • 10. Machine Learning 𝑥1 𝑥2 ⋮ 𝑥𝑁 𝒙: Variables de Entrada Sistema ℎ1 , ℎ2 , ⋯ , ℎ 𝐾 𝒉: Variables Ocultas 𝑦1 𝑦2 ⋮ 𝑦𝑀 𝒚: Variables de Salida
  • 11. SI No se dispone de experiencia humana, Es difícil explicitar la experiencia humana, Machine Learning Las soluciones cambian con el tiempo NO Cuando se conocen las relaciones entre variables del sistema, En la mayoría de los casos reales esto no se cumple
  • 12. Machine Learning Función de Costo Datos de Entrenamiento Representación de Entradas • Aprendizaje Generativo • Aprendizaje Discriminativo • Aprendizaje Supervisado • Aprendizaje SemiSupervisado • Aprendizaje no Supervisado • Aprendizaje Activo • Representaciones Esparsas • Aprendizaje Profundo PARADIGMAS
  • 13. Tecnologías del Habla Vinculadas con alguna interacción mediante voz. Areas de Investigación. Reconocimiento del Habla (ASR) Síntesis del Habla (TTS) Realce del Habla Identificación de Hablantes (SID) Identificación del Lenguaje Hablado (LID) Codificación de Habla Interacción Multimodal
  • 14. HCI Comunicación Biometría y Clínica • • • • • Filtrado • Encoders • Realces • Reconocimiento de hablantes • Detección de patologías • Terapéuticas Entretenimiento Educación Varios • • • • • • Enseñanza Idiomas • Canto • Traducción habla-habla • Speech analytics • Monitoreo de medios Agentes inteligentes IVR Comandos por voz Navegación por voz Síntesis de Canto Conversión de voces Avatares Video Juegos Juguetes APLICACIONES DE TECNOLOGIAS DEL HABLA
  • 16. Tecnologías del Habla Variabilidad, naturaleza Disponibilidad de Problema no resuelto, de secuencial y dinámica datos estandarizados interés comercial ATRACTIVOS DEL PROBLEMA
  • 17. Variabilidad, naturaleza Tecnologías del Habla secuencial y dinámica Variabilidad Variabilidad Intra-Locutores Inter-Locutores • Estilos y velocidad • Coarticulación • Salud, Emociones • Interlocutor • Prosodia DIFICULTADES • Diferencias anatómicas • Socio-Culturales • Acentos Ruidos e Interferencias • Del locutor • Externas Variaciones en el Medio • En sensores • Canales • Codecs
  • 18. Tecnologías del Habla DARPA: construcción de Corpus - definición de tareas Corpus Hs. Lexicón Locutores Estilo ATIS 10,2 < 2000 36 Habla espontánea, dominio restringido WSJ 73+8 5000 – 20000 ? Leída, continua TIMIT 5,3 6100 630 Leída, continua Switchboard 240 >3M 543 Espontánea, telefónica, dominio restringido Broadcast News 104 >1M ? Leída, diálogos DISPONIBILIDAD DE DATOS
  • 19. Where can I find a pack of Camels? ‫أين يمكنني أن أجد مجموعة من الجمل؟‬ ‫يمكن بلدي الزوجة‬ ... ‫مساعدة‬ My wives can help… EL PROBLEMA
  • 21. Reconocimiento del Habla e Identificación de Locutores Voz a Texto Texto a Texto Síntesis del Habla LA SOLUCIÓN Texto a Voz
  • 22. Reconocimiento del Habla e Identificación de Locutores Voz a Texto Texto a Texto Síntesis del Habla LA SOLUCIÓN Texto a Voz
  • 23. Tecnologías del Habla Conversión de señal de voz a secuencias de palabras Tareas Relacionadas Comprensión del Habla (ASU) Detección de Habla (SAD) Identificación de Hablantes (SID) RECONOCIMIENTO DEL HABLA Realce de Habla
  • 24. Tecnologías del Habla - Complejidad Tipo de Habla Vocabulario Conocimiento del Usuario Condiciones de Uso Tipo de Aplicación • Aislada • Pequeño • Dependiente • Laboratorio • Comando • Conectada • Mediano • Adaptable • Robusto • Palabras clave • Continua • Grande • Independiente • Diálogo • Dictado • Close caption + Complejidad TIPOS DE RECONOCEDORES
  • 27. Tecnologías del Habla • Modelo de transmisión de ideas entre humanos • Contempla Síntesis, Reconocimiento-Comprensión CADENA DEL HABLA
  • 28. Tecnologías del Habla Modelos Acústicos Habla Parametrización de la Señal Decodificador Posprocesamiento Texto Modelo de Lenguaje Diccionario de Pronunciaciones SISTEMA TÍPICO DE RECONOCIMIENTO DEL HABLA
  • 29. Tecnologías del Habla 1 Construcción de Corpus de Texto Construcción de Modelo de Lenguaje Parametrización 2 Construcción de Corpus de Habla Construcción de Diccionario de Pronunciaciones Construcción de Modelo Acústico de la Señal 3 Decodificador CONSTRUCCION DE UN RECONOCEDOR
  • 30. Tecnologías del Habla Objetivo: obtener datos de cómo se usa el lenguaje en el dominio de interés Métodos: Web as a Corpus, libros, diarios, subtítulos, etc. Desafíos : Cómo conseguir el dataset más parecidos a lo que se deberá reconocer, cómo adaptar corpus Selección Normalización Base de Datos CONSTRUCCION DE UN CORPUS DE TEXTO
  • 31. Tecnologías del Habla Objetivo: Modelar frases "aceptables" de acuerdo a una sintaxis Métodos: Basados en reglas (CFG) o estadísticos (N-gramas) Desafíos : Cómo construir rápida y eficientemente un modelo de lenguaje para una tarea nueva (otro contexto) unigrama el P(gato | el) bigramas perro gato P(ronrronea | el, gato) trigramas ladra corre ronrronea CONSTRUCCION DEL MODELO DE LENGUAJE
  • 32. Disponibilidad de Datos Tecnologías del Habla Contenido por frase: Tipos de Frases: file.txt: transcripción ortográfica SX: fonéticamente compactas Buena file.wav archivo con la señal cobertura de cada par de fonos acústica SI: diversidad fonética, para file.phn anotación fonética con diferentes contextos alofónicos segmentación temporal SA: diversas pronunciaciones file.wrd anotación ortográfica con dialectales alineamiento temporal a nivel palabras CONSTRUCCION DE UN CORPUS DE HABLA
  • 33. Tecnologías del Habla Objetivo: extraer características robustas y relevantes para clasificar los patrones Métodos: Análisis STF (MFCC, LPC, Rasta), compensaciones no lineales y normalización. Cada ventana se representa usando ~40 rasgos. Desafíos : robustez al entorno, dispositivos, locutores, ruido y ecos. PARAMETRIZACION DEL HABLA
  • 34. Tecnologías del Habla tapas Objetivo: Obtener modelos que permitan caracterizar los sonidos del habla mapas Métodos: Se representa cada unidad acústica con HMMs . Probabilidades Trifono /apa/ de emisión fdp GMM o ANN Desafíos : precisión, robustez al rapada entorno, dispositivos, locutores, ruidos y ecos. CONSTRUCCION DEL MODELO ACUSTICO
  • 35. Tecnologías del Habla • Capaces de resolver implícitamente segmentación y clasificación de unidades • Entrenamiento escalable, métodos eficientes para aprendizaje y decodificación, buen desempeño • Estado del arte desde hace más de 30 años MODELOS OCULTOS DE MARKOV
  • 36. Tecnologías del Habla Modelan procesos temporales discretos bivariados: Cada HMM está caracterizado por la tupla 𝜆 𝑺, 𝑨, 𝑩, 𝝅, 𝒀 • 𝑺 = 𝑆1 , 𝑆2 , ⋯ , 𝑆 𝑁 estados posibles del modelo. • 𝑨 = 𝑎 𝑖𝑗 matriz de transiciones entre estados • 𝐵 = 𝑏 𝑗 (𝑘) probabilidad de emisión del símbolo 𝑦 𝑘 al activarse 𝑆 𝑗 • π = {𝜋(𝑖)} distribución de probabilidades para estados iniciales • 𝑌 = 𝑦1 , 𝑦2 , ⋯ , 𝑦 𝑀 posibles observaciones de las emisiones. MODELOS OCULTOS DE MARKOV 𝑆 𝑘, 𝑌𝑘
  • 37. Tecnologías del Habla Objetivo: Mapear representaciones casa hongo Argentina acústicas y grafémicas Métodos: Basados en reglas, o en Machine Learning Desafíos : Cómo generar de manera automática un lexicón, agregar nuevas variantes dialectales y pronunciaciones kasa ONGo arCentina CONSTRUCCION MODELO DE PRONUNCIACIONES
  • 38. Tecnologías del Habla Modelos Acústicos Modelo de Lenguaje Objetivo: generar secuencia óptima de palabras combinando el modelo acústico, de lenguaje y de pronunciaciones Métodos: algoritmo de Viterbi Evidencias Acústicas Desafíos : Construir estructuras eficientes para decodificación y búsqueda en tareas de gran vocabulario y modelos de lenguajes complejos. Modelos de Pronunciaciones Decodificador N-Mejores Hipótesis CONSTRUCCION DEL DECODIFICADOR
  • 39. Tecnologías del Habla • Marco matemático bien definido • Usan ejemplos etiquetados y algoritmos de entrenamiento para obtener modelos de los patrones de voz • Representación mediante plantillas, o modelos estadísticos • Se puede construir modelos de diferentes unidades acústicas (fonemas, sílabas, palabras, etc.) RECONOCEDORES ESTADÍSTICOS
  • 40. Habla Entrenamiento Texto Transcripción Análisis Léxico Modelo de Lenguaje COMO FUNCIONA Procesamiento de Señales Corpus Orales Modelo Acústico Procesamiento de Señales P (O | W) Búsqueda P (W) Reconocimiento Texto Análisis Gramatical Habla
  • 41. Reconocimiento del Habla e Identificación de Locutores Voz a Texto Texto a Texto Síntesis del Habla LA SOLUCIÓN Texto a Voz
  • 42. Tecnologías del Habla Inferir la identidad de hablantes a partir de sus señales de habla Verificación Identificación Valida mediante la voz si un hablante es quien dice ser Determina de quién es una muestra de habla determinada Decisión binaria. Ej. Sistemas de acceso Decisión 1 de N. Ej. Quién hizo una llamada extorsiva? IDENTIFICACIÓN DE HABLANTES
  • 43. Tecnologías del Habla Parámetros de alto nivel (componentes adquiridos) … <S> dale, te copio Idiolecto Prosodia /O/ /N/ /G/ /o/ Parámetros de bajo nivel (componentes físicos) ATRIBUTOS EMPLEADOS Fonética Espectral
  • 44. Objetivo: Mapear representaciones acústicas y grafémicas Métodos: Supervectores, JFA, i-Vectores, PLDA Desafíos : Cómo enrolar con pocas muestras nuevos hablantes, hacer el proceso adaptable a cambios del locutor y canal ATRIBUTOS EMPLEADOS Tecnologías del Habla
  • 45. Reconocimiento del Habla e Identificación de Locutores Voz a Texto Texto a Texto Síntesis del Habla LA SOLUCIÓN Texto a Voz
  • 46. Tecnologías del Habla Generación artificial de habla humana a partir de un texto de entrada, con el objetivo de que suene inteligible y natural Estado de las implementaciones comerciales: • Inteligibilidad: próxima a la del habla humana. • Naturalidad: deficiente debido a una inadecuada predicción de la prosodia, y/o problemas en la concatenación debido a la selección de unidades SÍNTESIS DEL HABLA
  • 49. Tecnologías del Habla 1. Síntesis concatenativa: se construye una BD de unidades acústicas, que se seleccionan y concatenan para generar habla. 2. Síntesis Paramétrica-Estadística: usa HMMs como modelos generativos para producir habla. Usan modelos acústicos dependientes del contexto. PARADIGMAS DE SÍNTESIS DEL HABLA
  • 50. Conversor Texto a Voz Texto • Normalización • Preprocesamiento Análisis de • POS Tagging Base de Unidades Análisis Fonético Análisis Prosódico • Conversor Grafema a Fonema • Pausas • Entonación • Duraciones Sintetizador Procesador NLP Texto SÍNTESIS CONCATENATIVA Selección Segmentos Habla Postprocesamiento • Estilizado Espectral • Adaptación Prosódica
  • 51. Conversor Texto a Voz Texto • Normalización • Preprocesamiento Análisis de • POS Tagging Modelos Acústicos Análisis Fonético Análisis Prosódico • Conversor Grafema a Fonema • Pausas • Entonación • Duraciones SÍNTESIS PARAMÉTRICA Sintetizador Procesador NLP Texto Generación de Unidades Habla Postprocesamiento • Estilizado Espectral • Adaptación Prosódica
  • 52. Normalización del Texto • Detecta símbolos Registro Nº 57 del 20/10/13. El Sr. Pérez depositó $100.000. Dirección: L.N. Além 255, CABA ortográficos y resuelve ambigüedades Registro Nº 57 del 20/10/13. El Sr. Pérez depositó $100,000. Dirección: L.N. Além 255, CABA • Tokeniza • Clasifica palabras según sus rasgos Registro (Nº 57)Num, del (20/10/13)Date El (Sr. Pérez)Name depositó ($100)Currency Dirección: ( L.N. Além 255, CABA)Address PROCESAMIENTO DE TEXTO
  • 53. Preprocesamiento • Expande abreviaturas, deletrea acrónimos, transforma números, separa en sílabas. • Determina la tonicidad de las palabras PROCESAMIENTO DE TEXTO El 20/10/13 el Sr. Pérez depositó $100 El 20 de octubre de 2013 el Sr. Pérez depositó $100 El veinte de octubre de dos mil trece el señor Pérez depositó cien pesos
  • 54. Analizador Morfo-Sintáctico • Localiza y etiqueta estructuras sintácticas en frases de entrada Raíz Sujeto el señor Predicado Pérez Verbo depositó PROCESAMIENTO DE TEXTO Objeto cien mil pesos
  • 55. Preferencia por TTS basado en HMMs HMM requieren menos espacio de almacenamiento que las señales, menor complejidad de búsqueda Se busca adaptar los sintetizadores a voces específicas requiriendo pocas muestras TENDENCIAS ACTUALES
  • 57. Tecnologías del Habla • Algoritmos de ML, sometidos a la “curse of dimensionality” • Estrategia usada para superar ese problema: pre-procesar los datos para reducir su dimensionalidad (pérdida de información) • El cerebro no pre-procesa información sensorial, sino que permite su propagación por módulos que aprenden a representar las observaciones DEEP LEARNING
  • 58. Tecnologías del Habla • Modelos computacionales para representación de información inspirados en la neocorteza: emplean abstracciones jerárquicas y construcción gradual de representaciones en niveles incrementales de abstracción • Buscan capturar dependencias espacio-temporales en base a regularidades en las observaciones DEEP LEARNING
  • 59. Tecnologías del Habla • Dificultades para entrenar redes neuronales con más de 2 capas (“vanishing gradients”) • Introducción de Redes de Creencia Profunda (DBN) y algoritmos basados en auto-codificadores, permiten entrenar múltiples capas intermedias • Guían el entrenamiento de los niveles de representación intermedios usando aprendizaje no supervisado a nivel local DEEP LEARNING
  • 60. Redes neuronales estocásticas compuestas por: 1. Capa de unidades visibles (𝑣 𝑖 ) 2. Capa de unidades ocultas (ℎ 𝑖 ) 3. Unidad de bias (𝑏) • Unidades visibles conectadas a todas las unidades ocultas. • Unidad de bias conectada a unidades visibles y ocultas. • Sin conexiones entre unidades visibles ni entre unidades ocultas RBMs
  • 61. • Conformados por conjuntos de RBM • Cada capa representa un atributo latente del dominio • Nodos latentes de capas previas pasan a ser entradas de las capas siguientes REDES DE CREENCIA PROFUNDA
  • 62. • Se trata cada capa como una RBM entrenada mediante convergencia contrastiva • Se van entrenando desde la capa inferior hacia arriba • Cuando se entrena la k-ésima capa, se usa como entrada los nodos latentes de la capa k-1 • Aprendizaje goloso, no hay garantía de optimalidad • Este pre-entrenamiento genera una buena inicialización para un entrenamiento supervisado posterior ENTRENAMIENTO POR CAPAS
  • 64. DBN, modelos generativos, se pueden emplear en tareas discriminativas • Se hace un pre-entrenamiento de las DBNs donde se ajustan los pesos para representar los atributos latentes • Se inicializan los pesos de una ANN con los de la DBN entrenada • Se efectúa un ajuste fino de manera supervisada empleando backpropagation convencional ENTRENAMIENTO POR CAPAS
  • 65. Aplicaciones Deep Belief Networks for Phone Recognition. [Mohamed, Dahl, Hinton]. Proc. NIPS Workshop, 2009 • Corpus TIMIT • Modelo de Lenguaje de Bigramas sobre fonos Method PER % Recurrent Neural Network 26,1 Bayesian Triphone HMM 25,6 Monophone HTM 24,8 Heterogeneous Classifiers 24,4 DBNs 23,0
  • 66. Aplicaciones [Dahl, Yu, Deng, Acero] Context-Dependent Pre-Trained DNN for LVSR IEEE Trans. On Audio, Speech, And Language Processing, Vol. 20 (2012) Model Sentence Error (%) CD-GMM-HMM ML 39.6 CD-GMM-HMM MMI 37.2 CD-GMM-HMM MPE 36.2 CD-DNN-HMM (5 hidden layers) 30.4
  • 68. Reconocimiento Sistemas - HTK - KALDI - Sphinx Datos - VoxForge RECURSOS DISPONIBLES Síntesis Sistemas - Festival - Mary
  • 71.
  • 72. Anexo
  • 73. Asumiendo conocidos los pesos de conexión 𝑤, 1. Calcular la energía de activación de la unidad 𝑖 : 𝑎𝑖 = ω 𝑖𝑗 𝑣 𝑗 𝑗 2. Calcular 𝑝 𝑖 , la probabilidad de activación de la unidad 𝑖: 1 𝑝𝑖 = σ 𝑎 𝑖 = 1 + 𝑒 −𝑎 𝑖 3. Para energías de activación positivas grandes 𝑝 𝑖 tiende a 1 y a 0 para energías de activación negativas ENTRENAMIENTO DE RBM. ACTIVACIÓN
  • 74. Dado un conjunto de entrenamiento binario, para cada época: 1. Setear el estado de las unidades visibles a los valores del vector observado (𝒗 = 𝒙) 2. Actualizar los estados de las unidades ocultas ℎ 𝑗 calculando la energía de activación: 𝑎𝑗 = 𝑖 ω 𝑖𝑗 𝑣 𝑖 3. Hacer ℎ 𝑗 =1 con probabilidad σ 𝑎 𝑗 APRENDIZAJE DE PESOS
  • 75. 4.Para cada arco 𝑒 𝑖𝑗 calcular: Positivos(𝑒 𝑖𝑗 )= 𝑥 𝑖 ∗ 𝑥 𝑗 5.Reconstruir las unidades visibles de igual manera: para cada neurona visible calcular su energía de activación 𝑎 𝑖 y actualizar su estado. 6.A partir de los valores de unidades visibles reconstruidos, actualizar las unidades ocultas y calcular para cada arco: Negativos(𝑒 𝑖𝑗 )= 𝑥 𝑖 ∗ 𝑥 𝑗 APRENDIZAJE DE PESOS
  • 76. 7. Actualizar los pesos para cada arco 𝑒 𝑖𝑗 haciendo: ω 𝑖𝑗 = ω 𝑖𝑗 + 𝐿 ∗ [Positivos(𝑒 𝑖𝑗 ) - Negativos(𝑒 𝑖𝑗 )] donde L es la tasa de aprendizaje. 8. Repetir el procedimiento para todos los casos de entrenamiento. Continuar hasta la convergencia de la red o un límite de épocas. Esta regla de actualización de pesos se conoce como divergencia contrastiva APRENDIZAJE DE PESOS