1. VERIFICA CIÓN A UTOMÁ TICA DEL
LOCUTOR
ESPECIALIDAD: Comunicaciones y Electrónica
Juan Arturo Nolazco Flores
PhD Ingeniería Informática
Fecha de Ingreso: 15 de Noviembre, 2012.
4. VERIFICACIÓN A UTOMA'TICA DEL LOCUTOR
RESUMEN E)ECUTIVO
En el presente trabajo se presentó un sistema para Verificación de
Locutor basado en MVE (Minimum Verification Error), el cual es un
método discriminativo que minimiza el área bajo la curva en lugar de
optimizar un punto de operación.
Los resultados en señales limpias utilizando la técnica MVE mejoró a
la técnica convencional por más del 15.30%, y minimizando el área
bajo la curva todavía mejoró otro 2.22% mas. Aplicando la
minimización del área bajo la curva sobre JFA mejoró el resultado por
1.16% comparado con JFA puro.
Los resultados de AUC-JFA y AUC-MVE en señales corruptas con ruido
aditivo de diferentes tipos mejoran en un 6.05% y 10.49%
respectivamente con respecto al rendimiento de la técnica
convencional.
Palabras clave: verificación de personas, biométricas,
reconocimiento de patrones, reconocimiento de personas
Especialidad: Comunicaciones y Electrónica 4
5. VERIFICACIÓN AUTOMÁTICA DEL LOCUTOR
1. INTRODUCCIÓN
Los sistemas de reconocimiento biométrico utilizan alguna
característica de la persona para reconocerlo. Estas características
pueden ser intrusivas como pruebas de sangre; o puede ser no
intrusiva como características del rostro, de la palma de la mano, la
forma de caminar, la forma de hablar, el iris, etc.
Los sistemas de reconocimiento biométrico de personas se dividen en
sistemas de identificación y sistemas de verificación. En los sistemas
de identificación se desea obtener la persona que tiene las
características más parecidas a las presentadas. Generalmente, el
universo de personas que se busca es limitado, por ejemplo a un
departamento, a una empresa, a una ciudad, a afiliados, etc. En caso
de que se utilice identificación biométrica para una investigación
forense, entonces la principal amenaza para estos sistemas es que la
persona va a intente hablar diferente para evitar ser identificado.
En un sistema de verificación, el sistema coteja las características
biométricas del individuo con un modelo acústico de la persona quien
dice ser. El sistema debe de confirmar/negar si la personas es quien
dice ser. Los sistemas de verificación biométricas son generalmente
utilizados para control de acceso. La principal amenaza para los
sistemas de verificación de personas es que el individuo intente imitar
a la otra persona.
Los humanos utilizamos como uno de los medios de comunicación el
sonido generado por nuestra sistema bucal. La voz generada depende
de muchas variables como el tamaño, grosor, elasticidad de nuestras
cuerdas bucales, el tamaño de nuestra laringe, boca, etc. Tal es la
diferencia entre individuos de estas características que la voz se
puede utilizar como biométrica.
En el presente trabajo se presenta un sistema que se han diseñado y
desarrollado para realizar la tarea de verificación del locutor.
Con este sistema se ha participado en evaluaciones internacionales y
hemos obtenido muy buenos resultados.
En la sección 2 se presenta la arquitectura de un sistema para ASV
convencional. En esta arquitectura se presenta la función de cada
módulo de la arquitectura.
En la sección 3 se presenta la técnica JFK (Joint Factor Analysis) que
se utiliza en un sistemas ASV para separar las características del
canal de las características de los usuarios.
En la sección 4 se presenta una técnica discriminativa que aplicamos
a un sistema ASV.
Especialidad: Comunicaciones y Electrónica 5
6. VERIFICACIÓN AUTOMÁTICA DEL LOCUTOR
En la sección 5 se presenta una técnica de optimización que se aplica
a diferentes técnicas utilizadas en sistemas ASV5.
En la sección 6 se presentan resultados tanto de técnicas
tradicionales como las que hemos desarrollado.
En la sección 7 se presentan las Conclusiones.
0
Especialidad: Comunicaciones y Electrónica 6
7. VERIFICACIÓN AUTOMÁTICA DEL LOCUTOR
2. SISTEMAS CONVENCIONALES [3, 41
En la figura se muestra la arquitectura de nuestro sistema de
Verificadón de Locutor.
Esta arquitectura tiene dos partes. La parte de entrenamiento de los
modelos acústicos de los Locutores. La parte de evaluación del
sistema utilizando los modelos acústicos de los Locutores.
Udez
__j
MAV
í1 •1AF' GMM
proce5amlent MFCC (JIM de 1rget
de voz)
[ntrenamiento
(i" (Tlcuhd')
1
Acept3d
rocesamlentL 1-r1 pUntu.00n L p =(:lH1 rechazclo
voz 1..L__J 1J Nomalizcón
Cálculo de decsón
untuación y = NIH
Lvaluacion del Target
En el primer módulo de la arquitectura el "pre-procesamiento" de la
señal de voz de los locutores objetivo, como locutores intrusos. En
este módulo se procesa la señal de voz para obtener las
características de la voz de los locutores. Lo deseable de estas
características es que sean lo más diferenciadoras posibles entre
locutores, tal que faciliten la verificación de los mismos. Este módulo
es el mismo tanto en la parte de entrenamiento de los modelos
acústico, como en la parte de evaluación del sistema.
El procesamiento de la señal de voz se hace por segmentos de
tiempo; cada segmento de tiempo con una duración de entre 20ms y
40ms. Esto se debe a que es importante que la señal analizada sea
estacionaria; y resulta que la señal de voz generada por las personas
es una señal estacionaria en segmentos pequeños (quasi-
estacionaria).
Entonces podemos analizar la señal por intervalos pequeños en
tiempo. En este intervalo de tiempo podemos obtener características
como número de cruces por Cero (al graficar la señal), energía,
máxima amplitud, periodo. También podemos obtener su espectro de
Especialidad: Comunicaciones y Electrónica 7
8. VERIFICACIÓN AUTOMÁTICA DEL LOCUTOR
Fourier y obtener otras características en función de la frecuencia
como distribución de la energía y frecuencias de resonancia.
En nuestro trabajo hemos encontrado buenos resultados para
periodos de tiempo de 40ms y calculando la energía de este segment
así como los coeficientes MFCC ("Me! Frequency Cepstral
Coefficients"). Los MFCC se calculan primeramente calculando la
Transformada Discreta de Fourier para cada segmento de tiempo
("STFT- Short-Time Discrete Fourier Transform"); después se calcula
la Transformada Coseno del logaritmo de la magnitud de la energía
para cada uno de los componentes de STFT. La transformada Coseno
genera los MFCC5. Utilizamos también las características dinámicas
de los coeficientes representadas por la primera y segunda derivada.
En nuestro trabajo hemos encontrado buenos resultados para
periodos de tiempo de 40ms, y para cada segmente obtenemos un
vector de dimensión 58 (1 representando la energía de la señal, 19
coeficientes MFCC, y sus primeras y segundas derivadas).
Con las características de la señal de voz de los locutores objetivos, el
siguiente módulo del sección del entrenamiento son los módulos para
"Modelación Locutores Objetivos (Targets)". Con las características de
los locutores intrusos se crea un "Modelo de Locutores Intrusos", lo
que se le conoce como UBM (Universal Background Model).
La modelación acústica de cada locutor es un GMM ("Gaussian
Mixture Model") que es una Cadena Escondida de Markov de un
estado. Cada estado de la GMM tiene un vector con las medias de la
energía y de los MFCCs, incluyendo su primer y segunda derivada; y
el otro vector con las varianzas de la energía y de cada uno de los
MFCCs, incluyendo sus primera y segunda derivada. Debido a la
cantidad de datos que generalmente se encuentran en una tarea de
Verificación de Locutores, la estimación de estos parámetros es
utilizando MAP (Maximum A Posteriori).
En la parte de la Evaluación, el locutor se identifica y genera una
señal de voz, entonces primero calculamos los MFCCs de la señal de
voz; después, calculamos las puntuaciones del locutor tanto para el
modelo del locutor objetivo, como para el modelo UBM.
Dados las dos puntuaciones, el problema de clasificación involucra
dos hipótesis: que el usuario legítimo (quien dice ser), 7-t, o que el
usuario sea un impostor, J-(.
Sea pA(zIJCo) la función de densidad condicional de la puntuación
observada z generada por el locutor auténtico A. De la misma
manera sea pA(zI/-(1) la función de densidad condicional de la
puntuación (score) observada z generada por locutores impostores de
A.
Especialidad: Comunicaciones y Electrónica 8
9. VERIFICACIÓN A UTOMA' TICA DEL LOCUTOR
La densidad condicional pA(zIXo) se estima con las puntuaciones de
del mismo locutor A utilizando su modelo acústico. La densidad
condicional pA(zIH'l) se estima con las puntuaciones de todos los
impostores posibles utilizando el modelo acústico de A. Cuando todos
los impostores comparten el mismo modelo entonces se le conoce
como Modelo Universal (UBM- Universal Background Model)
Si conocemos las densidades condicionales de pA(zIfHo) ' pA(zIfH'l),
entonces una prueba de Bayes, con el mismo "costo de error en la
clasificación" por locutor, se basa en la taza de verosimilitud
(Iikelihood ratio) para el locutor A [2,15] como se muestra a
continuación:
2
PA(ZI1)
A
- PACZI'O)
o en el dominio logarítmico
= 109(pA(zIi-c1)) - log(pA (zIJ-CO)).
Entonces, el problema de clasificación es el siguiente:
'r seleccione 1f1
Si log(p(zIJ-C)) - log(pA(z11-CO))
t< -r seleccione J{0
Con el propósito de simplificar las figura que se presentan de aquí en
adelante, vamos a simplificar la gráfica de la arquitectura como se
muestra a continuación:
rce&:rnient MAP
[ntrenamjento d iarget.
Norm, LIC!(lfl
Pro ce-sarn iento c,re 1ec:ión
Iltva Iuacjón
Especialidad: Comunicaciones y Electrónica 9
10. VERIFICACIÓN AUTOMÁTICA DEL LOCUTOR
3. ESTADO DEL ARTE: iFA (Joint Factor Analysis) [5, 6]
El propósito de JFA es separar la voz del locutor y las características
del canal. Esto es porque el canal crea distorsión en la señal, lo cual
afecta la precisión para identificar las personas.
En JFA, las medias de todas las Gaussianas en una GMM son
concatenadas en un solo vector llamado, supervector MSCh = II
112 11/23 II }. El supervector M representa el GMM para la distribución
de datos sobre cada tipo de canal Ch para el locutor S.
Ms,Ch = 172 + Vy + UXSCh + DZ5
donde m es una media global de todos los locutors; y es un conjunto
de voces características (elgenvoices) representando el subespacio en
el que se ubican los componentes específicos de los locutors,
U es un conjunto de canales característicos (eigenchannels)
representando el subespacio sobre el cual están los componentes
específicos de un canal. D es una matriz diagonal. Ys es un vector con
distribución Normal que representa los factores específicos del locutor
5. Xç, es un vector con distribución Normal que representa los
factores específicos del locutor 5 sobre el canal Ch. Z5 es un vector
con distribución Normal que representa un error residual;
El entrenamiento de V,UyD es utilizando el algoritmo de Baum-
Welch; El aprendizaje de YS,ZSYXS,Ch es utilizando procedimiento EM
(Expectation Maximization) [6, 5].
EW - baum Lxoect.iton
Fre-
MAP 1 V (J.D
and Wekh 1.43Jmz.3tIon
rrocesamlentoj
t J Crea iupervector
(TiP1M
1 de 1- de
[ntrenamiento CIeUrM
(Jsuanos (Isuanos
F're- Cilculode
......prcesamIent scores EJecisión
rchz o
tvaIuacíán
Especialidad: Comunicaciones y Electrónica 10