SlideShare una empresa de Scribd logo
1 de 51
Descargar para leer sin conexión
TESIS MASTER CIENCIAS FORENSES

               FACULTAD BIOLOGIA



LA IDONEIDAD DE LA PERICIA ACÚSTICA EN
             EL AMBITO JUDICIAL
EL ALINEAMIENTO TEMPORAL DINÁMICO (DTW) COMO

    ALGORITMO DE DECISIÓN EN DICHA PRUEBA




          ASIGNATURA: ACÚSTICA FORENSE

           DEPARTAMENTO : FÍSICA MÉDICA

        PROFESOR: JOSÉ LUIS RAMÓN GARCÍA



    MARÍA TRINIDAD SÁNCHEZ PÉREZ DNI: 34810801W

            Mariatrinidad.sanchez@alu.um.es
RESUMEN

INDICE.

1 .INTRODUCIÓN.

2 .OBJETIVOS.

3. MÉTODOS, CONCEPTOS Y PROGRAMAS.

3.1. Parámetros de Reconocimiento.

     3.1. 1 Espectro de Frecuencia.

     3. 1. 2 Análisis Espectral.

    3. 1. 3 Tranformada de Fourier.

     3. 1. 4 Linear Prediction Coding (LPC).

     3. 1. 5 Jitter.

     3. 1. 6 Shimmer.

     3. 1. 7 Coeficientes Cepstrales Mel (MFFC).

     3. 1. 8 Concepto de Distancia/ Distancia Euclídea.

     3. 1. 9 Alineamiento Temporal Dinámico (DTW).

     3. 1. 10 Comparación y toma de decisiones.



3. 2 Estudio comparativo de los distintos sistemas para el análisis
de la voz con fines forenses.

     3. 2. 1 Superescope.



                                                                      2
3. 2. 2 Soundscope.

    3. 2. 3 Computerized Speech Lab (CSL).

    3. 2. 4 Multi-Speech Lab de Kay Elemetrics.

    3. 2. 5 Sistema Visha (procesado del habla).

    3. 2. 6 Programa Praat.

4. REVISIÓN BIBLIOGRÁFICA Y RESULTADOS.

     4. 1 Influencia de la simulación de los hablantes en los

     sistemas de reconocimiento de locutores.

     4. 2 El Alineamiento Temporal Dinámico (DTW).

     como algoritmo de decisión en la práctica forense.

     4. 3 La Pericia Acústica en el Proceso Judicial.

5. DISEÑO EXPERIMENTAL.

     5. 1 La influencia microfónica en la identificación de locutores
     con fines forense.

     5.2 Estructura del árbol de ficheros de la base de datos
     Ahumada.

     5. 3 Distancia Euclídea normalizada.

     5. 4 Resultados obtenidos con el método DTW.

     5. 5 Criterios de comparación y toma de decisiones.

6. CONCLUSIONES.

7. BIBLIOGRAFIA.

                                                                    3
RESUMEN

La Acústica Forense en la actualidad resulta necesaria para documentar y probar
determinados delitos. Los estudios que en las últimas décadas se están realizando
posibilitan la apreciación por los jueces de esta prueba. Experimentalmente, en laboratorio,
los resultados son concluyentes con un margen de error muy pequeño, similar, al que
arroja el análisis del ADN. En esta prueba lo que identifica al individuo podría definirse
como la resonancia del tracto vocal del aparato fonador del sujeto, información que es
extraída a su vez del análisis de una grabación dubitada del mismo, que se debe comparar
con otra indubitada; se trataría por tanto, de verificar la identidad de un sujeto dubitado a
través de su tracto vocal que se ha demostrado en numerosos estudios que es específico al
individuo y se mantiene estable una vez éste alcanza la vida adulta. Para realizar este
análisis se utilizan diversos parámetros, pero uno de los que ofrecen mayor valor
identificativo es el formante, que se corresponde con el pico de amplitud de la frecuencia
sonora del sonido analizado. El oído humano percibe mejor los sonidos como frecuencias
y los diversos programas y sistemas que se utilizan descomponen el sonido en éstas, para
extraer la información que resulte más significativa. Además, en la práctica forense se
necesita un parámetro que pueda medir y cuantificar el parecido de frecuencias de sonido
distintas y tras numerosos estudios y revisiones bibliográficas, se destaca de entre otros
algoritmos, la Alineación Temporal Dinámica (DTW) como un sistema que en base a la
utilización de la Distancia Euclídea realiza unas plantillas donde estima ( mediante una
distancias de corte halladas estadísticamente que se corresponden a un criterio acordado
de decisión previo) que si hay poca distancia son parecidas las frecuencias de las voces y
si hay mucha son distintas y nos encontraremos con que la grabación dubitada se
corresponde a otro sujeto y no al indubitado.



Se ha comprobado igualmente por diversos autores si los sistemas de reconocimiento son
sensibles a la manipulación voluntaria del hablante y en este sentido destacan los estudios
de. DODDINGTON, G., [3] que descartan esta hipótesis pero señala que sí existe una
diferencia apreciable en los resultados debida al micrófono que se utiliza.



Es por ello, que en esta tesis proponemos un diseño experimental utilizando la base de
datos Ahumada: registro de 103 locutores en español por distintos métodos: micrófonos,


                                                                                            4
móvil y teléfono; a partir de la cual, pretendemos comprobar utilizando dos micrófonos
distintos si descartamos o aceptamos dicha hipótesis. Para tal fin me sirvo de la ayuda y
trabajo previo del profesor D. José L. Ramón que ha elaborado macros y scripts con los
programas Praat y Excel sin los cuales no hubiera podido realizar ésta comprobación
debido a lo arduo y complicado del cotejo; con dichos programas el tratamiento de los datos
finales se ha hecho sencillo y fácil.



Por último, es necesario enmarcar esta prueba en su contexto dentro del proceso judicial y
señalar hasta qué punto es pertinente y legalmente aceptable su admisión en el mismo.
Diferenciándose dos situaciones distintas, lo que son la intervención de las
comunicaciones entre locutores distintos, de la grabación de las mismas por uno de los
sujetos participante en la conversación; en el primer caso es necesario autorización judicial
motivada si no fuera así, la prueba quedaría invalidada de facto, en el segundo caso al
grabar la conversación un integrante de la misma le ampara la ley y la grabación se
convierte en prueba documental que se adjunta a su testimonio dentro del proceso. Es por
todo lo anterior que la pericia acústica resulta necesaria en el proceso siempre que su
práctica está avalada por una obtención fiable y científica que la convierte en idónea y
pertinente.



Palabras claves: Palabra 1, Acústica forense. Palabra 2, Verificación de locutores. Palabra
3, Formantes. Palabra 4, DTW. Palabra 5, Intervención comunicaciones.




                                                                                            5
1. INTRODUCIÓN

Identificación Acústica

Los principales estudios al respecto se realizan a partir de los años 90 siendo figuras
relevantes en este campo, entre otros, los integrantes de la Policía alemana: R. Kϋnzel y A.
Braun, el primero adquirió gran protagonismo en España a raíz de ser consultado en el
caso de Anabel Segura, sobre la autoría de las llamadas que se simularon en su nombre.
En Portugal, Francia e Italia también se están haciendo grandes aportaciones al estudio de
la Acústica Forense. Y en España actualmente está en marcha un proyecto muy ambicioso:
el   Hesperia(https://www.proyecto-hesperia.org/hesperia/mapa.jsp)en       el   que   están
implicados Telefónica, varias Universidades y      Empresas, que pretende implementar
sistemas de identificación individual a través de la voz como método de seguridad en
cajeros, edificios, materiales tecnológicos, etc. Siendo uno de los pioneros en la
investigación académica de la Acústica Forense el catedrático de Física Médica            y
Presidente durante varios mandatos de la Sociedad Española de Acústica Forense D. José.
L. Ramón (que supervisa esta tesis).



Dentro de la Acústica Forense se diferencian dos procesos: los casos de identificación, en
donde se compara un locutor con varios dentro de un conjunto cerrado “Closed set” (como
ejemplo nos serviría el proyecto Hesperia) y los sistemas de verificación, comparación de
dos locutores en un sistema abierto “Open set”.



El ámbito forense frecuentemente se centra en los casos de verificación entre locutores:
(dubitado e indubitado). El reconocimiento de locutores es un sistema de identificación
biométrico que parte del fundamento científico de que la voz permanece estable una vez
llegada la vida adulta y de que de un individuo a otro, existen características específicas y
diferenciadoras de construcción del tracto faringo-laringo-vocal.



Junto a otras disciplinas, sin dejar de contemplar su carácter interdisciplinar y forense, se
puede englobar dentro de la Psicoacústica que estudia entre otras materias la percepción
aural del sonido.


                                                                                           6
El sonido suele ser definido como una vibración o movimiento recurrente de una masa en un
medio elástico, con un rango de recurrencias o ciclos de frecuencia de intensidad igual o
superior al umbral de percepción de la vibración (de 20 a 20.000 Hz), el cual sigue las leyes
generales del movimiento.



Los sonidos puros se desplazan en un movimiento armónico simple con trayectoria de su
onda en línea recta y las vibraciones complejas, que son las más frecuentes en la naturaleza,
se producen en frecuencias periódicas, aperiódicas y semiperiódicas en función del tiempo.
La señal del habla se considera una onda cuasi-estacionaria, ya que su variación lenta nos
permite dividir su análisis en tramas de duración finita relativamente corta y con solapamiento
entre ellas, el análisis del habla puede llevarse a cabo por tanto en el dominio del tiempo y en
el de la frecuencia, en el dominio temporal los parámetros que se utilizan son la energía local,
la tasa de cruces por cero y la función de autocorrelación; este análisis es sencillo y rápido con
una interpretación física directa.



En la actualidad en análisis frecuencial del habla es el método más utilizado; pues el oído
humano está mejor orientado a percibir la información espectral del sonido que en forma de
onda o señal temporal.



En el acto de la fonación el aire respirado pasa a través de la glotis produciéndose la vibración
de la laringe y los sonidos sonoros.



La tensión que se produce en las cuerdas vocales nos determina el tono de los mismos y las
aperturas y cierres de la glotis, la frecuencia fundamental, mientras que en el caso que no
hubiera vibración perfecta se producirían las turbulencias en la constricción de las cuerdas
vocales que se corresponden con los sonidos sordos.




                                                                                              7
La información que nos proporciona el sonido en sí, al pasar por la glotis, nos permite
distinguir: los sonidos agudos de los graves, siendo los primeros más habituales en mujeres y
niños; esta información nos permite clasificar los sonidos pero no individualizarlos.



En el análisis forense de la voz lo que se pretende es separar la parte audible del sonido
que pertenece al tracto vocal, información automatizada que es involuntaria del resto y que
diferencia e individualiza   a un sujeto determinado, por ello, se trata de analizar la
estructura de la resonancia del aparato fonador y sobre todo de entre otros parámetros los
formantes.




Figura 1. Espectrograma correspondiente señal vocal a obtenida mediante el programa
Multi-Speech de Kay Elemetrics.


                                                                                          8
Las aperturas y cierres de la glotis con una secuencia de tiempo y amplitud determinados
se corresponden con la frecuencia fundamental, que se produce con la vibración de las
cuerdas vocales y que nos proporciona información sobre los sonidos armónicos, ambas
magnitudes pueden ser evaluadas y representadas estadísticamente, esto es
cuantificadas y cualificadas, JAKSON MENALDI, C.A [6].



La   resonancia individual del tracto vocal así obtenida (a nivel identificativo) tiene validez
científica pues ha sido inferida a través de un método estadístico experimental con un error
del 98% aproximadamente, verificado en sucesivos estudios, RAMÓN ET ALT [10].




2. OBJETIVOS


Revisión de los programas y técnicas utilizadas, validez legal.
Realizar un diseño experimental sobre la influencia en los resultados de los micrófonos
empleados en la prueba.
Comprobar la idoneidad de la pericia acústica dentro del proceso penal


3. MÉTODOS, CONCEPTOS Y PROGRAMAS

3.1 Parámetros de Reconocimiento

3.1.1 Espectro de frecuencia

El espectro de frecuencia de un fenómeno ondulatorio (sonoro, luminoso o electromagnético),
es la superposición de ondas de varias frecuencias, es una medida de la distribución de
amplitudes de cada una de ellas, también se llama espectro de frecuencia al gráfico de
intensidad frente a frecuencia de una onda particular. El espectro de frecuencias o
descomposición espectral de frecuencias puede aplicarse a cualquier concepto asociado con
frecuencia o movimientos ondulatorios como son los colores, las notas musicales, las ondas
electromagnéticas de radio o TV e incluso la rotación regular de la tierra.



Los sonidos pueden ser una superposición de frecuencias diferentes, cada frecuencia


                                                                                           9
estimula una parte diferente de nuestra cóclea (caracol del oído). Cuando escuchamos una
onda sonora con una sola frecuencia predominante escuchamos una nota, pero en cambio un
silbido cualquiera o un golpe repentino que estimule todos los receptores contiene frecuencias
dentro de todo el rango audible. Muchas cosas en nuestro entorno que calificamos como ruido
frecuentemente contienen frecuencias, así cuando un espectro de frecuencia de un sonido o
espectro sonoro, viene dado por una línea plana, decimos que el sonido asociado es ruido
blanco. Una onda triangular representada en el dominio temporal (arriba) y en el dominio
frecuencia (abajo) la frecuencia fundamental está en torno a 220 Hz.




3. 1. 2 Análisis espectral

Se refiere a la acción de descomponer algo complejo en partes simples o identificar en ese
algo complejo las partes más simples que lo forman, un análisis espectral permite
descomponer una señal compleja en cada una de sus frecuencias parciales, pasando del
dominio temporal al dominio de la frecuencia, la resolución frecuencial del análisis se calcula
dividiendo la frecuencia de muestreo por el número de puntos de la transformada de Fourier,
por ejemplo a una frecuencia de muestreo de 10 Hz y una transformada de 512 puntos tiene
una resolución frecuencial de 0.0195 Hz.



Un proceso que cuantifique las diversas intensidades de cada frecuencia se llama análisis
espectral donde se analizan básicamente dos tipos de estructuras: la que se corresponde con
los armónicos (fuente sonora) y la estructura de la resonancia (filtros) donde se utilizan
bandas anchas de 300 Hz (5 ms) para obtener las frecuencias naturales del tracto: los
formantes que son los parámetros que resultan más útiles a nivel identificativo.




3. 1. 3 Transformada de Fourier

En procesamiento de señales el análisis de Fourier suele considerarse como la
descomposición de una señal en componentes de frecuencias diferentes. Es decir (g) se
corresponde       al     espectro       de      frecuencias      de      la        señal    (f).
La rama de las matemáticas que estudia el análisis de Fourier y sus generalizaciones es
denominada Análisis Armónico.


                                                                                           10
Matemáticamente el análisis espectral está relacionado con esta herramienta llamada
Transformada de Fourier o Análisis de Fourier.



Cuya fórmula es la siguiente:



                                                                           (1)




Además la transformada de Fourier de una función, no sólo permite hacer una
descomposición espectral de las frecuencias de una onda o señal oscilatoria, sino que con el
espectro generado por el análisis de Fourier incluso se puede reconstruir (sintetizar) la función
original mediante la transformada inversa.



Para poder hacer esto, la transformada no solamente contiene información sobre la intensidad
de determinada frecuencia, sino también sobre su fase.



Esta información, se puede representar como un vector bidimensional o como un número
complejo en las representaciones gráficas, frecuentemente sólo se representa el módulo al
cuadrado de ese número, y el gráfico resultante se conoce como espectro de potencia o
densidad espectral de potencia.



Es importante recordar que la transformada de Fourier de una onda aleatoria, mejor dicho
estocástica, o sea probabilística (un ejemplo es el ruido ambiental) para representarse
requiere cierto tipo de promediado para mostrar adecuadamente la distribución frecuencial.
Para señales estocásticas digitalizadas de ese tipo se emplea con frecuencia la transformada
de Fourier discreta.




                                                                                           11
3. 1. 4 Linear Prediction Coding (LPC)

El LPC (Linear Prediction Coding) es el espectro de las resonancias del tracto vocal; mide la
frecuencia y energía con el ancho de banda, correspondiéndose los picos de convergencia
con las resonancias del tracto o formantes.



Se necesitan filtros de 300 Hz (5 ms) pudiéndose obtener con ellos la representación lineal
de cuatro formantes, siendo este sistema el más utilizado pues la audición natural humana
solo percibe de 6 a 7 frecuencias simultáneas




Figura 2. Espectrograma con formantes para vocales a, i, u tal como aparecen con la técnica de LPC




3. 1. 5 Jitter

Se corresponde con las alteraciones de la frecuencia que se pueden medir en vocales
sostenidas en tiempos pequeños con independencia de los cambios voluntarios de la
frecuencia fundamental de la voz; en una situación ideal su valor sería de 0 por lo cual es
frecuente que su valor sea pequeño pero característico de un individuo.


                                                                                              12
3. 1. 6 Shimer

Se trata de medidas de de la perturbación de la amplitud que sirven para cuantificar pequeños
lapsos en la intensidad vocal de cada ciclo fonatorio al igual que la medida anterior es una
medida especifica del tracto vocal independiente de la fuente, si bien para cuantificar
correctamente ésta se requiere mantener una distancia adecuada del micrófono, JACKSON
MENALDI, A ET ALT. [7].




3. 1. 7 Coeficientes Cepstrales en frecuencia Mel (MFFC)

Son coeficientes para la representación del habla, basados en la percepción auditiva humana
que se derivan de la Transformada de Fourier, o de la transformada del coseno discreta, la
diferencia básica con estas, es que en la MFCC las bandas de frecuencia están situadas
logarítmicamente según la escala Mel propuesta por Steven, Volkman y Newman en 1937
(Journal of the Acoustical Society of America; Amer.Jour.Psyco. 48) que es una escala
musical perceptual del tono a juicio de observadores equiespaciados.



Se define equiparando un tono de 1000 Hz a 40 dB por encima del umbral de audición del
oyente, con   un tono de 1000 Mel por encima de 500 Hz; los intervalos de frecuencia
espaciados exponencialmente son percibidos como si estuvieran linealmente.



En consecuencia: 4 octavas en herzios por encima de 500 Hz se comprimen a 20 octavas en
la escala Mel, que modela mejor la respuesta auditiva humana que las bandas espaciadas
linealmente, haciendo el procesado de datos y la compresión en audio más eficiente.
WIIKIPEDIA [12]




Generación de los parámetros Mel a partir de las muestras de señal

   -   Preénfasis, filtrado de la señal de voz ya que esta se atenúa 6 dB por octava, conforme
       aumenta la frecuencia es necesario introducir un filtrado para aumentar los



                                                                                         13
componentes de la alta frecuencia, este proceso se puede realizar a través de un filtro
       digital de paso alto que se puede implementar con la siguiente ecuación de diferencias:
       y(n)=x(n)-a x (n-1) donde a es una constante que varía entre (0 y 1) en el dominio de la
       transformada Z.



   -   Enventanado Hamming para seleccionar la trama a trabajar utilizamos la ecuación:

                      W= 0,54-0,46 cos(2 π n/N) 0<n < N.            (2)



   -   Transformada discreta de Fourier (DFT) sobre la trama de muestras enventanadas se
       aplica la transformada discreta de Fourier que se implementa a través de la
       transformada rápida de Fourier (FFT).



   -   Escala Mel se utiliza para dividir el espectro en un banco de filtros mucho más
       estrechos y linealmente espaciados en las bajas frecuencias y muy amplios y
       logarítmicamente espaciados en las altas, dándose más importancia a la
       información contenida en las bajas frecuencias conforme el oído humano.




Figura 3. Esquema con los diferentes pasos de obtención de los coeficientes cepstrales


                                                                                         14
Se calcula la energía en cada una de las bandas de frecuencia en que la escala mel divide el
espectro, para ello se suman los módulos al cuadrado de la FFT en los puntos que se
encuentran contenidos en cada una de dichas bandas, calculándose el logaritmo de las
energías obtenidas anteriormente.



   -                                                                 Coeficientes
       Cepstrales, se calculan como la transformada del coseno discreta (DCT).


       Que hace las veces de transformada inversa de las energías logarítmicas obtenidas
       con anterioridad, en concreto, los coeficientes cepstrales se obtienen del muestreo de
       10 puntos de dicha transformada. El cálculo de los MFCC responde a la conversión de
       frecuencias en escala Mel según la siguiente fórmula:



                                                                     (3)




                                             La equivalencia queda como expresa esta
                                             gráfica




 Figura 4. Gráfica de equivalencia entre herzios y escala mel.



                                                                                        15
Al finalizar la parametrización, cada trama se convierte en un vector compuesto por 11
parámetros, en los cuales está contenida la información más directa del tracto vocal.

Para hacer la parametrización del habla más robusta se pueden añadir otros parámetros
DMFCC (derivada) DDMFCC (aceleración) llamados parámetros transaccionales su
utilización se basa en el hecho de que en sistemas independientes del locutor las frecuencias
de resonancia (formantes) fluctúan considerablemente de unos locutores a otros, pero las
variaciones de dichas frecuencias son más parecidas a estos parámetros, se obtienen
derivando los DMFCC y los DDMFCC.



En frases independientes se remplaza la información temporal por “tramos” de información
cepstral caracterizados en vectores con los primeros 10 coeficientes cepstrales o MFCC,
estos vectores cepstrales que se corresponden con dos cuadros de sonido, en teoría
simultáneos y perceptivamente iguales ,para su comparación, utilizan la distancia entre ellos,
la distancia cepstral o euclidea.




3. 1. 8 Concepto de distancia/ Distancia euclídea

Se necesita una forma de medir la diferencia o semejanza entre observaciones u objetos, la
forma en que generalmente se hace es en términos de la distancia entre cada par de casos;
cuando la distancia es menor se considera que los casos son más parecidos entre sí. Existen,
diversas maneras de calcular la distancia, las que se aplican con mayor frecuencia son: la
distancia euclidiana (que es la raíz cuadrada de la suma de las diferencias al cuadrado entre
los valores de dos casos para cada variable). Cuando las variables se miden en unidades muy
diferentes, antes de agrupar los casos, se recomienda estandarizar los datos para eliminar la
influencia de la unidad de medición, para su optimización en el cálculo, se sirve de un
programa informático que mediante algoritmos (como es el caso de DTW) realiza una
alineación temporal de los vectores en una distancia global mínima. Para la cuantificación de
los datos es necesario cuantificar la distancia entre dos vectores para que estos sean
comparados y combinados con los de referencia, para poder realizar estas operaciones es
necesario definir una medida de distancia entre vectores característicos.




                                                                                         16
La distancia entre dos vectores (x) e (y) de un espacio vectorial /x / es una función de valores
reales d (x, y) sobre el producto cartesiano x*x.




3. 1. 9 Alineamiento Temporal Dinámico (DTW)

Es un método empleado en el reconocimiento del locutor independiente del texto, trata de
compensar la variabilidad existente entre la duración de los fonemas en distintas
pronunciaciones de una misma frase, comparando la locución de entrada con una serie de
plantillas que representan las unidades a reconocer, siendo, cada plantilla almacenada como
un conjunto de características acústicas ordenadas en el tiempo.



En su cálculo se realiza un alineamiento temporal con posibles deformaciones elásticas y de
medida de la distancia.



Para realizar este alineamiento temporal se utilizan técnicas de programación dinámica
mediante un algoritmo que logra que la entrada de la señal del sonido se parezca lo máximo
posible a la plantilla que crea el programa, para lo cual se comprimen y estiran las zonas
según conveniencia de una señal con respecto de la otra.



Gráficamente se visualiza como una matriz cuya eje horizontal se corresponde con las tramas
de una señal y el eje vertical con las tramas de otra. Para encontrar que compresiones
maximizan este parecido (camino) se podrían probar todas las combinaciones posibles pero
este algoritmo impone unas restricciones en las combinaciones que va a probar para el
reconocimiento del habla; que son que el camino no puede volver atrás en el tiempo (camino
monótono) y que todas las distancias de entrada hay que utilizarlas en el camino,
combinándose las distancias para dar la distancia global. Con estas restricciones para la
trama de entrada (i) y para la plantilla (j), solo hay que considerar como posibles predecesores
los pares (1i- j), (i-1j), (1i-1j) para medir el parecido se va a emplear la distancia euclidiana (sin
raíz) o sea para medir la diferencia entre dos tramas. El DTW realiza el alineamiento de
manera que se minimiza la distancia global.




                                                                                                17
3. 1. 10 Comparación y toma de decisiones
En este apartado, se describe el proceso de decisión que tiene lugar en los sistemas de
verificación de locutor para determinar si el locutor es aceptado o rechazado por un sistema
de reconocimiento determinado.



A continuación se explica la manera en que se evalúan los errores que se cometen en la
decisión.



Marco genérico de la toma de decisión
Dado un segmento de voz X y un locutor S, el objetivo de la verificación del locutor es
determinar si S generó la locución X. Esto se puede formalizar como un test de hipótesis
básico entre las siguientes hipótesis, ESTEVE ELIZALDE, C [4]:



H0: X fue pronunciado por el locutor S.




H1: X no fue pronunciado por el locutor S.



La decisión, de acuerdo con el criterio de máxima verosimilitud (Maximum Likelihood, ML),
se obtiene mediante el cociente de verosimilitudes que viene dado donde:


                  P( X | H 0) ≥θ aceptar H0
                              
                                                                           (4)
                  P( X |Η1) <θ rechazar H0
                              



Donde P (X|Hi), i=0,1 es la probabilidad de la hipótesis Hi evaluada para el segmento de

vozY.0 es el umbral de decisión para aceptar o rechazar H0. En principio debería ser 0,

pero en aplicaciones prácticas interesa ajustar dicho umbral para controlar la relación entre
las probabilidades de cometer errores en los dos sentidos posibles de la decisión.


                                                                                          18
Habitualmente se suele emplear el logaritmo de este cociente:



           Λ(Χ)= log P(Χ| Η 0) − logP(Χ|Η 1)                         (5)



Por tanto, el objetivo de los sistemas de reconocimiento de locutor es encontrar métodos
para calcular ambas probabilidades,



                             P(Χ|Η0) y P(Χ|Η1)                             (6)



Un paso crucial en la implementación del detector es el cálculo de las probabilidades P que
dependerá de la aplicación; que para reconocimiento de locutor independiente del texto no
existe información a priori que se pueda utilizar por tanto la elección más acertada es
utilizar algoritmos de alineación dinámica generados a través de coeficientes cepstrales.



Medidas de los errores en la decisión
En la verificación de locutores se pueden dar dos tipos distintos de errores:

1. Falso Rechazo (FR), que se produce cuando un usuario auténtico es rechazado por el
sistema.



2. Falsa Aceptación (FA), que aparece cuando un impostor es aceptado por el sistema
como si fuera un usuario auténtico.



Si se observa la distribución de las puntuaciones de usuarios e impostores se puede
observar, que de manera general, ambas distribuciones se solapan, lo que supone un
problema para seleccionar el umbral a partir del cual las puntuaciones serán interpretadas
como pertenecientes a usuarios registrados.

Por lo tanto, el área bajo la curva de impostores que queda por encima del umbral, es la
probabilidad de que un impostor sea aceptado. Esta probabilidad es la tasa de falsa


                                                                                        19
aceptación (FAR o False Acceptance Rate). La probabilidad de que un usuario registrado
no sea aceptado, es el área bajo la curva de usuarios válidos que queda por debajo del
umbral, lo que se denomina la tasa de falso rechazo




                     Figura 5. Distribución de usuarios e impostores.



Si la distribución de puntuaciones de usuarios e impostores se solapan la FAR y la FRR
tendrán un punto de intersección, en el cual la FAR y la FRR son iguales. A este punto se
le denomina tasa de equierror (Equal Error Rate ERR). Este punto se utiliza para comparar
distintos sistemas y es donde el error del sistema dado como la suma de la FAR y la FRR
se suele minimizar. Sin embargo, para poder comparar dos sistemas según el EER es
necesario que éste sea calculado sobre los mismos datos de test utilizando el mismo
protocolo experimental. Como el EER no describe plenamente el rendimiento del sistema,
éste se suele representar mediante las curvas ROC (Reciever Operating Curve) y las
curvas DET (Detection Error Tradeoff).

En ambas curvas se muestra la tasa de falsa aceptación frente a la tasa de falso rechazo
para distintos niveles de umbral.




   Figura 6. Curvas de falso error frente a falso rechazo en distintos niveles de umbral




                                                                                           20
Las curvas DET se obtienen a partir de las curvas ROC realizando una transformación no
lineal en los ejes, de manera que las curvas no lineales de las ROC se convierten casi en
rectas. Esto las hace más sencillas de analizar y comparar unas con otras.



Entrenamiento y cálculo de puntuación
La tarea de verificación de locutor se compone esencialmente de dos fases: la fase de
entrenamiento y la del cálculo de puntuaciones. Esta puntuación representa la medida de
similitud entre los vectores de características del segmento de audio a verificar y un modelo
de locutor.



A su vez, los modelos del locutor se construyen a partir las características extraídas de uno
o varios segmentos de voz de cada locutor. Cuando se desea autenticar a un usuario, se
compara la señal de entrada con el modelo del locutor que dice ser y que se ha creado en
la fase de entrenamiento. Existen dos tipos de modelos: los modelos estocásticos y los
modelos de plantillas (templates en inglés).



En los modelos estocásticos la comparación de patrones se realiza de manera
probabilística obteniendo una medida de la probabilidad condicional de la observación
dado el modelo. Un ejemplo de modelado estocástico son los Modelos Ocultos de Markov
(HMMs) o los modelos de mezclas de Gaussianas (GMMs).



El cómputo de verosimilitudes utilizando modelos de plantillas es un proceso de
comparación basado en cálculo de distancias. Se asume que la observación es una réplica
no idéntica de la plantilla y se realiza un alineamiento de las secuencias observadas con las
secuencias de referencia de manera que se minimice la distancia que existe entre ambas.
Un ejemplo de este método es el Alineamiento Temporal Dinámico, ESTEVE ELIZALDE, C
[4].




                                                                                          21
3. 2 Estudio comparativo de los distintos sistemas para el análisis
de la voz con fines forenses

3. 2. 1 Superescope
Es un programa para ordenadores Apple Macintosh que permite digitalizar cualquier señal
eléctrica sobre una placa conversora a/d de la línea macADios de Macintosh, una vez
digitalizada la señal puede ser visualizada, analizada, sometida a cálculos matemáticos y
exportada a una base de datos en el disco duro; en tiempo real, permitiendo que el
ordenador funcione como osciloscopio, analizador de espectros, grabadora e instrumental
de registro o plotter



Puede convertirse virtualmente en cualquier instrumento de laboratorio, siendo ésta su
principal ventaja, está considerado como uno de los mejores sistemas para el análisis de
señales en el dominio temporal permitiendo digitalizar, registrar, graficar, realizar cálculos,
analizar, realizar anotaciones on line, etc.



El programa permite la creación de múltiples objetos y el diseño de los mismos según las
necesidades del usuario sin necesidad de tener experiencia previa en programación; entre
los objetos que ofrece, se encuentran: ondas, menús desplegables, hojas de anotaciones,
cursores, vías de datos, series de caracteres, ventanas, indicadores, botones y controles,
etc.



Siendo las Instrucciones los objetos más importantes de este sistema, son bloques
operacionales con los que se construyen las tareas, pudiéndose elegir de la barra de
menús para ser editados, constituyéndose, como el instrumento más potente y versátil del
programa, que posibilita: el análisis individual de cada pulso de onda, los cálculos
matemáticos sobre las mismas, anotaciones automáticas, cálculos estadísticos, control de
dispositivos externos, y la posibilidad de conexión con otros programas en entornos
multimedia.




                                                                                            22
3. 2. 2 Soundscope
Son sistemas de programas de análisis de la voz de tercera generación, que se basan en
las características del sistema anterior, pero centradas especialmente en el dominio
frecuencial (mientras el Superescope lo hacía en el dominio temporal).

Este sistema es muy utilizado en la industria y enseñanza debido a sus múltiples
aplicaciones; permite en cuanto al sonido, la realización del análisis cepstrum, la FFT, la

F0, la LPC, el Jitterr y Shimer, el espectograma, etc , siendo destacable el tratamiento

estadístico que dá a cualquier segmento de onda analizado; pudiéndose hallar la
estadística de la señal ( número de puntos, frecuencia de muestreo, valor máximo y mínimo,

SD, área debajo de la onda, etc) y la estadística de la F0 (media, rango, SD, jitter %,

Kurtosis) además de calcular el porcentaje de zonas con voz y silentes.

El hardware necesario consta de una tarjeta conversora a/d de la línea macADios y un
ordenador de Macintosh con sistema operativo 6.07 o superior con un mínimo de Ram de
de 4 MB.



3. 2. 3 Computerized Speech Lab(CSL)
Creado por la empresa Kay Elemetrics está considerado como el mejor sistema para el
análisis de la voz y lenguaje utilizando ordenadores personales, utiliza software y hardware
en entorno parecido al Windows, posibilitando frecuencias de muestreo de hasta 51,2 Hz
en grabaciones de voz, permitiendo su archivado, edición, recuperación, etc.



Pudiendo realizar posteriormente el análisis y tratamiento estadístico de los datos para

obtener: la LPC, la F0, el Jitter y Shimer, el espectrograma en escala de grises y térmica

( escala de colores cálidos), etc .



Una de las características más relevantes de este programa, es la posibilidad de crear lista
de tareas encadenadas llamadas macros, para la realización conjunta de varios análisis.




                                                                                         23
En cuanto a posibilidades de software, proporciona modelos aún mas adaptados para el
análisis de la voz; se trata del programa MDVP que es capaz de calcular 22 parámetros
distintos sobre 3 segundos de vocalización sostenida, con una base de datos para la
compresión numérica y la representación gráfica de los valores.



El hardware básico del modelo CSL 4300 consta de un módulo externo que permite
digitalizar la señal mejorando su calidad en cuanto a ruido, actuando en dos canales a 16
bits y 50 kHz utilizando una tarjeta DSP (procesador digital de señal) que se introduce en
el ordenador, requiriéndose un ordenador con sistema operativo m s-dos 5.0 o superior, un
micrófono y unos altavoces.

En las últimas versiones se puede utilizar un módulo externo para cuatro canales muy útil
en la investigación, que permite el registro simultáneo de la señal acústica.




Figura 7. Ejemplo CLS; múltiples ventanas correspondientes con dos grabaciones de la misma vocal
de un mismo locutor.




                                                                                             24
3. 2. 4 MultiSpeech 3700 de Kay Elemetrics
Es un programa de la misma empresa que se puede emplear complementariamente al
modelo anterior, o de manera autónoma; pues posibilita la utilización de cualquier
ordenador y tarjeta de sonido de los que se ofertan en el mercado en un entorno Windows,
pudiendo realizar los mismos análisis y operaciones que con el sistema anterior; siendo su
relación coste-beneficio mucho más interesante.



Posibilita la representación simultánea en múltiples ventanas de varios análisis, siendo de
especial importancia la capacidad que tiene de fragmentar el sonido hasta conseguir la
muestra más limpia, para poder así comparar las grabaciones en secuencias de sonido lo
más parecidas posible. Obteniéndose posteriormente representaciones lineales de los
formantes que identifican el tracto vocal en otras ventanas y espectrogramas, con gran
calidad visual; de igual modo; realiza el análisis estadístico para poder validar
científicamente las hipótesis que se quieran constatar con este sistema.



3. 2. 5 Sistema Visha (para el proceso y visualización del habla)
Es un sistema múltiple de de procesamiento de la voz de bajos coste que sólo añade un
tarjeta DSP de procesamiento digital de la señal, a un PC personal, es un sistema español
desarrollado por la Escuela de Telecomunicaciones de Madrid, financiado por el INSERSO
y la Comisión Interministerial de Ciencia y Tecnología.



Entre las aplicaciones que desarrolla se incluyen los siguientes programas:



El programa Isotón: que es especifico para la rehabilitación de la voz en base a dos
métodos: la imitación de patrones establecidos previamente por un rehabilitador y el control
de diferentes videojuegos mediante la voz.

El programa de estudio de la señal de la voz (PC-Vox) realiza el estudio de la señal de la
voz almacenando unos 8 s a 16 kHz y 16 bits, mediante la extracción y representación de
los parámetros más representativos: obteniéndose espectrogramas y sonogramas con
ciertas limitaciones en las bandas de ancho.



                                                                                         25
Obtiene así mismo el análisis espectral mediante los métodos FFT y LPC permitiendo la
grabación, el registro, edición y creación de base de los datos obtenidos. Permite, la
creación de numerosos programas para conversión de textos –voz, realización de
audiometrías, visualización de los órganos articulatorios, etc.



Además de añadir otros programas asociados para la conversión de texto en voz, (Tel
_Eco), para la realización de audiometrías, (PCAUD), visualización de órganos
articulatorios, (SAS), etc.



En cuanto al hardware se utiliza la tarjeta Visha, un ordenador personal tipo at o superior,
micrófono, altavoz y auriculares, en el mercado también hay una versión adaptada a entorno
Windows.




3. 2. 6 Programa Praat

Es un programa informático con sucesivas versiones mejoradas, que permite el
reconocimiento de hablantes con independencia del texto, utilizando frases enteras de

conversación, ofrece todo el paquete de análisis de los anteriores: F0 , FFT, LPC siendo muy

útil y práctico para la obtención de los Coeficientes centrales y el Alineamiento Temporal
Dinámico para el estudio de las frases completas .

Con la distancia euclídea realiza las plantillas para representar las resonancias del tracto
vocal).



Este sistema viene avalado por los autores de: “La voz patológica” (que incluye una demo) y
“La voz normal”, ambos de la autora C. A. Jackson. Menaldi). Se puede así mismo descargar
en la página de la organización (www.praat.org) una versión actualizada y gratuita del mismo.
Además, el profesor de la Universidad de Barcelona D. Joaquín Llisterri tiene una página web
dónde ofrece tutoriales sobre el mismo, BATANER GIL, J., [2].

http://homepage.mac.com/joaquim_llisterri/phonetics/fon_anal_acus/Praat_analisis


                                                                                        26
4. REVISIÓN BIBLIOGRÁFICA Y RESULTADOS

4. 1. Influencia de la simulación de los hablantes en los sistemas de
        reconocimiento de locutores


G.Doddington es uno de los investigadores más relevantes dentro del campo de la Acústica
Forense y en el año 98 publicó, un estudio sobre la influencia de la simulación en los sistemas
de reconocimiento de locutores, acuñando una terminología que sería después ampliamente
utilizada y difundida en estudios posteriores, por el mismo y otros investigadores.



Clasificó a los hablantes en:

“Sheeps” (ovejas) que se corresponden con los verdaderos hablantes.

“Goats” (cabras), hablantes con particularidades intrínsecas que dificultan su reconocimiento.

“Lambs” (corderos), hablantes fáciles de imitar y por último.

“Wolves” (lobos), que son los hablantes simuladores que imitan voces.



Analizó 500 hablantes: 250 mujeres y 250 hombres, para comprobar la dependencia
independencia de la simulación en los sistemas de reconocimiento y utilizó para ello 2 tipos
de test de contraste: uno paramétrico: (Durban teste) y otro no paramétrico el (Kruskal
–Wallis). Se realizaron sesiones de trabajo de 30 s con distintos micrófonos y se comprobaron
12 sistemas.



Obteniéndose en conclusión la verificación de la hipótesis nula: que no hay influencia
significativa de la simulación en los sistemas de reconocimiento de locutores; quedando
identificados los distintos tipos de hablantes con un coeficiente de error más que aceptable,
además de aportar que dicho error puede aumentar en relación con el micrófono utilizado
(este aserto inspira el diseño experimental de esta tesis) y que dentro de las tipologías de
hablantes los más difíciles de simular: cabras, “goats” se corresponde en su mayoría con
mujeres DODDINGTON, G., [3].


                                                                                          27
4. 2. El Alineamiento Temporal Dinámico (DTW) como algoritmo de
decisión en la práctica forense
En la práctica forense, resulta necesario utilizar parámetros que nos proporcionen la
identificación del sujeto de la muestra con un margen de error pequeño, con este sentido
se creó el proyecto VYLE. BATANER GIL, J. [2] que pretendía diferenciar acústicamente
las características individuales o sea intralocutor de las variaciones interlocutores con la
finalidad de obtener parámetros fiables para comparar con certeza locutores dubitados e
indubitados.



Se revisó la bibliografía existente a tal efecto y se utilizaron indistintamente las bases de
voces: Albaycin, Gaudí, Euroni, Speech Dat 4000 y la Ahumada; en sus conclusiones se
remiten primero a los estudios de Künzel que ya en 1995 descartaban la validez de la
interpretación visual de los espectrogramas como método forense,          por ser éste    un
parámetro que arroja un alto en índice de error y tratarse de un sistema muy subjetivo en su
apreciación.



De igual modo, tuvieron en cuenta la clasificación realizada por Doddington ya en1985 de
parámetros que proporcionaban alto nivel de información sobre la dimensión social
económica y cultural del hablante; en contraposición a los que aportaban información
sobre la dimensión fisiológica del mismo, (que son los parámetros de más alto valor
identificativo).



Resultan vigentes aún en nuestros días los estudios realizados por Ladefoget y Broadbent
en 1957 sobre el vector Formante vocálico: que es el parámetro que mejor representa el
tracto vocal individual, siendo la representación todos estos rasgos resistentes a la
distorsión e interferencias que proporcionan otros parámetros.



Añadieron a su estudio el trabajo de otros investigadores como Hollien que revisando
numerosa bibliografía destaca otros 2 parámetros: la frecuencias centrales de los tres 1º
formantes de al menos 3 vocales /a/, /e , /u/ y la sílaba /na/ concluyendo que la información
más “robusta” la arroja el análisis de      la distancia de los tres primeros formantes


                                                                                          28
(F1/F2)(F2/F3) que no puede ser alterada a voluntad , además el valor medio del F3 no
cambia de vocal a vocal y da con precisión la longitud del tracto vocal del sujeto analizado;
expresando que a mayor longitud del tracto vocal, menor frecuencia del formante, el vector
Fo mide 30 parámetros diferentes y todos ellos en conjunto proporcionan información sobre
los aparatos resonadores, junto a otros parámetros como las frecuencias formánticas, la
anchura de los formantes, trayectorias y distancias de los mismos, consonantes nasales,
turbulencias, etc. Establecidos los parámetros que nos proporcionar la información
intralocutor con valor identificativo, se debe implementar un algoritmo de decisión que sea
práctico y fiable a nivel forense, que sea útil para ser utilizado en muestras pequeñas de
texto independientes; en este sentido se utiliza la medida de la distancia euclidiana que es
un parámetro que no requiere caracterización estadística y está avalado por numerosos
estudios conjuntos de expertos en fonética e ingenieros eléctricos y electrónicos.



Además de destacar por ser un algoritmo simple en el cálculo y en su implementación en la
práctica forense.



Esta finalidad de hallar un algoritmo útil para el reconocimiento de locutores, es la base de
los estudios realizados dentro de un proyecto global; para desarrollar sistemas de
identificación de locutores mediante la voz con aplicaciones forenses de la Unidad de
Investigación y Criminalística de la Policía Judicial española. ROMÁ ROMERO, M.,
RAMÓN GARCÍA, J. L [11].



Sus investigaciones han verificado con un margen de error aceptable (comparando la
muestra del sujeto dubitado con al menos 8 muestras de distracción del indubitado como
en las ruedas de reconocimiento y utilizando la base de datos Ahumada y el micrófono
Sony que recoge el habla en conversación espontánea) que frente a otros algoritmos
basados en criterios de máxima verosimilitud (o su versión simplificada y los modelos
ocultos de Markov      que requieren la utilización de numerosas muestras y costosa
caracterizaciones estadísticas) uno de los algoritmos de decisión que en la práctica resulta
más útil para la de identificación automática de locutores con fines forenses, es el DTW que
parte de la alineación temporal de la información sonora utilizando plantillas y se sirve de




                                                                                          29
la distancia euclidiana para estimar si las grabaciones comparadas son parecidas o
distintas entre sí.



4. 3 La pericia acústica en el proceso

Dentro del ámbito procesal penal no existe una tasación legal de los medios de prueba
admisibles, lo cual resulta coherente con lo dispuesto en el artículo 24.2 de la CE que
reconoce el derecho fundamental a utilizar todos los medios de prueba que se consideren
pertinentes para la defensa y por extensión para la acusación; debido a lo anteriormente
expuesto, ningún órgano jurisdiccional puede negarse a admitir un medio de prueba
alegando que éste no se encuentra previsto por la Ley de Enjuiciamiento Criminal, siendo
habitual; que los tribunales consideren las pruebas reconduciéndolas a las ya previstas
considerando las cintas de video, cassetes        y grabaciones telefónicas como prueba
documental mixta o documental pericial (art 726 y s. s LE Cr ).



La acústica forense se encarga del análisis científico del habla al servicio de los Tribunales de
Justicia y como en toda articulación de una prueba procesalmente válida, hay que diferenciar
dos aspectos: el formal y el material.



Requisitos formales: distinguiéndose en el caso de la prueba acústica: los de tiempo y
forma, en cuanto al tiempo su alegación en los pertinentes escritos de calificación conforme
a los arts.: 650, 656 y 728 de la LE Cr y obtenida conforme a los derechos fundamentales
como indica el art: 11.1 de la LOPJ: que implica que en el ámbito de la intimidad de las
personas la intervención de las comunicaciones y las grabaciones como señala el art,: 18
de la CE se deben acordar por resoluciones judiciales motivadas y proporcionadas a la
importancia y gravedad del caso que se investiga.



Siendo a su vez, depurada y probada la relación entre las personas que intervienen en la
prueba y el objeto del proceso.




                                                                                           30
Requisitos materiales: una vez validada la prueba en cuanto a la forma, ésta tiene un
contenido material: lo que se escucha y queda y su relación con el caso que se juzga;
siendo muy importante, que se haya respetado la cadena de custodia (que la prueba esté
desde su recogida hasta el Juicio Oral bajo la salvaguarda de la autoridad judicial).



En una     pericia Acústica      se informa sobre la autenticidad de los interlocutores en
intervenciones telefónicas y en grabación de conversaciones, el criterio de ajenidad y
proximidad nos sirve para distinguirlas: en las intervenciones, los sujetos son ajenos a la
grabación (que para que sea considerada como prueba válida debe ser ordenada por
resolución judicial motivada) sin embargo, las conversaciones telefónicas son grabadas por
uno de los intervinientes y éste la aporta al juicio como un “aide memoire” de su testimonio
sobre el asunto que se dirime.




Grabación de conversaciones

El criterio de los tribunales con respecto a la admisibilidad de la prueba obtenida de la
conversación entre particulares, realizada por uno de ellos está claro; pues el Tribunal
Constitucional dictaminó ya en la Sentencia nº 114 del 98 que para que pueda hablarse de
violación en el secreto en las comunicaciones es imprescindible que la intervención se
produzca por quienes son ajenos a la comunicación misma.



Estableciendo, que no hay secreto para aquél a quien la comunicación se dirige; diferenciado:
que quien graba la conversación de otros atenta al derecho reconocido por la CE del art 18. 3,
pero quien graba la comunicación con otros no incurre por este solo motivo en conducta
contraria a derecho.



En otra sentencia del TS de 1-3-1996 (Ponente Excmo. Sr. D. José Antonio Martín Pallín) se
estableció (en un caso de por tráfico de estupefacientes) que cuando un contertulio emite
voluntariamente sus opiniones o secretos sabe de antemano            que se despoja de sus
intimidades y las transmite a quién las escucha, el cual, podrá usar su contenido sin incurrir
en ningún reproche jurídico.



                                                                                         31
Un testigo puede relatar lo escuchado en un proceso criminal y será considerado por ello
como testigo referencial (art 710 L Ej Crim) pudiendo constituirse dicho testimonio en prueba
válida legal y de cargo, estando acompañada de la grabación de la conversación que se
aporta al juzgado previamente para verificar su autenticidad y realizar su trascripción con la fé
del Secretario, etc




Intervención de las comunicaciones

Penalización: El CP en su artículo 198 establece como delito: ….la interceptación de las
telecomunicaciones o la utilización de artificios técnicos de escucha, transmisión, grabación o
reproducción del sonido o de la imagen…agravándose el hecho si este es cometido por
autoridad o funcionario público fuera de los casos permitidos por la Ley y sin mediar causa
legal por dicho delito.



Jurisprudencia:--versus----Legitimidad. El Auto de la Sala 2ª del Tribunal Supremo de
18-6-1992 se constituye como “corpus iuris” en cuanto a los aspectos procedimentales de
esta prueba, estableciendo la importancia de que el material de audio este controlado por el
órgano judicial mediante custodia de las cintas originales, trascripción bajo fe del Secretario
Judicial etc.



El Tribunal Constitucional en reiteradas sentencias como la nº 166/99 y171/99 y la sentencia
sobre el caso Kas del Tribunal Europeo de los Derechos Humanos de Estrasburgo establece:



1º Que la medida de restricción del derecho a las comunicaciones deberá estar prevista
legalmente con suficiente precisión (principio de legalidad formal y material).



2º Que tendrá que decidirse por autoridad judicial en el marco de un proceso.




                                                                                           32
3º Que se realizará con estricta observancia del principio de proporcionalidad, es decir la
medida será necesaria para alcanzar un fin constitucionalmente legítimo como es la
prevención de delitos calificados de infracciones graves y tendrá que ser la medida idónea e
imprescindible para la investigación de tales delitos.



Juriprudencia.--versus-----Ilegitimidad. Según exponen las STC nº 121 y151(ambas de 1998)
con la intervención de las comunicaciones se vulnera el derecho al secreto de las mismas del
art de la CE nº 18; cuando no se respetan las garantías constitucionales en algunas de las
fases del proceso; circunstancia que se produce si esta        medida no es decidida por el
órgano jurisdiccional competente, o por desproporción en la aplicación de la misma debido a
la inexistencia de presupuestos materiales de delito., (arts579.2 y3 de la LE Crim) es decir,
existencia de una investigación por un hecho constitutivo de infracción punible grave, indicios
del hecho constitutivos de dicha infracción y conexión con estos hechos del sujeto intervenido.



La actuación policial (siguiendo lo establecido por el Convenio de Roma) se realizara bajo
tutela y garantía del Poder Judicial; debiendo ser un Órgano Jurisdiccional independiente
quien de forma razonada y previa ponderación de la proporcionalidad, razonabilidad, y
necesidad de la medida, acuerde la intervención de las comunicaciones.



Además, la infracción del derecho a la privacidad en las comunicaciones (art 18.3 CE) puede
vulnerar el Principio de Presunción de inocencia (art 24.2 CE); concluyendo con el (art 11. 1
de la Ley Orgánica del Poder Judicial) según el cual: no surtirán efecto las pruebas obtenidas
violando directa o indirectamente un derecho fundamental que serán declaradas nulas de
pleno derecho. FUINGAIRIÑO BRIGAS, E [5].




                                                                                          33
5. DISEÑO EXPERIMENTAL

5. 1 La influencia microfónica en la identificación de locutores con fines
forenses

Hipótesis: Influencia o no de los micrófonos en las tasas de identificación de locutores:



Base de datos     Ahumada, formada por las grabaciones por distintos medios de 103
locutores en español.



Diseño experimental: cotejo entre los locutores 1 y restantes hasta un total de 30 en
grabaciones de los micrófonos 1 y 2: autos y cruzados (comparándolos consigo mismos y
entre ellos). Se calculan las distancias euclídeas y la   alineación temporal dinámica (DTW)
con el programa Praat y después se tratan estadísticamente los datos con Excel
2007utilizando las macros creadas para optimizar losl cálculos por el profesor José. L. Ramón.



MICROFONOS 1 y 2 : (Características técnicas del fabricante).

- Micrófono 1, AKGD80S cardioide de sobremesa

Tipo de transductor……………………………..Dinámico de gradiente de presión.

Diagrama polar (direccionalidad)………………Cardióide.

Rango de frecuencias…………………………..60-18000 Hz.

Sensibilidad a 1 kHz……………………………10 Ohms.

Impedancia de carga recomendada…………..1000 Ohms



Máximo NPS para THD≤1%/≤3% …………… 50 Pa* (128 dB NPS) /138 dB.




Sensibilidad al zumbido de red…………………35 µV / 5 µT.


                                                                                            34
Condiciones climáticas ………………………….Rango de temperaturas -10º C a + 65 º C

                                                  Humedad Relativa a +20º C (68º F):95%

Tipo de conector……………………………… XLR estándar macho de 3 pin.

Conexiones………………………………………Pi n 1: Masa.

                                                 Pin 2: Audio en fase.

                                                 Pin 3: Audio (retorno).



Audio. Dimensiones……………………………. Longitud: 185 mm, ∅: 54 mm.




Peso Neto/bruto………………………………….210 / 500 gramos.

Sensibilidad………………………………………1.6 mV / pascal.

Respuesta frecuencia…………………………. ∆f= 64 Hz-6.4 kHz.

- Micrófono 2, SONY ECM-66B de solapa.

Tipo de transductor………………………...............De condensador Electret.

Diagrama polar (direccionalidad)………………… Unidireccional.

Rango de frecuencias…………………….............7-14000 Hz,



Sensibilidad 1 KHz (desv. De ± dB)…................Tensión en circuito abierto:

                                                   dB (3.16 mv, 0 dB=1 V/1 Pa )

                                                   nivel de salida eficaz:

                                                  dB( 0 dBm = 1mW/ 1Pa)

                                                   Impedancia de carga recomendada
                                                   superior a 3 kHz




                                                                                          35
Impedancia de salida……………….....................100 Ohm s±20% balanceada.

Relación Señal/Ruido…………………………… Mayor de 65 dB (a 1 kHz, 1 Pa).

Ruido de viento………………………………… Menor de 50 dB NPS (con protector antiviento)

Ruido inducido por campo electromagnético ext. Menor de 5 dB NPS/mG.




Máximo NPS para TDH ≤1% a 1 KHz………………130 d B NPS (63.2 Pa)




Rango dinámico………………………………………… Mayor de 101 dB

Condiciones climáticas………………………………….De-20ºC a +60ºC para almacenamiento

                                                  De 0º C a+60º C para funcionamiento.

Tipo de conector…………………………………… …XLR estándar macho de 3 –pin.

Dimensiones y peso del micrófono Longitud: 24.2 mm; diámetro de cabeza 0.6 mm, peso
aproximado en g.



Dimensiones y peso micrófono: Longitud 24.2 mm, ∅ cabeza 10.6 mm. Peso aprox 7 g.




Dimensiones y peso pre-amplificador……………………Longitud: 163 mm, diámetro: 20 mm

                                                    Peso aproximado: 160 g



Sensibilidad……………………………………………………3.2 mV / pascal.



De estas características técnicas se destaca que el micrófono SONY tiene una sensibilidad


                                                                                    36
mayor: de 3.2 mV/pascal; frente al AKG de 1.6 mV/pascal, además de contar el primero con
un protector antiviento del ruido inducido, del que se sirve para limpiar el sonido de entrada en
la grabación.



Además el tipo de transductor(sistema empleado para la captación del sonido) nos indica si el
sonido ha sido captado en una o varias direcciones, el AKG es un micrófono cardiode de
presión lo cual indica que tiene forma de corazón con una entrada del sonido bidireccional a
dos caras (como la forma de un 8), este tipo de micrófono se emplea en obras de teatro o
representaciones con varias fuentes sonoras, sin embargo el SONY al poseer un sistema de
condensador electret capta el sonido en una sola dirección, siendo más apto para la grabación
de locuciones sin interferencias ambientales.



Estas características cobran especial importancia una vez analizamos los datos obtenidos en
donde sí queda patente , que la mayor sensibilidad de uno de los micrófonos influye real
mente en los resultados obtenidos.



Por tanto resulta necesario señalar que hay variables técnicas controlables en el análisis de la
voz, que optimizan los resultados,       siendo la utilización de    un micrófono      adaptado
imprescindible para la grabación controlada de la voz a analizar.




5. 2 Estructura del árbol de ficheros de la base de datos Ahumada

Adopta en máximo de caracteres que permite el sistema operativo MS-DOS que es de 8;
quedando clasificadas las grabaciones según el siguiente esquema del ejemplo: ORTEGA,
J. J. MARRERO. V., [9].




                        0 2 0 T 2 E 0 0.B D A

                                                                                           37
Número                                           Apartado de
                                            Tarea
                    Locutor                                           la tarea




                                   Vía de grabación y           Extensión de
                                                                Base de Datos
                                        sesión
                                                                Ahumada




                    Figura 8. Esquema de la base de datos Ahumada

De este ejemplo a la vista del esquema se deduce:

Que se trata del locutor nº 20 (tres primeros caracteres “020”).

La tarea E se refiere a lectura texto propio, los dos ceros “00 “ se corresponden con que no ha
realizado una subtarea en la lectura.

Para los ficheros en grabación microfónica existen 26 ficheros por canal en cada sesión, al
ser tres sesiones en estéreo con 26 ficheros por 6 canales diferentes; resultan 156 ficheros
por locutor en las tres sesiones microfónicas.




5. 3 Distancia euclídea normalizada

El algoritmo para comparar muestras sonoras y decidir sobre la identidad del hablante
basado en la distancia euclídea normalizada, presenta la ventaja de funcionar sin
necesidad de realizar una caracterización estadística de los diferentes locutores, por lo que,
puede ser empleado con un número reducido de muestras de voz; parte del éxito en la
utilización preferente del DTW, radica en haber sido propuesto por un grupo de trabajo
compuesto tanto por expertos en fonética forense, como por ingenieros eléctricos y
electrónicos. El método, destaca por su simplicidad, tanto de cálculo como en               la
implementación.




                                                                                           38
La hipótesis de partida es, como se ha mencionado anteriormente: que si el vector de
parámetros es suficientemente dependiente del locutor, éste se parecerá más a sí mismo
que al resto, es decir, la variabilidad intralocutor del vector debe ser menor que la
variabilidad interlocutor.



La medida del parecido entre muestras se realiza por medio del cálculo de su distancia
euclídea, midiéndose tal distancia entre la muestra dubitada y la indubitada; así como con
cada una de las muestras de distracción. Puesto que las componentes del vector de
parámetros pueden ser de diferente orden de magnitud, cuanto mayor valor presente una
componente tanto más peso va a tener en la medida de la distancia.



Para evitar un efecto de baremo no deseado entre las diferentes componentes, la distancia
se mide normalizando los valores con un vector de normalización que iguale el orden de
magnitud de cada una de las componentes.

Si las componentes del vector de parámetros presentan un diferente grado de
discriminación, el vector de normalización puede emplearse también para otorgar un mayor
peso a las componentes más discriminantes.



Con el fin de que el mismo proceso pueda aplicarse independientemente a cualquier vector,
y para que los resultados puedan compararse directamente, el resultado de la medida de la
distancia entre las diferentes muestras se normaliza a su vez en un rango común, de modo,
que la distancia menor valga 1 y la mayor 10.



De este modo, si el resultado de una medida no es concluyente acerca de la identidad del
locutor dubitado, la prueba puede complementarse repitiendo la medida con un vector de
parámetros distinto.



5. 4 Resultados obtenidos con el método DTW.

Partiendo de la base de datos Ahumada utilizamos los 30 primeros locutores en grabaciones
de conversación espontánea con los micrófonos 1 y 2.


                                                                                       39
Con el programa Praat (ver Figuras 9 y 10) y RAMÓN, J. L., ROSIQUE, M., [10], hallamos
los coeficientes cepstrales que representa la información del tracto vocal de cada uno de los
locutores y poder así realizar la alineación temporal dinámica y calcular las distancias entre e
intralocutores y así a través de la utilización de un criterio adaptado de corte realizar la
identificación entre los distintos hablantes.




Figura 9. Cotejo semiautomático intralocutor para las señales microfónicas B01 y B02 del
mismo locutor L001. Obsérvese el valor de la distancia 138.203 entre el mismo locutor.




                                                                                          40
Figura 10. Cotejo semiautomático interlocutor para las señales microfónicas B01 y B02 de
distintos locutores L001 y L002. Obsérvese el valor de la distancia 150. 352, entre dichos
locutores.




5. 5 Criterios de comparación y toma de decisiones.
El criterio de comparación y decisión para asignar y comparar las distancias ha sido un
criterio   que hemos llamado adaptado. Es decir se ha calculado el corte adaptado o
separación entre los locutores a través de las 45 medias de cada uno de los locutores que
constituyen el cotejo.




                                                                                       41
Así si estamos cotejando los locutores L001 y L002, tendremos en cuenta los resultados:



1. Distancia media intralocutor 1            d1=128.28



2. Distancia media intralocutor 2            d2=108.92



3. Distancia media interlocutores 1-2        d1-2=151.34     desviación típica = 5.16



4. Criterio adaptado o corte




Cadap =MediaCruzado – (1,64)* σ               Cadap   =151.34 - (1.64) x 5.16= 142.87




En resumen:

Si el valor de Cadap del cotejo interlocutores es mayor que las dos distancias intralocutor:
Los locutores son distintos.

Si el valor de Cadap del cotejo interlocutores se sitúa entre las dos distancias d1 y d2:        (7)

No hay decisión.

Si el valor de Cadap del cotejo interlocutores es menor que las dos distancias d1 y d2:

Se trata del mismo locutor.




La Tabla 1 representa las medias y la desviación típica de las distancias entre los locutores


                                                                                            42
del 1 al 30, tanto para los cotejos intralocutores (autos) como los interlocutores (cruzados),
hallados con Excel/2007, calculándose un criterio de corte adaptado automático para
discriminar los distintos cotejos, de acuerdo con el criterio mencionado anteriormente (7). Así
en la Tabla 1, 2, 3 y 4 se muestran los resultados correspondientes a los 30 locutores
estudiados. En las 2 primeras columnas se indican los resultados intralocutores y en las
columnas 3, 4 y 5 los resultados interlocutores, media y desviación típica.. En la columna 6, se
muestran los resultados del criterio de clasificación o corte adaptado. En las columnas 7
(Cotejo A) se indica si el corte supera o no el valor intralocutor primero (1 ó 0) y en la columna
8 (Cotejo B) se indica si el corte supera o no el valor intralocutor segundo (1 ó 0). Así en
particular,en la primera línea de la Tabla 1, la columna Cotejo A aparece como 1, dado que el
corte:142.28 supera al valor “Mean” del locutor1: 128.28. En la columna B aparece también 1,
dado que el corte: 142.28 supera al valor “Mean” del locutor2: 108.92. En este ejemplo
concluiríamos que el locutor1 y el locutor2 son distintos.



Tabla 1. Datos correspondientes a la grabación con micrófono 1: locutores del 1-30 (autos y
cruzados).



   Locutor     Mean       Locutores      Media       Desv Tip      Corte     Cotejo A   Cotejo B
  locutor1     128.28       L001.2       151.34       5.16        142.87        1           1
  locutor2     108.92       L001.3       158.49       7.60        146.03        1           1
  locutor3     131.35       L001.4       148.49       7.24        136.61        1           1
  locutor4     131.06       L001.5       149.18       5.87        139.56        1           1
  locutor5     133.60       L001.6       147.79       4.98        139.62        1           1
  locutor6     115.59       L001.7       171.25       4.66        163.61        1           1
  locutor7     119.34       L001.8       171.50       6.83        160.31        1           1
  locutor8     122.08       L001.9       145.85       5.03        137.60        1           1
  locutor9     110.95      L001.10       149.26       5.85        139.67        1           1
 locutor10     113.16      L001.11       143.47       4.75        135.68        1           1
 locutor11     107.63      L001.12       152.36       6.87        141.08        1           1
 locutor12     129.47      L001.13       156.46       7.11        144.81        1           1
 locutor13     137.43      L001.14       168.99       9.83        152.87        1           1
 locutor14     130.70      L001.15       170.62       5.68        161.31        1           1
 locutor15     121.80      L001.16       153.38       5.88        143.73        1           1
 locutor16     125.86      L001.17       174.81       7.07        163.22        1           1
 locutor17     134.66      L001.18       143.69       6.56        132.93        1           1
 locutor18     115.76      L001.19       155.44       5.59        146.27        1           1



                                                                                            43
locutor19     137.75       L001.20       156.33        6.83       145.13          1            1
 locutor20     125.87       L001.21       158.26        6.62       147.40          1            1
 locutor21     120.17       L001.22       189.52        5.33       180.77          1            1
 locutor22     126.63       L001.23       155.26        6.16       145.15          1            1
 locutor23     113.27       L001.24       159.94        5.37       151.13          1            1
 locutor24     120.98       L001.25       157.29        5.88       147.66          1            1
 locutor25     126.44       L001.26       171.62        4.65       163.98          1            1
 locutor26     125.40       L001.27       175.68        5.53       166.62          1            1
 locutor27     133.01       L001.28       154.36        4.71       146.64          1            1
 locutor28     123.25       L001.29       153.95        5.83       144.40          1            1
 locutor29     112.78       L001.30       156.59        6.22       146.39          1            1
 locutor30     122.26




En la Tabla 2 se utiliza el micrófono 1 al igual que en la Tabla 1 pero se parte del locutor 3 al 30,
se realiza la media y la desviación típica de los autos y cruzados y como resultados los cotejos
no son coincidentes en 8 locutores quedando sus respectivas distancias medias entre el
criterio de corte por lo cual no hay decisión.



Tabla 2. Datos correspondientes a la grabación con micrófono 1: locutores del 3-30 (autos y
cruzados).


 Locutor      Mean       Locutores      Media      Desv Tip     Corte       Cotejo A    Cotejo B
 locutor 3    131.35       L003.4       156.67       9.43       141.20         1            1
 locutor 4    131.06       L003.5       159.04       8.07       145.81         1            1
 locutor 5    133.60       L003.6       140.38       8.01       127.24         0            1
 locutor 6    115.59       L003.7       144.37       6.55       133.63         1            1
 locutor 7    119.34       L003.8       157.43       8.09       144.16         1            1
 locutor 8    122.08       L003.9       143.44       7.96       130.39         0            1
 locutor 9    110.95      L003.10       140.77       8.78       126.37         0            1
locutor10     113.16      L003.11       150.58       7.64       138.05         1            1
locutor11     107.63      L003.12       144.67       8.26       131.12         0            1
locutor12     129.47      L003.13       151.98       8.05       138.78         1            1
locutor13     137.43      L003.14       142.39       6.95       131.00         0            1
locutor14     130.70      L003.15       149.37       8.26       135.83         1            1
locutor15     121.80      L003.16       151.52       9.27       136.32         1            1
locutor16     125.86      L003.17       150.92       8.93       136.28         1            1


                                                                                                44
locutor17     134.66      L003.18      150.43       7.94       137.41           1        1

locutor18     115.76      L003.19      151.29       8.08       138.04                    1
locutor19     137.75      L003.20      148.46       8.53       134.48           1        1
locutor20     125.87      L003.21      148.22       6.66       137.29           1        1
locutor21     120.17      L003.22      164.39       7.88       151.47           1        1
locutor22     126.63      L003.23      144.80       8.33       131.14           0        1
locutor23     113.27      L003.24      144.15       8.80       129.72           0        1
locutor24     120.98      L003.25      154.76       6.82       143.57           1        1
locutor25     126.44      L003.26      167.67       8.51       153.71           1        1
locutor26     125.40      L003.27      151.10       7.42       138.93           1        1
locutor27     133.01      L003.28      151.61       7.82       138.79           1        1
locutor28     123.25      L003.29      138.75       7.12       127.08           0        1
locutor29     112.78      L003.30      146.37       6.80       135.23           1        1

locutor30     122.26




En la Tabla 3 con el micrófono 2, se muestran los cotejos con la medias de las distancias y
criterio de corte adaptado de los locutores del 1 al 30 dan como resultado la identificación de
los locutores distintos, al ser los cotejos A y B coincidentes en resultar 1.



Tabla 3. Datos correspondientes a la grabación con micrófono 2: locutores del 1-30 (autos y
cruzados.

Locutor      Mean      Locutores    Media     Desv Tip     Corte     Cotejo A Cotejo B
locutor 1      124.54 L001.2         140.44        5.16     131.97          1        1
locutor 2      105.41 L001.3         149.02        5.99     139.21          1        1
locutor 3      120.51 L001.4         148.72        5.94     138.98          1        1
locutor 4      124.51 L001.5         144.64        5.29     135.96          1        1
locutor 5      128.12 L001.6         156.99        5.07     148.66          1        1
locutor 6      112.68 L001.7         178.62        5.35     169.85          1        1
locutor 7      124.34 L001.8         169.65        6.80     158.49          1        1
locutor 8      118.29 L001.9         143.04        4.42     135.79          1        1
locutor 9      112.50 L001.10        155.61        4.87     147.63          1        1
locutor 10     110.31 L001.11        157.44        6.22     147.24          1        1
locutor 11     117.45 L001.12        146.55        5.45     137.62          1        1
locutor 12     120.92 L001.13        159.69        6.27     149.40          1        1
locutor 13     135.34 L001.14        160.62        5.69     151.28          1        1


                                                                                             45
locutor 14     127.39 L001.15        175.83       5.07    167.52            1          1
locutor 15     118.42 L001.16        151.51       6.07    141.55            1          1
locutor 16     124.09 L001.17        161.55       6.87    150.27            1          1
locutor 17     127.90 L001.18        149.53       5.73    140.13            1          1
locutor 18     119.61 L001.19        164.92       6.27    154.63            1          1
locutor 19     134.94 L001.20        153.53       6.08    143.57            1          1
locutor 20     124.47 L001.21        162.70       5.45    153.75            1          1
locutor 21     122.67 L001.22        175.83       4.36    168.69            1          1
locutor 22     128.15 L001.23        155.20       6.10    145.19            1          1
locutor 23     117.98 L001.24        164.83       4.34    157.70            1          1
locutor 24     123.87 L001.25        153.96       5.54    144.87            1          1
locutor 25     125.07 L001.26        163.98       4.57    156.49            1          1
locutor 26     119.42 L001.27        166.10       3.99    159.56            1          1
locutor 27     131.15 L001.28        162.35       5.60    153.17            1          1
locutor 28     123.59 L001.29        149.31       5.70    139.96            1          1
locutor 29     108.79 L001.30        156.87       6.08    146.89            1          1
locutor 30     118.43
.

En la Tabla 4 con el micrófono 2, se muestran los cotejos con la medias de las distancias y
criterio de corte adaptado de los locutores del 3 al 30. Los resultados coinciden en 2
indecisiones del micrófono 1 para el mismo cotejo en los locutores 9 y 28, añadiendo una
nueva indecisión en el locutor 18, no confirmando el resto de indecisiones halladas con el
micrófono 1.



Tabla 4. Datos correspondientes a la grabación con micrófono 2: locutores del 3-30 (autos y
cruzados).

    Locutor   Mean       Locutores     Media      Desv Tip      Corte       Cotejo A       Cotejo B
locutor 3        120.51 L003.4           141.58          6.21      131.39              1              1
locutor 4        124.51 L003.5           148.13          4.42      140.88              1              1
locutor 5        128.12 L003.6           130.81          6.25      120.57              1              1
locutor 6        112.68 L003.7           146.76          5.53      137.70              1              1
locutor 7        124.34 L003.8           159.49          6.72      148.47              1              1
locutor 8        118.29 L003.9           132.01          5.84      122.44              1              1
locutor 9        112.50 L003.10          129.01          7.62      116.50              0              1
locutor 10       110.31 L003.11          151.46          8.02      138.31              1              1
locutor 11       117.45 L003.12          131.78          5.52      122.73              1              1


                                                                                                46
locutor 12       120.92 L003.13          149.02         7.53    136.67           1            1
locutor 13       135.34 L003.14          140.12         5.76    130.67           1            1
locutor 14       127.39 L003.15          154.25         7.16    142.51           1            1
locutor 15       118.42 L003.16          141.67         6.76    130.58           1            1
locutor 16       124.09 L003.17          148.47         7.79    135.69           1            1
locutor 17       127.90 L003.18          141.83         6.06    131.89           1            1
locutor 18       119.61 L003.19          143.41         7.83    130.57           1            0
locutor 19       134.94 L003.20          139.93         5.79    130.44           1            1
locutor 20       124.47 L003.21          146.86         6.53    136.14           1            1
locutor 21       122.67 L003.22          161.61         6.11    151.59           1            1
locutor 22       128.15 L003.23          137.64         6.44    127.07           1            1
locutor 23       117.98 L003.24          141.50         6.03    131.61           1            1
locutor 24       123.87 L003.25          139.35         5.66    130.07           1            1
locutor 25       125.07 L003.26          150.09         4.51    142.70           1            1
locutor 26       119.42 L003.27          142.52         6.77    131.42           1            1
locutor 27       131.15 L003.28          154.75         6.04    144.85           1            1
locutor 28       123.59 L003.29          129.08         5.83    119.52           0            1
locutor 29       108.79 L003.30          145.79         5.46    136.84           1            1
locutor 30       118.43



En resumen, comparando los resultados de las tablas obtenidas por el método ya explicado se
observa      que las medias que están por         encima de las distancias intralocutores se
corresponden con locutores distintos ( siguiendo el criterio de corte previo adoptado) mientras
que las medias por debajo, se refieren al mismo locutor y las situadas entre ambas; indican
que no hay decisión en ninguno de estos dos sentidos pudiéndose inferir en base a los
resultados que hemos obtenido: que la utilización de micrófonos distintos sí influye en el
número de indecisiones; de manera que en el micrófono 1 son de 8, mientras que el con el
micrófono 2 sólo se confirma las indecisiones en el locutor 9 y el 28 que también obtiene el
micrófono 1, añadiéndose otra indecisión nueva en el locutor 18. Cabe destacar que en las
características técnicas de ambos micrófonos se aprecia una sensibilidad mayor del
micrófono 2 de SONY (de 3.2 mV/pascal frente al micrófono AKG de 1.6 mV/pascal). Además
el Sony cuenta con un control antiviento del ruido inducido, siendo la diferencia más
destacada entre ambos micrófonos la referida al modo de captación del sonido: en el caso del
SONY unidireccional y bidireccional en el AKG.



Por otra parte, no se producen en nuestro cotejo ni falsos positivos ni negativos, es decir la



                                                                                         47
utilización de un micrófono distinto no varía la tasa de identificaciones positivas o negativas de
los locutores estudiados; pero sí influye sensiblemente en el número de identificaciones pues
aumenta el índice de indecisión.



Este resultado y todo lo anteriormente expuesto me permiten defender el aserto de que la
Acústica forense es una disciplina con un sustrato científico suficiente para responder a los
interrogantes que la justicia requiere en la sociedad actual.

Si bien se trata de un campo con pocos años desarrollo, es de señalar que los últimos
avances e investigaciones en análisis forense de la voz humana; se encaminan hacia el
estudio de Modelos bioinspirados en el comportamiento de la fonación y sobre todo de la
audición. En este último nivel existe un proyecto en marcha en el que trabajan de manera
conjunta, aunando aportaciones, las Universidades de Salamanca y Murcia junto a la
Politécnica de Cartagena y el Servicio de Criminalística de la Guardia Civil.



6. CONCLUSIONES
1ª. Hemos comprobado que con los sistemas de reconocimiento actuales tales como el
programa Praat, se posibilita, el análisis de muestras con grabaciones de conversaciones
espontáneas de frases completas ( que son las muestras más habituales en la práctica) a
diferencia de otras técnicas como las de LPC que midiendo la amplitud de los formantes,
realiza el análisis descomponiendo el sonido en vocales para hallar el formante más
identificativo, siendo un método muy preciso, éste es más           efectivo para situaciones
prediseñadas de investigación en laboratorio y forenses.



2ª. Destaca de entre otros métodos utilizados la Alineación Temporal Dinámica (DTW) como
uno de los mejores algoritmos de decisión para la identificación forense, debido sobre todo, a
que el cálculo de la distancia euclidea nos permite analizar la voz en conversaciones
espontáneas que son las más usuales en la práctica forense y que el posterior tratamiento
estadístico de los datos no resulta muy complicado.



3ª. Se pude utilizar la pericia acústica como prueba documental en el proceso judicial



                                                                                            48
complementando el testimonio del testigo que la aporta, ya que sirve para identificar a los
hablantes con suficiente rigor científico.        Para su obtención se utilizan parámetros
controlados, contrastados y reproducibles para su comprobación empírica, que son los
requisitos indispensables a cualquier método científico.



4ª. La certeza en la identificación de un sujeto con los métodos habitualmente empleados
(como son el CLS y el Praat) es de un 95% aproximadamente; ligeramente inferior a la que se
puede conseguir con las pruebas biológicas de ADN.

5ª. Los resultados que hemos obtenido con el diseño experimental sobre la influencia
microfónica en la identificación de locutores nos permite inferir que los micrófonos utilizados
influyen significativamente en el índice de indecisiones (8 indecisiones en Micrófono uno-AKG
y 2 indecisiones Micrófono dos-Sony), no dando lugar ni a falsos positivos ni negativos, lo cual
indica que el uso de distintos micrófonos afecta a las indeterminaciones del sistema de
identificación modificando el índice de indecisión del mismo, pero no afecta a la propia
capacidad identificativa del sistema.




7. BIBLIOGRAFÍA

1. ALTUZARRA NIETO, A., 1996. Estudio comparativo de los distintos sistemas de análisis
de la voz. (pp. 139 a la 149). En GARCÍA-TAPIA URRUTIA, R., CORBETA MARCO, I.,
Diagnostico y tratamiento de los trastornos de la voz. SEORL y Patología Cérvico-Facial.
Patrocinado por Omega Tecnobío. Editorial Garsi S.A.



2. BATANER GIL, J., 2004. Estudio fonético-acústico de la variación Inter-Intralocutor en
español para el reconocimiento automático de locutores con fines forenses. VILE: proyecto de
estudio acústico de la variación inter- intra locutor en español. 2002-2004. Departamento de
Filología Española Universidad Autónoma de Barcelona. vile@liceu.uab.es.



3. DODDINGTON, G., 1998. Sheeps, Goats, Lambs and Wolves. A Statistical Análisis of
Speaker Performance in the NIST Speaker Recognition Evaluation.



                                                                                          49
4. ESTEVE ELIZALDE, C., 2007. Reconocimiento de locutores dependiente del texto
mediante adaptación de Modelos Ocultos de Markov. Proyecto Fin de Carrera Escuela
Politécnica Universidad Autónoma Madrid. ( Figuras: 2, 3, 4. pp.: 7-11).



5. FUINGAIRIÑO BRIGAS, E.; 2000. Notas sobre la prueba de audio en el Proceso Penal.
Memoria Actas Congreso 1º. Sociedad Española Acústica forense



6. JAKSON MENALDI, C. A., ARAUZ, J. C., y BENVENUTO, M., 2002. La voz Normal. (pp
15- 59). Editorial Médica Panamericana



7. JAKSON MENALDI, C A., 2002. La voz Patológica. 216-222. Editorial Médica
Panamericana.



8. RAMÓN, J. L., SANCHEZ-MOLERO, J.A.            CANTERAS, M. y GARCERÁN, V., 2000.
Identificación semiautomática de hablantes mediante parámetros extraídos de espectros
suavizados en locuciones de larga duración (LTA) y el valor medio de la frecuencia
fundamental(F0). Memoria Actas 1º Congreso, Sociedad Española de Acústica Forense. pp.
163-168



9. ORTEGA, J. GONZÁLEZ, J., MARRERO, V., 2000, AHUMADA: a la large corpus in
Spanish for speaker characterization and identification. Speech Communication 31, 2-3. (pp
255-264).




10. RAMÓN, J. L., ROSIQUE, M., (becario) ,2005. Preparación del Algoritmo de
computo Paramétrico. Subproyecto 2: Sistemas bioinspirados de análisis de voz.
Código: cit-390000-4. Universidad de Murcia. (Figuras 9 y 10).




                                                                                     50
11. ROMÁ ROMERO, M., RAMÓN GARCÍA, J. L., 2004. Influencia de los parámetros de un
algoritmo de decisión basado en la distancia geométrica normalizada en las tasas de error en
la identificación de locutores con fines forenses. 2-3. Cátedra Física Médica. Facultad de
Medicina. Escuela Politécnica Superior Universidad de Alicante



12. Wiquipedia. La Enciclopedia Libre. (www.wiquipedia.com)




                                                                                       51

Más contenido relacionado

Similar a La idoneidad de la pericia en el ámbito judicial

Jornada de Fonación
Jornada de FonaciónJornada de Fonación
Jornada de FonaciónMaria Parra
 
Ejercicios de Investigacion
Ejercicios de InvestigacionEjercicios de Investigacion
Ejercicios de InvestigacionMalin González
 
El adn un bio ordenador de ondas w e-aquarius cl 7
El adn un bio ordenador de ondas  w e-aquarius cl 7El adn un bio ordenador de ondas  w e-aquarius cl 7
El adn un bio ordenador de ondas w e-aquarius cl 7Xavi Gasset
 
El análisis biomecánico de la voz como una herramienta en el abordaje de la p...
El análisis biomecánico de la voz como una herramienta en el abordaje de la p...El análisis biomecánico de la voz como una herramienta en el abordaje de la p...
El análisis biomecánico de la voz como una herramienta en el abordaje de la p...Prevencionar
 
Evaluación de la variación de la onda de la mucosa según el tono de fonación ...
Evaluación de la variación de la onda de la mucosa según el tono de fonación ...Evaluación de la variación de la onda de la mucosa según el tono de fonación ...
Evaluación de la variación de la onda de la mucosa según el tono de fonación ...Prevencionar
 
Sistemas de comunicaciones - Práctica 04
Sistemas de comunicaciones - Práctica 04Sistemas de comunicaciones - Práctica 04
Sistemas de comunicaciones - Práctica 04Cristian Ortiz Gómez
 
Glosario demicroanálisis de las evidencias
Glosario demicroanálisis de las evidenciasGlosario demicroanálisis de las evidencias
Glosario demicroanálisis de las evidenciasJessyka Gimenez
 
6528794 estudio-de-fallas-comunes-en-rodamientos-rigidos-de-una-hilera-de-bol...
6528794 estudio-de-fallas-comunes-en-rodamientos-rigidos-de-una-hilera-de-bol...6528794 estudio-de-fallas-comunes-en-rodamientos-rigidos-de-una-hilera-de-bol...
6528794 estudio-de-fallas-comunes-en-rodamientos-rigidos-de-una-hilera-de-bol...Roberto Ortega
 
LA EVALUACIÓN DEL PROCESAMIENTO AUDITIVO TEMPORAL MEDIANTE EL TEST DE HABLA C...
LA EVALUACIÓN DEL PROCESAMIENTO AUDITIVO TEMPORAL MEDIANTE EL TEST DE HABLA C...LA EVALUACIÓN DEL PROCESAMIENTO AUDITIVO TEMPORAL MEDIANTE EL TEST DE HABLA C...
LA EVALUACIÓN DEL PROCESAMIENTO AUDITIVO TEMPORAL MEDIANTE EL TEST DE HABLA C...Franz Zenker
 
Evolucion de las tecnicas de polimorfismos del ADN
Evolucion de las tecnicas de polimorfismos del ADNEvolucion de las tecnicas de polimorfismos del ADN
Evolucion de las tecnicas de polimorfismos del ADNadn estela martin
 
Agresiones sexuales
Agresiones sexualesAgresiones sexuales
Agresiones sexualesJoosue LH
 
Capitulo ii corregido ....22222222222222222222
Capitulo ii corregido  ....22222222222222222222Capitulo ii corregido  ....22222222222222222222
Capitulo ii corregido ....22222222222222222222Zary Mendez
 
La Ciencia Y El MéTodo CientíFico
La Ciencia Y El MéTodo CientíFicoLa Ciencia Y El MéTodo CientíFico
La Ciencia Y El MéTodo CientíFicoscalavi
 

Similar a La idoneidad de la pericia en el ámbito judicial (20)

Jornada de Fonación
Jornada de FonaciónJornada de Fonación
Jornada de Fonación
 
Ejercicios de Investigacion
Ejercicios de InvestigacionEjercicios de Investigacion
Ejercicios de Investigacion
 
El adn un bio ordenador de ondas w e-aquarius cl 7
El adn un bio ordenador de ondas  w e-aquarius cl 7El adn un bio ordenador de ondas  w e-aquarius cl 7
El adn un bio ordenador de ondas w e-aquarius cl 7
 
Prueba cientifica y mitos
Prueba cientifica y mitosPrueba cientifica y mitos
Prueba cientifica y mitos
 
El análisis biomecánico de la voz como una herramienta en el abordaje de la p...
El análisis biomecánico de la voz como una herramienta en el abordaje de la p...El análisis biomecánico de la voz como una herramienta en el abordaje de la p...
El análisis biomecánico de la voz como una herramienta en el abordaje de la p...
 
Evaluación de la variación de la onda de la mucosa según el tono de fonación ...
Evaluación de la variación de la onda de la mucosa según el tono de fonación ...Evaluación de la variación de la onda de la mucosa según el tono de fonación ...
Evaluación de la variación de la onda de la mucosa según el tono de fonación ...
 
Sistemas de comunicaciones - Práctica 04
Sistemas de comunicaciones - Práctica 04Sistemas de comunicaciones - Práctica 04
Sistemas de comunicaciones - Práctica 04
 
Glosario demicroanálisis de las evidencias
Glosario demicroanálisis de las evidenciasGlosario demicroanálisis de las evidencias
Glosario demicroanálisis de las evidencias
 
6528794 estudio-de-fallas-comunes-en-rodamientos-rigidos-de-una-hilera-de-bol...
6528794 estudio-de-fallas-comunes-en-rodamientos-rigidos-de-una-hilera-de-bol...6528794 estudio-de-fallas-comunes-en-rodamientos-rigidos-de-una-hilera-de-bol...
6528794 estudio-de-fallas-comunes-en-rodamientos-rigidos-de-una-hilera-de-bol...
 
La I. A. y el reconocimiento de voz
La I. A. y el reconocimiento de vozLa I. A. y el reconocimiento de voz
La I. A. y el reconocimiento de voz
 
LA EVALUACIÓN DEL PROCESAMIENTO AUDITIVO TEMPORAL MEDIANTE EL TEST DE HABLA C...
LA EVALUACIÓN DEL PROCESAMIENTO AUDITIVO TEMPORAL MEDIANTE EL TEST DE HABLA C...LA EVALUACIÓN DEL PROCESAMIENTO AUDITIVO TEMPORAL MEDIANTE EL TEST DE HABLA C...
LA EVALUACIÓN DEL PROCESAMIENTO AUDITIVO TEMPORAL MEDIANTE EL TEST DE HABLA C...
 
Evolucion de las tecnicas
Evolucion de las tecnicas Evolucion de las tecnicas
Evolucion de las tecnicas
 
Evolucion de las tecnicas de polimorfismos del ADN
Evolucion de las tecnicas de polimorfismos del ADNEvolucion de las tecnicas de polimorfismos del ADN
Evolucion de las tecnicas de polimorfismos del ADN
 
Registro anecdotico foniatria
Registro anecdotico foniatriaRegistro anecdotico foniatria
Registro anecdotico foniatria
 
Agresiones sexuales
Agresiones sexualesAgresiones sexuales
Agresiones sexuales
 
juicios logicos
juicios logicos juicios logicos
juicios logicos
 
Capitulo ii corregido ....22222222222222222222
Capitulo ii corregido  ....22222222222222222222Capitulo ii corregido  ....22222222222222222222
Capitulo ii corregido ....22222222222222222222
 
Efecto del tiempo y la temperatura en la viabilidad del ADN en la perfilación...
Efecto del tiempo y la temperatura en la viabilidad del ADN en la perfilación...Efecto del tiempo y la temperatura en la viabilidad del ADN en la perfilación...
Efecto del tiempo y la temperatura en la viabilidad del ADN en la perfilación...
 
La Ciencia Y El MéTodo CientíFico
La Ciencia Y El MéTodo CientíFicoLa Ciencia Y El MéTodo CientíFico
La Ciencia Y El MéTodo CientíFico
 
Ensayo judicial
Ensayo judicialEnsayo judicial
Ensayo judicial
 

Más de www:crimhisto@net63.net

Las teorías criminológicas a través de la historia y su expresión en la
Las teorías criminológicas a través de la historia y su expresión en laLas teorías criminológicas a través de la historia y su expresión en la
Las teorías criminológicas a través de la historia y su expresión en lawww:crimhisto@net63.net
 
Las teorías criminológicas a través de la historia y su expresión en la
Las teorías criminológicas a través de la historia y su expresión en laLas teorías criminológicas a través de la historia y su expresión en la
Las teorías criminológicas a través de la historia y su expresión en lawww:crimhisto@net63.net
 
HISTORIA DE LA CRIMINOLOGÍA /TEORÍAS CRIMINOLÓGICAS
HISTORIA DE LA CRIMINOLOGÍA /TEORÍAS CRIMINOLÓGICASHISTORIA DE LA CRIMINOLOGÍA /TEORÍAS CRIMINOLÓGICAS
HISTORIA DE LA CRIMINOLOGÍA /TEORÍAS CRIMINOLÓGICASwww:crimhisto@net63.net
 

Más de www:crimhisto@net63.net (20)

Crimhisto guion
Crimhisto guionCrimhisto guion
Crimhisto guion
 
Bibliografía
BibliografíaBibliografía
Bibliografía
 
Modelos psicolobicistas
Modelos psicolobicistasModelos psicolobicistas
Modelos psicolobicistas
 
Conclusion
ConclusionConclusion
Conclusion
 
Modelos lucha-escuelas
Modelos lucha-escuelasModelos lucha-escuelas
Modelos lucha-escuelas
 
La escuela-de-lyón
La escuela-de-lyónLa escuela-de-lyón
La escuela-de-lyón
 
La escuela de chicago
La escuela de chicagoLa escuela de chicago
La escuela de chicago
 
Criminologia clasica
Criminologia clasicaCriminologia clasica
Criminologia clasica
 
Fisionomia
FisionomiaFisionomia
Fisionomia
 
Teorias demoniacas
Teorias demoniacasTeorias demoniacas
Teorias demoniacas
 
Criminologia clasica
Criminologia clasicaCriminologia clasica
Criminologia clasica
 
Teorias demoniacas
Teorias demoniacasTeorias demoniacas
Teorias demoniacas
 
Criminologíaliteraturacine
CriminologíaliteraturacineCriminologíaliteraturacine
Criminologíaliteraturacine
 
Catalogo
CatalogoCatalogo
Catalogo
 
Crimhistoguióntemático
CrimhistoguióntemáticoCrimhistoguióntemático
Crimhistoguióntemático
 
Crimhistoguióntemático
CrimhistoguióntemáticoCrimhistoguióntemático
Crimhistoguióntemático
 
Criminología y literatura
Criminología y literaturaCriminología y literatura
Criminología y literatura
 
Las teorías criminológicas a través de la historia y su expresión en la
Las teorías criminológicas a través de la historia y su expresión en laLas teorías criminológicas a través de la historia y su expresión en la
Las teorías criminológicas a través de la historia y su expresión en la
 
Las teorías criminológicas a través de la historia y su expresión en la
Las teorías criminológicas a través de la historia y su expresión en laLas teorías criminológicas a través de la historia y su expresión en la
Las teorías criminológicas a través de la historia y su expresión en la
 
HISTORIA DE LA CRIMINOLOGÍA /TEORÍAS CRIMINOLÓGICAS
HISTORIA DE LA CRIMINOLOGÍA /TEORÍAS CRIMINOLÓGICASHISTORIA DE LA CRIMINOLOGÍA /TEORÍAS CRIMINOLÓGICAS
HISTORIA DE LA CRIMINOLOGÍA /TEORÍAS CRIMINOLÓGICAS
 

Último

Cuaderno de trabajo Matemática 3 tercer grado.pdf
Cuaderno de trabajo Matemática 3 tercer grado.pdfCuaderno de trabajo Matemática 3 tercer grado.pdf
Cuaderno de trabajo Matemática 3 tercer grado.pdfNancyLoaa
 
plan de capacitacion docente AIP 2024 clllll.pdf
plan de capacitacion docente  AIP 2024          clllll.pdfplan de capacitacion docente  AIP 2024          clllll.pdf
plan de capacitacion docente AIP 2024 clllll.pdfenelcielosiempre
 
LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...
LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...
LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...JAVIER SOLIS NOYOLA
 
Registro Auxiliar - Primaria 2024 (1).pptx
Registro Auxiliar - Primaria  2024 (1).pptxRegistro Auxiliar - Primaria  2024 (1).pptx
Registro Auxiliar - Primaria 2024 (1).pptxFelicitasAsuncionDia
 
Qué es la Inteligencia artificial generativa
Qué es la Inteligencia artificial generativaQué es la Inteligencia artificial generativa
Qué es la Inteligencia artificial generativaDecaunlz
 
Ley 21.545 - Circular Nº 586.pdf circular
Ley 21.545 - Circular Nº 586.pdf circularLey 21.545 - Circular Nº 586.pdf circular
Ley 21.545 - Circular Nº 586.pdf circularMooPandrea
 
Dinámica florecillas a María en el mes d
Dinámica florecillas a María en el mes dDinámica florecillas a María en el mes d
Dinámica florecillas a María en el mes dstEphaniiie
 
Imperialismo informal en Europa y el imperio
Imperialismo informal en Europa y el imperioImperialismo informal en Europa y el imperio
Imperialismo informal en Europa y el imperiomiralbaipiales2016
 
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURAFORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURAEl Fortí
 
La empresa sostenible: Principales Características, Barreras para su Avance y...
La empresa sostenible: Principales Características, Barreras para su Avance y...La empresa sostenible: Principales Características, Barreras para su Avance y...
La empresa sostenible: Principales Características, Barreras para su Avance y...JonathanCovena1
 
Estrategias de enseñanza-aprendizaje virtual.pptx
Estrategias de enseñanza-aprendizaje virtual.pptxEstrategias de enseñanza-aprendizaje virtual.pptx
Estrategias de enseñanza-aprendizaje virtual.pptxdkmeza
 
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptx
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptxACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptx
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptxzulyvero07
 
ACERTIJO DE LA BANDERA OLÍMPICA CON ECUACIONES DE LA CIRCUNFERENCIA. Por JAVI...
ACERTIJO DE LA BANDERA OLÍMPICA CON ECUACIONES DE LA CIRCUNFERENCIA. Por JAVI...ACERTIJO DE LA BANDERA OLÍMPICA CON ECUACIONES DE LA CIRCUNFERENCIA. Por JAVI...
ACERTIJO DE LA BANDERA OLÍMPICA CON ECUACIONES DE LA CIRCUNFERENCIA. Por JAVI...JAVIER SOLIS NOYOLA
 
plande accion dl aula de innovación pedagogica 2024.pdf
plande accion dl aula de innovación pedagogica 2024.pdfplande accion dl aula de innovación pedagogica 2024.pdf
plande accion dl aula de innovación pedagogica 2024.pdfenelcielosiempre
 
Estrategia de prompts, primeras ideas para su construcción
Estrategia de prompts, primeras ideas para su construcciónEstrategia de prompts, primeras ideas para su construcción
Estrategia de prompts, primeras ideas para su construcciónLourdes Feria
 
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLAACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLAJAVIER SOLIS NOYOLA
 
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdfSELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdfAngélica Soledad Vega Ramírez
 

Último (20)

Cuaderno de trabajo Matemática 3 tercer grado.pdf
Cuaderno de trabajo Matemática 3 tercer grado.pdfCuaderno de trabajo Matemática 3 tercer grado.pdf
Cuaderno de trabajo Matemática 3 tercer grado.pdf
 
plan de capacitacion docente AIP 2024 clllll.pdf
plan de capacitacion docente  AIP 2024          clllll.pdfplan de capacitacion docente  AIP 2024          clllll.pdf
plan de capacitacion docente AIP 2024 clllll.pdf
 
LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...
LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...
LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...
 
Registro Auxiliar - Primaria 2024 (1).pptx
Registro Auxiliar - Primaria  2024 (1).pptxRegistro Auxiliar - Primaria  2024 (1).pptx
Registro Auxiliar - Primaria 2024 (1).pptx
 
Qué es la Inteligencia artificial generativa
Qué es la Inteligencia artificial generativaQué es la Inteligencia artificial generativa
Qué es la Inteligencia artificial generativa
 
Sesión de clase: Fe contra todo pronóstico
Sesión de clase: Fe contra todo pronósticoSesión de clase: Fe contra todo pronóstico
Sesión de clase: Fe contra todo pronóstico
 
Ley 21.545 - Circular Nº 586.pdf circular
Ley 21.545 - Circular Nº 586.pdf circularLey 21.545 - Circular Nº 586.pdf circular
Ley 21.545 - Circular Nº 586.pdf circular
 
Dinámica florecillas a María en el mes d
Dinámica florecillas a María en el mes dDinámica florecillas a María en el mes d
Dinámica florecillas a María en el mes d
 
Imperialismo informal en Europa y el imperio
Imperialismo informal en Europa y el imperioImperialismo informal en Europa y el imperio
Imperialismo informal en Europa y el imperio
 
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURAFORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
 
La empresa sostenible: Principales Características, Barreras para su Avance y...
La empresa sostenible: Principales Características, Barreras para su Avance y...La empresa sostenible: Principales Características, Barreras para su Avance y...
La empresa sostenible: Principales Características, Barreras para su Avance y...
 
Estrategias de enseñanza-aprendizaje virtual.pptx
Estrategias de enseñanza-aprendizaje virtual.pptxEstrategias de enseñanza-aprendizaje virtual.pptx
Estrategias de enseñanza-aprendizaje virtual.pptx
 
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptx
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptxACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptx
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptx
 
ACERTIJO DE LA BANDERA OLÍMPICA CON ECUACIONES DE LA CIRCUNFERENCIA. Por JAVI...
ACERTIJO DE LA BANDERA OLÍMPICA CON ECUACIONES DE LA CIRCUNFERENCIA. Por JAVI...ACERTIJO DE LA BANDERA OLÍMPICA CON ECUACIONES DE LA CIRCUNFERENCIA. Por JAVI...
ACERTIJO DE LA BANDERA OLÍMPICA CON ECUACIONES DE LA CIRCUNFERENCIA. Por JAVI...
 
plande accion dl aula de innovación pedagogica 2024.pdf
plande accion dl aula de innovación pedagogica 2024.pdfplande accion dl aula de innovación pedagogica 2024.pdf
plande accion dl aula de innovación pedagogica 2024.pdf
 
Estrategia de prompts, primeras ideas para su construcción
Estrategia de prompts, primeras ideas para su construcciónEstrategia de prompts, primeras ideas para su construcción
Estrategia de prompts, primeras ideas para su construcción
 
Power Point: Fe contra todo pronóstico.pptx
Power Point: Fe contra todo pronóstico.pptxPower Point: Fe contra todo pronóstico.pptx
Power Point: Fe contra todo pronóstico.pptx
 
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLAACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
 
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdfSELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
 
Tema 8.- PROTECCION DE LOS SISTEMAS DE INFORMACIÓN.pdf
Tema 8.- PROTECCION DE LOS SISTEMAS DE INFORMACIÓN.pdfTema 8.- PROTECCION DE LOS SISTEMAS DE INFORMACIÓN.pdf
Tema 8.- PROTECCION DE LOS SISTEMAS DE INFORMACIÓN.pdf
 

La idoneidad de la pericia en el ámbito judicial

  • 1. TESIS MASTER CIENCIAS FORENSES FACULTAD BIOLOGIA LA IDONEIDAD DE LA PERICIA ACÚSTICA EN EL AMBITO JUDICIAL EL ALINEAMIENTO TEMPORAL DINÁMICO (DTW) COMO ALGORITMO DE DECISIÓN EN DICHA PRUEBA ASIGNATURA: ACÚSTICA FORENSE DEPARTAMENTO : FÍSICA MÉDICA PROFESOR: JOSÉ LUIS RAMÓN GARCÍA MARÍA TRINIDAD SÁNCHEZ PÉREZ DNI: 34810801W Mariatrinidad.sanchez@alu.um.es
  • 2. RESUMEN INDICE. 1 .INTRODUCIÓN. 2 .OBJETIVOS. 3. MÉTODOS, CONCEPTOS Y PROGRAMAS. 3.1. Parámetros de Reconocimiento. 3.1. 1 Espectro de Frecuencia. 3. 1. 2 Análisis Espectral. 3. 1. 3 Tranformada de Fourier. 3. 1. 4 Linear Prediction Coding (LPC). 3. 1. 5 Jitter. 3. 1. 6 Shimmer. 3. 1. 7 Coeficientes Cepstrales Mel (MFFC). 3. 1. 8 Concepto de Distancia/ Distancia Euclídea. 3. 1. 9 Alineamiento Temporal Dinámico (DTW). 3. 1. 10 Comparación y toma de decisiones. 3. 2 Estudio comparativo de los distintos sistemas para el análisis de la voz con fines forenses. 3. 2. 1 Superescope. 2
  • 3. 3. 2. 2 Soundscope. 3. 2. 3 Computerized Speech Lab (CSL). 3. 2. 4 Multi-Speech Lab de Kay Elemetrics. 3. 2. 5 Sistema Visha (procesado del habla). 3. 2. 6 Programa Praat. 4. REVISIÓN BIBLIOGRÁFICA Y RESULTADOS. 4. 1 Influencia de la simulación de los hablantes en los sistemas de reconocimiento de locutores. 4. 2 El Alineamiento Temporal Dinámico (DTW). como algoritmo de decisión en la práctica forense. 4. 3 La Pericia Acústica en el Proceso Judicial. 5. DISEÑO EXPERIMENTAL. 5. 1 La influencia microfónica en la identificación de locutores con fines forense. 5.2 Estructura del árbol de ficheros de la base de datos Ahumada. 5. 3 Distancia Euclídea normalizada. 5. 4 Resultados obtenidos con el método DTW. 5. 5 Criterios de comparación y toma de decisiones. 6. CONCLUSIONES. 7. BIBLIOGRAFIA. 3
  • 4. RESUMEN La Acústica Forense en la actualidad resulta necesaria para documentar y probar determinados delitos. Los estudios que en las últimas décadas se están realizando posibilitan la apreciación por los jueces de esta prueba. Experimentalmente, en laboratorio, los resultados son concluyentes con un margen de error muy pequeño, similar, al que arroja el análisis del ADN. En esta prueba lo que identifica al individuo podría definirse como la resonancia del tracto vocal del aparato fonador del sujeto, información que es extraída a su vez del análisis de una grabación dubitada del mismo, que se debe comparar con otra indubitada; se trataría por tanto, de verificar la identidad de un sujeto dubitado a través de su tracto vocal que se ha demostrado en numerosos estudios que es específico al individuo y se mantiene estable una vez éste alcanza la vida adulta. Para realizar este análisis se utilizan diversos parámetros, pero uno de los que ofrecen mayor valor identificativo es el formante, que se corresponde con el pico de amplitud de la frecuencia sonora del sonido analizado. El oído humano percibe mejor los sonidos como frecuencias y los diversos programas y sistemas que se utilizan descomponen el sonido en éstas, para extraer la información que resulte más significativa. Además, en la práctica forense se necesita un parámetro que pueda medir y cuantificar el parecido de frecuencias de sonido distintas y tras numerosos estudios y revisiones bibliográficas, se destaca de entre otros algoritmos, la Alineación Temporal Dinámica (DTW) como un sistema que en base a la utilización de la Distancia Euclídea realiza unas plantillas donde estima ( mediante una distancias de corte halladas estadísticamente que se corresponden a un criterio acordado de decisión previo) que si hay poca distancia son parecidas las frecuencias de las voces y si hay mucha son distintas y nos encontraremos con que la grabación dubitada se corresponde a otro sujeto y no al indubitado. Se ha comprobado igualmente por diversos autores si los sistemas de reconocimiento son sensibles a la manipulación voluntaria del hablante y en este sentido destacan los estudios de. DODDINGTON, G., [3] que descartan esta hipótesis pero señala que sí existe una diferencia apreciable en los resultados debida al micrófono que se utiliza. Es por ello, que en esta tesis proponemos un diseño experimental utilizando la base de datos Ahumada: registro de 103 locutores en español por distintos métodos: micrófonos, 4
  • 5. móvil y teléfono; a partir de la cual, pretendemos comprobar utilizando dos micrófonos distintos si descartamos o aceptamos dicha hipótesis. Para tal fin me sirvo de la ayuda y trabajo previo del profesor D. José L. Ramón que ha elaborado macros y scripts con los programas Praat y Excel sin los cuales no hubiera podido realizar ésta comprobación debido a lo arduo y complicado del cotejo; con dichos programas el tratamiento de los datos finales se ha hecho sencillo y fácil. Por último, es necesario enmarcar esta prueba en su contexto dentro del proceso judicial y señalar hasta qué punto es pertinente y legalmente aceptable su admisión en el mismo. Diferenciándose dos situaciones distintas, lo que son la intervención de las comunicaciones entre locutores distintos, de la grabación de las mismas por uno de los sujetos participante en la conversación; en el primer caso es necesario autorización judicial motivada si no fuera así, la prueba quedaría invalidada de facto, en el segundo caso al grabar la conversación un integrante de la misma le ampara la ley y la grabación se convierte en prueba documental que se adjunta a su testimonio dentro del proceso. Es por todo lo anterior que la pericia acústica resulta necesaria en el proceso siempre que su práctica está avalada por una obtención fiable y científica que la convierte en idónea y pertinente. Palabras claves: Palabra 1, Acústica forense. Palabra 2, Verificación de locutores. Palabra 3, Formantes. Palabra 4, DTW. Palabra 5, Intervención comunicaciones. 5
  • 6. 1. INTRODUCIÓN Identificación Acústica Los principales estudios al respecto se realizan a partir de los años 90 siendo figuras relevantes en este campo, entre otros, los integrantes de la Policía alemana: R. Kϋnzel y A. Braun, el primero adquirió gran protagonismo en España a raíz de ser consultado en el caso de Anabel Segura, sobre la autoría de las llamadas que se simularon en su nombre. En Portugal, Francia e Italia también se están haciendo grandes aportaciones al estudio de la Acústica Forense. Y en España actualmente está en marcha un proyecto muy ambicioso: el Hesperia(https://www.proyecto-hesperia.org/hesperia/mapa.jsp)en el que están implicados Telefónica, varias Universidades y Empresas, que pretende implementar sistemas de identificación individual a través de la voz como método de seguridad en cajeros, edificios, materiales tecnológicos, etc. Siendo uno de los pioneros en la investigación académica de la Acústica Forense el catedrático de Física Médica y Presidente durante varios mandatos de la Sociedad Española de Acústica Forense D. José. L. Ramón (que supervisa esta tesis). Dentro de la Acústica Forense se diferencian dos procesos: los casos de identificación, en donde se compara un locutor con varios dentro de un conjunto cerrado “Closed set” (como ejemplo nos serviría el proyecto Hesperia) y los sistemas de verificación, comparación de dos locutores en un sistema abierto “Open set”. El ámbito forense frecuentemente se centra en los casos de verificación entre locutores: (dubitado e indubitado). El reconocimiento de locutores es un sistema de identificación biométrico que parte del fundamento científico de que la voz permanece estable una vez llegada la vida adulta y de que de un individuo a otro, existen características específicas y diferenciadoras de construcción del tracto faringo-laringo-vocal. Junto a otras disciplinas, sin dejar de contemplar su carácter interdisciplinar y forense, se puede englobar dentro de la Psicoacústica que estudia entre otras materias la percepción aural del sonido. 6
  • 7. El sonido suele ser definido como una vibración o movimiento recurrente de una masa en un medio elástico, con un rango de recurrencias o ciclos de frecuencia de intensidad igual o superior al umbral de percepción de la vibración (de 20 a 20.000 Hz), el cual sigue las leyes generales del movimiento. Los sonidos puros se desplazan en un movimiento armónico simple con trayectoria de su onda en línea recta y las vibraciones complejas, que son las más frecuentes en la naturaleza, se producen en frecuencias periódicas, aperiódicas y semiperiódicas en función del tiempo. La señal del habla se considera una onda cuasi-estacionaria, ya que su variación lenta nos permite dividir su análisis en tramas de duración finita relativamente corta y con solapamiento entre ellas, el análisis del habla puede llevarse a cabo por tanto en el dominio del tiempo y en el de la frecuencia, en el dominio temporal los parámetros que se utilizan son la energía local, la tasa de cruces por cero y la función de autocorrelación; este análisis es sencillo y rápido con una interpretación física directa. En la actualidad en análisis frecuencial del habla es el método más utilizado; pues el oído humano está mejor orientado a percibir la información espectral del sonido que en forma de onda o señal temporal. En el acto de la fonación el aire respirado pasa a través de la glotis produciéndose la vibración de la laringe y los sonidos sonoros. La tensión que se produce en las cuerdas vocales nos determina el tono de los mismos y las aperturas y cierres de la glotis, la frecuencia fundamental, mientras que en el caso que no hubiera vibración perfecta se producirían las turbulencias en la constricción de las cuerdas vocales que se corresponden con los sonidos sordos. 7
  • 8. La información que nos proporciona el sonido en sí, al pasar por la glotis, nos permite distinguir: los sonidos agudos de los graves, siendo los primeros más habituales en mujeres y niños; esta información nos permite clasificar los sonidos pero no individualizarlos. En el análisis forense de la voz lo que se pretende es separar la parte audible del sonido que pertenece al tracto vocal, información automatizada que es involuntaria del resto y que diferencia e individualiza a un sujeto determinado, por ello, se trata de analizar la estructura de la resonancia del aparato fonador y sobre todo de entre otros parámetros los formantes. Figura 1. Espectrograma correspondiente señal vocal a obtenida mediante el programa Multi-Speech de Kay Elemetrics. 8
  • 9. Las aperturas y cierres de la glotis con una secuencia de tiempo y amplitud determinados se corresponden con la frecuencia fundamental, que se produce con la vibración de las cuerdas vocales y que nos proporciona información sobre los sonidos armónicos, ambas magnitudes pueden ser evaluadas y representadas estadísticamente, esto es cuantificadas y cualificadas, JAKSON MENALDI, C.A [6]. La resonancia individual del tracto vocal así obtenida (a nivel identificativo) tiene validez científica pues ha sido inferida a través de un método estadístico experimental con un error del 98% aproximadamente, verificado en sucesivos estudios, RAMÓN ET ALT [10]. 2. OBJETIVOS Revisión de los programas y técnicas utilizadas, validez legal. Realizar un diseño experimental sobre la influencia en los resultados de los micrófonos empleados en la prueba. Comprobar la idoneidad de la pericia acústica dentro del proceso penal 3. MÉTODOS, CONCEPTOS Y PROGRAMAS 3.1 Parámetros de Reconocimiento 3.1.1 Espectro de frecuencia El espectro de frecuencia de un fenómeno ondulatorio (sonoro, luminoso o electromagnético), es la superposición de ondas de varias frecuencias, es una medida de la distribución de amplitudes de cada una de ellas, también se llama espectro de frecuencia al gráfico de intensidad frente a frecuencia de una onda particular. El espectro de frecuencias o descomposición espectral de frecuencias puede aplicarse a cualquier concepto asociado con frecuencia o movimientos ondulatorios como son los colores, las notas musicales, las ondas electromagnéticas de radio o TV e incluso la rotación regular de la tierra. Los sonidos pueden ser una superposición de frecuencias diferentes, cada frecuencia 9
  • 10. estimula una parte diferente de nuestra cóclea (caracol del oído). Cuando escuchamos una onda sonora con una sola frecuencia predominante escuchamos una nota, pero en cambio un silbido cualquiera o un golpe repentino que estimule todos los receptores contiene frecuencias dentro de todo el rango audible. Muchas cosas en nuestro entorno que calificamos como ruido frecuentemente contienen frecuencias, así cuando un espectro de frecuencia de un sonido o espectro sonoro, viene dado por una línea plana, decimos que el sonido asociado es ruido blanco. Una onda triangular representada en el dominio temporal (arriba) y en el dominio frecuencia (abajo) la frecuencia fundamental está en torno a 220 Hz. 3. 1. 2 Análisis espectral Se refiere a la acción de descomponer algo complejo en partes simples o identificar en ese algo complejo las partes más simples que lo forman, un análisis espectral permite descomponer una señal compleja en cada una de sus frecuencias parciales, pasando del dominio temporal al dominio de la frecuencia, la resolución frecuencial del análisis se calcula dividiendo la frecuencia de muestreo por el número de puntos de la transformada de Fourier, por ejemplo a una frecuencia de muestreo de 10 Hz y una transformada de 512 puntos tiene una resolución frecuencial de 0.0195 Hz. Un proceso que cuantifique las diversas intensidades de cada frecuencia se llama análisis espectral donde se analizan básicamente dos tipos de estructuras: la que se corresponde con los armónicos (fuente sonora) y la estructura de la resonancia (filtros) donde se utilizan bandas anchas de 300 Hz (5 ms) para obtener las frecuencias naturales del tracto: los formantes que son los parámetros que resultan más útiles a nivel identificativo. 3. 1. 3 Transformada de Fourier En procesamiento de señales el análisis de Fourier suele considerarse como la descomposición de una señal en componentes de frecuencias diferentes. Es decir (g) se corresponde al espectro de frecuencias de la señal (f). La rama de las matemáticas que estudia el análisis de Fourier y sus generalizaciones es denominada Análisis Armónico. 10
  • 11. Matemáticamente el análisis espectral está relacionado con esta herramienta llamada Transformada de Fourier o Análisis de Fourier. Cuya fórmula es la siguiente: (1) Además la transformada de Fourier de una función, no sólo permite hacer una descomposición espectral de las frecuencias de una onda o señal oscilatoria, sino que con el espectro generado por el análisis de Fourier incluso se puede reconstruir (sintetizar) la función original mediante la transformada inversa. Para poder hacer esto, la transformada no solamente contiene información sobre la intensidad de determinada frecuencia, sino también sobre su fase. Esta información, se puede representar como un vector bidimensional o como un número complejo en las representaciones gráficas, frecuentemente sólo se representa el módulo al cuadrado de ese número, y el gráfico resultante se conoce como espectro de potencia o densidad espectral de potencia. Es importante recordar que la transformada de Fourier de una onda aleatoria, mejor dicho estocástica, o sea probabilística (un ejemplo es el ruido ambiental) para representarse requiere cierto tipo de promediado para mostrar adecuadamente la distribución frecuencial. Para señales estocásticas digitalizadas de ese tipo se emplea con frecuencia la transformada de Fourier discreta. 11
  • 12. 3. 1. 4 Linear Prediction Coding (LPC) El LPC (Linear Prediction Coding) es el espectro de las resonancias del tracto vocal; mide la frecuencia y energía con el ancho de banda, correspondiéndose los picos de convergencia con las resonancias del tracto o formantes. Se necesitan filtros de 300 Hz (5 ms) pudiéndose obtener con ellos la representación lineal de cuatro formantes, siendo este sistema el más utilizado pues la audición natural humana solo percibe de 6 a 7 frecuencias simultáneas Figura 2. Espectrograma con formantes para vocales a, i, u tal como aparecen con la técnica de LPC 3. 1. 5 Jitter Se corresponde con las alteraciones de la frecuencia que se pueden medir en vocales sostenidas en tiempos pequeños con independencia de los cambios voluntarios de la frecuencia fundamental de la voz; en una situación ideal su valor sería de 0 por lo cual es frecuente que su valor sea pequeño pero característico de un individuo. 12
  • 13. 3. 1. 6 Shimer Se trata de medidas de de la perturbación de la amplitud que sirven para cuantificar pequeños lapsos en la intensidad vocal de cada ciclo fonatorio al igual que la medida anterior es una medida especifica del tracto vocal independiente de la fuente, si bien para cuantificar correctamente ésta se requiere mantener una distancia adecuada del micrófono, JACKSON MENALDI, A ET ALT. [7]. 3. 1. 7 Coeficientes Cepstrales en frecuencia Mel (MFFC) Son coeficientes para la representación del habla, basados en la percepción auditiva humana que se derivan de la Transformada de Fourier, o de la transformada del coseno discreta, la diferencia básica con estas, es que en la MFCC las bandas de frecuencia están situadas logarítmicamente según la escala Mel propuesta por Steven, Volkman y Newman en 1937 (Journal of the Acoustical Society of America; Amer.Jour.Psyco. 48) que es una escala musical perceptual del tono a juicio de observadores equiespaciados. Se define equiparando un tono de 1000 Hz a 40 dB por encima del umbral de audición del oyente, con un tono de 1000 Mel por encima de 500 Hz; los intervalos de frecuencia espaciados exponencialmente son percibidos como si estuvieran linealmente. En consecuencia: 4 octavas en herzios por encima de 500 Hz se comprimen a 20 octavas en la escala Mel, que modela mejor la respuesta auditiva humana que las bandas espaciadas linealmente, haciendo el procesado de datos y la compresión en audio más eficiente. WIIKIPEDIA [12] Generación de los parámetros Mel a partir de las muestras de señal - Preénfasis, filtrado de la señal de voz ya que esta se atenúa 6 dB por octava, conforme aumenta la frecuencia es necesario introducir un filtrado para aumentar los 13
  • 14. componentes de la alta frecuencia, este proceso se puede realizar a través de un filtro digital de paso alto que se puede implementar con la siguiente ecuación de diferencias: y(n)=x(n)-a x (n-1) donde a es una constante que varía entre (0 y 1) en el dominio de la transformada Z. - Enventanado Hamming para seleccionar la trama a trabajar utilizamos la ecuación: W= 0,54-0,46 cos(2 π n/N) 0<n < N. (2) - Transformada discreta de Fourier (DFT) sobre la trama de muestras enventanadas se aplica la transformada discreta de Fourier que se implementa a través de la transformada rápida de Fourier (FFT). - Escala Mel se utiliza para dividir el espectro en un banco de filtros mucho más estrechos y linealmente espaciados en las bajas frecuencias y muy amplios y logarítmicamente espaciados en las altas, dándose más importancia a la información contenida en las bajas frecuencias conforme el oído humano. Figura 3. Esquema con los diferentes pasos de obtención de los coeficientes cepstrales 14
  • 15. Se calcula la energía en cada una de las bandas de frecuencia en que la escala mel divide el espectro, para ello se suman los módulos al cuadrado de la FFT en los puntos que se encuentran contenidos en cada una de dichas bandas, calculándose el logaritmo de las energías obtenidas anteriormente. - Coeficientes Cepstrales, se calculan como la transformada del coseno discreta (DCT). Que hace las veces de transformada inversa de las energías logarítmicas obtenidas con anterioridad, en concreto, los coeficientes cepstrales se obtienen del muestreo de 10 puntos de dicha transformada. El cálculo de los MFCC responde a la conversión de frecuencias en escala Mel según la siguiente fórmula: (3) La equivalencia queda como expresa esta gráfica Figura 4. Gráfica de equivalencia entre herzios y escala mel. 15
  • 16. Al finalizar la parametrización, cada trama se convierte en un vector compuesto por 11 parámetros, en los cuales está contenida la información más directa del tracto vocal. Para hacer la parametrización del habla más robusta se pueden añadir otros parámetros DMFCC (derivada) DDMFCC (aceleración) llamados parámetros transaccionales su utilización se basa en el hecho de que en sistemas independientes del locutor las frecuencias de resonancia (formantes) fluctúan considerablemente de unos locutores a otros, pero las variaciones de dichas frecuencias son más parecidas a estos parámetros, se obtienen derivando los DMFCC y los DDMFCC. En frases independientes se remplaza la información temporal por “tramos” de información cepstral caracterizados en vectores con los primeros 10 coeficientes cepstrales o MFCC, estos vectores cepstrales que se corresponden con dos cuadros de sonido, en teoría simultáneos y perceptivamente iguales ,para su comparación, utilizan la distancia entre ellos, la distancia cepstral o euclidea. 3. 1. 8 Concepto de distancia/ Distancia euclídea Se necesita una forma de medir la diferencia o semejanza entre observaciones u objetos, la forma en que generalmente se hace es en términos de la distancia entre cada par de casos; cuando la distancia es menor se considera que los casos son más parecidos entre sí. Existen, diversas maneras de calcular la distancia, las que se aplican con mayor frecuencia son: la distancia euclidiana (que es la raíz cuadrada de la suma de las diferencias al cuadrado entre los valores de dos casos para cada variable). Cuando las variables se miden en unidades muy diferentes, antes de agrupar los casos, se recomienda estandarizar los datos para eliminar la influencia de la unidad de medición, para su optimización en el cálculo, se sirve de un programa informático que mediante algoritmos (como es el caso de DTW) realiza una alineación temporal de los vectores en una distancia global mínima. Para la cuantificación de los datos es necesario cuantificar la distancia entre dos vectores para que estos sean comparados y combinados con los de referencia, para poder realizar estas operaciones es necesario definir una medida de distancia entre vectores característicos. 16
  • 17. La distancia entre dos vectores (x) e (y) de un espacio vectorial /x / es una función de valores reales d (x, y) sobre el producto cartesiano x*x. 3. 1. 9 Alineamiento Temporal Dinámico (DTW) Es un método empleado en el reconocimiento del locutor independiente del texto, trata de compensar la variabilidad existente entre la duración de los fonemas en distintas pronunciaciones de una misma frase, comparando la locución de entrada con una serie de plantillas que representan las unidades a reconocer, siendo, cada plantilla almacenada como un conjunto de características acústicas ordenadas en el tiempo. En su cálculo se realiza un alineamiento temporal con posibles deformaciones elásticas y de medida de la distancia. Para realizar este alineamiento temporal se utilizan técnicas de programación dinámica mediante un algoritmo que logra que la entrada de la señal del sonido se parezca lo máximo posible a la plantilla que crea el programa, para lo cual se comprimen y estiran las zonas según conveniencia de una señal con respecto de la otra. Gráficamente se visualiza como una matriz cuya eje horizontal se corresponde con las tramas de una señal y el eje vertical con las tramas de otra. Para encontrar que compresiones maximizan este parecido (camino) se podrían probar todas las combinaciones posibles pero este algoritmo impone unas restricciones en las combinaciones que va a probar para el reconocimiento del habla; que son que el camino no puede volver atrás en el tiempo (camino monótono) y que todas las distancias de entrada hay que utilizarlas en el camino, combinándose las distancias para dar la distancia global. Con estas restricciones para la trama de entrada (i) y para la plantilla (j), solo hay que considerar como posibles predecesores los pares (1i- j), (i-1j), (1i-1j) para medir el parecido se va a emplear la distancia euclidiana (sin raíz) o sea para medir la diferencia entre dos tramas. El DTW realiza el alineamiento de manera que se minimiza la distancia global. 17
  • 18. 3. 1. 10 Comparación y toma de decisiones En este apartado, se describe el proceso de decisión que tiene lugar en los sistemas de verificación de locutor para determinar si el locutor es aceptado o rechazado por un sistema de reconocimiento determinado. A continuación se explica la manera en que se evalúan los errores que se cometen en la decisión. Marco genérico de la toma de decisión Dado un segmento de voz X y un locutor S, el objetivo de la verificación del locutor es determinar si S generó la locución X. Esto se puede formalizar como un test de hipótesis básico entre las siguientes hipótesis, ESTEVE ELIZALDE, C [4]: H0: X fue pronunciado por el locutor S. H1: X no fue pronunciado por el locutor S. La decisión, de acuerdo con el criterio de máxima verosimilitud (Maximum Likelihood, ML), se obtiene mediante el cociente de verosimilitudes que viene dado donde: P( X | H 0) ≥θ aceptar H0   (4) P( X |Η1) <θ rechazar H0  Donde P (X|Hi), i=0,1 es la probabilidad de la hipótesis Hi evaluada para el segmento de vozY.0 es el umbral de decisión para aceptar o rechazar H0. En principio debería ser 0, pero en aplicaciones prácticas interesa ajustar dicho umbral para controlar la relación entre las probabilidades de cometer errores en los dos sentidos posibles de la decisión. 18
  • 19. Habitualmente se suele emplear el logaritmo de este cociente: Λ(Χ)= log P(Χ| Η 0) − logP(Χ|Η 1) (5) Por tanto, el objetivo de los sistemas de reconocimiento de locutor es encontrar métodos para calcular ambas probabilidades, P(Χ|Η0) y P(Χ|Η1) (6) Un paso crucial en la implementación del detector es el cálculo de las probabilidades P que dependerá de la aplicación; que para reconocimiento de locutor independiente del texto no existe información a priori que se pueda utilizar por tanto la elección más acertada es utilizar algoritmos de alineación dinámica generados a través de coeficientes cepstrales. Medidas de los errores en la decisión En la verificación de locutores se pueden dar dos tipos distintos de errores: 1. Falso Rechazo (FR), que se produce cuando un usuario auténtico es rechazado por el sistema. 2. Falsa Aceptación (FA), que aparece cuando un impostor es aceptado por el sistema como si fuera un usuario auténtico. Si se observa la distribución de las puntuaciones de usuarios e impostores se puede observar, que de manera general, ambas distribuciones se solapan, lo que supone un problema para seleccionar el umbral a partir del cual las puntuaciones serán interpretadas como pertenecientes a usuarios registrados. Por lo tanto, el área bajo la curva de impostores que queda por encima del umbral, es la probabilidad de que un impostor sea aceptado. Esta probabilidad es la tasa de falsa 19
  • 20. aceptación (FAR o False Acceptance Rate). La probabilidad de que un usuario registrado no sea aceptado, es el área bajo la curva de usuarios válidos que queda por debajo del umbral, lo que se denomina la tasa de falso rechazo Figura 5. Distribución de usuarios e impostores. Si la distribución de puntuaciones de usuarios e impostores se solapan la FAR y la FRR tendrán un punto de intersección, en el cual la FAR y la FRR son iguales. A este punto se le denomina tasa de equierror (Equal Error Rate ERR). Este punto se utiliza para comparar distintos sistemas y es donde el error del sistema dado como la suma de la FAR y la FRR se suele minimizar. Sin embargo, para poder comparar dos sistemas según el EER es necesario que éste sea calculado sobre los mismos datos de test utilizando el mismo protocolo experimental. Como el EER no describe plenamente el rendimiento del sistema, éste se suele representar mediante las curvas ROC (Reciever Operating Curve) y las curvas DET (Detection Error Tradeoff). En ambas curvas se muestra la tasa de falsa aceptación frente a la tasa de falso rechazo para distintos niveles de umbral. Figura 6. Curvas de falso error frente a falso rechazo en distintos niveles de umbral 20
  • 21. Las curvas DET se obtienen a partir de las curvas ROC realizando una transformación no lineal en los ejes, de manera que las curvas no lineales de las ROC se convierten casi en rectas. Esto las hace más sencillas de analizar y comparar unas con otras. Entrenamiento y cálculo de puntuación La tarea de verificación de locutor se compone esencialmente de dos fases: la fase de entrenamiento y la del cálculo de puntuaciones. Esta puntuación representa la medida de similitud entre los vectores de características del segmento de audio a verificar y un modelo de locutor. A su vez, los modelos del locutor se construyen a partir las características extraídas de uno o varios segmentos de voz de cada locutor. Cuando se desea autenticar a un usuario, se compara la señal de entrada con el modelo del locutor que dice ser y que se ha creado en la fase de entrenamiento. Existen dos tipos de modelos: los modelos estocásticos y los modelos de plantillas (templates en inglés). En los modelos estocásticos la comparación de patrones se realiza de manera probabilística obteniendo una medida de la probabilidad condicional de la observación dado el modelo. Un ejemplo de modelado estocástico son los Modelos Ocultos de Markov (HMMs) o los modelos de mezclas de Gaussianas (GMMs). El cómputo de verosimilitudes utilizando modelos de plantillas es un proceso de comparación basado en cálculo de distancias. Se asume que la observación es una réplica no idéntica de la plantilla y se realiza un alineamiento de las secuencias observadas con las secuencias de referencia de manera que se minimice la distancia que existe entre ambas. Un ejemplo de este método es el Alineamiento Temporal Dinámico, ESTEVE ELIZALDE, C [4]. 21
  • 22. 3. 2 Estudio comparativo de los distintos sistemas para el análisis de la voz con fines forenses 3. 2. 1 Superescope Es un programa para ordenadores Apple Macintosh que permite digitalizar cualquier señal eléctrica sobre una placa conversora a/d de la línea macADios de Macintosh, una vez digitalizada la señal puede ser visualizada, analizada, sometida a cálculos matemáticos y exportada a una base de datos en el disco duro; en tiempo real, permitiendo que el ordenador funcione como osciloscopio, analizador de espectros, grabadora e instrumental de registro o plotter Puede convertirse virtualmente en cualquier instrumento de laboratorio, siendo ésta su principal ventaja, está considerado como uno de los mejores sistemas para el análisis de señales en el dominio temporal permitiendo digitalizar, registrar, graficar, realizar cálculos, analizar, realizar anotaciones on line, etc. El programa permite la creación de múltiples objetos y el diseño de los mismos según las necesidades del usuario sin necesidad de tener experiencia previa en programación; entre los objetos que ofrece, se encuentran: ondas, menús desplegables, hojas de anotaciones, cursores, vías de datos, series de caracteres, ventanas, indicadores, botones y controles, etc. Siendo las Instrucciones los objetos más importantes de este sistema, son bloques operacionales con los que se construyen las tareas, pudiéndose elegir de la barra de menús para ser editados, constituyéndose, como el instrumento más potente y versátil del programa, que posibilita: el análisis individual de cada pulso de onda, los cálculos matemáticos sobre las mismas, anotaciones automáticas, cálculos estadísticos, control de dispositivos externos, y la posibilidad de conexión con otros programas en entornos multimedia. 22
  • 23. 3. 2. 2 Soundscope Son sistemas de programas de análisis de la voz de tercera generación, que se basan en las características del sistema anterior, pero centradas especialmente en el dominio frecuencial (mientras el Superescope lo hacía en el dominio temporal). Este sistema es muy utilizado en la industria y enseñanza debido a sus múltiples aplicaciones; permite en cuanto al sonido, la realización del análisis cepstrum, la FFT, la F0, la LPC, el Jitterr y Shimer, el espectograma, etc , siendo destacable el tratamiento estadístico que dá a cualquier segmento de onda analizado; pudiéndose hallar la estadística de la señal ( número de puntos, frecuencia de muestreo, valor máximo y mínimo, SD, área debajo de la onda, etc) y la estadística de la F0 (media, rango, SD, jitter %, Kurtosis) además de calcular el porcentaje de zonas con voz y silentes. El hardware necesario consta de una tarjeta conversora a/d de la línea macADios y un ordenador de Macintosh con sistema operativo 6.07 o superior con un mínimo de Ram de de 4 MB. 3. 2. 3 Computerized Speech Lab(CSL) Creado por la empresa Kay Elemetrics está considerado como el mejor sistema para el análisis de la voz y lenguaje utilizando ordenadores personales, utiliza software y hardware en entorno parecido al Windows, posibilitando frecuencias de muestreo de hasta 51,2 Hz en grabaciones de voz, permitiendo su archivado, edición, recuperación, etc. Pudiendo realizar posteriormente el análisis y tratamiento estadístico de los datos para obtener: la LPC, la F0, el Jitter y Shimer, el espectrograma en escala de grises y térmica ( escala de colores cálidos), etc . Una de las características más relevantes de este programa, es la posibilidad de crear lista de tareas encadenadas llamadas macros, para la realización conjunta de varios análisis. 23
  • 24. En cuanto a posibilidades de software, proporciona modelos aún mas adaptados para el análisis de la voz; se trata del programa MDVP que es capaz de calcular 22 parámetros distintos sobre 3 segundos de vocalización sostenida, con una base de datos para la compresión numérica y la representación gráfica de los valores. El hardware básico del modelo CSL 4300 consta de un módulo externo que permite digitalizar la señal mejorando su calidad en cuanto a ruido, actuando en dos canales a 16 bits y 50 kHz utilizando una tarjeta DSP (procesador digital de señal) que se introduce en el ordenador, requiriéndose un ordenador con sistema operativo m s-dos 5.0 o superior, un micrófono y unos altavoces. En las últimas versiones se puede utilizar un módulo externo para cuatro canales muy útil en la investigación, que permite el registro simultáneo de la señal acústica. Figura 7. Ejemplo CLS; múltiples ventanas correspondientes con dos grabaciones de la misma vocal de un mismo locutor. 24
  • 25. 3. 2. 4 MultiSpeech 3700 de Kay Elemetrics Es un programa de la misma empresa que se puede emplear complementariamente al modelo anterior, o de manera autónoma; pues posibilita la utilización de cualquier ordenador y tarjeta de sonido de los que se ofertan en el mercado en un entorno Windows, pudiendo realizar los mismos análisis y operaciones que con el sistema anterior; siendo su relación coste-beneficio mucho más interesante. Posibilita la representación simultánea en múltiples ventanas de varios análisis, siendo de especial importancia la capacidad que tiene de fragmentar el sonido hasta conseguir la muestra más limpia, para poder así comparar las grabaciones en secuencias de sonido lo más parecidas posible. Obteniéndose posteriormente representaciones lineales de los formantes que identifican el tracto vocal en otras ventanas y espectrogramas, con gran calidad visual; de igual modo; realiza el análisis estadístico para poder validar científicamente las hipótesis que se quieran constatar con este sistema. 3. 2. 5 Sistema Visha (para el proceso y visualización del habla) Es un sistema múltiple de de procesamiento de la voz de bajos coste que sólo añade un tarjeta DSP de procesamiento digital de la señal, a un PC personal, es un sistema español desarrollado por la Escuela de Telecomunicaciones de Madrid, financiado por el INSERSO y la Comisión Interministerial de Ciencia y Tecnología. Entre las aplicaciones que desarrolla se incluyen los siguientes programas: El programa Isotón: que es especifico para la rehabilitación de la voz en base a dos métodos: la imitación de patrones establecidos previamente por un rehabilitador y el control de diferentes videojuegos mediante la voz. El programa de estudio de la señal de la voz (PC-Vox) realiza el estudio de la señal de la voz almacenando unos 8 s a 16 kHz y 16 bits, mediante la extracción y representación de los parámetros más representativos: obteniéndose espectrogramas y sonogramas con ciertas limitaciones en las bandas de ancho. 25
  • 26. Obtiene así mismo el análisis espectral mediante los métodos FFT y LPC permitiendo la grabación, el registro, edición y creación de base de los datos obtenidos. Permite, la creación de numerosos programas para conversión de textos –voz, realización de audiometrías, visualización de los órganos articulatorios, etc. Además de añadir otros programas asociados para la conversión de texto en voz, (Tel _Eco), para la realización de audiometrías, (PCAUD), visualización de órganos articulatorios, (SAS), etc. En cuanto al hardware se utiliza la tarjeta Visha, un ordenador personal tipo at o superior, micrófono, altavoz y auriculares, en el mercado también hay una versión adaptada a entorno Windows. 3. 2. 6 Programa Praat Es un programa informático con sucesivas versiones mejoradas, que permite el reconocimiento de hablantes con independencia del texto, utilizando frases enteras de conversación, ofrece todo el paquete de análisis de los anteriores: F0 , FFT, LPC siendo muy útil y práctico para la obtención de los Coeficientes centrales y el Alineamiento Temporal Dinámico para el estudio de las frases completas . Con la distancia euclídea realiza las plantillas para representar las resonancias del tracto vocal). Este sistema viene avalado por los autores de: “La voz patológica” (que incluye una demo) y “La voz normal”, ambos de la autora C. A. Jackson. Menaldi). Se puede así mismo descargar en la página de la organización (www.praat.org) una versión actualizada y gratuita del mismo. Además, el profesor de la Universidad de Barcelona D. Joaquín Llisterri tiene una página web dónde ofrece tutoriales sobre el mismo, BATANER GIL, J., [2]. http://homepage.mac.com/joaquim_llisterri/phonetics/fon_anal_acus/Praat_analisis 26
  • 27. 4. REVISIÓN BIBLIOGRÁFICA Y RESULTADOS 4. 1. Influencia de la simulación de los hablantes en los sistemas de reconocimiento de locutores G.Doddington es uno de los investigadores más relevantes dentro del campo de la Acústica Forense y en el año 98 publicó, un estudio sobre la influencia de la simulación en los sistemas de reconocimiento de locutores, acuñando una terminología que sería después ampliamente utilizada y difundida en estudios posteriores, por el mismo y otros investigadores. Clasificó a los hablantes en: “Sheeps” (ovejas) que se corresponden con los verdaderos hablantes. “Goats” (cabras), hablantes con particularidades intrínsecas que dificultan su reconocimiento. “Lambs” (corderos), hablantes fáciles de imitar y por último. “Wolves” (lobos), que son los hablantes simuladores que imitan voces. Analizó 500 hablantes: 250 mujeres y 250 hombres, para comprobar la dependencia independencia de la simulación en los sistemas de reconocimiento y utilizó para ello 2 tipos de test de contraste: uno paramétrico: (Durban teste) y otro no paramétrico el (Kruskal –Wallis). Se realizaron sesiones de trabajo de 30 s con distintos micrófonos y se comprobaron 12 sistemas. Obteniéndose en conclusión la verificación de la hipótesis nula: que no hay influencia significativa de la simulación en los sistemas de reconocimiento de locutores; quedando identificados los distintos tipos de hablantes con un coeficiente de error más que aceptable, además de aportar que dicho error puede aumentar en relación con el micrófono utilizado (este aserto inspira el diseño experimental de esta tesis) y que dentro de las tipologías de hablantes los más difíciles de simular: cabras, “goats” se corresponde en su mayoría con mujeres DODDINGTON, G., [3]. 27
  • 28. 4. 2. El Alineamiento Temporal Dinámico (DTW) como algoritmo de decisión en la práctica forense En la práctica forense, resulta necesario utilizar parámetros que nos proporcionen la identificación del sujeto de la muestra con un margen de error pequeño, con este sentido se creó el proyecto VYLE. BATANER GIL, J. [2] que pretendía diferenciar acústicamente las características individuales o sea intralocutor de las variaciones interlocutores con la finalidad de obtener parámetros fiables para comparar con certeza locutores dubitados e indubitados. Se revisó la bibliografía existente a tal efecto y se utilizaron indistintamente las bases de voces: Albaycin, Gaudí, Euroni, Speech Dat 4000 y la Ahumada; en sus conclusiones se remiten primero a los estudios de Künzel que ya en 1995 descartaban la validez de la interpretación visual de los espectrogramas como método forense, por ser éste un parámetro que arroja un alto en índice de error y tratarse de un sistema muy subjetivo en su apreciación. De igual modo, tuvieron en cuenta la clasificación realizada por Doddington ya en1985 de parámetros que proporcionaban alto nivel de información sobre la dimensión social económica y cultural del hablante; en contraposición a los que aportaban información sobre la dimensión fisiológica del mismo, (que son los parámetros de más alto valor identificativo). Resultan vigentes aún en nuestros días los estudios realizados por Ladefoget y Broadbent en 1957 sobre el vector Formante vocálico: que es el parámetro que mejor representa el tracto vocal individual, siendo la representación todos estos rasgos resistentes a la distorsión e interferencias que proporcionan otros parámetros. Añadieron a su estudio el trabajo de otros investigadores como Hollien que revisando numerosa bibliografía destaca otros 2 parámetros: la frecuencias centrales de los tres 1º formantes de al menos 3 vocales /a/, /e , /u/ y la sílaba /na/ concluyendo que la información más “robusta” la arroja el análisis de la distancia de los tres primeros formantes 28
  • 29. (F1/F2)(F2/F3) que no puede ser alterada a voluntad , además el valor medio del F3 no cambia de vocal a vocal y da con precisión la longitud del tracto vocal del sujeto analizado; expresando que a mayor longitud del tracto vocal, menor frecuencia del formante, el vector Fo mide 30 parámetros diferentes y todos ellos en conjunto proporcionan información sobre los aparatos resonadores, junto a otros parámetros como las frecuencias formánticas, la anchura de los formantes, trayectorias y distancias de los mismos, consonantes nasales, turbulencias, etc. Establecidos los parámetros que nos proporcionar la información intralocutor con valor identificativo, se debe implementar un algoritmo de decisión que sea práctico y fiable a nivel forense, que sea útil para ser utilizado en muestras pequeñas de texto independientes; en este sentido se utiliza la medida de la distancia euclidiana que es un parámetro que no requiere caracterización estadística y está avalado por numerosos estudios conjuntos de expertos en fonética e ingenieros eléctricos y electrónicos. Además de destacar por ser un algoritmo simple en el cálculo y en su implementación en la práctica forense. Esta finalidad de hallar un algoritmo útil para el reconocimiento de locutores, es la base de los estudios realizados dentro de un proyecto global; para desarrollar sistemas de identificación de locutores mediante la voz con aplicaciones forenses de la Unidad de Investigación y Criminalística de la Policía Judicial española. ROMÁ ROMERO, M., RAMÓN GARCÍA, J. L [11]. Sus investigaciones han verificado con un margen de error aceptable (comparando la muestra del sujeto dubitado con al menos 8 muestras de distracción del indubitado como en las ruedas de reconocimiento y utilizando la base de datos Ahumada y el micrófono Sony que recoge el habla en conversación espontánea) que frente a otros algoritmos basados en criterios de máxima verosimilitud (o su versión simplificada y los modelos ocultos de Markov que requieren la utilización de numerosas muestras y costosa caracterizaciones estadísticas) uno de los algoritmos de decisión que en la práctica resulta más útil para la de identificación automática de locutores con fines forenses, es el DTW que parte de la alineación temporal de la información sonora utilizando plantillas y se sirve de 29
  • 30. la distancia euclidiana para estimar si las grabaciones comparadas son parecidas o distintas entre sí. 4. 3 La pericia acústica en el proceso Dentro del ámbito procesal penal no existe una tasación legal de los medios de prueba admisibles, lo cual resulta coherente con lo dispuesto en el artículo 24.2 de la CE que reconoce el derecho fundamental a utilizar todos los medios de prueba que se consideren pertinentes para la defensa y por extensión para la acusación; debido a lo anteriormente expuesto, ningún órgano jurisdiccional puede negarse a admitir un medio de prueba alegando que éste no se encuentra previsto por la Ley de Enjuiciamiento Criminal, siendo habitual; que los tribunales consideren las pruebas reconduciéndolas a las ya previstas considerando las cintas de video, cassetes y grabaciones telefónicas como prueba documental mixta o documental pericial (art 726 y s. s LE Cr ). La acústica forense se encarga del análisis científico del habla al servicio de los Tribunales de Justicia y como en toda articulación de una prueba procesalmente válida, hay que diferenciar dos aspectos: el formal y el material. Requisitos formales: distinguiéndose en el caso de la prueba acústica: los de tiempo y forma, en cuanto al tiempo su alegación en los pertinentes escritos de calificación conforme a los arts.: 650, 656 y 728 de la LE Cr y obtenida conforme a los derechos fundamentales como indica el art: 11.1 de la LOPJ: que implica que en el ámbito de la intimidad de las personas la intervención de las comunicaciones y las grabaciones como señala el art,: 18 de la CE se deben acordar por resoluciones judiciales motivadas y proporcionadas a la importancia y gravedad del caso que se investiga. Siendo a su vez, depurada y probada la relación entre las personas que intervienen en la prueba y el objeto del proceso. 30
  • 31. Requisitos materiales: una vez validada la prueba en cuanto a la forma, ésta tiene un contenido material: lo que se escucha y queda y su relación con el caso que se juzga; siendo muy importante, que se haya respetado la cadena de custodia (que la prueba esté desde su recogida hasta el Juicio Oral bajo la salvaguarda de la autoridad judicial). En una pericia Acústica se informa sobre la autenticidad de los interlocutores en intervenciones telefónicas y en grabación de conversaciones, el criterio de ajenidad y proximidad nos sirve para distinguirlas: en las intervenciones, los sujetos son ajenos a la grabación (que para que sea considerada como prueba válida debe ser ordenada por resolución judicial motivada) sin embargo, las conversaciones telefónicas son grabadas por uno de los intervinientes y éste la aporta al juicio como un “aide memoire” de su testimonio sobre el asunto que se dirime. Grabación de conversaciones El criterio de los tribunales con respecto a la admisibilidad de la prueba obtenida de la conversación entre particulares, realizada por uno de ellos está claro; pues el Tribunal Constitucional dictaminó ya en la Sentencia nº 114 del 98 que para que pueda hablarse de violación en el secreto en las comunicaciones es imprescindible que la intervención se produzca por quienes son ajenos a la comunicación misma. Estableciendo, que no hay secreto para aquél a quien la comunicación se dirige; diferenciado: que quien graba la conversación de otros atenta al derecho reconocido por la CE del art 18. 3, pero quien graba la comunicación con otros no incurre por este solo motivo en conducta contraria a derecho. En otra sentencia del TS de 1-3-1996 (Ponente Excmo. Sr. D. José Antonio Martín Pallín) se estableció (en un caso de por tráfico de estupefacientes) que cuando un contertulio emite voluntariamente sus opiniones o secretos sabe de antemano que se despoja de sus intimidades y las transmite a quién las escucha, el cual, podrá usar su contenido sin incurrir en ningún reproche jurídico. 31
  • 32. Un testigo puede relatar lo escuchado en un proceso criminal y será considerado por ello como testigo referencial (art 710 L Ej Crim) pudiendo constituirse dicho testimonio en prueba válida legal y de cargo, estando acompañada de la grabación de la conversación que se aporta al juzgado previamente para verificar su autenticidad y realizar su trascripción con la fé del Secretario, etc Intervención de las comunicaciones Penalización: El CP en su artículo 198 establece como delito: ….la interceptación de las telecomunicaciones o la utilización de artificios técnicos de escucha, transmisión, grabación o reproducción del sonido o de la imagen…agravándose el hecho si este es cometido por autoridad o funcionario público fuera de los casos permitidos por la Ley y sin mediar causa legal por dicho delito. Jurisprudencia:--versus----Legitimidad. El Auto de la Sala 2ª del Tribunal Supremo de 18-6-1992 se constituye como “corpus iuris” en cuanto a los aspectos procedimentales de esta prueba, estableciendo la importancia de que el material de audio este controlado por el órgano judicial mediante custodia de las cintas originales, trascripción bajo fe del Secretario Judicial etc. El Tribunal Constitucional en reiteradas sentencias como la nº 166/99 y171/99 y la sentencia sobre el caso Kas del Tribunal Europeo de los Derechos Humanos de Estrasburgo establece: 1º Que la medida de restricción del derecho a las comunicaciones deberá estar prevista legalmente con suficiente precisión (principio de legalidad formal y material). 2º Que tendrá que decidirse por autoridad judicial en el marco de un proceso. 32
  • 33. 3º Que se realizará con estricta observancia del principio de proporcionalidad, es decir la medida será necesaria para alcanzar un fin constitucionalmente legítimo como es la prevención de delitos calificados de infracciones graves y tendrá que ser la medida idónea e imprescindible para la investigación de tales delitos. Juriprudencia.--versus-----Ilegitimidad. Según exponen las STC nº 121 y151(ambas de 1998) con la intervención de las comunicaciones se vulnera el derecho al secreto de las mismas del art de la CE nº 18; cuando no se respetan las garantías constitucionales en algunas de las fases del proceso; circunstancia que se produce si esta medida no es decidida por el órgano jurisdiccional competente, o por desproporción en la aplicación de la misma debido a la inexistencia de presupuestos materiales de delito., (arts579.2 y3 de la LE Crim) es decir, existencia de una investigación por un hecho constitutivo de infracción punible grave, indicios del hecho constitutivos de dicha infracción y conexión con estos hechos del sujeto intervenido. La actuación policial (siguiendo lo establecido por el Convenio de Roma) se realizara bajo tutela y garantía del Poder Judicial; debiendo ser un Órgano Jurisdiccional independiente quien de forma razonada y previa ponderación de la proporcionalidad, razonabilidad, y necesidad de la medida, acuerde la intervención de las comunicaciones. Además, la infracción del derecho a la privacidad en las comunicaciones (art 18.3 CE) puede vulnerar el Principio de Presunción de inocencia (art 24.2 CE); concluyendo con el (art 11. 1 de la Ley Orgánica del Poder Judicial) según el cual: no surtirán efecto las pruebas obtenidas violando directa o indirectamente un derecho fundamental que serán declaradas nulas de pleno derecho. FUINGAIRIÑO BRIGAS, E [5]. 33
  • 34. 5. DISEÑO EXPERIMENTAL 5. 1 La influencia microfónica en la identificación de locutores con fines forenses Hipótesis: Influencia o no de los micrófonos en las tasas de identificación de locutores: Base de datos Ahumada, formada por las grabaciones por distintos medios de 103 locutores en español. Diseño experimental: cotejo entre los locutores 1 y restantes hasta un total de 30 en grabaciones de los micrófonos 1 y 2: autos y cruzados (comparándolos consigo mismos y entre ellos). Se calculan las distancias euclídeas y la alineación temporal dinámica (DTW) con el programa Praat y después se tratan estadísticamente los datos con Excel 2007utilizando las macros creadas para optimizar losl cálculos por el profesor José. L. Ramón. MICROFONOS 1 y 2 : (Características técnicas del fabricante). - Micrófono 1, AKGD80S cardioide de sobremesa Tipo de transductor……………………………..Dinámico de gradiente de presión. Diagrama polar (direccionalidad)………………Cardióide. Rango de frecuencias…………………………..60-18000 Hz. Sensibilidad a 1 kHz……………………………10 Ohms. Impedancia de carga recomendada…………..1000 Ohms Máximo NPS para THD≤1%/≤3% …………… 50 Pa* (128 dB NPS) /138 dB. Sensibilidad al zumbido de red…………………35 µV / 5 µT. 34
  • 35. Condiciones climáticas ………………………….Rango de temperaturas -10º C a + 65 º C Humedad Relativa a +20º C (68º F):95% Tipo de conector……………………………… XLR estándar macho de 3 pin. Conexiones………………………………………Pi n 1: Masa. Pin 2: Audio en fase. Pin 3: Audio (retorno). Audio. Dimensiones……………………………. Longitud: 185 mm, ∅: 54 mm. Peso Neto/bruto………………………………….210 / 500 gramos. Sensibilidad………………………………………1.6 mV / pascal. Respuesta frecuencia…………………………. ∆f= 64 Hz-6.4 kHz. - Micrófono 2, SONY ECM-66B de solapa. Tipo de transductor………………………...............De condensador Electret. Diagrama polar (direccionalidad)………………… Unidireccional. Rango de frecuencias…………………….............7-14000 Hz, Sensibilidad 1 KHz (desv. De ± dB)…................Tensión en circuito abierto: dB (3.16 mv, 0 dB=1 V/1 Pa ) nivel de salida eficaz: dB( 0 dBm = 1mW/ 1Pa) Impedancia de carga recomendada superior a 3 kHz 35
  • 36. Impedancia de salida……………….....................100 Ohm s±20% balanceada. Relación Señal/Ruido…………………………… Mayor de 65 dB (a 1 kHz, 1 Pa). Ruido de viento………………………………… Menor de 50 dB NPS (con protector antiviento) Ruido inducido por campo electromagnético ext. Menor de 5 dB NPS/mG. Máximo NPS para TDH ≤1% a 1 KHz………………130 d B NPS (63.2 Pa) Rango dinámico………………………………………… Mayor de 101 dB Condiciones climáticas………………………………….De-20ºC a +60ºC para almacenamiento De 0º C a+60º C para funcionamiento. Tipo de conector…………………………………… …XLR estándar macho de 3 –pin. Dimensiones y peso del micrófono Longitud: 24.2 mm; diámetro de cabeza 0.6 mm, peso aproximado en g. Dimensiones y peso micrófono: Longitud 24.2 mm, ∅ cabeza 10.6 mm. Peso aprox 7 g. Dimensiones y peso pre-amplificador……………………Longitud: 163 mm, diámetro: 20 mm Peso aproximado: 160 g Sensibilidad……………………………………………………3.2 mV / pascal. De estas características técnicas se destaca que el micrófono SONY tiene una sensibilidad 36
  • 37. mayor: de 3.2 mV/pascal; frente al AKG de 1.6 mV/pascal, además de contar el primero con un protector antiviento del ruido inducido, del que se sirve para limpiar el sonido de entrada en la grabación. Además el tipo de transductor(sistema empleado para la captación del sonido) nos indica si el sonido ha sido captado en una o varias direcciones, el AKG es un micrófono cardiode de presión lo cual indica que tiene forma de corazón con una entrada del sonido bidireccional a dos caras (como la forma de un 8), este tipo de micrófono se emplea en obras de teatro o representaciones con varias fuentes sonoras, sin embargo el SONY al poseer un sistema de condensador electret capta el sonido en una sola dirección, siendo más apto para la grabación de locuciones sin interferencias ambientales. Estas características cobran especial importancia una vez analizamos los datos obtenidos en donde sí queda patente , que la mayor sensibilidad de uno de los micrófonos influye real mente en los resultados obtenidos. Por tanto resulta necesario señalar que hay variables técnicas controlables en el análisis de la voz, que optimizan los resultados, siendo la utilización de un micrófono adaptado imprescindible para la grabación controlada de la voz a analizar. 5. 2 Estructura del árbol de ficheros de la base de datos Ahumada Adopta en máximo de caracteres que permite el sistema operativo MS-DOS que es de 8; quedando clasificadas las grabaciones según el siguiente esquema del ejemplo: ORTEGA, J. J. MARRERO. V., [9]. 0 2 0 T 2 E 0 0.B D A 37
  • 38. Número Apartado de Tarea Locutor la tarea Vía de grabación y Extensión de Base de Datos sesión Ahumada Figura 8. Esquema de la base de datos Ahumada De este ejemplo a la vista del esquema se deduce: Que se trata del locutor nº 20 (tres primeros caracteres “020”). La tarea E se refiere a lectura texto propio, los dos ceros “00 “ se corresponden con que no ha realizado una subtarea en la lectura. Para los ficheros en grabación microfónica existen 26 ficheros por canal en cada sesión, al ser tres sesiones en estéreo con 26 ficheros por 6 canales diferentes; resultan 156 ficheros por locutor en las tres sesiones microfónicas. 5. 3 Distancia euclídea normalizada El algoritmo para comparar muestras sonoras y decidir sobre la identidad del hablante basado en la distancia euclídea normalizada, presenta la ventaja de funcionar sin necesidad de realizar una caracterización estadística de los diferentes locutores, por lo que, puede ser empleado con un número reducido de muestras de voz; parte del éxito en la utilización preferente del DTW, radica en haber sido propuesto por un grupo de trabajo compuesto tanto por expertos en fonética forense, como por ingenieros eléctricos y electrónicos. El método, destaca por su simplicidad, tanto de cálculo como en la implementación. 38
  • 39. La hipótesis de partida es, como se ha mencionado anteriormente: que si el vector de parámetros es suficientemente dependiente del locutor, éste se parecerá más a sí mismo que al resto, es decir, la variabilidad intralocutor del vector debe ser menor que la variabilidad interlocutor. La medida del parecido entre muestras se realiza por medio del cálculo de su distancia euclídea, midiéndose tal distancia entre la muestra dubitada y la indubitada; así como con cada una de las muestras de distracción. Puesto que las componentes del vector de parámetros pueden ser de diferente orden de magnitud, cuanto mayor valor presente una componente tanto más peso va a tener en la medida de la distancia. Para evitar un efecto de baremo no deseado entre las diferentes componentes, la distancia se mide normalizando los valores con un vector de normalización que iguale el orden de magnitud de cada una de las componentes. Si las componentes del vector de parámetros presentan un diferente grado de discriminación, el vector de normalización puede emplearse también para otorgar un mayor peso a las componentes más discriminantes. Con el fin de que el mismo proceso pueda aplicarse independientemente a cualquier vector, y para que los resultados puedan compararse directamente, el resultado de la medida de la distancia entre las diferentes muestras se normaliza a su vez en un rango común, de modo, que la distancia menor valga 1 y la mayor 10. De este modo, si el resultado de una medida no es concluyente acerca de la identidad del locutor dubitado, la prueba puede complementarse repitiendo la medida con un vector de parámetros distinto. 5. 4 Resultados obtenidos con el método DTW. Partiendo de la base de datos Ahumada utilizamos los 30 primeros locutores en grabaciones de conversación espontánea con los micrófonos 1 y 2. 39
  • 40. Con el programa Praat (ver Figuras 9 y 10) y RAMÓN, J. L., ROSIQUE, M., [10], hallamos los coeficientes cepstrales que representa la información del tracto vocal de cada uno de los locutores y poder así realizar la alineación temporal dinámica y calcular las distancias entre e intralocutores y así a través de la utilización de un criterio adaptado de corte realizar la identificación entre los distintos hablantes. Figura 9. Cotejo semiautomático intralocutor para las señales microfónicas B01 y B02 del mismo locutor L001. Obsérvese el valor de la distancia 138.203 entre el mismo locutor. 40
  • 41. Figura 10. Cotejo semiautomático interlocutor para las señales microfónicas B01 y B02 de distintos locutores L001 y L002. Obsérvese el valor de la distancia 150. 352, entre dichos locutores. 5. 5 Criterios de comparación y toma de decisiones. El criterio de comparación y decisión para asignar y comparar las distancias ha sido un criterio que hemos llamado adaptado. Es decir se ha calculado el corte adaptado o separación entre los locutores a través de las 45 medias de cada uno de los locutores que constituyen el cotejo. 41
  • 42. Así si estamos cotejando los locutores L001 y L002, tendremos en cuenta los resultados: 1. Distancia media intralocutor 1 d1=128.28 2. Distancia media intralocutor 2 d2=108.92 3. Distancia media interlocutores 1-2 d1-2=151.34 desviación típica = 5.16 4. Criterio adaptado o corte Cadap =MediaCruzado – (1,64)* σ Cadap =151.34 - (1.64) x 5.16= 142.87 En resumen: Si el valor de Cadap del cotejo interlocutores es mayor que las dos distancias intralocutor: Los locutores son distintos. Si el valor de Cadap del cotejo interlocutores se sitúa entre las dos distancias d1 y d2: (7) No hay decisión. Si el valor de Cadap del cotejo interlocutores es menor que las dos distancias d1 y d2: Se trata del mismo locutor. La Tabla 1 representa las medias y la desviación típica de las distancias entre los locutores 42
  • 43. del 1 al 30, tanto para los cotejos intralocutores (autos) como los interlocutores (cruzados), hallados con Excel/2007, calculándose un criterio de corte adaptado automático para discriminar los distintos cotejos, de acuerdo con el criterio mencionado anteriormente (7). Así en la Tabla 1, 2, 3 y 4 se muestran los resultados correspondientes a los 30 locutores estudiados. En las 2 primeras columnas se indican los resultados intralocutores y en las columnas 3, 4 y 5 los resultados interlocutores, media y desviación típica.. En la columna 6, se muestran los resultados del criterio de clasificación o corte adaptado. En las columnas 7 (Cotejo A) se indica si el corte supera o no el valor intralocutor primero (1 ó 0) y en la columna 8 (Cotejo B) se indica si el corte supera o no el valor intralocutor segundo (1 ó 0). Así en particular,en la primera línea de la Tabla 1, la columna Cotejo A aparece como 1, dado que el corte:142.28 supera al valor “Mean” del locutor1: 128.28. En la columna B aparece también 1, dado que el corte: 142.28 supera al valor “Mean” del locutor2: 108.92. En este ejemplo concluiríamos que el locutor1 y el locutor2 son distintos. Tabla 1. Datos correspondientes a la grabación con micrófono 1: locutores del 1-30 (autos y cruzados). Locutor Mean Locutores Media Desv Tip Corte Cotejo A Cotejo B locutor1 128.28 L001.2 151.34 5.16 142.87 1 1 locutor2 108.92 L001.3 158.49 7.60 146.03 1 1 locutor3 131.35 L001.4 148.49 7.24 136.61 1 1 locutor4 131.06 L001.5 149.18 5.87 139.56 1 1 locutor5 133.60 L001.6 147.79 4.98 139.62 1 1 locutor6 115.59 L001.7 171.25 4.66 163.61 1 1 locutor7 119.34 L001.8 171.50 6.83 160.31 1 1 locutor8 122.08 L001.9 145.85 5.03 137.60 1 1 locutor9 110.95 L001.10 149.26 5.85 139.67 1 1 locutor10 113.16 L001.11 143.47 4.75 135.68 1 1 locutor11 107.63 L001.12 152.36 6.87 141.08 1 1 locutor12 129.47 L001.13 156.46 7.11 144.81 1 1 locutor13 137.43 L001.14 168.99 9.83 152.87 1 1 locutor14 130.70 L001.15 170.62 5.68 161.31 1 1 locutor15 121.80 L001.16 153.38 5.88 143.73 1 1 locutor16 125.86 L001.17 174.81 7.07 163.22 1 1 locutor17 134.66 L001.18 143.69 6.56 132.93 1 1 locutor18 115.76 L001.19 155.44 5.59 146.27 1 1 43
  • 44. locutor19 137.75 L001.20 156.33 6.83 145.13 1 1 locutor20 125.87 L001.21 158.26 6.62 147.40 1 1 locutor21 120.17 L001.22 189.52 5.33 180.77 1 1 locutor22 126.63 L001.23 155.26 6.16 145.15 1 1 locutor23 113.27 L001.24 159.94 5.37 151.13 1 1 locutor24 120.98 L001.25 157.29 5.88 147.66 1 1 locutor25 126.44 L001.26 171.62 4.65 163.98 1 1 locutor26 125.40 L001.27 175.68 5.53 166.62 1 1 locutor27 133.01 L001.28 154.36 4.71 146.64 1 1 locutor28 123.25 L001.29 153.95 5.83 144.40 1 1 locutor29 112.78 L001.30 156.59 6.22 146.39 1 1 locutor30 122.26 En la Tabla 2 se utiliza el micrófono 1 al igual que en la Tabla 1 pero se parte del locutor 3 al 30, se realiza la media y la desviación típica de los autos y cruzados y como resultados los cotejos no son coincidentes en 8 locutores quedando sus respectivas distancias medias entre el criterio de corte por lo cual no hay decisión. Tabla 2. Datos correspondientes a la grabación con micrófono 1: locutores del 3-30 (autos y cruzados). Locutor Mean Locutores Media Desv Tip Corte Cotejo A Cotejo B locutor 3 131.35 L003.4 156.67 9.43 141.20 1 1 locutor 4 131.06 L003.5 159.04 8.07 145.81 1 1 locutor 5 133.60 L003.6 140.38 8.01 127.24 0 1 locutor 6 115.59 L003.7 144.37 6.55 133.63 1 1 locutor 7 119.34 L003.8 157.43 8.09 144.16 1 1 locutor 8 122.08 L003.9 143.44 7.96 130.39 0 1 locutor 9 110.95 L003.10 140.77 8.78 126.37 0 1 locutor10 113.16 L003.11 150.58 7.64 138.05 1 1 locutor11 107.63 L003.12 144.67 8.26 131.12 0 1 locutor12 129.47 L003.13 151.98 8.05 138.78 1 1 locutor13 137.43 L003.14 142.39 6.95 131.00 0 1 locutor14 130.70 L003.15 149.37 8.26 135.83 1 1 locutor15 121.80 L003.16 151.52 9.27 136.32 1 1 locutor16 125.86 L003.17 150.92 8.93 136.28 1 1 44
  • 45. locutor17 134.66 L003.18 150.43 7.94 137.41 1 1 locutor18 115.76 L003.19 151.29 8.08 138.04 1 locutor19 137.75 L003.20 148.46 8.53 134.48 1 1 locutor20 125.87 L003.21 148.22 6.66 137.29 1 1 locutor21 120.17 L003.22 164.39 7.88 151.47 1 1 locutor22 126.63 L003.23 144.80 8.33 131.14 0 1 locutor23 113.27 L003.24 144.15 8.80 129.72 0 1 locutor24 120.98 L003.25 154.76 6.82 143.57 1 1 locutor25 126.44 L003.26 167.67 8.51 153.71 1 1 locutor26 125.40 L003.27 151.10 7.42 138.93 1 1 locutor27 133.01 L003.28 151.61 7.82 138.79 1 1 locutor28 123.25 L003.29 138.75 7.12 127.08 0 1 locutor29 112.78 L003.30 146.37 6.80 135.23 1 1 locutor30 122.26 En la Tabla 3 con el micrófono 2, se muestran los cotejos con la medias de las distancias y criterio de corte adaptado de los locutores del 1 al 30 dan como resultado la identificación de los locutores distintos, al ser los cotejos A y B coincidentes en resultar 1. Tabla 3. Datos correspondientes a la grabación con micrófono 2: locutores del 1-30 (autos y cruzados. Locutor Mean Locutores Media Desv Tip Corte Cotejo A Cotejo B locutor 1 124.54 L001.2 140.44 5.16 131.97 1 1 locutor 2 105.41 L001.3 149.02 5.99 139.21 1 1 locutor 3 120.51 L001.4 148.72 5.94 138.98 1 1 locutor 4 124.51 L001.5 144.64 5.29 135.96 1 1 locutor 5 128.12 L001.6 156.99 5.07 148.66 1 1 locutor 6 112.68 L001.7 178.62 5.35 169.85 1 1 locutor 7 124.34 L001.8 169.65 6.80 158.49 1 1 locutor 8 118.29 L001.9 143.04 4.42 135.79 1 1 locutor 9 112.50 L001.10 155.61 4.87 147.63 1 1 locutor 10 110.31 L001.11 157.44 6.22 147.24 1 1 locutor 11 117.45 L001.12 146.55 5.45 137.62 1 1 locutor 12 120.92 L001.13 159.69 6.27 149.40 1 1 locutor 13 135.34 L001.14 160.62 5.69 151.28 1 1 45
  • 46. locutor 14 127.39 L001.15 175.83 5.07 167.52 1 1 locutor 15 118.42 L001.16 151.51 6.07 141.55 1 1 locutor 16 124.09 L001.17 161.55 6.87 150.27 1 1 locutor 17 127.90 L001.18 149.53 5.73 140.13 1 1 locutor 18 119.61 L001.19 164.92 6.27 154.63 1 1 locutor 19 134.94 L001.20 153.53 6.08 143.57 1 1 locutor 20 124.47 L001.21 162.70 5.45 153.75 1 1 locutor 21 122.67 L001.22 175.83 4.36 168.69 1 1 locutor 22 128.15 L001.23 155.20 6.10 145.19 1 1 locutor 23 117.98 L001.24 164.83 4.34 157.70 1 1 locutor 24 123.87 L001.25 153.96 5.54 144.87 1 1 locutor 25 125.07 L001.26 163.98 4.57 156.49 1 1 locutor 26 119.42 L001.27 166.10 3.99 159.56 1 1 locutor 27 131.15 L001.28 162.35 5.60 153.17 1 1 locutor 28 123.59 L001.29 149.31 5.70 139.96 1 1 locutor 29 108.79 L001.30 156.87 6.08 146.89 1 1 locutor 30 118.43 . En la Tabla 4 con el micrófono 2, se muestran los cotejos con la medias de las distancias y criterio de corte adaptado de los locutores del 3 al 30. Los resultados coinciden en 2 indecisiones del micrófono 1 para el mismo cotejo en los locutores 9 y 28, añadiendo una nueva indecisión en el locutor 18, no confirmando el resto de indecisiones halladas con el micrófono 1. Tabla 4. Datos correspondientes a la grabación con micrófono 2: locutores del 3-30 (autos y cruzados). Locutor Mean Locutores Media Desv Tip Corte Cotejo A Cotejo B locutor 3 120.51 L003.4 141.58 6.21 131.39 1 1 locutor 4 124.51 L003.5 148.13 4.42 140.88 1 1 locutor 5 128.12 L003.6 130.81 6.25 120.57 1 1 locutor 6 112.68 L003.7 146.76 5.53 137.70 1 1 locutor 7 124.34 L003.8 159.49 6.72 148.47 1 1 locutor 8 118.29 L003.9 132.01 5.84 122.44 1 1 locutor 9 112.50 L003.10 129.01 7.62 116.50 0 1 locutor 10 110.31 L003.11 151.46 8.02 138.31 1 1 locutor 11 117.45 L003.12 131.78 5.52 122.73 1 1 46
  • 47. locutor 12 120.92 L003.13 149.02 7.53 136.67 1 1 locutor 13 135.34 L003.14 140.12 5.76 130.67 1 1 locutor 14 127.39 L003.15 154.25 7.16 142.51 1 1 locutor 15 118.42 L003.16 141.67 6.76 130.58 1 1 locutor 16 124.09 L003.17 148.47 7.79 135.69 1 1 locutor 17 127.90 L003.18 141.83 6.06 131.89 1 1 locutor 18 119.61 L003.19 143.41 7.83 130.57 1 0 locutor 19 134.94 L003.20 139.93 5.79 130.44 1 1 locutor 20 124.47 L003.21 146.86 6.53 136.14 1 1 locutor 21 122.67 L003.22 161.61 6.11 151.59 1 1 locutor 22 128.15 L003.23 137.64 6.44 127.07 1 1 locutor 23 117.98 L003.24 141.50 6.03 131.61 1 1 locutor 24 123.87 L003.25 139.35 5.66 130.07 1 1 locutor 25 125.07 L003.26 150.09 4.51 142.70 1 1 locutor 26 119.42 L003.27 142.52 6.77 131.42 1 1 locutor 27 131.15 L003.28 154.75 6.04 144.85 1 1 locutor 28 123.59 L003.29 129.08 5.83 119.52 0 1 locutor 29 108.79 L003.30 145.79 5.46 136.84 1 1 locutor 30 118.43 En resumen, comparando los resultados de las tablas obtenidas por el método ya explicado se observa que las medias que están por encima de las distancias intralocutores se corresponden con locutores distintos ( siguiendo el criterio de corte previo adoptado) mientras que las medias por debajo, se refieren al mismo locutor y las situadas entre ambas; indican que no hay decisión en ninguno de estos dos sentidos pudiéndose inferir en base a los resultados que hemos obtenido: que la utilización de micrófonos distintos sí influye en el número de indecisiones; de manera que en el micrófono 1 son de 8, mientras que el con el micrófono 2 sólo se confirma las indecisiones en el locutor 9 y el 28 que también obtiene el micrófono 1, añadiéndose otra indecisión nueva en el locutor 18. Cabe destacar que en las características técnicas de ambos micrófonos se aprecia una sensibilidad mayor del micrófono 2 de SONY (de 3.2 mV/pascal frente al micrófono AKG de 1.6 mV/pascal). Además el Sony cuenta con un control antiviento del ruido inducido, siendo la diferencia más destacada entre ambos micrófonos la referida al modo de captación del sonido: en el caso del SONY unidireccional y bidireccional en el AKG. Por otra parte, no se producen en nuestro cotejo ni falsos positivos ni negativos, es decir la 47
  • 48. utilización de un micrófono distinto no varía la tasa de identificaciones positivas o negativas de los locutores estudiados; pero sí influye sensiblemente en el número de identificaciones pues aumenta el índice de indecisión. Este resultado y todo lo anteriormente expuesto me permiten defender el aserto de que la Acústica forense es una disciplina con un sustrato científico suficiente para responder a los interrogantes que la justicia requiere en la sociedad actual. Si bien se trata de un campo con pocos años desarrollo, es de señalar que los últimos avances e investigaciones en análisis forense de la voz humana; se encaminan hacia el estudio de Modelos bioinspirados en el comportamiento de la fonación y sobre todo de la audición. En este último nivel existe un proyecto en marcha en el que trabajan de manera conjunta, aunando aportaciones, las Universidades de Salamanca y Murcia junto a la Politécnica de Cartagena y el Servicio de Criminalística de la Guardia Civil. 6. CONCLUSIONES 1ª. Hemos comprobado que con los sistemas de reconocimiento actuales tales como el programa Praat, se posibilita, el análisis de muestras con grabaciones de conversaciones espontáneas de frases completas ( que son las muestras más habituales en la práctica) a diferencia de otras técnicas como las de LPC que midiendo la amplitud de los formantes, realiza el análisis descomponiendo el sonido en vocales para hallar el formante más identificativo, siendo un método muy preciso, éste es más efectivo para situaciones prediseñadas de investigación en laboratorio y forenses. 2ª. Destaca de entre otros métodos utilizados la Alineación Temporal Dinámica (DTW) como uno de los mejores algoritmos de decisión para la identificación forense, debido sobre todo, a que el cálculo de la distancia euclidea nos permite analizar la voz en conversaciones espontáneas que son las más usuales en la práctica forense y que el posterior tratamiento estadístico de los datos no resulta muy complicado. 3ª. Se pude utilizar la pericia acústica como prueba documental en el proceso judicial 48
  • 49. complementando el testimonio del testigo que la aporta, ya que sirve para identificar a los hablantes con suficiente rigor científico. Para su obtención se utilizan parámetros controlados, contrastados y reproducibles para su comprobación empírica, que son los requisitos indispensables a cualquier método científico. 4ª. La certeza en la identificación de un sujeto con los métodos habitualmente empleados (como son el CLS y el Praat) es de un 95% aproximadamente; ligeramente inferior a la que se puede conseguir con las pruebas biológicas de ADN. 5ª. Los resultados que hemos obtenido con el diseño experimental sobre la influencia microfónica en la identificación de locutores nos permite inferir que los micrófonos utilizados influyen significativamente en el índice de indecisiones (8 indecisiones en Micrófono uno-AKG y 2 indecisiones Micrófono dos-Sony), no dando lugar ni a falsos positivos ni negativos, lo cual indica que el uso de distintos micrófonos afecta a las indeterminaciones del sistema de identificación modificando el índice de indecisión del mismo, pero no afecta a la propia capacidad identificativa del sistema. 7. BIBLIOGRAFÍA 1. ALTUZARRA NIETO, A., 1996. Estudio comparativo de los distintos sistemas de análisis de la voz. (pp. 139 a la 149). En GARCÍA-TAPIA URRUTIA, R., CORBETA MARCO, I., Diagnostico y tratamiento de los trastornos de la voz. SEORL y Patología Cérvico-Facial. Patrocinado por Omega Tecnobío. Editorial Garsi S.A. 2. BATANER GIL, J., 2004. Estudio fonético-acústico de la variación Inter-Intralocutor en español para el reconocimiento automático de locutores con fines forenses. VILE: proyecto de estudio acústico de la variación inter- intra locutor en español. 2002-2004. Departamento de Filología Española Universidad Autónoma de Barcelona. vile@liceu.uab.es. 3. DODDINGTON, G., 1998. Sheeps, Goats, Lambs and Wolves. A Statistical Análisis of Speaker Performance in the NIST Speaker Recognition Evaluation. 49
  • 50. 4. ESTEVE ELIZALDE, C., 2007. Reconocimiento de locutores dependiente del texto mediante adaptación de Modelos Ocultos de Markov. Proyecto Fin de Carrera Escuela Politécnica Universidad Autónoma Madrid. ( Figuras: 2, 3, 4. pp.: 7-11). 5. FUINGAIRIÑO BRIGAS, E.; 2000. Notas sobre la prueba de audio en el Proceso Penal. Memoria Actas Congreso 1º. Sociedad Española Acústica forense 6. JAKSON MENALDI, C. A., ARAUZ, J. C., y BENVENUTO, M., 2002. La voz Normal. (pp 15- 59). Editorial Médica Panamericana 7. JAKSON MENALDI, C A., 2002. La voz Patológica. 216-222. Editorial Médica Panamericana. 8. RAMÓN, J. L., SANCHEZ-MOLERO, J.A. CANTERAS, M. y GARCERÁN, V., 2000. Identificación semiautomática de hablantes mediante parámetros extraídos de espectros suavizados en locuciones de larga duración (LTA) y el valor medio de la frecuencia fundamental(F0). Memoria Actas 1º Congreso, Sociedad Española de Acústica Forense. pp. 163-168 9. ORTEGA, J. GONZÁLEZ, J., MARRERO, V., 2000, AHUMADA: a la large corpus in Spanish for speaker characterization and identification. Speech Communication 31, 2-3. (pp 255-264). 10. RAMÓN, J. L., ROSIQUE, M., (becario) ,2005. Preparación del Algoritmo de computo Paramétrico. Subproyecto 2: Sistemas bioinspirados de análisis de voz. Código: cit-390000-4. Universidad de Murcia. (Figuras 9 y 10). 50
  • 51. 11. ROMÁ ROMERO, M., RAMÓN GARCÍA, J. L., 2004. Influencia de los parámetros de un algoritmo de decisión basado en la distancia geométrica normalizada en las tasas de error en la identificación de locutores con fines forenses. 2-3. Cátedra Física Médica. Facultad de Medicina. Escuela Politécnica Superior Universidad de Alicante 12. Wiquipedia. La Enciclopedia Libre. (www.wiquipedia.com) 51