SlideShare una empresa de Scribd logo
1 de 23
Proyecto Fin de Carrera


                          Optimización de un Sistema de Audio
                          Fingerprinting para la detección de
                          anuncios en tiempo real


Ingeniería de Telecomunicación              Autor: Alejandro Álvarez Dujat des Allimes
Escuela Superior de Ingenieros de Sevilla   Tutor: Dr. José Ramón Cerquides Bueno
Índice

   Introducción
   Objetivo
   Sistema analizado
   Optimización
     Fase 1: Modelado y decisión de umbral

     Fase 2: Búsqueda de valores óptimos

     Fase 3: Pruebas de robustez

   Conclusiones
Introducción
        SISTEMA DE AUDIO FINGERPRINTING
   Objetivo: detectar automáticamente objetos de audio
    en tiempo real
   Esquema general de funcionamiento:
Introducción
                        Extracción de fingerprint                               Búsqueda y detección
                                                                                                                         Datos del
Señal de              Front - end
                                        Modelado de                                  Semejanza                           objeto de
 audio                                   Fingerprint           Búsqueda en la                          Verificación de     audio
                                                               base de Datos                             deteccíon
                                                                                     Examinar                            detectado




    Señal de audio

                                                                      Fingerprints
                                                                           +                     Fijar un umbral
     FRONT - END                            Histogramas               Datos de los
                                                                       anuncios
      Pre-procesado                         Trayectorias
                                            Estadísticos A/D
                                            Conversión
                                           Tamaño de trama
                                          Conversión a mono
  Enventanado y Overlap                    GMM
                                                 DFT
                                           Overlap                Distancias pre-computadas
                                           VQPre-énfasis
                                                   Normalización
   Transformación lineal                   Tipo Filtrado de candidatos no probables con una medida simple
                                              Normalización de energías entre bandas
                                                  de Diferencia
                                                 MCLTenventanado
                                           HMM
                                                   Decorrelación
                                                 Haar Índices invertidos a ficheros
                                                     MFCC
                                            Filtro paso banda
Extracción de característica                       Diferenciación
                                              Reducción de candidatos con mejor resultado encontrado
                                        Codificador/Deco GSMespectral
                                                     Monotonía
                                                 Hadamard
                                                   Cuantización datos ennivel: audio graves
                                         División de la base de de alto dos: tono, más probable y menos probable
                                                     Descriptores
                                                 Wavelet
      Pos-procesado
Introducción
   2 procesos principales en un sistema de
    identificación:
       Extracción de huellas
       Algoritmos de búsqueda de semejanza


   Ventajas de utilizar “huellas digitales de audio” frente
    al uso de objetos de audio directamente:
       Reducción de memoria requerida para almacenamiento
       Comparación más eficiente
       Búsquedas más rápidas en la base de datos
Objetivo
   Conseguir un sistema basado en huella de audio
    óptimo desde el punto de vista computacional

   Nos centramos en optimizar el algoritmo de extracción
    diseñado por Philips

   ¿Qué pretendemos conseguir con la optimización?
       Reducir el tiempo necesario para extraer una huella de
        anuncio
       Y reducir el tamaño de una huella
        manteniendo las probabilidades de error y el grado de
        robustez del sistema en unos valores aceptables
Sistema analizado
         Características del Sistema Audio Fingerprinting
          analizado (diseñado por PHILIPS)

                                               Extracción de fingerprint                              Búsqueda y detección
                                                                                                                                               Datos del
                    Señal de                Front - end
                                                               Modelado de                                 Semejanza                           objeto de
                     audio                                      Fingerprint          Búsqueda en la                          Verificación de     audio
                                                                                     base de Datos                             deteccíon
                                                                                                           Examinar                            detectado




                                   Señal de audio
 Conversión A/D:
                                                               Diferencia entre                                        Min(Distancia
 PCM-mono a 8
                                                               energías de bandas           Fingerprints               de Hamming
 kHz. y 8                           FRONT - END                                                  +
                                                               consecutivas en                                         entre fingerprint
 bits/muestra                                                                               Datos de los
                                     Pre-procesado             tiempo y frecuencia           anuncios                  calculado y los
                                                                                                                       de la BD)
                                 Enventanado y Overlap

                                                                   Tiempo de captura: 3 seg.
  |FFT|                           Transformación lineal                                                                         Si BER < 0.35, acepta detección
                                                                   Tamaño de trama: 0,37 seg.
                               Extracción de característica
                                                                                                                                Si BER > 0.35, rechaza detección
                                                                   Overlap: 31/32
Energía de bandas
espectrales
                                     Pos-procesado                 Ventana de Hanning


                                                                                                             Distancia de Hamming = BER ∙ Tamaño de fingerprint
Sistema analizado
      Factor de Overlap = 31/32    División en 33 bandas                 1 si ED(n, m)   0
                                  logarítmicamente entre      F (n, m)
                                                                         0 si ED(n, m)   0
                                       300 Hz y 2 Khz
                                                  ED(m, n)   E (n, m) E (n, m 1) ( E (n 1, m) E (n 1, m 1))




                                                                                                      FINGERPRINT
Sistema analizado
   Parámetros del algoritmo de extracción:
       Tiempo de captura de la señal de audio
       Tamaño de trama (en número de muestras)
       Factor de Overlap
       Número de bandas en que se divide cada trama
       Frecuencia inferior para la división de bandas
       Frecuencia superior para la división de bandas

   Para la optimización trabajaremos con los 4 primeros,
    pues las frecuencias inferior y superior no alteran el
    tamaño de la huella ni el tiempo de cómputo de esta.
Optimización
   Programación del sistema y pruebas sobre este en
    Matlab 7.0

   Metodología: 3 fases
       FASE 1: MODELADO Y DECISIÓN DE UMBRAL
       FASE 2: BÚSQUEDA DE VALORES ÓPTIMOS
           Con un parámetro
           Con dos parámetros

       FASE 3: PRUEBAS DE ROBUSTEZ
Optimización: Fase 1
   Objetivos:
       Modelar mediante funciones de densidad de
        probabilidad conocidas las probabilidades de error que
        están asociadas al funcionamiento de este sistema.
       Fijar el umbral de decisión


   ¿Probabilidades de error?
       Probabilidad de falsa alarma (Pf): probabilidad de que se
        produzca una detección de anuncio sin que debiera producirse


       Probabilidad de no alarma (Pn): probabilidad de que no se
        produzca una detección de anuncio cuando sí debería producirse
Optimización: Fase 1
   Funciones densidad de probabilidad de error (PDF):

                            Pf




                  Pn
Optimización: Fase 1
   Pn → Dist. Weibull      Pf → Dist. Normal
   Umbral de decisión (α): valor medio entre el valor de α a
    partir del cual Pn vale 0 y el valor de α a partir del cual Pf vale 0.



                             α = 0,18




                     0,091      0,274
Optimización: Fase 2
   Objetivo:
       encontrar los valores de los parámetros del algoritmo
        de extracción que optimizan el sistema         Menor
        tamaño de fingerprint


Menor tiempo de cómputo
                     Menor requerimiento de memoria
   Criterios:
       Pn < 10-12
       Pf < 10-12
Optimización: Fase 2
     Algoritmo básico empleado en las diferentes pruebas
      implementadas en Matlab 7.0:
                                                               Bucle
                                             Cálculo de los fingerprints de 15 anuncios
                                             (4 grabaciones son del mismo anuncio en
                                             diferentes momentos, anuncio de referencia)
Definición de los     Bucle en el que se
parámetros que no     varía el parámetro o
                                             Cálculo del fingerprint de un trozo al azar de
se variamos durante   los parámetros
                                             duración “tiempo de captura” del anuncio de
las simulaciones      objetos de análisis
                                             referencia


                                             Cálculo de las distancias de Hamming entre
                                             este fingerprint y los de los 15 anuncios


                                             Cálculo de los parámetros de las funciones de
                                             probabilidad que modelan la Pn y la Pf


                                             Representación de la PDF experimental y, con
                                             α=0,18, cálculo de Pn y Pf
Optimización: Fase 2
   Con un parámetro: variamos uno de los 4 parámetros
    del algoritmo que vamos a analizar y el resto
    dejamos sus valores de diseño
   Conclusión:
                                                             valores óptimos para
         Parámetro estudiado        Valores analizados
                                                               cada parámetro:

     Número de muestras por trama    2960:1000:23960                12960

                                    31/32, 24/32, 16/32,
     Factor de overlap                                              31/32
                                        12/32, 8/32

     Número de bandas espectrales         32, 16, 8                   8


     Tiempo de captura (segundos)   3, 2.5, 2, 1.5, 1, 0.5            1
Optimización: Fase 2
                                                  Pn = 0          Pf = 3.7217·10-138
    Pn = 0          Pf = 2.1838·10-13
   Con dos parámetros: partiendo del valor óptimo de
    T. Cómputo = 0,16 Nº Bits = 896
                                                  T. Cómputo = 0,44 Nº Bits = 7328

    uno de los 3 parámetros que podemos modificar,
    modificamos los otros dos restantes empeorándolos
    desde sus 0valores 4.4363·10
            Pn =            Pf =
                                 óptimos hasta conseguir cumplir
                                        -12
                                             Pn = 0                    -13
                                                             Pf = 1.4516·10
                                             T. Cómputo = 0,10 Nº Bits = 736
    con los criterios sobre n
            T. Cómputo = 0,06 Nº Bits = P y P
                                        640
                                             f
                                                             Pn = 0          Pf = 2.4342·10-12
                                                             T. Cómputo = 0,14 Nº Bits = 792
   Conclusión: Valores que optimizan el sistema
    Nº de muestras por trama: 4960                Pn = 0
    Factor de Overlap: 31/32                      Pf = 4.4363∙10-12
    Nº de bandas espectrales: 32                  T. Cómputo = 0,0645 seg.
    Tiempo de captura: 1 segundo                  Nº Bits por fingerprint = 640
Optimización: Fase 3
   Objetivo: Comprobar el comportamiento de nuestro
    sistema optimizado ante diferentes degradaciones en
    la señal de entrada
   Las pruebas se realizan sobre 4 anuncios diferentes, los cuales
    se degradan con el programa Adobe Audition 2.0, se calculan
    fingerprints de trozos de estos anuncios degradados y se buscan
    las mínimas distancias de
                                                       Anuncio
    Hamming con los fingerprints        Anuncio
                                                    distorsionado
    de los anuncios originales                     Selección de un
                                                             trozo al azar


                                      Algoritmo de           Algoritmo de
                                       extraccíon             extraccíon


                                                     Comp.            BER
Optimización: Fase 3
   En cuanto a la relación señal-ruido:
       El sistema original es robusto a partir de
                           SNR > 10 dB
       El sistema optimizado es robusto a partir de
                           SNR > 11 dB



                Media de la BER

                Desviación estandar de la
                BER
Optimización: Fase 3
                         Bacardi Limón      Viajes Marsans         Carrefour            La ONCE
      Procesado
                        Media      Desv.   Media      Desv.    Media       Desv.   Media      Desv.

MP3 con VBR nivel 10    0.0419    0.0130   0.0420     0.0125   0.0403     0.0120   0.0408     0.0127

MP3 con VBR nivel 50    0.0407    0.0135   0.0401     0.0123   0.0405     0.0120   0.0409     0.0128

MP3 con VBR nivel 100   0.0411    0.0134   0.0398     0.0125   0.0405     0.0119   0.0399     0.0129

 WMA con CBR 5 Kbps     0.0416    0.0137   0.0411     0.0124   0.0403     0.0118   0.0413     0.0128

 WMA con CBR 6 Kbps     0.0402    0.0123   0.0420     0.0125   0.0403     0.0120   0.0408     0.0127

   Filtrado pasa todo   0.0708    0.0184   0.0633     0.0146   0.0635     0.0157   0.0615     0.0153

    Comp. Amplitud      0.1166    0.0377   0.1115     0.0285   0.1049     0.0278   0.1343     0.0373

     Ecualización       0.0630    0.0179   0.0582     0.0134   0.0577     0.0131   0.0570     0.0147

  Filtrado paso banda   0.0536    0.0299   0.0491     0.0213   0.0496     0.0222   0.0566     0.0295

   Esc. Tiempo -2%      0.0625    0.0209   0.0609     0.0174   0.0627     0.0229   0.0412     0.0133

   Esc. Tiempo +2%      0.0675    0.0242   0.0752     0.0193   0.0651     0.0247   0.0657     0.0215

   Esc. Tiempo -4%      0.0744    0.0221   0.0938     0.0226   0.0776     0.0234   0.0799     0.0233

   Esc. Tiempo +4%      0.0796    0.0256   0.0886     0.0247   0.0788     0.0266   0.0814     0.0308

   Veloc. Lineal -1%    0.1421    0.0313   0.1447     0.0328   0.1404     0.0319   0.1595     0.0401

   Veloc. Lineal +1%    0.1388    0.0347   0.1415     0.0347   0.1218     0.0238   0.1507     0.0351

   Veloc. Lineal -4%    0.3466    0.0243   0.3618     0.0278   0.3429     0.0311   0.3556     0.0256

   Veloc. Lineal +4%    0.3430    0.0329   0.3608     0.0224   0.3386     0.0318   0.3492     0.0287
Conclusiones
   Mejora en el sistema original:
       Reducción del tiempo de cómputo de un fingerprint:
        unas 7 veces más rápido que el sistema con el
        algoritmo original
       Reducción de requerimiento de memoria en un 87%:
           Tamaño de huella: 229x32 bits a 20x32 bits


   Mantenemos el grado de robustez más o menos en
    los mismos valores con respecto al sistema original
Gracias por su atención



¿Alguna pregunta?
Proyecto Fin de Carrera


                          Optimización de un Sistema de Audio
                          Fingerprinting para la detección de
                          anuncios en tiempo real


Ingeniería de Telecomunicación              Autor: Alejandro Álvarez Dujat des Allimes
Escuela Superior de Ingenieros de Sevilla   Tutor: Dr. José Ramón Cerquides Bueno

Más contenido relacionado

Destacado

Integración de kits arduinos enlazados mediante xbee para aplicaciones de car...
Integración de kits arduinos enlazados mediante xbee para aplicaciones de car...Integración de kits arduinos enlazados mediante xbee para aplicaciones de car...
Integración de kits arduinos enlazados mediante xbee para aplicaciones de car...José Ramón Cerquides Bueno
 
Decodificador de vídeo mpeg 2 en matlab y análisis del bitstream
Decodificador de vídeo mpeg 2 en matlab y análisis del bitstreamDecodificador de vídeo mpeg 2 en matlab y análisis del bitstream
Decodificador de vídeo mpeg 2 en matlab y análisis del bitstreamJosé Ramón Cerquides Bueno
 
Campaña de benchmarking cobertura de telefonía móvil en entornos indoor
Campaña de benchmarking cobertura de telefonía móvil en entornos indoorCampaña de benchmarking cobertura de telefonía móvil en entornos indoor
Campaña de benchmarking cobertura de telefonía móvil en entornos indoorJosé Ramón Cerquides Bueno
 
147755331 presentacion-sistema-de-mensajeria-electronica-del-centro-de-calculo
147755331 presentacion-sistema-de-mensajeria-electronica-del-centro-de-calculo147755331 presentacion-sistema-de-mensajeria-electronica-del-centro-de-calculo
147755331 presentacion-sistema-de-mensajeria-electronica-del-centro-de-calculoJosé Ramón Cerquides Bueno
 
Control de polución en smart cities mediante aplicaciones en fiware
Control de polución en smart cities mediante aplicaciones en fiwareControl de polución en smart cities mediante aplicaciones en fiware
Control de polución en smart cities mediante aplicaciones en fiwareJosé Ramón Cerquides Bueno
 
Desarrollo de un Widget de Yahoo! Connected TV para solicitud de Cita Médica ...
Desarrollo de un Widget de Yahoo! Connected TV para solicitud de Cita Médica ...Desarrollo de un Widget de Yahoo! Connected TV para solicitud de Cita Médica ...
Desarrollo de un Widget de Yahoo! Connected TV para solicitud de Cita Médica ...José Ramón Cerquides Bueno
 
Presentacion unidad móvil virtual para eng sobre hsupa
Presentacion unidad móvil virtual para eng sobre hsupaPresentacion unidad móvil virtual para eng sobre hsupa
Presentacion unidad móvil virtual para eng sobre hsupaJosé Ramón Cerquides Bueno
 
Diseño de la wlan de wheelers lane technology college
Diseño de la wlan de wheelers lane technology collegeDiseño de la wlan de wheelers lane technology college
Diseño de la wlan de wheelers lane technology collegeJosé Ramón Cerquides Bueno
 
Plataforma tdt interactiva servicios municipales para la provincia de sevilla
Plataforma tdt interactiva servicios municipales para la provincia de sevillaPlataforma tdt interactiva servicios municipales para la provincia de sevilla
Plataforma tdt interactiva servicios municipales para la provincia de sevillaJosé Ramón Cerquides Bueno
 
Diseño y resolución de prácticas para el laboratorio de televisión 3 d
Diseño y resolución de prácticas para el laboratorio de televisión 3 dDiseño y resolución de prácticas para el laboratorio de televisión 3 d
Diseño y resolución de prácticas para el laboratorio de televisión 3 dJosé Ramón Cerquides Bueno
 
Sustitución de sistemas st bs propietarios por raspberry pis en la red de pan...
Sustitución de sistemas st bs propietarios por raspberry pis en la red de pan...Sustitución de sistemas st bs propietarios por raspberry pis en la red de pan...
Sustitución de sistemas st bs propietarios por raspberry pis en la red de pan...José Ramón Cerquides Bueno
 
Qué es un sistema de audio y tipos
Qué es un sistema de audio y  tiposQué es un sistema de audio y  tipos
Qué es un sistema de audio y tiposandreycamilolopez
 
Introducción a los sistemas de audio
Introducción a los sistemas de audioIntroducción a los sistemas de audio
Introducción a los sistemas de audioGezo21
 
Sistema inteligente de Reconocimiento de Anuncios de Televisión
Sistema inteligente de Reconocimiento de Anuncios de TelevisiónSistema inteligente de Reconocimiento de Anuncios de Televisión
Sistema inteligente de Reconocimiento de Anuncios de TelevisiónJosé Ramón Cerquides Bueno
 

Destacado (20)

Integración de kits arduinos enlazados mediante xbee para aplicaciones de car...
Integración de kits arduinos enlazados mediante xbee para aplicaciones de car...Integración de kits arduinos enlazados mediante xbee para aplicaciones de car...
Integración de kits arduinos enlazados mediante xbee para aplicaciones de car...
 
Decodificador de vídeo mpeg 2 en matlab y análisis del bitstream
Decodificador de vídeo mpeg 2 en matlab y análisis del bitstreamDecodificador de vídeo mpeg 2 en matlab y análisis del bitstream
Decodificador de vídeo mpeg 2 en matlab y análisis del bitstream
 
Campaña de benchmarking cobertura de telefonía móvil en entornos indoor
Campaña de benchmarking cobertura de telefonía móvil en entornos indoorCampaña de benchmarking cobertura de telefonía móvil en entornos indoor
Campaña de benchmarking cobertura de telefonía móvil en entornos indoor
 
147755331 presentacion-sistema-de-mensajeria-electronica-del-centro-de-calculo
147755331 presentacion-sistema-de-mensajeria-electronica-del-centro-de-calculo147755331 presentacion-sistema-de-mensajeria-electronica-del-centro-de-calculo
147755331 presentacion-sistema-de-mensajeria-electronica-del-centro-de-calculo
 
Control de polución en smart cities mediante aplicaciones en fiware
Control de polución en smart cities mediante aplicaciones en fiwareControl de polución en smart cities mediante aplicaciones en fiware
Control de polución en smart cities mediante aplicaciones en fiware
 
Desarrollo de un Widget de Yahoo! Connected TV para solicitud de Cita Médica ...
Desarrollo de un Widget de Yahoo! Connected TV para solicitud de Cita Médica ...Desarrollo de un Widget de Yahoo! Connected TV para solicitud de Cita Médica ...
Desarrollo de un Widget de Yahoo! Connected TV para solicitud de Cita Médica ...
 
Presentacion unidad móvil virtual para eng sobre hsupa
Presentacion unidad móvil virtual para eng sobre hsupaPresentacion unidad móvil virtual para eng sobre hsupa
Presentacion unidad móvil virtual para eng sobre hsupa
 
Diseño de la wlan de wheelers lane technology college
Diseño de la wlan de wheelers lane technology collegeDiseño de la wlan de wheelers lane technology college
Diseño de la wlan de wheelers lane technology college
 
Plataforma tdt interactiva servicios municipales para la provincia de sevilla
Plataforma tdt interactiva servicios municipales para la provincia de sevillaPlataforma tdt interactiva servicios municipales para la provincia de sevilla
Plataforma tdt interactiva servicios municipales para la provincia de sevilla
 
Desarrollo de un simulador dvb t2 en simulink
Desarrollo de un simulador dvb t2 en simulinkDesarrollo de un simulador dvb t2 en simulink
Desarrollo de un simulador dvb t2 en simulink
 
Diseño y resolución de prácticas para el laboratorio de televisión 3 d
Diseño y resolución de prácticas para el laboratorio de televisión 3 dDiseño y resolución de prácticas para el laboratorio de televisión 3 d
Diseño y resolución de prácticas para el laboratorio de televisión 3 d
 
Presentación pfc susana carrasco perez v2
Presentación pfc susana carrasco perez v2Presentación pfc susana carrasco perez v2
Presentación pfc susana carrasco perez v2
 
Sistema de Audio
Sistema de Audio Sistema de Audio
Sistema de Audio
 
Sustitución de sistemas st bs propietarios por raspberry pis en la red de pan...
Sustitución de sistemas st bs propietarios por raspberry pis en la red de pan...Sustitución de sistemas st bs propietarios por raspberry pis en la red de pan...
Sustitución de sistemas st bs propietarios por raspberry pis en la red de pan...
 
Qué es un sistema de audio y tipos
Qué es un sistema de audio y  tiposQué es un sistema de audio y  tipos
Qué es un sistema de audio y tipos
 
Introducción a los sistemas de audio
Introducción a los sistemas de audioIntroducción a los sistemas de audio
Introducción a los sistemas de audio
 
Componentes de-una-computadora-claudio-ariel-clarenc
Componentes de-una-computadora-claudio-ariel-clarencComponentes de-una-computadora-claudio-ariel-clarenc
Componentes de-una-computadora-claudio-ariel-clarenc
 
Sistema inteligente de Reconocimiento de Anuncios de Televisión
Sistema inteligente de Reconocimiento de Anuncios de TelevisiónSistema inteligente de Reconocimiento de Anuncios de Televisión
Sistema inteligente de Reconocimiento de Anuncios de Televisión
 
Presentacion carmenppt
Presentacion carmenpptPresentacion carmenppt
Presentacion carmenppt
 
Audioy midibasico
Audioy midibasicoAudioy midibasico
Audioy midibasico
 

Similar a Optimización de un sistema de audio fingerprinting para la detección de anuncios en tiempo real

Uso de laboratorio
Uso de laboratorioUso de laboratorio
Uso de laboratorioCharlyMon78
 
SISTEMA DE DETECCIÓN DE ALARMAS DE VIDEOVIGILANCIA BASADO EN ANÁLISIS SEMÁNTICO
SISTEMA DE DETECCIÓN DE ALARMAS DE VIDEOVIGILANCIA BASADO EN ANÁLISIS SEMÁNTICOSISTEMA DE DETECCIÓN DE ALARMAS DE VIDEOVIGILANCIA BASADO EN ANÁLISIS SEMÁNTICO
SISTEMA DE DETECCIÓN DE ALARMAS DE VIDEOVIGILANCIA BASADO EN ANÁLISIS SEMÁNTICOTELECOM I+D 2011
 
Caso de éxito Grupo Familia Sancela
Caso de éxito Grupo Familia SancelaCaso de éxito Grupo Familia Sancela
Caso de éxito Grupo Familia SancelaRFIDPOINT
 
Algoritmos de compresión y efecto de la compresión expo
Algoritmos de compresión y efecto de la compresión expoAlgoritmos de compresión y efecto de la compresión expo
Algoritmos de compresión y efecto de la compresión expoMario Arias Antón
 
Aplicaciones de serie de fourier
Aplicaciones de serie de fourierAplicaciones de serie de fourier
Aplicaciones de serie de fourieryaqui catunta
 

Similar a Optimización de un sistema de audio fingerprinting para la detección de anuncios en tiempo real (6)

Uso de laboratorio
Uso de laboratorioUso de laboratorio
Uso de laboratorio
 
Dsp3
Dsp3Dsp3
Dsp3
 
SISTEMA DE DETECCIÓN DE ALARMAS DE VIDEOVIGILANCIA BASADO EN ANÁLISIS SEMÁNTICO
SISTEMA DE DETECCIÓN DE ALARMAS DE VIDEOVIGILANCIA BASADO EN ANÁLISIS SEMÁNTICOSISTEMA DE DETECCIÓN DE ALARMAS DE VIDEOVIGILANCIA BASADO EN ANÁLISIS SEMÁNTICO
SISTEMA DE DETECCIÓN DE ALARMAS DE VIDEOVIGILANCIA BASADO EN ANÁLISIS SEMÁNTICO
 
Caso de éxito Grupo Familia Sancela
Caso de éxito Grupo Familia SancelaCaso de éxito Grupo Familia Sancela
Caso de éxito Grupo Familia Sancela
 
Algoritmos de compresión y efecto de la compresión expo
Algoritmos de compresión y efecto de la compresión expoAlgoritmos de compresión y efecto de la compresión expo
Algoritmos de compresión y efecto de la compresión expo
 
Aplicaciones de serie de fourier
Aplicaciones de serie de fourierAplicaciones de serie de fourier
Aplicaciones de serie de fourier
 

Más de José Ramón Cerquides Bueno

Desarrollo de una herramienta para la medida de calidad de vídeo
Desarrollo de una herramienta para la medida de calidad de vídeoDesarrollo de una herramienta para la medida de calidad de vídeo
Desarrollo de una herramienta para la medida de calidad de vídeoJosé Ramón Cerquides Bueno
 
Sistema de seguimiento de la acción en eventos deportivos
Sistema de seguimiento de la acción en eventos deportivosSistema de seguimiento de la acción en eventos deportivos
Sistema de seguimiento de la acción en eventos deportivosJosé Ramón Cerquides Bueno
 
Tema 2 teoría de la información y capacidad de canal
Tema 2   teoría de la información y capacidad de canalTema 2   teoría de la información y capacidad de canal
Tema 2 teoría de la información y capacidad de canalJosé Ramón Cerquides Bueno
 
Un breve recorrido por los diferentes estándares mpeg
Un breve recorrido por los diferentes estándares mpegUn breve recorrido por los diferentes estándares mpeg
Un breve recorrido por los diferentes estándares mpegJosé Ramón Cerquides Bueno
 
Implantación del crédito europeo en la asignatura
Implantación del crédito europeo en la asignaturaImplantación del crédito europeo en la asignatura
Implantación del crédito europeo en la asignaturaJosé Ramón Cerquides Bueno
 
Situación de la televisión digital terrestre en españa
Situación de la televisión digital terrestre en españaSituación de la televisión digital terrestre en españa
Situación de la televisión digital terrestre en españaJosé Ramón Cerquides Bueno
 
Detección automática multicanal de anuncios en tv en tiempo real
Detección automática multicanal de anuncios en tv en tiempo realDetección automática multicanal de anuncios en tv en tiempo real
Detección automática multicanal de anuncios en tv en tiempo realJosé Ramón Cerquides Bueno
 

Más de José Ramón Cerquides Bueno (16)

Desarrollo de una herramienta para la medida de calidad de vídeo
Desarrollo de una herramienta para la medida de calidad de vídeoDesarrollo de una herramienta para la medida de calidad de vídeo
Desarrollo de una herramienta para la medida de calidad de vídeo
 
Sistema de seguimiento de la acción en eventos deportivos
Sistema de seguimiento de la acción en eventos deportivosSistema de seguimiento de la acción en eventos deportivos
Sistema de seguimiento de la acción en eventos deportivos
 
Medidas de calidad en vídeo
Medidas de calidad en vídeoMedidas de calidad en vídeo
Medidas de calidad en vídeo
 
Presentacion hbbtv
Presentacion hbbtvPresentacion hbbtv
Presentacion hbbtv
 
Sira tv
Sira tvSira tv
Sira tv
 
Intensificación
IntensificaciónIntensificación
Intensificación
 
Tema 3 ecualizacion de-canal
Tema 3 ecualizacion de-canalTema 3 ecualizacion de-canal
Tema 3 ecualizacion de-canal
 
Tema 2 teoría de la información y capacidad de canal
Tema 2   teoría de la información y capacidad de canalTema 2   teoría de la información y capacidad de canal
Tema 2 teoría de la información y capacidad de canal
 
Tema 1 canales en comunicaciones digitales
Tema 1   canales en comunicaciones digitalesTema 1   canales en comunicaciones digitales
Tema 1 canales en comunicaciones digitales
 
Tema 0 presentación transmisión digital
Tema 0   presentación transmisión digitalTema 0   presentación transmisión digital
Tema 0 presentación transmisión digital
 
Tema 4 codificación de canal
Tema 4   codificación de canalTema 4   codificación de canal
Tema 4 codificación de canal
 
Un breve recorrido por los diferentes estándares mpeg
Un breve recorrido por los diferentes estándares mpegUn breve recorrido por los diferentes estándares mpeg
Un breve recorrido por los diferentes estándares mpeg
 
Implantación del crédito europeo en la asignatura
Implantación del crédito europeo en la asignaturaImplantación del crédito europeo en la asignatura
Implantación del crédito europeo en la asignatura
 
Situación de la televisión digital terrestre en españa
Situación de la televisión digital terrestre en españaSituación de la televisión digital terrestre en españa
Situación de la televisión digital terrestre en españa
 
WiNG: Hacia las Unidades Móviles Virtuales
WiNG: Hacia las Unidades Móviles VirtualesWiNG: Hacia las Unidades Móviles Virtuales
WiNG: Hacia las Unidades Móviles Virtuales
 
Detección automática multicanal de anuncios en tv en tiempo real
Detección automática multicanal de anuncios en tv en tiempo realDetección automática multicanal de anuncios en tv en tiempo real
Detección automática multicanal de anuncios en tv en tiempo real
 

Optimización de un sistema de audio fingerprinting para la detección de anuncios en tiempo real

  • 1. Proyecto Fin de Carrera Optimización de un Sistema de Audio Fingerprinting para la detección de anuncios en tiempo real Ingeniería de Telecomunicación Autor: Alejandro Álvarez Dujat des Allimes Escuela Superior de Ingenieros de Sevilla Tutor: Dr. José Ramón Cerquides Bueno
  • 2. Índice  Introducción  Objetivo  Sistema analizado  Optimización  Fase 1: Modelado y decisión de umbral  Fase 2: Búsqueda de valores óptimos  Fase 3: Pruebas de robustez  Conclusiones
  • 3. Introducción SISTEMA DE AUDIO FINGERPRINTING  Objetivo: detectar automáticamente objetos de audio en tiempo real  Esquema general de funcionamiento:
  • 4. Introducción Extracción de fingerprint Búsqueda y detección Datos del Señal de Front - end Modelado de Semejanza objeto de audio Fingerprint Búsqueda en la Verificación de audio base de Datos deteccíon Examinar detectado Señal de audio Fingerprints + Fijar un umbral FRONT - END Histogramas Datos de los anuncios Pre-procesado Trayectorias Estadísticos A/D Conversión Tamaño de trama Conversión a mono Enventanado y Overlap GMM DFT Overlap Distancias pre-computadas VQPre-énfasis Normalización Transformación lineal Tipo Filtrado de candidatos no probables con una medida simple Normalización de energías entre bandas de Diferencia MCLTenventanado HMM Decorrelación Haar Índices invertidos a ficheros MFCC Filtro paso banda Extracción de característica Diferenciación Reducción de candidatos con mejor resultado encontrado Codificador/Deco GSMespectral Monotonía Hadamard Cuantización datos ennivel: audio graves División de la base de de alto dos: tono, más probable y menos probable Descriptores Wavelet Pos-procesado
  • 5. Introducción  2 procesos principales en un sistema de identificación:  Extracción de huellas  Algoritmos de búsqueda de semejanza  Ventajas de utilizar “huellas digitales de audio” frente al uso de objetos de audio directamente:  Reducción de memoria requerida para almacenamiento  Comparación más eficiente  Búsquedas más rápidas en la base de datos
  • 6. Objetivo  Conseguir un sistema basado en huella de audio óptimo desde el punto de vista computacional  Nos centramos en optimizar el algoritmo de extracción diseñado por Philips  ¿Qué pretendemos conseguir con la optimización?  Reducir el tiempo necesario para extraer una huella de anuncio  Y reducir el tamaño de una huella manteniendo las probabilidades de error y el grado de robustez del sistema en unos valores aceptables
  • 7. Sistema analizado  Características del Sistema Audio Fingerprinting analizado (diseñado por PHILIPS) Extracción de fingerprint Búsqueda y detección Datos del Señal de Front - end Modelado de Semejanza objeto de audio Fingerprint Búsqueda en la Verificación de audio base de Datos deteccíon Examinar detectado Señal de audio Conversión A/D: Diferencia entre Min(Distancia PCM-mono a 8 energías de bandas Fingerprints de Hamming kHz. y 8 FRONT - END + consecutivas en entre fingerprint bits/muestra Datos de los Pre-procesado tiempo y frecuencia anuncios calculado y los de la BD) Enventanado y Overlap Tiempo de captura: 3 seg. |FFT| Transformación lineal Si BER < 0.35, acepta detección Tamaño de trama: 0,37 seg. Extracción de característica Si BER > 0.35, rechaza detección Overlap: 31/32 Energía de bandas espectrales Pos-procesado Ventana de Hanning Distancia de Hamming = BER ∙ Tamaño de fingerprint
  • 8. Sistema analizado Factor de Overlap = 31/32 División en 33 bandas 1 si ED(n, m) 0 logarítmicamente entre F (n, m) 0 si ED(n, m) 0 300 Hz y 2 Khz ED(m, n) E (n, m) E (n, m 1) ( E (n 1, m) E (n 1, m 1)) FINGERPRINT
  • 9. Sistema analizado  Parámetros del algoritmo de extracción:  Tiempo de captura de la señal de audio  Tamaño de trama (en número de muestras)  Factor de Overlap  Número de bandas en que se divide cada trama  Frecuencia inferior para la división de bandas  Frecuencia superior para la división de bandas  Para la optimización trabajaremos con los 4 primeros, pues las frecuencias inferior y superior no alteran el tamaño de la huella ni el tiempo de cómputo de esta.
  • 10. Optimización  Programación del sistema y pruebas sobre este en Matlab 7.0  Metodología: 3 fases  FASE 1: MODELADO Y DECISIÓN DE UMBRAL  FASE 2: BÚSQUEDA DE VALORES ÓPTIMOS  Con un parámetro  Con dos parámetros  FASE 3: PRUEBAS DE ROBUSTEZ
  • 11. Optimización: Fase 1  Objetivos:  Modelar mediante funciones de densidad de probabilidad conocidas las probabilidades de error que están asociadas al funcionamiento de este sistema.  Fijar el umbral de decisión  ¿Probabilidades de error?  Probabilidad de falsa alarma (Pf): probabilidad de que se produzca una detección de anuncio sin que debiera producirse  Probabilidad de no alarma (Pn): probabilidad de que no se produzca una detección de anuncio cuando sí debería producirse
  • 12. Optimización: Fase 1  Funciones densidad de probabilidad de error (PDF): Pf Pn
  • 13. Optimización: Fase 1  Pn → Dist. Weibull Pf → Dist. Normal  Umbral de decisión (α): valor medio entre el valor de α a partir del cual Pn vale 0 y el valor de α a partir del cual Pf vale 0. α = 0,18 0,091 0,274
  • 14. Optimización: Fase 2  Objetivo:  encontrar los valores de los parámetros del algoritmo de extracción que optimizan el sistema Menor tamaño de fingerprint Menor tiempo de cómputo Menor requerimiento de memoria  Criterios:  Pn < 10-12  Pf < 10-12
  • 15. Optimización: Fase 2  Algoritmo básico empleado en las diferentes pruebas implementadas en Matlab 7.0: Bucle Cálculo de los fingerprints de 15 anuncios (4 grabaciones son del mismo anuncio en diferentes momentos, anuncio de referencia) Definición de los Bucle en el que se parámetros que no varía el parámetro o Cálculo del fingerprint de un trozo al azar de se variamos durante los parámetros duración “tiempo de captura” del anuncio de las simulaciones objetos de análisis referencia Cálculo de las distancias de Hamming entre este fingerprint y los de los 15 anuncios Cálculo de los parámetros de las funciones de probabilidad que modelan la Pn y la Pf Representación de la PDF experimental y, con α=0,18, cálculo de Pn y Pf
  • 16. Optimización: Fase 2  Con un parámetro: variamos uno de los 4 parámetros del algoritmo que vamos a analizar y el resto dejamos sus valores de diseño  Conclusión: valores óptimos para Parámetro estudiado Valores analizados cada parámetro: Número de muestras por trama 2960:1000:23960 12960 31/32, 24/32, 16/32, Factor de overlap 31/32 12/32, 8/32 Número de bandas espectrales 32, 16, 8 8 Tiempo de captura (segundos) 3, 2.5, 2, 1.5, 1, 0.5 1
  • 17. Optimización: Fase 2 Pn = 0 Pf = 3.7217·10-138 Pn = 0 Pf = 2.1838·10-13  Con dos parámetros: partiendo del valor óptimo de T. Cómputo = 0,16 Nº Bits = 896 T. Cómputo = 0,44 Nº Bits = 7328 uno de los 3 parámetros que podemos modificar, modificamos los otros dos restantes empeorándolos desde sus 0valores 4.4363·10 Pn = Pf = óptimos hasta conseguir cumplir -12 Pn = 0 -13 Pf = 1.4516·10 T. Cómputo = 0,10 Nº Bits = 736 con los criterios sobre n T. Cómputo = 0,06 Nº Bits = P y P 640 f Pn = 0 Pf = 2.4342·10-12 T. Cómputo = 0,14 Nº Bits = 792  Conclusión: Valores que optimizan el sistema Nº de muestras por trama: 4960 Pn = 0 Factor de Overlap: 31/32 Pf = 4.4363∙10-12 Nº de bandas espectrales: 32 T. Cómputo = 0,0645 seg. Tiempo de captura: 1 segundo Nº Bits por fingerprint = 640
  • 18. Optimización: Fase 3  Objetivo: Comprobar el comportamiento de nuestro sistema optimizado ante diferentes degradaciones en la señal de entrada  Las pruebas se realizan sobre 4 anuncios diferentes, los cuales se degradan con el programa Adobe Audition 2.0, se calculan fingerprints de trozos de estos anuncios degradados y se buscan las mínimas distancias de Anuncio Hamming con los fingerprints Anuncio distorsionado de los anuncios originales Selección de un trozo al azar Algoritmo de Algoritmo de extraccíon extraccíon Comp. BER
  • 19. Optimización: Fase 3  En cuanto a la relación señal-ruido:  El sistema original es robusto a partir de SNR > 10 dB  El sistema optimizado es robusto a partir de SNR > 11 dB Media de la BER Desviación estandar de la BER
  • 20. Optimización: Fase 3 Bacardi Limón Viajes Marsans Carrefour La ONCE Procesado Media Desv. Media Desv. Media Desv. Media Desv. MP3 con VBR nivel 10 0.0419 0.0130 0.0420 0.0125 0.0403 0.0120 0.0408 0.0127 MP3 con VBR nivel 50 0.0407 0.0135 0.0401 0.0123 0.0405 0.0120 0.0409 0.0128 MP3 con VBR nivel 100 0.0411 0.0134 0.0398 0.0125 0.0405 0.0119 0.0399 0.0129 WMA con CBR 5 Kbps 0.0416 0.0137 0.0411 0.0124 0.0403 0.0118 0.0413 0.0128 WMA con CBR 6 Kbps 0.0402 0.0123 0.0420 0.0125 0.0403 0.0120 0.0408 0.0127 Filtrado pasa todo 0.0708 0.0184 0.0633 0.0146 0.0635 0.0157 0.0615 0.0153 Comp. Amplitud 0.1166 0.0377 0.1115 0.0285 0.1049 0.0278 0.1343 0.0373 Ecualización 0.0630 0.0179 0.0582 0.0134 0.0577 0.0131 0.0570 0.0147 Filtrado paso banda 0.0536 0.0299 0.0491 0.0213 0.0496 0.0222 0.0566 0.0295 Esc. Tiempo -2% 0.0625 0.0209 0.0609 0.0174 0.0627 0.0229 0.0412 0.0133 Esc. Tiempo +2% 0.0675 0.0242 0.0752 0.0193 0.0651 0.0247 0.0657 0.0215 Esc. Tiempo -4% 0.0744 0.0221 0.0938 0.0226 0.0776 0.0234 0.0799 0.0233 Esc. Tiempo +4% 0.0796 0.0256 0.0886 0.0247 0.0788 0.0266 0.0814 0.0308 Veloc. Lineal -1% 0.1421 0.0313 0.1447 0.0328 0.1404 0.0319 0.1595 0.0401 Veloc. Lineal +1% 0.1388 0.0347 0.1415 0.0347 0.1218 0.0238 0.1507 0.0351 Veloc. Lineal -4% 0.3466 0.0243 0.3618 0.0278 0.3429 0.0311 0.3556 0.0256 Veloc. Lineal +4% 0.3430 0.0329 0.3608 0.0224 0.3386 0.0318 0.3492 0.0287
  • 21. Conclusiones  Mejora en el sistema original:  Reducción del tiempo de cómputo de un fingerprint: unas 7 veces más rápido que el sistema con el algoritmo original  Reducción de requerimiento de memoria en un 87%: Tamaño de huella: 229x32 bits a 20x32 bits  Mantenemos el grado de robustez más o menos en los mismos valores con respecto al sistema original
  • 22. Gracias por su atención ¿Alguna pregunta?
  • 23. Proyecto Fin de Carrera Optimización de un Sistema de Audio Fingerprinting para la detección de anuncios en tiempo real Ingeniería de Telecomunicación Autor: Alejandro Álvarez Dujat des Allimes Escuela Superior de Ingenieros de Sevilla Tutor: Dr. José Ramón Cerquides Bueno