Búsqueda de Similitud no-
   supervisada en Imágenes a
través de Comparación Elástica.
     H. Cuesta-Arvizu¹ & J. Figueroa-Nazuno²
        ¹ Universidad Autónoma del Estado de México
² Centro de Investigación en Computación. Instituto Politécnico
                           Nacional




                                                          09/07/2012   1
Contenido
• Motivación.
• Definición del Procedimiento.
      a)   Caltech256 Dataset
      b)   Generación de la Representación.
      c)   Mapeo lineal de la Representación.
      d)   Comparación Elástica N-Dimensional.

•   Fast Dynamic Time Warping (FDTW).
•   Pseudocódigo para el FDTW.
•   Resultados Experimentales.
•   Conclusiones.

                                                 09/07/2012   2
Motivación
• El ser humano cuenta con mecanismos para detección
  de similitud que aun son desconocidos y el problema de
  comparar imágenes a nivel semántico o estructural ha
  demostrado ser un problema complejo desde el punto
  de vista computacional.

• Típicamente este problema es tratado por las técnicas
  clásicas como, comparación de Ondeletas, Histograma
  de color, Frecuencias (Análisis de Fourier) o
  Reconocimiento de patrones con redes neuronales
  artificiales. Sin embargo cada uno de estos métodos
  pierde información acerca de la imagen o requiere
  entrenamiento exhaustivo.


                                                 09/07/2012   3
Definición del Procedimiento
• El procedimiento consta de tres faces (Generación
  de la Representación, Mapeo lineal de la
  Representación, Aplicación de la Comparación
  Elástica N-Dimensional).
• Siendo la comparación elástica una comparación
  de series de tiempo, a través de una medida de
  distancia. A continuación se describen las faces
  del procedimiento.




                                            09/07/2012   4
Caltech256 Dataset
• Las consultas de imágenes se realizaron sobre un
  set acotado de la base de datos de imágenes
  Caltech la cual cuenta con 30607 imágenes que
  fueron obtenidas de Google y de PicSearch.com.
• Las imágenes están catalogadas en 257 clases
  evaluadas por el ojo humano para asegurar
  calidad y relevancia.
• De las cuales para el presente trabajo fueron
  usadas 684 imágenes pertenecientes a 8
  categorías.


                                           09/07/2012   5
Generación de la Representación
• Se considera a cualquier imagen como una matriz de la
  cual se obtiene un vector de 768 elementos (256 x cada
  sub-matriz de color).

• Definiendo el vector (Representación de la Imagen)
  como sigue:

               d1,1 L d1, n     
                                
            ∧= M O M             ⇒ ∨ = {v1....vn }
              d                 
               m ,1 L d m , n   

                                                       09/07/2012   6
Mapeo lineal de la Representación
• Representación debe contener valores escalares
  positivos. En la parte inferior de la Figura 1, se
  aprecia la misma firma normalizada conservando
  la morfología básica de la serie de tiempo pero
  conteniendo solo valores positivos.




      Figura. 1. Representación Original y Normalizada.
                                                          09/07/2012   7
Comparación Elástica N-Dimensional.


• Como se observa en la Figura 2. Se compara
  una representación de Referencia contra las
  representaciones a consultar obteniendo una
  matriz de distancias y una alineación parcial
  de las series de tiempo, obteniendo un valor
  escalar      de     distancia    entre    las
  representaciones.




                                            09/07/2012   8
Comparación Elástica N-Dimensional.




     Figura. 2. Alineación parcial por medio del FDTW.
                                                         09/07/2012   9
Fast Dynamic Time Warping
• FDTW es un algoritmo para medir similitud
  entre dos secuencias que varían ya sea en su
  tiempo o su velocidad. FDTW busca la optima
  alineación de “warps” de puntos en los datos
  de dos series de tiempo (Ver Figura 3.).




     Figura 3. Ejemplo de Alineación de series de tiempo con FDTW.


                                                                     09/07/2012   10
Pseudocódigo para el FDTW.




                      09/07/2012   11
Resultados Experimentales
• Aunque no es posible definir un criterio
  universalmente    aceptado     para      categorizar
  similitud de imágenes. En este artículo se utiliza un
  criterio de apreciación directa, vía interpretación
  humana




Figura 3. Casos de éxito para la Comparación Elástica para las clases dinosaurios, africanos y camiones.

                                                                                        09/07/2012   12
Resultados Experimentales




Figura 4. Casos de éxito para la Comparación Elástica para las clases caballos, rosas y elefantes.
                                                                                       09/07/2012    13
Resultados Experimentales




   Figura 5. Caso de error para la Comparación
     Elástica para la clase Edificios y paisajes.


                                                    09/07/2012   14
Resultados Experimentales
 Nombre de la      No.          % Primer          % Segundo
    Clase        Imágenes       Resultado         Resultado
                                 Correcto          Correcto
Dinosaurio         102              99                99
Africanos          85               98                95
Camiones           56               98                90
Caballos           122              92                88
Rosas              95               96                92
Elefantes          36               98                87
Paisajes           116              60                52
Edificios          72               50                45
        Tabla I.- Resultado de la Comparación elástica.


                                                           09/07/2012   15
Conclusiones
• Como muestran los resultados el procedimiento es muy
  preciso para la clasificación de imágenes de diferentes
  clases.
• Adicionalmente, el hecho de que en este
  procedimiento no requiera de ningún tipo de
  entrenamiento previo, ofrece ventajas para la
  búsqueda en grandes sets de imágenes que no se
  encuentren anotados ni clasificados de ninguna forma
  (semántica o contextual).
• Una de las principales aportaciones del modelo
  propuesto es su simplicidad.
• Una búsqueda de similitud sin contexto y no supervisada
  que ofrece buenos resultados para la mayoría de los
  casos estudiados.

                                                 09/07/2012   16
Gracias.

            Hector Cuesta-Arvizu
       hm_cuesta@yahoo.com.mx
                    @hmcuesta


                             09/07/2012   17

Presentation rvp imagesimilarity

  • 1.
    Búsqueda de Similitudno- supervisada en Imágenes a través de Comparación Elástica. H. Cuesta-Arvizu¹ & J. Figueroa-Nazuno² ¹ Universidad Autónoma del Estado de México ² Centro de Investigación en Computación. Instituto Politécnico Nacional 09/07/2012 1
  • 2.
    Contenido • Motivación. • Definicióndel Procedimiento. a) Caltech256 Dataset b) Generación de la Representación. c) Mapeo lineal de la Representación. d) Comparación Elástica N-Dimensional. • Fast Dynamic Time Warping (FDTW). • Pseudocódigo para el FDTW. • Resultados Experimentales. • Conclusiones. 09/07/2012 2
  • 3.
    Motivación • El serhumano cuenta con mecanismos para detección de similitud que aun son desconocidos y el problema de comparar imágenes a nivel semántico o estructural ha demostrado ser un problema complejo desde el punto de vista computacional. • Típicamente este problema es tratado por las técnicas clásicas como, comparación de Ondeletas, Histograma de color, Frecuencias (Análisis de Fourier) o Reconocimiento de patrones con redes neuronales artificiales. Sin embargo cada uno de estos métodos pierde información acerca de la imagen o requiere entrenamiento exhaustivo. 09/07/2012 3
  • 4.
    Definición del Procedimiento •El procedimiento consta de tres faces (Generación de la Representación, Mapeo lineal de la Representación, Aplicación de la Comparación Elástica N-Dimensional). • Siendo la comparación elástica una comparación de series de tiempo, a través de una medida de distancia. A continuación se describen las faces del procedimiento. 09/07/2012 4
  • 5.
    Caltech256 Dataset • Lasconsultas de imágenes se realizaron sobre un set acotado de la base de datos de imágenes Caltech la cual cuenta con 30607 imágenes que fueron obtenidas de Google y de PicSearch.com. • Las imágenes están catalogadas en 257 clases evaluadas por el ojo humano para asegurar calidad y relevancia. • De las cuales para el presente trabajo fueron usadas 684 imágenes pertenecientes a 8 categorías. 09/07/2012 5
  • 6.
    Generación de laRepresentación • Se considera a cualquier imagen como una matriz de la cual se obtiene un vector de 768 elementos (256 x cada sub-matriz de color). • Definiendo el vector (Representación de la Imagen) como sigue:  d1,1 L d1, n    ∧= M O M  ⇒ ∨ = {v1....vn } d   m ,1 L d m , n  09/07/2012 6
  • 7.
    Mapeo lineal dela Representación • Representación debe contener valores escalares positivos. En la parte inferior de la Figura 1, se aprecia la misma firma normalizada conservando la morfología básica de la serie de tiempo pero conteniendo solo valores positivos. Figura. 1. Representación Original y Normalizada. 09/07/2012 7
  • 8.
    Comparación Elástica N-Dimensional. •Como se observa en la Figura 2. Se compara una representación de Referencia contra las representaciones a consultar obteniendo una matriz de distancias y una alineación parcial de las series de tiempo, obteniendo un valor escalar de distancia entre las representaciones. 09/07/2012 8
  • 9.
    Comparación Elástica N-Dimensional. Figura. 2. Alineación parcial por medio del FDTW. 09/07/2012 9
  • 10.
    Fast Dynamic TimeWarping • FDTW es un algoritmo para medir similitud entre dos secuencias que varían ya sea en su tiempo o su velocidad. FDTW busca la optima alineación de “warps” de puntos en los datos de dos series de tiempo (Ver Figura 3.). Figura 3. Ejemplo de Alineación de series de tiempo con FDTW. 09/07/2012 10
  • 11.
    Pseudocódigo para elFDTW. 09/07/2012 11
  • 12.
    Resultados Experimentales • Aunqueno es posible definir un criterio universalmente aceptado para categorizar similitud de imágenes. En este artículo se utiliza un criterio de apreciación directa, vía interpretación humana Figura 3. Casos de éxito para la Comparación Elástica para las clases dinosaurios, africanos y camiones. 09/07/2012 12
  • 13.
    Resultados Experimentales Figura 4.Casos de éxito para la Comparación Elástica para las clases caballos, rosas y elefantes. 09/07/2012 13
  • 14.
    Resultados Experimentales Figura 5. Caso de error para la Comparación Elástica para la clase Edificios y paisajes. 09/07/2012 14
  • 15.
    Resultados Experimentales Nombrede la No. % Primer % Segundo Clase Imágenes Resultado Resultado Correcto Correcto Dinosaurio 102 99 99 Africanos 85 98 95 Camiones 56 98 90 Caballos 122 92 88 Rosas 95 96 92 Elefantes 36 98 87 Paisajes 116 60 52 Edificios 72 50 45 Tabla I.- Resultado de la Comparación elástica. 09/07/2012 15
  • 16.
    Conclusiones • Como muestranlos resultados el procedimiento es muy preciso para la clasificación de imágenes de diferentes clases. • Adicionalmente, el hecho de que en este procedimiento no requiera de ningún tipo de entrenamiento previo, ofrece ventajas para la búsqueda en grandes sets de imágenes que no se encuentren anotados ni clasificados de ninguna forma (semántica o contextual). • Una de las principales aportaciones del modelo propuesto es su simplicidad. • Una búsqueda de similitud sin contexto y no supervisada que ofrece buenos resultados para la mayoría de los casos estudiados. 09/07/2012 16
  • 17.
    Gracias. Hector Cuesta-Arvizu hm_cuesta@yahoo.com.mx @hmcuesta 09/07/2012 17