Algoritmo de Reconocimiento de Objetos en Escenas Complejas para Aplicaciones de Realidad Aumentada

Algoritmo de Reconocimiento de Objetos en Escenas Complejas
para Aplicaciones de Realidad Aumentada
Mario G. Canul Ku1
Página web: http://mariomgck.awardspace.com
Dr. Salvador Ruiz Correa2 Dr. Jean-Bernard Hayet2
Dr. Diego Jiménez Badillo2
1
Autor,
2
Asesores
Septiembre - 2013
Centro de Investigación
en Matemáticas, A.C.

Identicación del problema
El reconocimiento de objetos en tiempo real, es de gran utilidad en
diferentes tipos aplicaciones. Un ejemplo es una aplicación de
realidad aumentada (RA), para desplegar información de manera
virtual a los visitantes de un museo a través de un dispositivo móvil.
Algoritmo de Reconocimiento de Objetos en Escenas Complejas para Aplicaciones de Realidad Aumentada 1/51

Aplicaciones
(a) Industria cinematográca (b) Industria de videojuegos
(c) Robots de servicio (d) Información en museos

Motivación
Realizar una métodología que permita detectar múltiples objetos, en
tiempo real, para desarrollar aplicaciones de RA. El interés principal
es crear un sistema de RA enfocado al reconocimiento de piezas
arqueológicas.

Objetivos
Desarrollar una metodología para detectar, en tiempo real,
objetos que aparecen en una secuencia de video. La detección
se realiza utilizando la apariencia de los objetos.
Desarrollar un sistema de software de detección de objetos, en
tiempo real, en particular piezas arqueológicas.
Proporcionar interacción activa entre el usuario y los objetos
en una aplicación de Realidad Aumentada.
Realizar pruebas de reconocimiento de objetos in situ y ex situ
como evaluación del sistema.

Aportaciones
Creación de una biblioteca enfocada a la detección de objetos,
que integra bibliotecas especializadas en el procesamiento de
imágenes y la generación de grácos por computadora.
Desarrollo de un sistema de realidad aumentada enfocado al
reconocimiento de piezas arqueológicas.
Generación de contenido virtual que combina tecnologías
multimedia, servicios web y base de datos.
Inclusión de un nuevo sistema de realidad aumentada, con
características diferentes a los actualmente desarrollados.

Contenido
1 Introducción
2 Conceptos
3 Metodología
4 Resultados
5 Conclusiones

Reconocimiento de objetosIntroducción
El reconocimiento de objetos se enfoca a reconocer objetos particu-
lares, como son calles, personas, edicios, montañas, etc. Para ello
requerimos que los objetos puedan ser representados a partir de car-
acterísticas de los mismos.

Realidad aumentadaIntroducción
La RA se encarga de estudiar las técnicas que permiten integrar
en tiempo real contenido virtual con el mundo real, permitiendo al
usuario ver el mundo real con objetos virtuales superpuestos.

Realidad aumentada Historia
Introducción
(e) Ivan
Sutherland
(1968)
(f) Artoolkit (1999)
(g) Robert Castle-
PTAMM (2009)
(h) Google glass (2012)

Proceso de reconocimiento de objetosConceptos
Detección de
puntos SIFT
Clasiﬁcación
KNN
Características
ID de objeto
Homografía y
Corrección de
Perspectiva Ubicación estimada
del objeto
Evaluación
Ubicación correcta
del objeto
Medición
del
Error

Detector SIFTConceptos
Scale Invariant Feature Transform (SIFT), es una metodología que
fue desarrollada por David Lowe y sus estudiantes, Lowe (1999). Está
metodología esta divida en tres fases, estas son:
Detección de puntos extremos en el espacio de escalas.
Localización de los puntos característicos.
Asignación de orientación dominante.

Detector SIFT Detección de puntos extremos en el espacio de escalas
Conceptos
Figura: Imagen: http://areshmatlab.blogspot.mx/2010/07/details-behind-sift-feature-detection.html
Los puntos extremos son puntos en los cuales la imagen I(x, y)
tiene máximos o mínimos locales. Para obtenerlos, se emplea una
aproximación del operador Laplaciano D(p).

Detector SIFT Asignación de orientación dominante
Conceptos
Figura: Asignación de orientación dominante
Imagen: Desarrollo de un sistema cognitivo de visión para la navegación robótica
La asignación de orientación dominante se utilizará la imagen
asociada al punto característico. Se calcula en una ventana de
16x16 la magnitud del gradiente m(x, y) y la orientación
θ(x, y).
Las orientaciones se agrupan en forma de histograma,
cualquier pico del histograma que exceda el 80 % se toma
como posible orientación dominante del punto característico.

Descriptor SIFTConceptos
Figura: Descriptor SIFT.
Imagen: https://picasaweb.google.com/lh/photo/vyaYFzPsGz6RzldJnvEaDQ
El descriptor SIFT corresponde a un vector d ∈ R128, se genera
con las orientaciones de gradiente de una vecindad de 16 × 16 píx-
eles, centrada en el punto característico y rotada por su orientacion
dominante.

Proceso de reconocimiento de objetos Clasicación
Conceptos
Detección de
puntos SIFT
Clasiﬁcación
KNN
Características
ID de objeto
Homografía y
Corrección de
del objeto
Evaluación
Ubicación correcta
del objeto
Medición
del
Error

ClasicaciónConceptos
Figura: Problema de clasicación

Clásicación de vecino más cercano KNN
Conceptos
? q
d1 d2 d3
d4
d5
d6
d7d8
d9
d10
d11
d1
d2
El problema de clasicación de vecino más cercano (K-Nearest-Neighbor
KNN), consiste en: Dado un dato q a buscar y un conjunto de datos
P, encontrar sus k datos más cercanos. El dato q es clasicado con
la etiqueta que más se repite en los k datos más cercanos.

Particionamiento del espacio de datosConceptos
Figura: Base canónica.
Imagen: http://cbases2bt.wikispaces.com/le/view/Dibujo.GIF/31480951/Dibujo.GIF
Debido a la complejidad computacional de la búsqueda lineal, se han
propuesto métodos de particionamiento del espacio de los datos y así
organizar los datos en una estructura de árbol.
El espacio de los datos es generado a partir de una base canónica,
con vectores canónicos ei, cuya i-ésima componente es igual a uno
y las demás son cero.

Particionamiento del espacio de datos Árbol KD
Conceptos
Figura: Conjuno de datos P = {(2, 3), (5, 4), (9, 6), (4, 7), (8, 1), (7, 2)},
con espacio a particionar.
Imagen: http://mind.kaist.ac.kr/Francis/project2.html

Particionamiento multidimensional del espacioConceptos
El particionamiento del espacio genera un árbol con cuatro
subarboles KD aleatorios como ramicaciones. Cada subárbol
KD mantiene un subconjunto de datos organizados.
El particionamiento se realiza al obtener los primeros cinco
vectores ei donde los datos tienen una mayor varianza, de
estos se escoge aleatoriamente un ei. Posteriormente se ja
como umbral el promedio de los datos, Muja y Lowe (2009).

Clásicación de vecino más cercano Multidimensional
Conceptos
Figura: Clásicación de vecino más cercano, multidimensional.
Imagen: Silpa-Anan y Hartley (2008)
La búsqueda se realiza al recorrer cada uno de los subarboles.
En cada subárbol KD el recorrido inicia desde la raíz y se
obtiene en cada nodo el vector ei, Muja y Lowe (2009).
Se verica si la i-ésima componente del dato q se encuentra a
la derecha o a la izquierda del promedio. Con ello se elige el
nodo y se inicia el descenso al siguiente nivel.

Clásicación de vecino más cercano Multidimensional
Conceptos
Se inserta en una cola de prioridades la distancia entre las
i-ésimas componentes de q y d.
La cola se emplea para truncar el descenso a un nivel de
profundidad y elegir el subárbol cuyo nodo contenga el dato
más cercano a q. Al nalizar la búsqueda devuelve los vecinos
que se encuentran más proximos al dato a buscar,Muja y Lowe
(2009).

Clásicación de vecino más cercano Selección
Conceptos
? q
d1 d2 d3
d4
d5
d6
d7d8
d9
d10
d11
d1
d2
La búsqueda se realiza para k = 2 vecinos y el vecino más cercano es
aquel cuya distancia es menor que τ veces la distancia del segundo,
es decir, d1 = τd2, Lowe (2004).
A partir del resultado de la búsqueda se realiza una correspondencia
entre d y q, denotada como (x, x ).

Proceso de reconocimiento de objetos Homografía y Corrección de
perspectiva
Conceptos
Detección de
puntos SIFT
Clasiﬁcación
KNN
Características
ID de objeto
Homografía y
Corrección de
del objeto
Evaluación
Ubicación correcta
del objeto
Medición
del
Error

Homografía Corrección de perspectiva
Conceptos

Estimación de la homografía Procedimiento estándar
Conceptos
Para obtener la homografía H que relaciona los planos del objeto
entre imágenes se realiza lo siguiente:
Establecer correspondencias aplicando un método de búsqueda
de correspondencias.
Aplicar RANSAC para estimar la homograa, internamente usa
el algoritmo DLT para agrupar las falsas correspondencias de
las buenas.
Aplicar un metodo iterativo (Levenberg-Marquardt) para
reducir el error de estimación de la homograa.

Proceso de reconocimiento de objetos Evaluación
Conceptos
Detección de
puntos SIFT
Clasiﬁcación
KNN
Características
ID de objeto
Homografía y
Corrección de
del objeto
Evaluación
Ubicación correcta
del objeto
Medición
del
Error

Evaluación Criterios de evaluación
Conceptos
Para evaluar nuestra clasicación utilizamos los siguientes criterios:
Cálculo del número de falsos positivos FP, falsos negativos
FN, verdaderos positivos TP y verdaderos negativos TN.
Curvas de conabilidad generadas a partir de una medida de
conabilidad.
Curva de Medida-F generada a partir de la sensibilidad y la
precisión de la clasicación.

Proceso de detección de objetos Medición del error
Conceptos
Detección de
puntos SIFT
Clasiﬁcación
KNN
Características
ID de objeto
Homografía y
Corrección de
del objeto
Evaluación
Ubicación correcta
del objeto
Medición
del
Error

Evaluación Medida de conabilidad
Conceptos
El vector X = [v1, v2, v3, v4] corresponde a la posición correcta
donde esta ubicado el objeto en la escena, y X corresponde a la
posición estimada. Entonces dado que X e X delimitan regiones
A1 y A2 respectivamente, denimos una medida de conabilidad
como:
=
|A3|
|A1 ∪ A2|
v1 v2
v3
v4
A1
A2
A3

Evaluación Curva de conabilidad
Conceptos
0
0.2
0.4
0.6
0.8
1
20 40 60 80 100 120 140 160 180 200
Conabilidad
It
Curva de conabilidad
La curva de conabilidad se obtiene al calcular la medida de
conabilidad en cada imagen It a evaluar. Con ello podemos ver
si la detección se realiza de manera conable.

Evaluación Medida-F
Conceptos
La medida F es una medida de exactitud de una prueba o precisión
y se dene como:
Fβ = (1 + β2
) ·
VPP · Sensibilidad
(β2 · VPP) + Sensibilidad
.
La precisión o valor predictivo positivo (VPP), es una razón que mide
la proporción de verdaderos positivos con respecto a los falsos posi-
tivos y la sensibilidad nos indica el porcentaje de obtener verdaderos
positivos cuando realmente lo son, estas se denen:
Sensibilidad =
TP
TP + FN
, V PP =
TP
TP + FP
.

Evaluación Curva de Medida-F
Conceptos
0
0.2
0.4
0.6
0.8
1
0 0.5 1 1.5 2
Medida-F
τ
Curva de Medida-F
β = 0.5
La curva de medida-F se obtiene al calcular la medida-F en cada ima-
gen It a evaluar. La medida-F se obtiene en en función del parámetro
τ del clasicador de vecino más cercano.

Metodología propuestaMetodología
Detección de
puntos SIFT
Clasificación
K-NN
Descriptores
ID de objeto
Estimación de
la homografía
y corrección de
la perspectiva
Ubicación del
objeto, ID +
Interacción
(x,y)
Render
Rendering
+ +
Identificación de
contenido específico

Establecimiento de correspondenciasMetodología
La etapa de detección de puntos SIFT nos proporciona un conjunto
de descriptores, con ellos establecemos correspondencias entre los
descriptores de la escena y los de cada objeto.
(a) Detección de puntos
SIFT
(b) Clasicación por KNN

Estimación de la homografía y corrección de la
perspectivaMetodología
En esta etapa, estimamos una homografía H a partir las correspon-
dencias de cada objeto. Usamos H para corregir la perspectiva del
contorno del objeto y así obtener una estimación de su posición.
(c) Estimación de homografía (d) Contorno en perspectiva

Interacción con el usuarioMetodología
La interacción se realiza al seleccionar un objeto con un punto (x, y),
si éste punto se encuentra contenido en el polígono, es posible asociar
la acción de colorear la región de interés.
(e) Región de interés delimitada por
un polígono complejo.
(f) Región de interés coloreada.

Visualización de informaciónMetodología
Finalmente, cuando el usuario selecciona una región de interés, con
base al ID del objeto, se visualiza mediante una página web toda la
información relacionada al objeto.
Figura: Despliegue de información del objeto a través de una página web.

ExperimentoResultados
El experimento consiste en tener un objeto jo en una escena estática,
sin cambios de iluminación y una cámara en movimiento libre. Se
considera que el objeto no se encuentra todo el tiempo en la escena.
Figura: Objeto a detectar

TN% TP% Sensibilidad Especicidad τ
35/200 0/0 0 1 0.200
35/104 95/96 0.579268 0.972222 0.400
29/32 159/168 0.981481 0.763158 0.600
18/42 113/158 0.824818 0.285714 0.800
32/95 31/105 0.329787 0.301887 1.000
32/95 31/105 0.329787 0.301887 1.200
32/95 31/105 0.329787 0.301887 1.400
32/95 31/105 0.329787 0.301887 1.600
32/95 31/105 0.329787 0.301887 1.800
32/95 31/105 0.329787 0.301887 2.000
Cuadro: Resultados obtenidos a partir diferentes valores de τ.

0
0.2
0.4
0.6
0.8
1
20 40 60 80 100 120 140 160 180 200
Conabilidad
It
Curva de conabilidad
(a) Curvas de conabilidad para τ =
0.6
0
0.2
0.4
0.6
0.8
1
0 0.5 1 1.5 2
Medida-F
τ
Curva de Medida-F
β = 0.5
(b) Curva de Medida-F.

Coloreado de piezas arqueológicasResultados
Una pieza arqueológica, debido al paso del tiempo sus pigmentos se
deterioran y son pocos visibles. Por ello se desarrolló una aplicación
de RA que ejempliqué el coloreado de una pieza arqueológica.
(c) Coyolxauhqui de referencia. (d) Coyolxauhqui coloreado.
Figura: Coloreo del monolito Coyolxauhqui.
Imágenes: Cortesía de Marco Armenta drmarco@cimat.mx

En las salas de exhibición es común encontrar personas que ocluyan
una o varias piezas. Entonces un visitante únicamente logrará ver
una parte de la pieza ocluida.
(a) Sol Azteca de referencia. (b) Sol Azteca coloreado.
Figura: Coloreo de la piedra del Sol Azteca.

Figura: Vídeo del coloreado de la piedra del Sol Azteca.

Información asistencial a visitantes de museosResultados
Uno de nuestros objetivos fue crear un sistema de RA aplicado
a la arqueología. Éste se desarrolló con la nalidad de detectar
e identicar piezas aqueológicas de la sala 5 del Museo del
Templo Mayor.
El sistema hace uso de tecnologías web para enriquecer el
contenido mediante mapas satelitales, visión de calle,
información del estado del clima y vídeos.

Información asistencial a visitantes de museos Vídeos
Resultados
(a) Mural 1 - Adoratorio a Tláloc. (b) Brasero de Tláloc.
Figura: Detección de piezas arqueológicas exhibidas en la sala 5 del
Museo del Templo Mayor.
Imágenes: Cortesía del museo del Templo Mayor de la Ciudad de México

ConclusionesConclusiones
Los puntos y descriptores SIFT son los más adecuados y
robustos para representar a un objeto de manera única.
Los objetos que contienen información suciente de textura y
de bordes, son los más factibles de detectar en escenas
complejas.
Los mejores resultados de la clasicación se obtuvieron usando
una razón τ = 0.6, sin importar la cantidad de objetos a
detectar.
Usar un clasicador KNN facilita modicar el conjunto de
entrenamiento, sin necesidad de realizar cálculos adicionales de
los parámetros.
Señalizar los contornos del objeto mediante un polígono
complejo, permita una interacción natural del usuario con el
sistema.

Trabajo futuroConclusiones
Realizar una investigación de las actuales metodologías que
combinen características globales y locales para la detección de
objetos.
Hacer una revisión bibliográca de las actuales metodologías
que hacen uso de bolsa de palabras visuales.
Investigar sobre metodologías de detección de objetos con
poca información de textura y de bordes, en particular
queremos poder detectar máscaras de manera única.

Trabajo futuroConclusiones
Aplicar técnicas de seguimiento que involucren modelos
dinámicos de movimiento, con los cuales nos permita predicir
la posición de un objeto.
Desarrollar una aplicación en un dispositivo móvil que pueda
emplear los actuales Google Glass.
Implementar los algoritmos para que su ejecución sea en
tarjeta gráca. Esto conllevaría un gran aumento en la
eciencia de todo el proceso de la detección de objetos.

½½½½½½½ Gracias !!!!!!!!

Referencias IConclusiones
Monroy, F. J., Jiménez, J. A. A., Sánchez, J. J. C., Fernández, D. V., Linares, L. J., Molina, F. J. V.,
Alises, D. V., Morcillo, C. G., y Wattenberg, G. S. (2012). Desarrollo de Videojuegos 4: Desarrollo
de Componentes. Universidad de Castilla, ISBN: 978-84-686-1060-3.
Muja, M. y Lowe, D. G. (2009). Fast approximate nearest neighbors with automatic algorithm
conguration. En International Conference on Computer Vision Theory and Application
VISSAPP'09), páginas 331340. INSTICC Press.
Lowe, D. G. (1999). Object recognition from local scale-invariant features. En Proceedings of the
International Conference on Computer Vision-Volume 2 - Volume 2, ICCV '99, páginas 11501157,
Washington, DC, USA. IEEE Computer Society.
Hartley, R. I. y Zisserman, A. (2004). Multiple View Geometry in Computer Vision. Cambridge
University Press, ISBN:0521549518.
Lowe, D. G. (2004). Distinctive image features from scale-invariant keypoints. Int. J. Comput. Vision,
60(2):91110.
Harris, C. y Stephens, M. (1988). A combined corner and edge detector. En Proceedings of the Alvey
Vision Conference, University of Manchester, páginas 147151. The Plessey Company.
Silpa-Anan, C. y Hartley, R. (2008). Optimised kd-trees for fast image descriptor matching. En
Computer Vision and Pattern Recognition, 2008. CVPR 2008. IEEE Conference on, páginas 18.

Algoritmo de Reconocimiento de Objetos en Escenas Complejas para Aplicaciones de Realidad Aumentada

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (9)

Similar a Algoritmo de Reconocimiento de Objetos en Escenas Complejas para Aplicaciones de Realidad Aumentada

Similar a Algoritmo de Reconocimiento de Objetos en Escenas Complejas para Aplicaciones de Realidad Aumentada (20)

Más de CIMAT

Más de CIMAT (7)

Último

Último (20)

Algoritmo de Reconocimiento de Objetos en Escenas Complejas para Aplicaciones de Realidad Aumentada