2. ¿Qué es la visión artificial?
Cuatro términos son usados frecuentemente:
Procesamiento de imágenes
Análisis de imágenes
Gráficos por computadora
Visión por computadora (Visión artificial)
2
6. Gráficos por computadora
Crear imágenes a partir de modelos de objetos
Modelado
Iluminación
Textura
Animación
Proyección
6
7. Visión artificial
Invertir el proceso de formación de una imagen para obtener
información acerca del mundo observado.
Algunos problemas son:
Detección de características
Detección y reconocimiento de objetos
Obtener un modelo 3D a partir de imágenes
Seguimiento y análisis de movimiento
Reconocimiento de eventos
7
8. ¿Porqué es tan difícil?
Un problema similar a la Ingeniería Inversa.
Cada píxel de una imagen es una función de:
Reflectividad del objeto observado.
La forma del objeto.
Condiciones de iluminación.
El ángulo desde donde se observa.
La visión biológica invierte esa función muy fácil aparentemente.
8
9. El problema
No hay suficiente información en la imagen que nos permita
reconstruir el ambiente observado.
A partir de 3 o 4 números enteros (RGB) ¿Cómo obtener la posición en
3D, la forma, reflectividad, color, textura?
9
13. Detección de características
Aplicar una función a un conjunto de píxeles
Elegir aquellos que tengan el valor más alto
Describirlos de alguna forma
Tenemos menor cantidad de datos, pero más estables y con más
información.
Características:
Sin variación
Únicas
13
18. SIFT (Scale Invariant Feature
Transform)
Rápido y eficiente, puede incluso ejecutarse en tiempo real.
Soporta cambios en la perspectiva de hasta 60 grados.
Cambios significativos en la iluminación.
18
20. Correspondencia estéreo
Encontrar la correspondencia entre píxeles o características en 2 o
más imágenes y convertir sus posiciones 2D en profundidades 3D
20
21. Correspondencia
Se utiliza triangulación para recuperar la profundidad
21
Requiere:
• Conocer la geometría del ambiente y la cámara
• Realizar la correspondencia entre cada punto
22. ¿Porqué es difícil?
Ambigüedad al realizar la correspondencia entre puntos y
variación en la apariencia de las características.
Necesitamos hacer asunciones acercar del ambiente.
22
1
2 1
2
3
4 4
3
27. Procedimiento básico
Existen muchos algoritmos, pero la mayoría sigue el siguiente proceso:
Calibrar cámaras
Rectificar imágenes
Correspondencia
Estimar profundidad
Rectificación y profundidad se consideran resueltos.
Calibración tiene algunas investigaciones.
Correspondencia es el principal problema
27
28. Correspondencia estéreo
Dos métodos principalmente:
Sparse algorithms
PMF algorithm
Dense algorithms
Zhang and Shan algorithm (A Progressive Scheme)
28
29. Sparse algorithms
Obtener las características de una imagen (bordes, esquinas, SURF,
etc.) y realizar la correspondencia en base a una función.
¿Cómo asegurarse de que un par de características efectivamente
corresponden una a la otra?
29
30. Gradiente de disparidad
Dos características no deberían de ser aceptadas si la gradiente de
disparidad es mayor que cierto valor…
Estudios demuestran que este límite es 1.0 en los humanos*
30
*Burt and Julesz, A Disparity Gradient Limit for Binocular Fusion, Perception, 1980.
Ai
Bi
A
B
Ar
Br
S(A,B)
𝐷 𝐴, 𝐵 = 𝑥𝑙 − 𝑥 𝑟
Γ 𝐴, 𝐵 =
𝐷 𝐴, 𝐵
𝑆 𝐴, 𝐵
𝑥𝑙 𝑥 𝑟
32. Algoritmo PMF
Calcular la correspondencia y relacionar cada característica con
cierto valor de certeza.
32
Ai
Bi
1
3
2
Izquierda Derecha Certeza
A 1 12
A 2 5
B 3 10
33. Algoritmo PMF
Fortalecer cada pareja basado en la gradiente de disparidad.
33
Ai
Bi
1
3
2
Izquierda Derecha Certeza
A 1 12
A 2 5
B 3 10
S=4
𝑆(𝑀, 𝑁𝑖) =
𝑆𝑡𝑟𝑒𝑛𝑔𝑡ℎ 𝑁𝑖
𝑆𝑒𝑝𝑎𝑟𝑎𝑡𝑖𝑜𝑛 𝑀, 𝑁𝑖
M
N
𝑆 𝑀, 𝑁𝑖 =
10
4
=2.5
=14.5
=13
34. Dense algorithms
Calcular la disparidad para cada píxel.
Al final obtenemos una imagen llamada Disparity Space Image(DSI)
el cual es una función de (x, y, d)
Algunos lo calculan como P(d|x,y)
34
35. A Progressive Scheme-Zhang and
Shan
Los píxeles en la imagen izquierda se pueden etiquetar como: Matched,
Unknown, NoMatch. Todos comienzan como Unknown.
Calcular las características de cada imagen y relacionarlas. Algunos
píxeles serán etiquetados como Matched.
35
36. A Progressive Scheme-Zhang and
Shan
Para cada píxel izquierdo etiquetado como Unknown: Obtener la
lista de píxeles candidatos de la imagen derecha, es decir, aquellos
que satisfacen la línea epipolar y la gradiente de disparidad
basado en los “Matched”.
36
37. A Progressive Scheme-Zhang and
Shan
Calcular el coeficiente de correlación con cada píxel candidato.
37
Si solo hay un pico:
Relacionar ambos
píxeles y etiquetarlo
como Matched.
Si hay más de un
pico: No hay
suficiente
información aún, así
que se deja
Unknown.
Si no hay picos: No se
puede relacionar la
característica y se
etiqueta como
NoMatch.
40. Recursos
Colección de libros sobre CV:
http://homepages.inf.ed.ac.uk/rbf/CVonline/books.htm
Empresas que utilizan CV: http://www.cs.ubc.ca/~lowe/vision.html
Recursos de todo tipo:
http://homepages.inf.ed.ac.uk/rbf/CVonline/
Explicación interactiva sobre la geometría epipolar:
http://www.ai.sri.com/~luong/research/Meta3DViewer/EpipolarGeo
.html
Contiene imágenes rectificadas con sus imágenes de disparidad
reales para probar tus algoritmos:
http://vision.middlebury.edu/stereo/
40
Tratamos de recuperar una cantidad desconocida de información insuficiente para dar una solución completamente satisfactoria.
La correspondencia puede ser a través de:
Similitud: Orientación similar, ángulo, color, etc.
Única: Las características son correspondidas en una relación uno a uno.
Continuas: La diferencia entre características a lo largo de la línea epipolar debería ser muy pequeña.