Aprendizaje de Maquina y Aplicaciones

Aprendizaje de Máquina
y
Aplicaciones
J. Luyo1 E. Marca1 D. Benavides2
1Facultad de Ciencias Matemáticas
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS - UNMSM
2Facultade de Tecnologia
UNIVERSIDADE DE BRASILIA - UnB
UNMSM
Facultad de Ciencias Matemáticas
Lima - Perú, 19 y 23 de Febrero, 2015
1 / 125

Figura: Datos generados cada minuto.
3 / 125

Dos deﬁniciones de Aprendizaje
"Learning is the acquisition of knowledge about the
world."
— Kupfermann (1985)
"Learning is an adaptive change in behavior caused by
experience."
— Shepherd (1988)
6 / 125

Aprendizaje de Maquina
Deﬁnición
Rama de la inteligencia artiﬁcial
que construye y estudia los
sistemas que pueden aprender
apartir de los datos.
8 / 125

Tipos Aprendizaje de Maquina
Aprendizaje no Supervisado
Asociación
Clustering
Estimación de Densidad
Aprendizaje Supervisado
Clasiﬁcación
Regresión
Aprendizaje por Refuerzos (Reinforcement Learning)
Aprendizaje Activo (Active Learning)
Aprendizaje Semi-Supervisado(SemiSupervised Learning)
9 / 125

Ejemplo: Clasiﬁcación de Dígitos
Tarea: Escribir un programa que, dado una imagen 28 × 28 en
escalas de grises de un dígito, nos diga cual es el dígito.
Dígitos de la base de datos MNIST
(http://yann.lecun.com/exdb/mnist/)
10 / 125

Aprendizaje No Supervisado
Solo el dato
Datos de Entrenamiento



















11 / 125

Aprendizaje Supervisado
Dato y Etiqueta
Datos de Entrenamiento

 , 2





 , 0




 , 8



 , 5


12 / 125

Partición de un conjunto
Deﬁnición
Una partición del conjunto A es una familia P de subconjuntos no
vacíos de A, disjuntos dos a dos, cuya unión es A. Es decir,
P = {Ai | i ∈ I}, donde se cumple:
1. Para cada i ∈ I, Ai ⊂ A y Ai = ∅
2. Para cada par i = j, Ai ∩ Aj = ∅
3.
i∈I
Ai = A
16 / 125

Clustering
Sea un conjunto de datos D con m datos en un espacio
n-dimensional,
D = {x1, x2, . . . , xm}
y sea k el numero de clusters deseados, la tarea es encontrar una
partición de k elementos para el conjunto de datos. La partición
denotada por C = {C1, C2, . . . , Ck}. Además, para cada cluster Ci
existe un elemento representativo que representa al cluster, una
opción común para este representante es la media (también
llamado centroide) µi de todos los puntos del cluster, así,
µi =
1
|Ci|
xj∈Ci
xj
17 / 125

KMeans
Dado un agrupamiento C = {C1, C2, . . . , Ck} necesitamos alguna
función que evalúa la similaridad entre los elementos de un cluster.
Para nuestro caso utilizaremos la suma de cuadrado de los
errores a cada cluster.
SSE(C) =
k
i=1 xj∈Ci
xj − µi
2
El objetivo es encontrar un agrupamiento que minimiza SSE:
C∗
= argmin
C
{SSE(C)}
KMeans emplea un método interactivo ambicioso (greedy) para
buscar el agrupamiento que minimiza la función objetivo SSE. Así,
el algoritmo puede converger a una solución local en vez de la
solución global óptima del problema.
19 / 125

KMeans
Algoritmo
Algoritmo KMeans
1. Asigna aleatoriamente un número, de 1 a K, a cada una de las
observaciones.
2. Iterar hasta que la asignación de los cluster deje de cambiar
2.1 Para cada uno de los K cluster, calcular el centroide. El
k-ésimo centroide es el vector con las medias de las variables
para las observaciones en el k-ésimo cluster.
2.2 Asignar cada observación al cluster donde el entroide este más
cerca (donde cercanía se encuentra deﬁnida por la distancia
Euclidiana.
20 / 125

KMeans
Algoritmo
Algorithm 1 Algoritmo K-means
1: procedure K-MEANS(D, k, )
2: t ← 0
3: Inicializar los k centroides aleatoriamente µt
1, µt
2, . . ., µt
k ∈
Rn
4: repeat
5: t ← t + 1
6: Cj ← ∅ for all j = 1, . . . k
7: for xj ∈ D do
8: j∗ ← argmin xj − µt
i
2
9: Cj∗ ← Cj∗ ∪ {xj}
10: end for
11: for i = 1 to k do
12: µt
i ← 1
|Ci| xj∈Ci
Xj
13: end for
k 21 / 125

Ejemplo
Conjunto de Datos Iris1
Este conjunto de datos contiene 3 clases con 50 instancias cada
una. Una de las clases es linealmente separable de las otras 2 y dos
de ellas no son linealmente separables.
(a) Iris Setosa (b) Iris Vesicolor (c) Iris Virginica
1
http://en.wikipedia.org/wiki/Iris_flower_data_set
22 / 125

Ejemplo
Conjunto de Datos Iris
Figura: Graﬁco de dispersión
1 data(’iris’)
2 pairs(iris[1:4], main=’Iris Data’, pch = 21,
3 bg = c(’red’, ’green’, ’blue’)[unclass(iris$Species)])
23 / 125

Ejemplo
1 # KMeans Iris Dataset
2
3 # Load Iris dataset
4 data(’iris’)
5
6 # k-means is non-deterministic
7 set.seed(321)
8
9 iris.km <- kmeans(iris[, -5], 3, iter.max = 1000)
10
11 tbl <- table(iris[, 5], iris.km$cluster)
12 iris.dist <- dist(iris[, -5])
13 iris.mds <- cmdscale(iris.dist)
14
15 c.chars <- c(’*’, ’o’, ’+’)[as.integer(iris$Species)]
16
17 a.cols <- rainbow(3)[iris.km$cluster]
18
19 plot(iris.mds, col = a.cols, pch = c.chars, xlab = "X", ylab = "Y")
20
21 corr <- iris.km$cluster == 4 - as.integer(iris$Species)
22 correct <- c("o", "x")[2 - corr]
23
24 plot(iris.mds, col = a.cols, pch = correct, xlab = "X", ylab = "Y")
24 / 125

Ejemplo
Figura: Clustering
25 / 125

Ejemplo
Figura: Clustering. ×: predicciones erroneas ◦: predicciones correctas
26 / 125

SOM: Self-Organizing Map o Algoritmo de Kohonen
1. Presentado por primera vez por el profesor Teuvo Kohonen
ﬁnlandes.
2. Representación de los datos de alta dimensión en una
dimensión mucho menor, generalmente 2 dimensiones.
3. Análisis de comportamiento de atributos. Relación entre
atributos.
28 / 125

SOM: Self-Organizing Map o Algoritmo de Kohonen
Figura: Estructura de la red.
29 / 125

Self-organizing map (SOM) o Algoritmo de Kohonen
Figura: Topologia de la red.
30 / 125

Figura: Radio de la vecindad se disminuye.
31 / 125

Figura: Organización del mapa.
32 / 125

Calculo de pesos
w(x + 1) = w(t) + Θ(y)L(t)(x(t) − w(t)) (1)
L(t) = L0(t)e
t
λ (2)
Θ(t) = e
d2
2θ2(t) (3)
33 / 125

Descripcion del algoritmo
1. La estructura de la red es escogida (dimensión de la red) y los pesos de cada
nodo es inicializado.
2. Un vector es escogido aleatoriamente a partir del conjunto de datos de
entrenamiento y se introduce a la red.
3. Cada nodo es examinado para calcular cual de los pesos esta mas próximos del
vector de entrada. El nodo vencedor es comúnmente conocido como The Best
Matching Unit - BMU.
4. El radio de la vecindad del BMU es calculado. Este es un valor que comienza
grande, pero disminuye en cada paso de tiempo. Cualquier nodo que esta dentro
deste radio es considerado dentro del entorno de la BMU.
5. Los pesos de cada no vecino son ajustados para acercarlos al vector de entrada.
Cuanto más próximo un nodo esta de la BMU, mas sus pesos se alteran mas.
6. Repetir el paso 2 para n iteraciones.
34 / 125

Aplicaciones
Imágenes de plantíos de tomate
Figura: Muestra. Figura: Clustering.
35 / 125

SOM usando R
1 iris <- read.csv("~/Documents/Talleres/Machine Learning - Fisica/Dataset/iris.csv", header=FALSE);
2 View(iris)
3
4 coolBlueHotRed <- function(n, alpha = 1) {
5 rainbow(n, end=4/6, alpha=alpha)[n:1]
6 }
7
8 ##data <- read.table("~/Documents/Talleres/Machine Learning - Fisica/Dataset/iris.csv", quote=""", strin
9
10 data.train <- as.matrix(iris)
11 sM <- som(data.train, grid = somgrid(10, 5, "hexagonal"), rlen=1, alpha=c(0.05, 0.01), keep.data=FALSE)
12
13
14 plot(sM, type = "property", property = sM$codes[,1],
15 main = colnames(sM$codes)[1])
36 / 125

Problema de clasificación binaria
Clasificación - Estructura matemática
Se tienen lo siguientes elementos
El espacio con producto interno Rn como nuestro conjunto universo de datos.
El conjunto S donde S ⊂ Rn un conjunto de muestra.
Una función f : S → {+1, −1} que denominaremos función de etiquetado.
Un conjunto D de entrenamiento, donde D = {(x, y) /x ∈ S, y = f(x)}
Debemos hallar una función ˆf : Rn → {+1, −1}, a partir de D tal que ˆf f para
todo x ∈ S. Vamos a denominar a f como la función de decisión.
Cuando el conjunto de entrenamiento D es linealmente separable el problema
anterior es denominado problema de clasificación binaria lineal.
38 / 125

Construcción del modelo de clasificación binaria
Supongamos que un conjunto de entrenamiento D ⊂ Rn es linealmente separable
Si a pertenece a la clase −1, entonces w, a − b < 0
Si a pertenece a la clase +1, entonces w, a − b > 0
Función de decisión de un problema de clasificación binaria
lineal
La función de decisión ˆf para el problema, cuya superficie de decisión es
L : w, x = b esta dada por
ˆf(x) = sign ( w, x − b)
39 / 125

Clasiﬁcadores margen máximo
1. Superﬁcie de decisión
2. Hiperplanos de soporte
3. Vectores de soporte
4. Margen
57 / 125

Construcción del modelo
Sea w∗, x = b∗ la superficie de decisión
óptima para un problema de clasificación
binaria
-2 -1 1 2 3 4 5
1
2
3
4
5
→
xp
m∗
→
xq
→
w∗
·
→
x=b∗
+k
→
w∗
·
→
x=b∗
→
w∗
·
→
x=b∗
−k
→
xp−
→
xq
→
w∗
γ
El margen máximo puede ser calculado
como la proyección del vector (xp − xq) en
dirección de w∗:
m∗
=
w∗, xp − xq
|w∗|
=
2K
|w∗|
= φ(w∗
, b∗
)
De aquí se plantea el siguiente problema de
optimización convexa
m∗
= φ(w∗
, b∗
) = máx
w,b
φ(w, b)
Este problema maximizacion es equivalente
a un problema de minimización
m∗
= m´ın
w,b
1
2
w, w
58 / 125

Clasificador margen máximo
Proposición (Clasificador margen máximo)
Dado un conjunto de entrenamiento linealmente separable
D = {(x1, y1), (x2, y2), ..., (xl, yl)} ⊂ Rn × {+1, −1},
podemos calcular la superficie de decisión margen máximo w∗, x = b∗ resolviendo el
programa convexo
(P)



m´ın
w,b
φ(w, b) = 1
2
w · w
sujeto a w, yixi ≥ 1 + yib,
donde (xi, yi) ∈ D ⊂ Rn.
(4)
1. La función objetivo no depende de b
2. El termino de desplazamiento b aparece en las restricciones
3. Vamos a tener tantas restricciones como puntos de entrenamiento
Para superar el problema del ítem 3 podemos resolver el problema dual en lugar del
problema primal.
59 / 125

Clasificador margen máximo - Programa dual
Problema dual - Clasificador margen máximo
Dado un problema dual (LP) derivado del problema de clasificación margen máximo
(P). Podemos obtener el programa (DP) tal que
(DP)



máx
α
h(α) = máx
α
l
i=1
αi − 1
2
l
i=1
l
j=1
αiαjyiyj xi, xj
sujeto a
l
i=1
αiyi = 0,
αi ≥ 0
para i = 1, . . . , l.
El calculo de b esta en términos de w∗, como sigue:
b+
= m´ın { w∗
, x | (x, y) ∈ D con y = +1)}
b−
= máx { w∗
, x | (x, y) ∈ D con y = −1)}
Entonces b∗ = b+
+b−
2
Vectores de entrenamiento asociados a λi > 0 son denominados vectores de soporte.
60 / 125

Maquina de Soporte Vectorial
Vamos a denominar Maquina de Soporte Vectorial a la función de
decisión del clasiﬁcador de máximo margen dual, deﬁnida como
ˆf(x) = sign
l
i=1
α∗
i yi xi, x − b∗
61 / 125

Maquina de Soporte Vectorial No lineal
x · x = 1
Figura: Superﬁcie de decisión no lineal x, x = 1 en R2
.
62 / 125

Maquina de Soporte Vectorial No lineal
x · x = 1
ϕ
ϕ(+)
ϕ(+)
ϕ(+)
ϕ(+)
ϕ(+)
ϕ(−)
ϕ(−)
ϕ(−)
ϕ(−)
ϕ(−)
ϕ(−)
ϕ(+)
w · ϕ(x) = b
Figura: Mapeo ϕ de R2
a un espacio de dimensión posiblemente inﬁnita.
63 / 125

¿Es posible separar linealmente
los datos cuando se hace el
mapeo a un espacio de
dimensión mayor?

El Teorema de Cover
Se asume que los puntos considerados cumplen la condición de
posición general.
Teorema
La cantidad de separaciones lineales por el origen de N puntos en
un espacio de dimensión d es:
C(N, d) = 2
d−1
k=0
N − 1
k
El total de separaciones binarias (en cualquier dimensión) es 2N .
Entonces la probabilidad de que una dicotomía elegida
aleatoriamente es:
P(N, d) =
C(N, d)
2N
=
d−1
k=0
N−1
k
2N−1
67 / 125

El Teorema de Cover
Teorema
"La probabilidad de separar un conjunto de puntos aumenta a
medida que aumenta la dimensión del espacio".
Como se observa en la formula C(N, d) = 2
d−1
k=0
N−1
k ,
manteniendo ﬁjo N y aumentando la dimensión (mediante una
aplicación), se tiene que C(N, d) aumenta en términos positivos de
la forma N−1
p mientras N > d.
68 / 125

El Teorema de Cover
Cuando N ≤ d los términos agregados son igual a cero, pues
m
n = 0 para m < n por deﬁniciónón, y
C(N, d) = 2
N−1
k=0
N − 1
k
= 2 ∗ 2N−1
= 2N
que es justamente el total de separaciones que puede haber. luego
en este caso P(N, d) = 1.
69 / 125

El Teorema de Cover
Demostración.
Si p > d entonces
d−1
k=0
N − 1
k
<
p−1
k=0
N − 1
k
entonces
C(N, d) < C(N, p)
luego
C(N, d)
2N
<
C(N, p)
2N
P(N, d) < P(N, p).
Esto es justamente lo que aﬁrma el teorema de Cover.
70 / 125

El Truco del Kernel
El Teorema de Mercer
Teorema (Teorema de Mercer)
Sea k una función continua en [a, b] × [a, b] que cumple
b
a
b
a
k(t, s)f(s)f(t) ds dt ≥ 0
para todo f en L2([a, b]), entonces, para todo t y s en [a, b] la serie
k(t, s) =
∞
j=1
λjϕj(t)ϕj(s)
converge absolutamente y uniformemente en [a, b] × [a, b].
71 / 125

El Truco del Kernel
Mapeo caracteristico usando el teorema de Mercer
El teorema de Mercer nos permite deﬁnir una aplicación de
características para el kernel k
k(t, s) =
∞
j=1
λjϕj(t)ϕj(s)
= λjϕj(t)
∞
n=1
, λjϕj(s)
∞
n=1 2([a,b])
Podemos tomar 2([a, b]) como espacio de características, con la
siguiente aplicación característica
Φ : [a, b] → 2
([a, b])
t → λjϕj(t)
∞
j=1
72 / 125

Espacios de Hilbert con Kernel Reproductivo
Kernel Reproductivo
Deﬁnición (Kernel Reproductivo)
Una función
K : E × E → C
(s, t) → K(t, s)
es un kernel reproductivo del espacio de Hilbert H si y solo si
1. Para todo t en E, se cumple que K(., t) es un elemento de H.
2. Para todo t en E y para todo ϕ en H, se cumple
ϕ, K(., t) = ϕ(t)
La ultima condición es llamada "La propiedad reproductiva": El
valor de la función ϕ en el punto t es reproducido por el producto
interno de ϕ con K(., t). 73 / 125

Espacios de Hilbert con Kernel Reproductivo
Deﬁnición
Deﬁnición (Espacio de Hilbert con Kernel Reproductivo)
Un espacio de Hilbert de funciones complejas que posee un kernel
reproductivo es llamado Espacio de Hilbert con Kernel
Reproductivo (EHKR).
74 / 125

El Truco del Kernel
Mapeo característico usando el teorema de Mercer
Teorema (Representacion de Mercer de un EHKR)
Sea X un espacio métrico compacto y k : X × X → R un kernel
continuo. Deﬁnimos
H =



f =
∞
j=1
ajϕj
aj
λj
∈ 2
([a, b])



con producto interno
∞
j=1
ajϕj,
∞
j=1
bjϕj
H
=
∞
j=1
ajbj
λj
Entonces H es un espacio de hilbert con kernel reproductivo k.
75 / 125

El Truco del Kernel
Deﬁnición
Una función k : E × E → R es llamado kernel si existe un espacio
de Hilbert (no necesariamente un EHKS) H y un función
Φ : E → H, tal que
k(x, y) = Φ(x), Φ(y)
76 / 125

El Truco del Kernel
El Teorema de Moore-Aronszajn
Teorema (Moore-Aronszajn)
Sea K un kernel simétrico y deﬁnido positivo en X entonces existe
un único Espacio de Hilbert con Kernel Reproductivo.
Teorema
Todo kernel reproductivo es un kernel
Φ : [a, b] → H
x → k(., x)
k(x, y) = k(., x), k(., y)
77 / 125

El Truco del Kernel
La MSV No Lineal
Maquina de Soporte Vectorial No Lineal
ˆf(x) = sign
l
i=1
α∗
i yi φ(xi), φ(x) − b∗
78 / 125

El Truco del Kernel
La MSV No Lineal
Maquina de Soporte Vectorial No Lineal
ˆf(x) = sign
l
i=1
α∗
i yik(xi, x) − b∗
79 / 125

Una nota histórica
"Teorema de Mercer", James Mercer (1909)
"Teorema de Moore-Aronzajn", Nachman Aronszajn (1950)
"Teorema de Cover", Thomas Cover (1965)
"Maquinas de Soporte Vectorial", Vladimir Vapnik (1992)
"Maquinas de Soporte Vectorial Suave", Corinna Cortes y
Vladimir Vapnik (1995)
80 / 125

Redes neuronales
Perceptron
En el año 1950 Frank Rosenblatt en el campo de investigación
de la inteligencia artiﬁcial.
x1
x2
xn−1
xn
.
.
.
x0 = 1
w0
n
i=0
wixi
o(
n
i=0
wixi)
Figura: Un perceptron simple.
82 / 125

Redes neuronales
Unidad signuidal
x1
x2
xn−1
xn
.
.
.
x0 = 1
w0
net =
n
i=0
wixi
o = σ(net) = 1
1+e−net
Figura: Perceptron con unidad signuidal.
83 / 125

Redes neuronales
Multicamadas
x1: Comprimiento das sépalas
x2: Largura das sépalas
x3: Comprimento de pétalas
x4: Largura pétala
Classe Iris-Setosa
Classe Iris-Versicolor
Classe Iris-Virginica
N0
N1
N2
N3
N4
N5
Camada oculta Camada de sa´ıda
Figura: Red neuronal multicamada.
84 / 125

Metodologías para Minería de Datos
CRISP-DM
Figura: Metodología CRISP-DM 85 / 125

Herramientas para Aprendizaje de Maquina
Python
scikit-learn
Java
Weka
R
Rattle
86 / 125

Scikit Learn
Figura: Scikit Learn Sheet Cheat
87 / 125

Lenguaje de programación R
1. R es un lenguaje de programación para análisis estadístico.
2. Cuenta con entorno de programación propio pero hay entornos
desarrollados como RStudio con una interfaz más intuitiva.
3. Potente graﬁcador para análisis.
4. OpenSource. Libre!
88 / 125

Introducción
1. Imágenes de intensidad: Imágenes codiﬁcadas como
intensidad de luz, adquiridas por cámaras digitales.
2. Imágenes de profundidad: Imágenes codiﬁcadas como froma
y distancia, adquiridas sensores como sonares o digitalizadores
lazer.
Cualquier imagene digital, no importa su forma o su tipo, es un
vector bidimensional de números.
90 / 125

Introducción
Figura: Imagen 20x20 pixeles de un ojo.
Esos números pueden representar intensidad de luz, distancia, etc.
La relación exacta entre la imagen digital y el mundo físico es determinada por
el proceso de adquisicón, que depende del sensor utilizado.
Cualquier información contenida en imagenes (forma, mediciones o identidad de
objetos) debe ser extraída (calculada) a partir de vectores numéricos
bidimensional, en los cuales está codiﬁcada.
91 / 125

Conceptos principales
Parámetros ópticos de lentes
Caracteriza el sensor óptico
1. Tipos de lentes
2. Comprimento de foco/distancia focal
3. Campo de visión
4. Abertura angulares
92 / 125

Parámetros fotométricos
Aparecen en modelos de energia de luz incidiendo en el sensor
después de haber sido reflejada por objetos en la escena.
1. Tipos, intensidad, y dirección de iluminación
2. Propriedades de reflectancia de las superficies visualizadas
3. Efectos de la estructura del sensor en la cantidad de luz que
incidio en los fotoreceptores.
93 / 125

Parámetros geométricos
Determinan la posición en la imagen sobre la cual el punto 3-D es projectado
1. Tipos de proyecciones
2. Posición y orientación de la cámara en el espacio
3. Distorciones de perspectiva introducidas por el proceso de adquisión de la
imagen
Todos los factores anteriores son significativos en cualquier dispositivo de adquisición
de imagenes, como cámara fotográfica, video-cámaras, o sistemas computarizados.
Otros parámetros puede ser incluídos en la lista anterior para caracterizar imagenes
digitales y el proceso de adquisión.
1. Propiedades físicas de la matriz fotosensitiva de la cámara
2. La naturaleza discreta de los fotoreceptores
3. La cuantificación de la escala de intensidades
94 / 125

Reflectancia de Lambertian
Un punto de superficie refleja la luz incidente igualmente en todas las dirección. No
aboserve energía.
Figura: Superficie Lambertiana.
L = ρIT
· n (5)
Energía por unidad de área.
95 / 125

Modelo de cámara de perspectiva
Figura: Formación de imagenes con cámara de perspectiva.
Ecuaciones fundamentales
x = f
X
Z
(6)
y = f
Y
Z
(7)
Las ecuaciones fundamentales no son lineales (f foco constante, Z variable)
96 / 125

Modelo de cámara de perspectiva
No se preservan distancias entre puntos, o angulos entre lineas.
Mapean lineas en lineas
Figura: Ejemplos de consecuencia del modelo de cámara de perspectiva.
97 / 125

Modelo de cámara de perspectiva débil
x = f
X
Z
≈
f
¯Z
X (8)
y = f
Y
Z
≈
f
¯Z
Y (9)
¯Z = distancia media
Las ecuaciones anteriores pueden ser entendidas como una
proyección ortográﬁca con f → ∞ y Z → ∞ entonces f
Z = 1 y
x = X (10)
y = Y (11)
98 / 125

Introducción
Estructura de un sistema de adquisión de imágenes típico
Representación de imagenes digitales en un computador
Informaciones prácticas en muestreo espacial y ruídos en
cámaras
99 / 125

Sistema básico
Figura: Componentes de un sistema de adquisión.
100 / 125

Sistema básico
Representación de imagenes digitales
Matriz numérica E, con N lineas, M columnas
E(i, j) intensidad de pixel [0,255] (8 bits)
Imagenes coloridas con 3 componenetes monocromáticos (RGB)
Figura: Representación de una imagen CCD.
101 / 125

Sistema básico
Representación de imagenes digitales
xim =
n
N
.xCCD (12)
yim =
m
M
.yCCD (13)
donde N, M son las dimensiones de la imagen en píxeles y n, m las
dimensiones del CCD, número de sus elementos.
n
N y m
M : diferencia de escala en las coordenadas
n
m : produce distorción de la imagen (celdas de formas
diferentes de los píxeles)
Se asume que existe una relación entre los elementos del CCD
y los píxeles de imagenes, y se introduce factores de tamaño
vertical y horinzontal.
102 / 125

Muestro espacial
Por el Teorema del muestreo, la mayor frecuencia que puede ser
capturada por el sistema
vc =
1
2d
(14)
donde d es la distancia entre los elementos adyacentes en el CCD.
103 / 125

Adquisión de ruído y su estimativa
Estimativa de ruído
n imagenes de la misma escena E0, E1, ..., En−1
imagen de NxN píxeles
Para i, j = 0, ..., N − 1
E(i, j) =
1
n
n−1
k=0
Ek(i, j) (15)
σ(i, j) =
1
n − 1
n−1
k=0
(E(i, j) − Ek(i, j))1/2
(16)
por cada píxel.
σ(i, j) =
1
NxN
N−1
i=0
N−1
j=0
σ(i, j) (17)
104 / 125

Parámetros de cámara
Se asume que
El sistema de referencia de la cámara puede ser localizado con
respecto a algun otro sistema conocido, por ejemplo, un
sistema de coordenadas externo.
Las coordenadas de los puntos de la imagen en el sistema de
referencia de la cámara puede ser obtenido de las coordenas de
píxeles, los únicos directamente disponibles de la imgen.
105 / 125

Los parámetros de las cámaras son divididos en
Parámetros extrínsecos: Deﬁnen la localización y orientación
del sistema de referencia de la cámara con respecto a un
sistema externo conocido.
Parámtros intrínsecos: Necesarios para relacionar las
coordenadas de píxeles de una imagen con las coordenas
correspondientes en el sistema de referencia de la cámara.
106 / 125

Parámetros extrínsecos
Pc = R · (Pw − T) (18)
Figura: Parámetros extrínsecos.
107 / 125

Parámetros intrínsecos
Se asume que no hay distrociones geom etricas ópticas, y que el
sensor CCD es un rectangulo grande de elementos fotosensibles.
x = −(xim − ox)sx (19)
y = −(yim − oy)sy (20)
(ox, oy) = coordenadas del centro de la imagen en píxeles
(punto principal)
(sx, sy) = tamaños efectivos de los píxeles (en milímetros) en
las direcciones horinzontales y verticales respectivamente.
108 / 125

Problema de aproximación de parametros
El problema del modelo de cámara se reduce a encontrar de la
mejor manera estos parámetros
Hay algoritmos que los aproximan de manera directa o
también de manera indirecta.
109 / 125

Características de imagenes
¿Qué son?
1. Propiedades globales de una imagen o de parte de ella. Por
ejemplo:
Medidas de las intensidades de píxel
Áreas en pixels
2. Parte de una imagen con algunas propiedades especiales
(características locales). Son más importantes en Visión
computacional. Por ejemplo:
Círculo o linea
Región texturada de una imagen de intensidad
Superﬁcie plana en una imagen de profundidad
110 / 125

Deﬁnición
Son partes detectables, locales e signiﬁcativas de una imagen.
Todo esto cuando existe un algoritmo para su detección, si no, no
tiene utilidad.
Características diferentes tienen algoritmos diferentes para su
detección
La extracción de características es un paso intermediario
Algoritmo de detección solo puede ser validado dentro de el
contexto del sistema entero.
111 / 125

Detección de bordes y contornos
Deﬁnición: Borde y contorno
Puntos de un borde, o simplemente bordes, son píxeles, o regiones en torno de ellos,
con valores de intensidad de imagen con variaciones acentuadas.
Figura: (a) Imagen 325x237 píxeles, con linea en i=56 mostrada. (b)
perﬁl de intensidad a lo largo de la linea.
112 / 125

Detección de bordes y contornos
Tres pasos de la detección de bordes
1. Atenuación de ruído
2. Realce de bordes
3. Localización de borde
Algoritmos más conocidos CANNY EDGE DETECTOR, ROBERT
EDGE y SOBEL EDGE.
113 / 125

Detección de lineas y curvas
Detección de lineas y curvas
Dada una salida de un detector de contorno en una imagen I, hallar
todas las formas de una curva dada o parte de ella en I.
a · x = ax + by + c = 0. (21)
114 / 125

La transformada de hough para lineas
115 / 125

Figura: Linea en la imagen al espacio de coeﬁcientes.
116 / 125

Figura: Muestra de detección con el algoritmo HOUGH LINES.
117 / 125

Generalización para cualquier curva
ax2
+ bxy + cy2
+ dx + ey + f = 0 (22)
(elipse, parábolas, hipérbolas, círculos)
118 / 125

Referencias
T. Mitchell. Machine Learning. McGraw-Hill. 1997.
F. Rosenblatt, The perceptron: A probabilistic model for
information storage and organization in the brain,Psychological
Review, Vol 65(6), Nov 1958, 386-408.
R. Fisher, The use of multiple measurements in taxonomic
problems, Annual Eugenics, 7, Part II, 179-188 (1936); also in
Çontributions to Mathematical Statistics"(John Wiley, NY,
1950).
M. Akmam, A Data Mining Approach to Construct Graduates
Employability Model in Malaysia, Hong Kong: International
Journal on New Computer Architectures and Their
Applications, 2011
122 / 125

Referencias
I. Brown, An experimental comparison of classiﬁcation
techniques for imbalanced credit scoring data sets using SAS,
Southampton: SAS Global Forum, 2012
C. Chou,Using Tic-Tac-Toe for Learning Data Mining
Classiﬁcations and Evaluations, Charleston: International
Journal of Information and Education Technology, 2013
J. Yan, Self-Organizing Map, Repository CRAN, 2010
J. Vesanto, J. Himberg, E. Alhoniemi, J. Parhankangas, SOM
Toolbox for Matalb 5, SOM Toolbox Team, Helsinki University
of Technology, Finland, 2000
123 / 125

Referencias
C. Yudong,Z. Yi,H. Jianming, Multi-Dimensional Traﬃc Flow
Time Series Analysis with Self-Organizing Maps*, Tsinghua
National Laboratory for Information Science and Technology,
Department of Automation, Tsinghua University, Beijing
100084, China, 2008
124 / 125

Aprendizaje de Maquina y Aplicaciones

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (20)

Similar a Aprendizaje de Maquina y Aplicaciones

Similar a Aprendizaje de Maquina y Aplicaciones (20)

Más de Edgar Marca

Más de Edgar Marca (7)

Último

Último (19)

Aprendizaje de Maquina y Aplicaciones