SlideShare una empresa de Scribd logo
Aprendizaje de Máquina
y
Aplicaciones
J. Luyo1 E. Marca1 D. Benavides2
1Facultad de Ciencias Matemáticas
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS - UNMSM
2Facultade de Tecnologia
UNIVERSIDADE DE BRASILIA - UnB
UNMSM
Facultad de Ciencias Matemáticas
Lima - Perú, 19 y 23 de Febrero, 2015
1 / 125
Generamos Muchos datos
Figura: Datos generados cada minuto.
3 / 125
El Aprendizaje
4 / 125
¿Que es el Aprendizaje?
Dos definiciones de Aprendizaje
"Learning is the acquisition of knowledge about the
world."
— Kupfermann (1985)
"Learning is an adaptive change in behavior caused by
experience."
— Shepherd (1988)
6 / 125
Aprendizaje de Maquina
Aprendizaje de Maquina
Definición
Rama de la inteligencia artificial
que construye y estudia los
sistemas que pueden aprender
apartir de los datos.
8 / 125
Tipos Aprendizaje de Maquina
Aprendizaje no Supervisado
Asociación
Clustering
Estimación de Densidad
Aprendizaje Supervisado
Clasificación
Regresión
Aprendizaje por Refuerzos (Reinforcement Learning)
Aprendizaje Activo (Active Learning)
Aprendizaje Semi-Supervisado(SemiSupervised Learning)
9 / 125
Ejemplo: Clasificación de Dígitos
Tarea: Escribir un programa que, dado una imagen 28 × 28 en
escalas de grises de un dígito, nos diga cual es el dígito.
Dígitos de la base de datos MNIST
(http://yann.lecun.com/exdb/mnist/)
10 / 125
Aprendizaje No Supervisado
Solo el dato
Datos de Entrenamiento



















11 / 125
Aprendizaje Supervisado
Dato y Etiqueta
Datos de Entrenamiento

 , 2





 , 0




 , 8



 , 5


12 / 125
Aprendizaje no supervisado
Técnicas de Segmentación
15 / 125
Partición de un conjunto
Definición
Una partición del conjunto A es una familia P de subconjuntos no
vacíos de A, disjuntos dos a dos, cuya unión es A. Es decir,
P = {Ai | i ∈ I}, donde se cumple:
1. Para cada i ∈ I, Ai ⊂ A y Ai = ∅
2. Para cada par i = j, Ai ∩ Aj = ∅
3.
i∈I
Ai = A
16 / 125
Clustering
Sea un conjunto de datos D con m datos en un espacio
n-dimensional,
D = {x1, x2, . . . , xm}
y sea k el numero de clusters deseados, la tarea es encontrar una
partición de k elementos para el conjunto de datos. La partición
denotada por C = {C1, C2, . . . , Ck}. Además, para cada cluster Ci
existe un elemento representativo que representa al cluster, una
opción común para este representante es la media (también
llamado centroide) µi de todos los puntos del cluster, así,
µi =
1
|Ci|
xj∈Ci
xj
17 / 125
KMeans
KMeans
Dado un agrupamiento C = {C1, C2, . . . , Ck} necesitamos alguna
función que evalúa la similaridad entre los elementos de un cluster.
Para nuestro caso utilizaremos la suma de cuadrado de los
errores a cada cluster.
SSE(C) =
k
i=1 xj∈Ci
xj − µi
2
El objetivo es encontrar un agrupamiento que minimiza SSE:
C∗
= argmin
C
{SSE(C)}
KMeans emplea un método interactivo ambicioso (greedy) para
buscar el agrupamiento que minimiza la función objetivo SSE. Así,
el algoritmo puede converger a una solución local en vez de la
solución global óptima del problema.
19 / 125
KMeans
Algoritmo
Algoritmo KMeans
1. Asigna aleatoriamente un número, de 1 a K, a cada una de las
observaciones.
2. Iterar hasta que la asignación de los cluster deje de cambiar
2.1 Para cada uno de los K cluster, calcular el centroide. El
k-ésimo centroide es el vector con las medias de las variables
para las observaciones en el k-ésimo cluster.
2.2 Asignar cada observación al cluster donde el entroide este más
cerca (donde cercanía se encuentra definida por la distancia
Euclidiana.
20 / 125
KMeans
Algoritmo
Algorithm 1 Algoritmo K-means
1: procedure K-MEANS(D, k, )
2: t ← 0
3: Inicializar los k centroides aleatoriamente µt
1, µt
2, . . ., µt
k ∈
Rn
4: repeat
5: t ← t + 1
6: Cj ← ∅ for all j = 1, . . . k
7: for xj ∈ D do
8: j∗ ← argmin xj − µt
i
2
9: Cj∗ ← Cj∗ ∪ {xj}
10: end for
11: for i = 1 to k do
12: µt
i ← 1
|Ci| xj∈Ci
Xj
13: end for
k 21 / 125
Ejemplo
Conjunto de Datos Iris1
Este conjunto de datos contiene 3 clases con 50 instancias cada
una. Una de las clases es linealmente separable de las otras 2 y dos
de ellas no son linealmente separables.
(a) Iris Setosa (b) Iris Vesicolor (c) Iris Virginica
1
http://en.wikipedia.org/wiki/Iris_flower_data_set
22 / 125
Ejemplo
Conjunto de Datos Iris
Figura: Grafico de dispersión
1 data(’iris’)
2 pairs(iris[1:4], main=’Iris Data’, pch = 21,
3 bg = c(’red’, ’green’, ’blue’)[unclass(iris$Species)])
23 / 125
Ejemplo
Conjunto de Datos Iris
1 # KMeans Iris Dataset
2
3 # Load Iris dataset
4 data(’iris’)
5
6 # k-means is non-deterministic
7 set.seed(321)
8
9 iris.km <- kmeans(iris[, -5], 3, iter.max = 1000)
10
11 tbl <- table(iris[, 5], iris.km$cluster)
12 iris.dist <- dist(iris[, -5])
13 iris.mds <- cmdscale(iris.dist)
14
15 c.chars <- c(’*’, ’o’, ’+’)[as.integer(iris$Species)]
16
17 a.cols <- rainbow(3)[iris.km$cluster]
18
19 plot(iris.mds, col = a.cols, pch = c.chars, xlab = "X", ylab = "Y")
20
21 corr <- iris.km$cluster == 4 - as.integer(iris$Species)
22 correct <- c("o", "x")[2 - corr]
23
24 plot(iris.mds, col = a.cols, pch = correct, xlab = "X", ylab = "Y")
24 / 125
Ejemplo
Conjunto de Datos Iris
Figura: Clustering
25 / 125
Ejemplo
Conjunto de Datos Iris
Figura: Clustering. ×: predicciones erroneas ◦: predicciones correctas
26 / 125
SOM: Self-Organizing Map
SOM: Self-Organizing Map o Algoritmo de Kohonen
1. Presentado por primera vez por el profesor Teuvo Kohonen
finlandes.
2. Representación de los datos de alta dimensión en una
dimensión mucho menor, generalmente 2 dimensiones.
3. Análisis de comportamiento de atributos. Relación entre
atributos.
28 / 125
SOM: Self-Organizing Map o Algoritmo de Kohonen
Figura: Estructura de la red.
29 / 125
Self-organizing map (SOM) o Algoritmo de Kohonen
Figura: Topologia de la red.
30 / 125
Self-organizing map (SOM) o Algoritmo de Kohonen
Figura: Radio de la vecindad se disminuye.
31 / 125
Self-organizing map (SOM) o Algoritmo de Kohonen
Figura: Organización del mapa.
32 / 125
Self-organizing map (SOM) o Algoritmo de Kohonen
Calculo de pesos
w(x + 1) = w(t) + Θ(y)L(t)(x(t) − w(t)) (1)
L(t) = L0(t)e
t
λ (2)
Θ(t) = e
d2
2θ2(t) (3)
33 / 125
Self-organizing map (SOM) o Algoritmo de Kohonen
Descripcion del algoritmo
1. La estructura de la red es escogida (dimensión de la red) y los pesos de cada
nodo es inicializado.
2. Un vector es escogido aleatoriamente a partir del conjunto de datos de
entrenamiento y se introduce a la red.
3. Cada nodo es examinado para calcular cual de los pesos esta mas próximos del
vector de entrada. El nodo vencedor es comúnmente conocido como The Best
Matching Unit - BMU.
4. El radio de la vecindad del BMU es calculado. Este es un valor que comienza
grande, pero disminuye en cada paso de tiempo. Cualquier nodo que esta dentro
deste radio es considerado dentro del entorno de la BMU.
5. Los pesos de cada no vecino son ajustados para acercarlos al vector de entrada.
Cuanto más próximo un nodo esta de la BMU, mas sus pesos se alteran mas.
6. Repetir el paso 2 para n iteraciones.
34 / 125
Aplicaciones
Imágenes de plantíos de tomate
Figura: Muestra. Figura: Clustering.
35 / 125
SOM usando R
1 iris <- read.csv("~/Documents/Talleres/Machine Learning - Fisica/Dataset/iris.csv", header=FALSE);
2 View(iris)
3
4 coolBlueHotRed <- function(n, alpha = 1) {
5 rainbow(n, end=4/6, alpha=alpha)[n:1]
6 }
7
8 ##data <- read.table("~/Documents/Talleres/Machine Learning - Fisica/Dataset/iris.csv", quote=""", strin
9
10 data.train <- as.matrix(iris)
11 sM <- som(data.train, grid = somgrid(10, 5, "hexagonal"), rlen=1, alpha=c(0.05, 0.01), keep.data=FALSE)
12
13
14 plot(sM, type = "property", property = sM$codes[,1],
15 main = colnames(sM$codes)[1])
16 plot(sM, type = "property", property = sM$codes[,2],
17 main = colnames(sM$codes)[2])
18 plot(sM, type = "property", property = sM$codes[,3],
19 main = colnames(sM$codes)[3])
20 plot(sM, type = "property", property = sM$codes[,4],
21 main = colnames(sM$codes)[4])
36 / 125
Aprendizaje Supervisado
Problema de clasificación binaria
Clasificación - Estructura matemática
Se tienen lo siguientes elementos
El espacio con producto interno Rn como nuestro conjunto universo de datos.
El conjunto S donde S ⊂ Rn un conjunto de muestra.
Una función f : S → {+1, −1} que denominaremos función de etiquetado.
Un conjunto D de entrenamiento, donde D = {(x, y) /x ∈ S, y = f(x)}
Debemos hallar una función ˆf : Rn → {+1, −1}, a partir de D tal que ˆf f para
todo x ∈ S. Vamos a denominar a f como la función de decisión.
Cuando el conjunto de entrenamiento D es linealmente separable el problema
anterior es denominado problema de clasificación binaria lineal.
38 / 125
Construcción del modelo de clasificación binaria
Supongamos que un conjunto de entrenamiento D ⊂ Rn es linealmente separable
Si a pertenece a la clase −1, entonces w, a − b < 0
Si a pertenece a la clase +1, entonces w, a − b > 0
Función de decisión de un problema de clasificación binaria
lineal
La función de decisión ˆf para el problema, cuya superficie de decisión es
L : w, x = b esta dada por
ˆf(x) = sign ( w, x − b)
39 / 125
Maquina de Soporte Vectorial
Hard-margin SVM
41 / 125
Hard-margin SVM
42 / 125
Hard-margin SVM
43 / 125
Hard-margin SVM
44 / 125
Hard-margin SVM
45 / 125
Hard-margin SVM
46 / 125
Hard-margin SVM
47 / 125
Hard-margin SVM
48 / 125
Hard-margin SVM
49 / 125
Hard-margin SVM
50 / 125
Hard-margin SVM
51 / 125
Hard-margin SVM
52 / 125
Hard-margin SVM
53 / 125
Hard-margin SVM
54 / 125
Hard-margin SVM
55 / 125
Hard-margin SVM
56 / 125
Clasificadores margen máximo
1. Superficie de decisión
2. Hiperplanos de soporte
3. Vectores de soporte
4. Margen
57 / 125
Construcción del modelo
Sea w∗, x = b∗ la superficie de decisión
óptima para un problema de clasificación
binaria
-2 -1 1 2 3 4 5
1
2
3
4
5
→
xp
m∗
→
xq
→
w∗
·
→
x=b∗
+k
→
w∗
·
→
x=b∗
→
w∗
·
→
x=b∗
−k
→
xp−
→
xq
→
w∗
γ
El margen máximo puede ser calculado
como la proyección del vector (xp − xq) en
dirección de w∗:
m∗
=
w∗, xp − xq
|w∗|
=
2K
|w∗|
= φ(w∗
, b∗
)
De aquí se plantea el siguiente problema de
optimización convexa
m∗
= φ(w∗
, b∗
) = m´ax
w,b
φ(w, b)
Este problema maximizacion es equivalente
a un problema de minimización
m∗
= m´ın
w,b
1
2
w, w
58 / 125
Clasificador margen máximo
Proposición (Clasificador margen máximo)
Dado un conjunto de entrenamiento linealmente separable
D = {(x1, y1), (x2, y2), ..., (xl, yl)} ⊂ Rn × {+1, −1},
podemos calcular la superficie de decisión margen máximo w∗, x = b∗ resolviendo el
programa convexo
(P)



m´ın
w,b
φ(w, b) = 1
2
w · w
sujeto a w, yixi ≥ 1 + yib,
donde (xi, yi) ∈ D ⊂ Rn.
(4)
1. La función objetivo no depende de b
2. El termino de desplazamiento b aparece en las restricciones
3. Vamos a tener tantas restricciones como puntos de entrenamiento
Para superar el problema del ítem 3 podemos resolver el problema dual en lugar del
problema primal.
59 / 125
Clasificador margen máximo - Programa dual
Problema dual - Clasificador margen máximo
Dado un problema dual (LP) derivado del problema de clasificación margen máximo
(P). Podemos obtener el programa (DP) tal que
(DP)



m´ax
α
h(α) = m´ax
α
l
i=1
αi − 1
2
l
i=1
l
j=1
αiαjyiyj xi, xj
sujeto a
l
i=1
αiyi = 0,
αi ≥ 0
para i = 1, . . . , l.
El calculo de b esta en términos de w∗, como sigue:
b+
= m´ın { w∗
, x | (x, y) ∈ D con y = +1)}
b−
= m´ax { w∗
, x | (x, y) ∈ D con y = −1)}
Entonces b∗ = b+
+b−
2
Vectores de entrenamiento asociados a λi > 0 son denominados vectores de soporte.
60 / 125
Maquina de Soporte Vectorial
Vamos a denominar Maquina de Soporte Vectorial a la función de
decisión del clasificador de máximo margen dual, definida como
ˆf(x) = sign
l
i=1
α∗
i yi xi, x − b∗
61 / 125
Maquina de Soporte Vectorial No lineal
x · x = 1
Figura: Superficie de decisión no lineal x, x = 1 en R2
.
62 / 125
Maquina de Soporte Vectorial No lineal
x · x = 1
ϕ
ϕ(+)
ϕ(+)
ϕ(+)
ϕ(+)
ϕ(+)
ϕ(−)
ϕ(−)
ϕ(−)
ϕ(−)
ϕ(−)
ϕ(−)
ϕ(+)
w · ϕ(x) = b
Figura: Mapeo ϕ de R2
a un espacio de dimensión posiblemente infinita.
63 / 125
¿Es posible separar linealmente
los datos cuando se hace el
mapeo a un espacio de
dimensión mayor?
¿ϕ ?
¿k(x, y) = ϕ(x), ϕ(y) ?
El Teorema de Cover
Se asume que los puntos considerados cumplen la condición de
posición general.
Teorema
La cantidad de separaciones lineales por el origen de N puntos en
un espacio de dimensión d es:
C(N, d) = 2
d−1
k=0
N − 1
k
El total de separaciones binarias (en cualquier dimensión) es 2N .
Entonces la probabilidad de que una dicotomía elegida
aleatoriamente es:
P(N, d) =
C(N, d)
2N
=
d−1
k=0
N−1
k
2N−1
67 / 125
El Teorema de Cover
Teorema
"La probabilidad de separar un conjunto de puntos aumenta a
medida que aumenta la dimensión del espacio".
Como se observa en la formula C(N, d) = 2
d−1
k=0
N−1
k ,
manteniendo fijo N y aumentando la dimensión (mediante una
aplicación), se tiene que C(N, d) aumenta en términos positivos de
la forma N−1
p mientras N > d.
68 / 125
El Teorema de Cover
Cuando N ≤ d los términos agregados son igual a cero, pues
m
n = 0 para m < n por definiciónón, y
C(N, d) = 2
N−1
k=0
N − 1
k
= 2 ∗ 2N−1
= 2N
que es justamente el total de separaciones que puede haber. luego
en este caso P(N, d) = 1.
69 / 125
El Teorema de Cover
Demostración.
Si p > d entonces
d−1
k=0
N − 1
k
<
p−1
k=0
N − 1
k
entonces
C(N, d) < C(N, p)
luego
C(N, d)
2N
<
C(N, p)
2N
P(N, d) < P(N, p).
Esto es justamente lo que afirma el teorema de Cover.
70 / 125
El Truco del Kernel
El Teorema de Mercer
Teorema (Teorema de Mercer)
Sea k una función continua en [a, b] × [a, b] que cumple
b
a
b
a
k(t, s)f(s)f(t) ds dt ≥ 0
para todo f en L2([a, b]), entonces, para todo t y s en [a, b] la serie
k(t, s) =
∞
j=1
λjϕj(t)ϕj(s)
converge absolutamente y uniformemente en [a, b] × [a, b].
71 / 125
El Truco del Kernel
Mapeo caracteristico usando el teorema de Mercer
El teorema de Mercer nos permite definir una aplicación de
características para el kernel k
k(t, s) =
∞
j=1
λjϕj(t)ϕj(s)
= λjϕj(t)
∞
n=1
, λjϕj(s)
∞
n=1 2([a,b])
Podemos tomar 2([a, b]) como espacio de características, con la
siguiente aplicación característica
Φ : [a, b] → 2
([a, b])
t → λjϕj(t)
∞
j=1
72 / 125
Espacios de Hilbert con Kernel Reproductivo
Kernel Reproductivo
Definición (Kernel Reproductivo)
Una función
K : E × E → C
(s, t) → K(t, s)
es un kernel reproductivo del espacio de Hilbert H si y solo si
1. Para todo t en E, se cumple que K(., t) es un elemento de H.
2. Para todo t en E y para todo ϕ en H, se cumple
ϕ, K(., t) = ϕ(t)
La ultima condición es llamada "La propiedad reproductiva": El
valor de la función ϕ en el punto t es reproducido por el producto
interno de ϕ con K(., t). 73 / 125
Espacios de Hilbert con Kernel Reproductivo
Definición
Definición (Espacio de Hilbert con Kernel Reproductivo)
Un espacio de Hilbert de funciones complejas que posee un kernel
reproductivo es llamado Espacio de Hilbert con Kernel
Reproductivo (EHKR).
74 / 125
El Truco del Kernel
Mapeo característico usando el teorema de Mercer
Teorema (Representacion de Mercer de un EHKR)
Sea X un espacio métrico compacto y k : X × X → R un kernel
continuo. Definimos
H =



f =
∞
j=1
ajϕj
aj
λj
∈ 2
([a, b])



con producto interno
∞
j=1
ajϕj,
∞
j=1
bjϕj
H
=
∞
j=1
ajbj
λj
Entonces H es un espacio de hilbert con kernel reproductivo k.
75 / 125
El Truco del Kernel
Definición
Una función k : E × E → R es llamado kernel si existe un espacio
de Hilbert (no necesariamente un EHKS) H y un función
Φ : E → H, tal que
k(x, y) = Φ(x), Φ(y)
76 / 125
El Truco del Kernel
El Teorema de Moore-Aronszajn
Teorema (Moore-Aronszajn)
Sea K un kernel simétrico y definido positivo en X entonces existe
un único Espacio de Hilbert con Kernel Reproductivo.
Teorema
Todo kernel reproductivo es un kernel
Φ : [a, b] → H
x → k(., x)
k(x, y) = k(., x), k(., y)
77 / 125
El Truco del Kernel
La MSV No Lineal
Maquina de Soporte Vectorial No Lineal
Vamos a denominar Maquina de Soporte Vectorial a la función de
decisión del clasificador de máximo margen dual, definida como
ˆf(x) = sign
l
i=1
α∗
i yi φ(xi), φ(x) − b∗
78 / 125
El Truco del Kernel
La MSV No Lineal
Maquina de Soporte Vectorial No Lineal
Vamos a denominar Maquina de Soporte Vectorial a la función de
decisión del clasificador de máximo margen dual, definida como
ˆf(x) = sign
l
i=1
α∗
i yik(xi, x) − b∗
79 / 125
Una nota histórica
"Teorema de Mercer", James Mercer (1909)
"Teorema de Moore-Aronzajn", Nachman Aronszajn (1950)
"Teorema de Cover", Thomas Cover (1965)
"Maquinas de Soporte Vectorial", Vladimir Vapnik (1992)
"Maquinas de Soporte Vectorial Suave", Corinna Cortes y
Vladimir Vapnik (1995)
80 / 125
Redes Neuronales
Redes neuronales
Perceptron
En el año 1950 Frank Rosenblatt en el campo de investigación
de la inteligencia artificial.
x1
x2
xn−1
xn
.
.
.
x0 = 1
w0
n
i=0
wixi
o(
n
i=0
wixi)
Figura: Un perceptron simple.
82 / 125
Redes neuronales
Unidad signuidal
x1
x2
xn−1
xn
.
.
.
x0 = 1
w0
net =
n
i=0
wixi
o = σ(net) = 1
1+e−net
Figura: Perceptron con unidad signuidal.
83 / 125
Redes neuronales
Multicamadas
x1: Comprimiento das s´epalas
x2: Largura das s´epalas
x3: Comprimento de p´etalas
x4: Largura p´etala
Classe Iris-Setosa
Classe Iris-Versicolor
Classe Iris-Virginica
N0
N1
N2
N3
N4
N5
Camada oculta Camada de sa´ıda
Figura: Red neuronal multicamada.
84 / 125
Metodologías para Minería de Datos
CRISP-DM
Figura: Metodología CRISP-DM 85 / 125
Herramientas para Aprendizaje de Maquina
Python
scikit-learn
Java
Weka
R
Rattle
86 / 125
Scikit Learn
Figura: Scikit Learn Sheet Cheat
87 / 125
Lenguaje de programación R
1. R es un lenguaje de programación para análisis estadístico.
2. Cuenta con entorno de programación propio pero hay entornos
desarrollados como RStudio con una interfaz más intuitiva.
3. Potente graficador para análisis.
4. OpenSource. Libre!
88 / 125
Vision Computacional
Introducción
1. Imágenes de intensidad: Imágenes codificadas como
intensidad de luz, adquiridas por cámaras digitales.
2. Imágenes de profundidad: Imágenes codificadas como froma
y distancia, adquiridas sensores como sonares o digitalizadores
lazer.
Cualquier imagene digital, no importa su forma o su tipo, es un
vector bidimensional de números.
90 / 125
Introducción
Figura: Imagen 20x20 pixeles de un ojo.
Esos números pueden representar intensidad de luz, distancia, etc.
La relación exacta entre la imagen digital y el mundo físico es determinada por
el proceso de adquisicón, que depende del sensor utilizado.
Cualquier información contenida en imagenes (forma, mediciones o identidad de
objetos) debe ser extraída (calculada) a partir de vectores numéricos
bidimensional, en los cuales está codificada.
91 / 125
Conceptos principales
Parámetros ópticos de lentes
Caracteriza el sensor óptico
1. Tipos de lentes
2. Comprimento de foco/distancia focal
3. Campo de visión
4. Abertura angulares
92 / 125
Conceptos principales
Parámetros fotométricos
Aparecen en modelos de energia de luz incidiendo en el sensor
después de haber sido reflejada por objetos en la escena.
1. Tipos, intensidad, y dirección de iluminación
2. Propriedades de reflectancia de las superficies visualizadas
3. Efectos de la estructura del sensor en la cantidad de luz que
incidio en los fotoreceptores.
93 / 125
Conceptos principales
Parámetros geométricos
Determinan la posición en la imagen sobre la cual el punto 3-D es projectado
1. Tipos de proyecciones
2. Posición y orientación de la cámara en el espacio
3. Distorciones de perspectiva introducidas por el proceso de adquisión de la
imagen
Todos los factores anteriores son significativos en cualquier dispositivo de adquisición
de imagenes, como cámara fotográfica, video-cámaras, o sistemas computarizados.
Otros parámetros puede ser incluídos en la lista anterior para caracterizar imagenes
digitales y el proceso de adquisión.
1. Propiedades físicas de la matriz fotosensitiva de la cámara
2. La naturaleza discreta de los fotoreceptores
3. La cuantificación de la escala de intensidades
94 / 125
Reflectancia de Lambertian
Un punto de superficie refleja la luz incidente igualmente en todas las dirección. No
aboserve energía.
Figura: Superficie Lambertiana.
L = ρIT
· n (5)
Energía por unidad de área.
95 / 125
Modelo de cámara de perspectiva
Figura: Formación de imagenes con cámara de perspectiva.
Ecuaciones fundamentales
x = f
X
Z
(6)
y = f
Y
Z
(7)
Las ecuaciones fundamentales no son lineales (f foco constante, Z variable)
96 / 125
Modelo de cámara de perspectiva
No se preservan distancias entre puntos, o angulos entre lineas.
Mapean lineas en lineas
Figura: Ejemplos de consecuencia del modelo de cámara de perspectiva.
97 / 125
Modelo de cámara de perspectiva débil
x = f
X
Z
≈
f
¯Z
X (8)
y = f
Y
Z
≈
f
¯Z
Y (9)
¯Z = distancia media
Las ecuaciones anteriores pueden ser entendidas como una
proyección ortográfica con f → ∞ y Z → ∞ entonces f
Z = 1 y
x = X (10)
y = Y (11)
98 / 125
Introducción
Estructura de un sistema de adquisión de imágenes típico
Representación de imagenes digitales en un computador
Informaciones prácticas en muestreo espacial y ruídos en
cámaras
99 / 125
Sistema básico
Figura: Componentes de un sistema de adquisión.
100 / 125
Sistema básico
Representación de imagenes digitales
Matriz numérica E, con N lineas, M columnas
E(i, j) intensidad de pixel [0,255] (8 bits)
Imagenes coloridas con 3 componenetes monocromáticos (RGB)
Figura: Representación de una imagen CCD.
101 / 125
Sistema básico
Representación de imagenes digitales
xim =
n
N
.xCCD (12)
yim =
m
M
.yCCD (13)
donde N, M son las dimensiones de la imagen en píxeles y n, m las
dimensiones del CCD, número de sus elementos.
n
N y m
M : diferencia de escala en las coordenadas
n
m : produce distorción de la imagen (celdas de formas
diferentes de los píxeles)
Se asume que existe una relación entre los elementos del CCD
y los píxeles de imagenes, y se introduce factores de tamaño
vertical y horinzontal.
102 / 125
Muestro espacial
Por el Teorema del muestreo, la mayor frecuencia que puede ser
capturada por el sistema
vc =
1
2d
(14)
donde d es la distancia entre los elementos adyacentes en el CCD.
103 / 125
Adquisión de ruído y su estimativa
Estimativa de ruído
n imagenes de la misma escena E0, E1, ..., En−1
imagen de NxN píxeles
Para i, j = 0, ..., N − 1
E(i, j) =
1
n
n−1
k=0
Ek(i, j) (15)
σ(i, j) =
1
n − 1
n−1
k=0
(E(i, j) − Ek(i, j))1/2
(16)
por cada píxel.
σ(i, j) =
1
NxN
N−1
i=0
N−1
j=0
σ(i, j) (17)
104 / 125
Parámetros de cámara
Se asume que
El sistema de referencia de la cámara puede ser localizado con
respecto a algun otro sistema conocido, por ejemplo, un
sistema de coordenadas externo.
Las coordenadas de los puntos de la imagen en el sistema de
referencia de la cámara puede ser obtenido de las coordenas de
píxeles, los únicos directamente disponibles de la imgen.
105 / 125
Parámetros de cámara
Los parámetros de las cámaras son divididos en
Parámetros extrínsecos: Definen la localización y orientación
del sistema de referencia de la cámara con respecto a un
sistema externo conocido.
Parámtros intrínsecos: Necesarios para relacionar las
coordenadas de píxeles de una imagen con las coordenas
correspondientes en el sistema de referencia de la cámara.
106 / 125
Parámetros de cámara
Parámetros extrínsecos
Pc = R · (Pw − T) (18)
Figura: Parámetros extrínsecos.
107 / 125
Parámetros de cámara
Parámetros intrínsecos
Se asume que no hay distrociones geom etricas ópticas, y que el
sensor CCD es un rectangulo grande de elementos fotosensibles.
x = −(xim − ox)sx (19)
y = −(yim − oy)sy (20)
(ox, oy) = coordenadas del centro de la imagen en píxeles
(punto principal)
(sx, sy) = tamaños efectivos de los píxeles (en milímetros) en
las direcciones horinzontales y verticales respectivamente.
108 / 125
Parámetros de cámara
Problema de aproximación de parametros
El problema del modelo de cámara se reduce a encontrar de la
mejor manera estos parámetros
Hay algoritmos que los aproximan de manera directa o
también de manera indirecta.
109 / 125
Características de imagenes
¿Qué son?
1. Propiedades globales de una imagen o de parte de ella. Por
ejemplo:
Medidas de las intensidades de píxel
Áreas en pixels
2. Parte de una imagen con algunas propiedades especiales
(características locales). Son más importantes en Visión
computacional. Por ejemplo:
Círculo o linea
Región texturada de una imagen de intensidad
Superficie plana en una imagen de profundidad
110 / 125
Características de imagenes
Definición
Son partes detectables, locales e significativas de una imagen.
Todo esto cuando existe un algoritmo para su detección, si no, no
tiene utilidad.
Características diferentes tienen algoritmos diferentes para su
detección
La extracción de características es un paso intermediario
Algoritmo de detección solo puede ser validado dentro de el
contexto del sistema entero.
111 / 125
Características de imagenes
Detección de bordes y contornos
Definición: Borde y contorno
Puntos de un borde, o simplemente bordes, son píxeles, o regiones en torno de ellos,
con valores de intensidad de imagen con variaciones acentuadas.
Figura: (a) Imagen 325x237 píxeles, con linea en i=56 mostrada. (b)
perfil de intensidad a lo largo de la linea.
112 / 125
Características de imagenes
Detección de bordes y contornos
Tres pasos de la detección de bordes
1. Atenuación de ruído
2. Realce de bordes
3. Localización de borde
Algoritmos más conocidos CANNY EDGE DETECTOR, ROBERT
EDGE y SOBEL EDGE.
113 / 125
Características de imagenes
Detección de lineas y curvas
Detección de lineas y curvas
Dada una salida de un detector de contorno en una imagen I, hallar
todas las formas de una curva dada o parte de ella en I.
a · x = ax + by + c = 0. (21)
114 / 125
Características de imagenes
La transformada de hough para lineas
115 / 125
Características de imagenes
La transformada de hough para lineas
Figura: Linea en la imagen al espacio de coeficientes.
116 / 125
Características de imagenes
La transformada de hough para lineas
Figura: Muestra de detección con el algoritmo HOUGH LINES.
117 / 125
Características de imagenes
Generalización para cualquier curva
ax2
+ bxy + cy2
+ dx + ey + f = 0 (22)
(elipse, parábolas, hipérbolas, círculos)
118 / 125
Aplicaciones
¿Preguntas?
121 / 125
Referencias
T. Mitchell. Machine Learning. McGraw-Hill. 1997.
F. Rosenblatt, The perceptron: A probabilistic model for
information storage and organization in the brain,Psychological
Review, Vol 65(6), Nov 1958, 386-408.
R. Fisher, The use of multiple measurements in taxonomic
problems, Annual Eugenics, 7, Part II, 179-188 (1936); also in
Çontributions to Mathematical Statistics"(John Wiley, NY,
1950).
M. Akmam, A Data Mining Approach to Construct Graduates
Employability Model in Malaysia, Hong Kong: International
Journal on New Computer Architectures and Their
Applications, 2011
122 / 125
Referencias
I. Brown, An experimental comparison of classification
techniques for imbalanced credit scoring data sets using SAS,
Southampton: SAS Global Forum, 2012
C. Chou,Using Tic-Tac-Toe for Learning Data Mining
Classifications and Evaluations, Charleston: International
Journal of Information and Education Technology, 2013
J. Yan, Self-Organizing Map, Repository CRAN, 2010
J. Vesanto, J. Himberg, E. Alhoniemi, J. Parhankangas, SOM
Toolbox for Matalb 5, SOM Toolbox Team, Helsinki University
of Technology, Finland, 2000
123 / 125
Referencias
C. Yudong,Z. Yi,H. Jianming, Multi-Dimensional Traffic Flow
Time Series Analysis with Self-Organizing Maps*, Tsinghua
National Laboratory for Information Science and Technology,
Department of Automation, Tsinghua University, Beijing
100084, China, 2008
124 / 125
Gracias

Más contenido relacionado

Destacado

Temadeinvestigacion 130402203353-phpapp02
Temadeinvestigacion 130402203353-phpapp02Temadeinvestigacion 130402203353-phpapp02
Temadeinvestigacion 130402203353-phpapp02Camilo López
 
BigTable And Hbase
BigTable And HbaseBigTable And Hbase
BigTable And Hbase
Edward Yoon
 
Cloud Computing y MapReduce
Cloud Computing y MapReduceCloud Computing y MapReduce
Cloud Computing y MapReduce
Jose Emilio Labra Gayo
 
Bigtable and Dynamo
Bigtable and DynamoBigtable and Dynamo
Bigtable and Dynamo
Iraklis Psaroudakis
 
Dynamo and BigTable in light of the CAP theorem
Dynamo and BigTable in light of the CAP theoremDynamo and BigTable in light of the CAP theorem
Dynamo and BigTable in light of the CAP theorem
Grisha Weintraub
 
Dynamo and BigTable - Review and Comparison
Dynamo and BigTable - Review and ComparisonDynamo and BigTable - Review and Comparison
Dynamo and BigTable - Review and Comparison
Grisha Weintraub
 
Gfs vs hdfs
Gfs vs hdfsGfs vs hdfs
Gfs vs hdfs
Yuval Carmel
 
Introducción a Aprendizaje de Maquina
Introducción a Aprendizaje de MaquinaIntroducción a Aprendizaje de Maquina
Introducción a Aprendizaje de Maquina
Víctor Leonel Orozco López
 
Aprendizaje de máquina
Aprendizaje de máquinaAprendizaje de máquina
Aprendizaje de máquina
Hugo Banda
 
Mallorca MUG: MapReduce y Aggregation Framework
Mallorca MUG: MapReduce y Aggregation FrameworkMallorca MUG: MapReduce y Aggregation Framework
Mallorca MUG: MapReduce y Aggregation FrameworkEmilio Torrens
 
Map reduce (from Google)
Map reduce (from Google)Map reduce (from Google)
Map reduce (from Google)Sri Prasanna
 
MapReduce en Hadoop
MapReduce en HadoopMapReduce en Hadoop
MapReduce en Hadoop
Tomás Fernández Pena
 
HDFS
HDFSHDFS
The google MapReduce
The google MapReduceThe google MapReduce
The google MapReduce
Romain Jacotin
 
Introducción a Hadoop
Introducción a HadoopIntroducción a Hadoop
Introducción a Hadoop
Tomás Fernández Pena
 
Aula virtual apache_hadoop_v3 1
Aula virtual apache_hadoop_v3 1Aula virtual apache_hadoop_v3 1
Aula virtual apache_hadoop_v3 1
Moisés Martínez Mateu
 
Big table
Big tableBig table
Big table
PSIT
 
Casos big data
Casos big dataCasos big data
Hadoop: MapReduce para procesar grandes cantidades de datos
Hadoop: MapReduce para procesar grandes cantidades de datosHadoop: MapReduce para procesar grandes cantidades de datos
Hadoop: MapReduce para procesar grandes cantidades de datos
Raul Ochoa
 

Destacado (20)

Temadeinvestigacion 130402203353-phpapp02
Temadeinvestigacion 130402203353-phpapp02Temadeinvestigacion 130402203353-phpapp02
Temadeinvestigacion 130402203353-phpapp02
 
BigTable And Hbase
BigTable And HbaseBigTable And Hbase
BigTable And Hbase
 
Cloud Computing y MapReduce
Cloud Computing y MapReduceCloud Computing y MapReduce
Cloud Computing y MapReduce
 
Bigtable
BigtableBigtable
Bigtable
 
Bigtable and Dynamo
Bigtable and DynamoBigtable and Dynamo
Bigtable and Dynamo
 
Dynamo and BigTable in light of the CAP theorem
Dynamo and BigTable in light of the CAP theoremDynamo and BigTable in light of the CAP theorem
Dynamo and BigTable in light of the CAP theorem
 
Dynamo and BigTable - Review and Comparison
Dynamo and BigTable - Review and ComparisonDynamo and BigTable - Review and Comparison
Dynamo and BigTable - Review and Comparison
 
Gfs vs hdfs
Gfs vs hdfsGfs vs hdfs
Gfs vs hdfs
 
Introducción a Aprendizaje de Maquina
Introducción a Aprendizaje de MaquinaIntroducción a Aprendizaje de Maquina
Introducción a Aprendizaje de Maquina
 
Aprendizaje de máquina
Aprendizaje de máquinaAprendizaje de máquina
Aprendizaje de máquina
 
Mallorca MUG: MapReduce y Aggregation Framework
Mallorca MUG: MapReduce y Aggregation FrameworkMallorca MUG: MapReduce y Aggregation Framework
Mallorca MUG: MapReduce y Aggregation Framework
 
Map reduce (from Google)
Map reduce (from Google)Map reduce (from Google)
Map reduce (from Google)
 
MapReduce en Hadoop
MapReduce en HadoopMapReduce en Hadoop
MapReduce en Hadoop
 
HDFS
HDFSHDFS
HDFS
 
The google MapReduce
The google MapReduceThe google MapReduce
The google MapReduce
 
Introducción a Hadoop
Introducción a HadoopIntroducción a Hadoop
Introducción a Hadoop
 
Aula virtual apache_hadoop_v3 1
Aula virtual apache_hadoop_v3 1Aula virtual apache_hadoop_v3 1
Aula virtual apache_hadoop_v3 1
 
Big table
Big tableBig table
Big table
 
Casos big data
Casos big dataCasos big data
Casos big data
 
Hadoop: MapReduce para procesar grandes cantidades de datos
Hadoop: MapReduce para procesar grandes cantidades de datosHadoop: MapReduce para procesar grandes cantidades de datos
Hadoop: MapReduce para procesar grandes cantidades de datos
 

Similar a Aprendizaje de Maquina y Aplicaciones

Examen parcial 2
Examen parcial 2Examen parcial 2
Examen parcial 2
Jonathan Llerena Stifler
 
Examen Parcial 2
Examen Parcial 2Examen Parcial 2
Examen Parcial 2
Alexander Ulloa
 
algoritmos en R Studio
algoritmos en R Studioalgoritmos en R Studio
algoritmos en R Studio
juan198
 
Trabajo Final
Trabajo FinalTrabajo Final
Trabajo Final
Paul Morales
 
Clustering.ppt
Clustering.pptClustering.ppt
Clustering.ppt
nicoals2
 
Metodos Neuronales En Sistemas Difusos
Metodos Neuronales En Sistemas DifusosMetodos Neuronales En Sistemas Difusos
Metodos Neuronales En Sistemas DifusosESCOM
 
Algoritmo de Retropropagación
Algoritmo de RetropropagaciónAlgoritmo de Retropropagación
Algoritmo de Retropropagación
ESCOM
 
Monte Carlo simulation
Monte Carlo simulationMonte Carlo simulation
Monte Carlo simulationFer_casas
 
Clustering
ClusteringClustering
Clustering
luisfe
 
Clustering
ClusteringClustering
Clusteringluisfe
 
Redes neuronales artificiales convolucionales
Redes neuronales artificiales convolucionalesRedes neuronales artificiales convolucionales
Redes neuronales artificiales convolucionales
jarniel1
 
Practica 5 simulink-5156
Practica 5 simulink-5156Practica 5 simulink-5156
Practica 5 simulink-5156
RossiHeredia1
 
alg_act3_ AlHeGa.docx
alg_act3_ AlHeGa.docxalg_act3_ AlHeGa.docx
alg_act3_ AlHeGa.docx
KyokoSInay
 
Panorama de la demostración asistida por ordenador
Panorama de la demostración asistida por ordenadorPanorama de la demostración asistida por ordenador
Panorama de la demostración asistida por ordenador
José A. Alonso
 
Clase dispersa
Clase dispersaClase dispersa
Clase dispersa
facinger2
 
Utp 2015-2_sirn_s6_adaline y backpropagation
 Utp 2015-2_sirn_s6_adaline y backpropagation Utp 2015-2_sirn_s6_adaline y backpropagation
Utp 2015-2_sirn_s6_adaline y backpropagationjcbenitezp
 
Utp 2015-2_ia_s6_adaline y backpropagation
 Utp 2015-2_ia_s6_adaline y backpropagation Utp 2015-2_ia_s6_adaline y backpropagation
Utp 2015-2_ia_s6_adaline y backpropagationjcbp_peru
 
Clase8 minisem
Clase8 minisemClase8 minisem
Clase8 minisem
Hernan Espinoza
 

Similar a Aprendizaje de Maquina y Aplicaciones (20)

Examen parcial 2
Examen parcial 2Examen parcial 2
Examen parcial 2
 
Examen Parcial 2
Examen Parcial 2Examen Parcial 2
Examen Parcial 2
 
algoritmos en R Studio
algoritmos en R Studioalgoritmos en R Studio
algoritmos en R Studio
 
Trabajo Final
Trabajo FinalTrabajo Final
Trabajo Final
 
Clustering.ppt
Clustering.pptClustering.ppt
Clustering.ppt
 
Optimizacion_Robusta_I
Optimizacion_Robusta_IOptimizacion_Robusta_I
Optimizacion_Robusta_I
 
Metodos Neuronales En Sistemas Difusos
Metodos Neuronales En Sistemas DifusosMetodos Neuronales En Sistemas Difusos
Metodos Neuronales En Sistemas Difusos
 
Algoritmo de Retropropagación
Algoritmo de RetropropagaciónAlgoritmo de Retropropagación
Algoritmo de Retropropagación
 
Monte Carlo simulation
Monte Carlo simulationMonte Carlo simulation
Monte Carlo simulation
 
Algoritmos
AlgoritmosAlgoritmos
Algoritmos
 
Clustering
ClusteringClustering
Clustering
 
Clustering
ClusteringClustering
Clustering
 
Redes neuronales artificiales convolucionales
Redes neuronales artificiales convolucionalesRedes neuronales artificiales convolucionales
Redes neuronales artificiales convolucionales
 
Practica 5 simulink-5156
Practica 5 simulink-5156Practica 5 simulink-5156
Practica 5 simulink-5156
 
alg_act3_ AlHeGa.docx
alg_act3_ AlHeGa.docxalg_act3_ AlHeGa.docx
alg_act3_ AlHeGa.docx
 
Panorama de la demostración asistida por ordenador
Panorama de la demostración asistida por ordenadorPanorama de la demostración asistida por ordenador
Panorama de la demostración asistida por ordenador
 
Clase dispersa
Clase dispersaClase dispersa
Clase dispersa
 
Utp 2015-2_sirn_s6_adaline y backpropagation
 Utp 2015-2_sirn_s6_adaline y backpropagation Utp 2015-2_sirn_s6_adaline y backpropagation
Utp 2015-2_sirn_s6_adaline y backpropagation
 
Utp 2015-2_ia_s6_adaline y backpropagation
 Utp 2015-2_ia_s6_adaline y backpropagation Utp 2015-2_ia_s6_adaline y backpropagation
Utp 2015-2_ia_s6_adaline y backpropagation
 
Clase8 minisem
Clase8 minisemClase8 minisem
Clase8 minisem
 

Más de Edgar Marca

Python Packages for Web Data Extraction and Analysis
Python Packages for Web Data Extraction and AnalysisPython Packages for Web Data Extraction and Analysis
Python Packages for Web Data Extraction and Analysis
Edgar Marca
 
Word2vec: From intuition to practice using gensim
Word2vec: From intuition to practice using gensimWord2vec: From intuition to practice using gensim
Word2vec: From intuition to practice using gensim
Edgar Marca
 
The Kernel Trick
The Kernel TrickThe Kernel Trick
The Kernel Trick
Edgar Marca
 
Kernels and Support Vector Machines
Kernels and Support Vector  MachinesKernels and Support Vector  Machines
Kernels and Support Vector Machines
Edgar Marca
 
Tilemill: Una Herramienta Open Source para diseñar mapas
Tilemill: Una Herramienta Open Source para diseñar mapasTilemill: Una Herramienta Open Source para diseñar mapas
Tilemill: Una Herramienta Open Source para diseñar mapas
Edgar Marca
 
Buenas Aplicaciones y Programas con Datos Abiertos / Publicos.
Buenas Aplicaciones y Programas con Datos Abiertos / Publicos.Buenas Aplicaciones y Programas con Datos Abiertos / Publicos.
Buenas Aplicaciones y Programas con Datos Abiertos / Publicos.
Edgar Marca
 
Theming cck-n-views
Theming cck-n-viewsTheming cck-n-views
Theming cck-n-views
Edgar Marca
 

Más de Edgar Marca (7)

Python Packages for Web Data Extraction and Analysis
Python Packages for Web Data Extraction and AnalysisPython Packages for Web Data Extraction and Analysis
Python Packages for Web Data Extraction and Analysis
 
Word2vec: From intuition to practice using gensim
Word2vec: From intuition to practice using gensimWord2vec: From intuition to practice using gensim
Word2vec: From intuition to practice using gensim
 
The Kernel Trick
The Kernel TrickThe Kernel Trick
The Kernel Trick
 
Kernels and Support Vector Machines
Kernels and Support Vector  MachinesKernels and Support Vector  Machines
Kernels and Support Vector Machines
 
Tilemill: Una Herramienta Open Source para diseñar mapas
Tilemill: Una Herramienta Open Source para diseñar mapasTilemill: Una Herramienta Open Source para diseñar mapas
Tilemill: Una Herramienta Open Source para diseñar mapas
 
Buenas Aplicaciones y Programas con Datos Abiertos / Publicos.
Buenas Aplicaciones y Programas con Datos Abiertos / Publicos.Buenas Aplicaciones y Programas con Datos Abiertos / Publicos.
Buenas Aplicaciones y Programas con Datos Abiertos / Publicos.
 
Theming cck-n-views
Theming cck-n-viewsTheming cck-n-views
Theming cck-n-views
 

Último

Claves Ipsos numero 29 --- Mayo 2024.pdf
Claves Ipsos numero 29 --- Mayo 2024.pdfClaves Ipsos numero 29 --- Mayo 2024.pdf
Claves Ipsos numero 29 --- Mayo 2024.pdf
Emisor Digital
 
DEFENSA NACIONAL.ppt muy fácil de entender
DEFENSA NACIONAL.ppt muy fácil de entenderDEFENSA NACIONAL.ppt muy fácil de entender
DEFENSA NACIONAL.ppt muy fácil de entender
mvargasleveau
 
contraguerrilla.pdf sobre anti emboscadas
contraguerrilla.pdf sobre anti emboscadascontraguerrilla.pdf sobre anti emboscadas
contraguerrilla.pdf sobre anti emboscadas
DieguinhoSalazar
 
PPT Interes-Simple-pptx.pptx-ejercicios.
PPT Interes-Simple-pptx.pptx-ejercicios.PPT Interes-Simple-pptx.pptx-ejercicios.
PPT Interes-Simple-pptx.pptx-ejercicios.
MELANYANELKACRUZLEON
 
Países_por_participacion_porcentual_en_el PNB global (2024) .pdf
Países_por_participacion_porcentual_en_el PNB global (2024) .pdfPaíses_por_participacion_porcentual_en_el PNB global (2024) .pdf
Países_por_participacion_porcentual_en_el PNB global (2024) .pdf
JC Díaz Herrera
 
MINEDUC-MINEDUC-2023-00075-A Comité de Padres y Representantes.pdf
MINEDUC-MINEDUC-2023-00075-A Comité de Padres y Representantes.pdfMINEDUC-MINEDUC-2023-00075-A Comité de Padres y Representantes.pdf
MINEDUC-MINEDUC-2023-00075-A Comité de Padres y Representantes.pdf
RicardoNacevilla1
 
3-Modelamiento de Procesos usando BPMN.ppt
3-Modelamiento de Procesos usando BPMN.ppt3-Modelamiento de Procesos usando BPMN.ppt
3-Modelamiento de Procesos usando BPMN.ppt
nahumrondanurbano
 
Comunidades virtuales de aprendizaje o educativas E-LEARNING.pdf
Comunidades virtuales de aprendizaje  o educativas E-LEARNING.pdfComunidades virtuales de aprendizaje  o educativas E-LEARNING.pdf
Comunidades virtuales de aprendizaje o educativas E-LEARNING.pdf
brayansangar73
 
sistema paralingüística fhdjsjsbsnnssnnsbs
sistema paralingüística fhdjsjsbsnnssnnsbssistema paralingüística fhdjsjsbsnnssnnsbs
sistema paralingüística fhdjsjsbsnnssnnsbs
SantiagoMejia99
 
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdfREPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
IrapuatoCmovamos
 
e learning^.pptxdieguearmandozuñiga. Comhot
e learning^.pptxdieguearmandozuñiga. Comhote learning^.pptxdieguearmandozuñiga. Comhot
e learning^.pptxdieguearmandozuñiga. Comhot
diegozuniga768
 
ACOMPAÑAMIENTO INTEGRAL DE VALORES .pptx
ACOMPAÑAMIENTO INTEGRAL DE VALORES .pptxACOMPAÑAMIENTO INTEGRAL DE VALORES .pptx
ACOMPAÑAMIENTO INTEGRAL DE VALORES .pptx
MelanieYuksselleCarr
 
Instituciones financieras globales por efectivo disponible (2024).pdf
Instituciones financieras globales por efectivo disponible (2024).pdfInstituciones financieras globales por efectivo disponible (2024).pdf
Instituciones financieras globales por efectivo disponible (2024).pdf
JC Díaz Herrera
 
mapa conceptual y mental para niños de primaria y secundaria
mapa conceptual y mental para niños de primaria y secundariamapa conceptual y mental para niños de primaria y secundaria
mapa conceptual y mental para niños de primaria y secundaria
ManuelAlbertoHeredia1
 
Presentación sobre la geometría, aplicaciones y ramas
Presentación sobre la geometría, aplicaciones y ramasPresentación sobre la geometría, aplicaciones y ramas
Presentación sobre la geometría, aplicaciones y ramas
JosMuoz943377
 
Desarrollo de habilidades de pensamiento
Desarrollo de habilidades de pensamientoDesarrollo de habilidades de pensamiento
Desarrollo de habilidades de pensamiento
ManuelaReina3
 
Informe de violencia mayo 2024 - Multigremial Mayo.pdf
Informe de violencia mayo 2024 - Multigremial Mayo.pdfInforme de violencia mayo 2024 - Multigremial Mayo.pdf
Informe de violencia mayo 2024 - Multigremial Mayo.pdf
Emisor Digital
 
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIOLINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
AaronPleitez
 
10 colonias - Análisis socio-demográfico 2024.pdf
10 colonias - Análisis socio-demográfico 2024.pdf10 colonias - Análisis socio-demográfico 2024.pdf
10 colonias - Análisis socio-demográfico 2024.pdf
IrapuatoCmovamos
 

Último (19)

Claves Ipsos numero 29 --- Mayo 2024.pdf
Claves Ipsos numero 29 --- Mayo 2024.pdfClaves Ipsos numero 29 --- Mayo 2024.pdf
Claves Ipsos numero 29 --- Mayo 2024.pdf
 
DEFENSA NACIONAL.ppt muy fácil de entender
DEFENSA NACIONAL.ppt muy fácil de entenderDEFENSA NACIONAL.ppt muy fácil de entender
DEFENSA NACIONAL.ppt muy fácil de entender
 
contraguerrilla.pdf sobre anti emboscadas
contraguerrilla.pdf sobre anti emboscadascontraguerrilla.pdf sobre anti emboscadas
contraguerrilla.pdf sobre anti emboscadas
 
PPT Interes-Simple-pptx.pptx-ejercicios.
PPT Interes-Simple-pptx.pptx-ejercicios.PPT Interes-Simple-pptx.pptx-ejercicios.
PPT Interes-Simple-pptx.pptx-ejercicios.
 
Países_por_participacion_porcentual_en_el PNB global (2024) .pdf
Países_por_participacion_porcentual_en_el PNB global (2024) .pdfPaíses_por_participacion_porcentual_en_el PNB global (2024) .pdf
Países_por_participacion_porcentual_en_el PNB global (2024) .pdf
 
MINEDUC-MINEDUC-2023-00075-A Comité de Padres y Representantes.pdf
MINEDUC-MINEDUC-2023-00075-A Comité de Padres y Representantes.pdfMINEDUC-MINEDUC-2023-00075-A Comité de Padres y Representantes.pdf
MINEDUC-MINEDUC-2023-00075-A Comité de Padres y Representantes.pdf
 
3-Modelamiento de Procesos usando BPMN.ppt
3-Modelamiento de Procesos usando BPMN.ppt3-Modelamiento de Procesos usando BPMN.ppt
3-Modelamiento de Procesos usando BPMN.ppt
 
Comunidades virtuales de aprendizaje o educativas E-LEARNING.pdf
Comunidades virtuales de aprendizaje  o educativas E-LEARNING.pdfComunidades virtuales de aprendizaje  o educativas E-LEARNING.pdf
Comunidades virtuales de aprendizaje o educativas E-LEARNING.pdf
 
sistema paralingüística fhdjsjsbsnnssnnsbs
sistema paralingüística fhdjsjsbsnnssnnsbssistema paralingüística fhdjsjsbsnnssnnsbs
sistema paralingüística fhdjsjsbsnnssnnsbs
 
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdfREPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
 
e learning^.pptxdieguearmandozuñiga. Comhot
e learning^.pptxdieguearmandozuñiga. Comhote learning^.pptxdieguearmandozuñiga. Comhot
e learning^.pptxdieguearmandozuñiga. Comhot
 
ACOMPAÑAMIENTO INTEGRAL DE VALORES .pptx
ACOMPAÑAMIENTO INTEGRAL DE VALORES .pptxACOMPAÑAMIENTO INTEGRAL DE VALORES .pptx
ACOMPAÑAMIENTO INTEGRAL DE VALORES .pptx
 
Instituciones financieras globales por efectivo disponible (2024).pdf
Instituciones financieras globales por efectivo disponible (2024).pdfInstituciones financieras globales por efectivo disponible (2024).pdf
Instituciones financieras globales por efectivo disponible (2024).pdf
 
mapa conceptual y mental para niños de primaria y secundaria
mapa conceptual y mental para niños de primaria y secundariamapa conceptual y mental para niños de primaria y secundaria
mapa conceptual y mental para niños de primaria y secundaria
 
Presentación sobre la geometría, aplicaciones y ramas
Presentación sobre la geometría, aplicaciones y ramasPresentación sobre la geometría, aplicaciones y ramas
Presentación sobre la geometría, aplicaciones y ramas
 
Desarrollo de habilidades de pensamiento
Desarrollo de habilidades de pensamientoDesarrollo de habilidades de pensamiento
Desarrollo de habilidades de pensamiento
 
Informe de violencia mayo 2024 - Multigremial Mayo.pdf
Informe de violencia mayo 2024 - Multigremial Mayo.pdfInforme de violencia mayo 2024 - Multigremial Mayo.pdf
Informe de violencia mayo 2024 - Multigremial Mayo.pdf
 
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIOLINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
 
10 colonias - Análisis socio-demográfico 2024.pdf
10 colonias - Análisis socio-demográfico 2024.pdf10 colonias - Análisis socio-demográfico 2024.pdf
10 colonias - Análisis socio-demográfico 2024.pdf
 

Aprendizaje de Maquina y Aplicaciones

  • 1. Aprendizaje de Máquina y Aplicaciones J. Luyo1 E. Marca1 D. Benavides2 1Facultad de Ciencias Matemáticas UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS - UNMSM 2Facultade de Tecnologia UNIVERSIDADE DE BRASILIA - UnB UNMSM Facultad de Ciencias Matemáticas Lima - Perú, 19 y 23 de Febrero, 2015 1 / 125
  • 3. Figura: Datos generados cada minuto. 3 / 125
  • 5. ¿Que es el Aprendizaje?
  • 6. Dos definiciones de Aprendizaje "Learning is the acquisition of knowledge about the world." — Kupfermann (1985) "Learning is an adaptive change in behavior caused by experience." — Shepherd (1988) 6 / 125
  • 8. Aprendizaje de Maquina Definición Rama de la inteligencia artificial que construye y estudia los sistemas que pueden aprender apartir de los datos. 8 / 125
  • 9. Tipos Aprendizaje de Maquina Aprendizaje no Supervisado Asociación Clustering Estimación de Densidad Aprendizaje Supervisado Clasificación Regresión Aprendizaje por Refuerzos (Reinforcement Learning) Aprendizaje Activo (Active Learning) Aprendizaje Semi-Supervisado(SemiSupervised Learning) 9 / 125
  • 10. Ejemplo: Clasificación de Dígitos Tarea: Escribir un programa que, dado una imagen 28 × 28 en escalas de grises de un dígito, nos diga cual es el dígito. Dígitos de la base de datos MNIST (http://yann.lecun.com/exdb/mnist/) 10 / 125
  • 11. Aprendizaje No Supervisado Solo el dato Datos de Entrenamiento                    11 / 125
  • 12. Aprendizaje Supervisado Dato y Etiqueta Datos de Entrenamiento   , 2       , 0      , 8     , 5   12 / 125
  • 16. Partición de un conjunto Definición Una partición del conjunto A es una familia P de subconjuntos no vacíos de A, disjuntos dos a dos, cuya unión es A. Es decir, P = {Ai | i ∈ I}, donde se cumple: 1. Para cada i ∈ I, Ai ⊂ A y Ai = ∅ 2. Para cada par i = j, Ai ∩ Aj = ∅ 3. i∈I Ai = A 16 / 125
  • 17. Clustering Sea un conjunto de datos D con m datos en un espacio n-dimensional, D = {x1, x2, . . . , xm} y sea k el numero de clusters deseados, la tarea es encontrar una partición de k elementos para el conjunto de datos. La partición denotada por C = {C1, C2, . . . , Ck}. Además, para cada cluster Ci existe un elemento representativo que representa al cluster, una opción común para este representante es la media (también llamado centroide) µi de todos los puntos del cluster, así, µi = 1 |Ci| xj∈Ci xj 17 / 125
  • 19. KMeans Dado un agrupamiento C = {C1, C2, . . . , Ck} necesitamos alguna función que evalúa la similaridad entre los elementos de un cluster. Para nuestro caso utilizaremos la suma de cuadrado de los errores a cada cluster. SSE(C) = k i=1 xj∈Ci xj − µi 2 El objetivo es encontrar un agrupamiento que minimiza SSE: C∗ = argmin C {SSE(C)} KMeans emplea un método interactivo ambicioso (greedy) para buscar el agrupamiento que minimiza la función objetivo SSE. Así, el algoritmo puede converger a una solución local en vez de la solución global óptima del problema. 19 / 125
  • 20. KMeans Algoritmo Algoritmo KMeans 1. Asigna aleatoriamente un número, de 1 a K, a cada una de las observaciones. 2. Iterar hasta que la asignación de los cluster deje de cambiar 2.1 Para cada uno de los K cluster, calcular el centroide. El k-ésimo centroide es el vector con las medias de las variables para las observaciones en el k-ésimo cluster. 2.2 Asignar cada observación al cluster donde el entroide este más cerca (donde cercanía se encuentra definida por la distancia Euclidiana. 20 / 125
  • 21. KMeans Algoritmo Algorithm 1 Algoritmo K-means 1: procedure K-MEANS(D, k, ) 2: t ← 0 3: Inicializar los k centroides aleatoriamente µt 1, µt 2, . . ., µt k ∈ Rn 4: repeat 5: t ← t + 1 6: Cj ← ∅ for all j = 1, . . . k 7: for xj ∈ D do 8: j∗ ← argmin xj − µt i 2 9: Cj∗ ← Cj∗ ∪ {xj} 10: end for 11: for i = 1 to k do 12: µt i ← 1 |Ci| xj∈Ci Xj 13: end for k 21 / 125
  • 22. Ejemplo Conjunto de Datos Iris1 Este conjunto de datos contiene 3 clases con 50 instancias cada una. Una de las clases es linealmente separable de las otras 2 y dos de ellas no son linealmente separables. (a) Iris Setosa (b) Iris Vesicolor (c) Iris Virginica 1 http://en.wikipedia.org/wiki/Iris_flower_data_set 22 / 125
  • 23. Ejemplo Conjunto de Datos Iris Figura: Grafico de dispersión 1 data(’iris’) 2 pairs(iris[1:4], main=’Iris Data’, pch = 21, 3 bg = c(’red’, ’green’, ’blue’)[unclass(iris$Species)]) 23 / 125
  • 24. Ejemplo Conjunto de Datos Iris 1 # KMeans Iris Dataset 2 3 # Load Iris dataset 4 data(’iris’) 5 6 # k-means is non-deterministic 7 set.seed(321) 8 9 iris.km <- kmeans(iris[, -5], 3, iter.max = 1000) 10 11 tbl <- table(iris[, 5], iris.km$cluster) 12 iris.dist <- dist(iris[, -5]) 13 iris.mds <- cmdscale(iris.dist) 14 15 c.chars <- c(’*’, ’o’, ’+’)[as.integer(iris$Species)] 16 17 a.cols <- rainbow(3)[iris.km$cluster] 18 19 plot(iris.mds, col = a.cols, pch = c.chars, xlab = "X", ylab = "Y") 20 21 corr <- iris.km$cluster == 4 - as.integer(iris$Species) 22 correct <- c("o", "x")[2 - corr] 23 24 plot(iris.mds, col = a.cols, pch = correct, xlab = "X", ylab = "Y") 24 / 125
  • 25. Ejemplo Conjunto de Datos Iris Figura: Clustering 25 / 125
  • 26. Ejemplo Conjunto de Datos Iris Figura: Clustering. ×: predicciones erroneas ◦: predicciones correctas 26 / 125
  • 28. SOM: Self-Organizing Map o Algoritmo de Kohonen 1. Presentado por primera vez por el profesor Teuvo Kohonen finlandes. 2. Representación de los datos de alta dimensión en una dimensión mucho menor, generalmente 2 dimensiones. 3. Análisis de comportamiento de atributos. Relación entre atributos. 28 / 125
  • 29. SOM: Self-Organizing Map o Algoritmo de Kohonen Figura: Estructura de la red. 29 / 125
  • 30. Self-organizing map (SOM) o Algoritmo de Kohonen Figura: Topologia de la red. 30 / 125
  • 31. Self-organizing map (SOM) o Algoritmo de Kohonen Figura: Radio de la vecindad se disminuye. 31 / 125
  • 32. Self-organizing map (SOM) o Algoritmo de Kohonen Figura: Organización del mapa. 32 / 125
  • 33. Self-organizing map (SOM) o Algoritmo de Kohonen Calculo de pesos w(x + 1) = w(t) + Θ(y)L(t)(x(t) − w(t)) (1) L(t) = L0(t)e t λ (2) Θ(t) = e d2 2θ2(t) (3) 33 / 125
  • 34. Self-organizing map (SOM) o Algoritmo de Kohonen Descripcion del algoritmo 1. La estructura de la red es escogida (dimensión de la red) y los pesos de cada nodo es inicializado. 2. Un vector es escogido aleatoriamente a partir del conjunto de datos de entrenamiento y se introduce a la red. 3. Cada nodo es examinado para calcular cual de los pesos esta mas próximos del vector de entrada. El nodo vencedor es comúnmente conocido como The Best Matching Unit - BMU. 4. El radio de la vecindad del BMU es calculado. Este es un valor que comienza grande, pero disminuye en cada paso de tiempo. Cualquier nodo que esta dentro deste radio es considerado dentro del entorno de la BMU. 5. Los pesos de cada no vecino son ajustados para acercarlos al vector de entrada. Cuanto más próximo un nodo esta de la BMU, mas sus pesos se alteran mas. 6. Repetir el paso 2 para n iteraciones. 34 / 125
  • 35. Aplicaciones Imágenes de plantíos de tomate Figura: Muestra. Figura: Clustering. 35 / 125
  • 36. SOM usando R 1 iris <- read.csv("~/Documents/Talleres/Machine Learning - Fisica/Dataset/iris.csv", header=FALSE); 2 View(iris) 3 4 coolBlueHotRed <- function(n, alpha = 1) { 5 rainbow(n, end=4/6, alpha=alpha)[n:1] 6 } 7 8 ##data <- read.table("~/Documents/Talleres/Machine Learning - Fisica/Dataset/iris.csv", quote=""", strin 9 10 data.train <- as.matrix(iris) 11 sM <- som(data.train, grid = somgrid(10, 5, "hexagonal"), rlen=1, alpha=c(0.05, 0.01), keep.data=FALSE) 12 13 14 plot(sM, type = "property", property = sM$codes[,1], 15 main = colnames(sM$codes)[1]) 16 plot(sM, type = "property", property = sM$codes[,2], 17 main = colnames(sM$codes)[2]) 18 plot(sM, type = "property", property = sM$codes[,3], 19 main = colnames(sM$codes)[3]) 20 plot(sM, type = "property", property = sM$codes[,4], 21 main = colnames(sM$codes)[4]) 36 / 125
  • 38. Problema de clasificación binaria Clasificación - Estructura matemática Se tienen lo siguientes elementos El espacio con producto interno Rn como nuestro conjunto universo de datos. El conjunto S donde S ⊂ Rn un conjunto de muestra. Una función f : S → {+1, −1} que denominaremos función de etiquetado. Un conjunto D de entrenamiento, donde D = {(x, y) /x ∈ S, y = f(x)} Debemos hallar una función ˆf : Rn → {+1, −1}, a partir de D tal que ˆf f para todo x ∈ S. Vamos a denominar a f como la función de decisión. Cuando el conjunto de entrenamiento D es linealmente separable el problema anterior es denominado problema de clasificación binaria lineal. 38 / 125
  • 39. Construcción del modelo de clasificación binaria Supongamos que un conjunto de entrenamiento D ⊂ Rn es linealmente separable Si a pertenece a la clase −1, entonces w, a − b < 0 Si a pertenece a la clase +1, entonces w, a − b > 0 Función de decisión de un problema de clasificación binaria lineal La función de decisión ˆf para el problema, cuya superficie de decisión es L : w, x = b esta dada por ˆf(x) = sign ( w, x − b) 39 / 125
  • 40. Maquina de Soporte Vectorial
  • 57. Clasificadores margen máximo 1. Superficie de decisión 2. Hiperplanos de soporte 3. Vectores de soporte 4. Margen 57 / 125
  • 58. Construcción del modelo Sea w∗, x = b∗ la superficie de decisión óptima para un problema de clasificación binaria -2 -1 1 2 3 4 5 1 2 3 4 5 → xp m∗ → xq → w∗ · → x=b∗ +k → w∗ · → x=b∗ → w∗ · → x=b∗ −k → xp− → xq → w∗ γ El margen máximo puede ser calculado como la proyección del vector (xp − xq) en dirección de w∗: m∗ = w∗, xp − xq |w∗| = 2K |w∗| = φ(w∗ , b∗ ) De aquí se plantea el siguiente problema de optimización convexa m∗ = φ(w∗ , b∗ ) = m´ax w,b φ(w, b) Este problema maximizacion es equivalente a un problema de minimización m∗ = m´ın w,b 1 2 w, w 58 / 125
  • 59. Clasificador margen máximo Proposición (Clasificador margen máximo) Dado un conjunto de entrenamiento linealmente separable D = {(x1, y1), (x2, y2), ..., (xl, yl)} ⊂ Rn × {+1, −1}, podemos calcular la superficie de decisión margen máximo w∗, x = b∗ resolviendo el programa convexo (P)    m´ın w,b φ(w, b) = 1 2 w · w sujeto a w, yixi ≥ 1 + yib, donde (xi, yi) ∈ D ⊂ Rn. (4) 1. La función objetivo no depende de b 2. El termino de desplazamiento b aparece en las restricciones 3. Vamos a tener tantas restricciones como puntos de entrenamiento Para superar el problema del ítem 3 podemos resolver el problema dual en lugar del problema primal. 59 / 125
  • 60. Clasificador margen máximo - Programa dual Problema dual - Clasificador margen máximo Dado un problema dual (LP) derivado del problema de clasificación margen máximo (P). Podemos obtener el programa (DP) tal que (DP)    m´ax α h(α) = m´ax α l i=1 αi − 1 2 l i=1 l j=1 αiαjyiyj xi, xj sujeto a l i=1 αiyi = 0, αi ≥ 0 para i = 1, . . . , l. El calculo de b esta en términos de w∗, como sigue: b+ = m´ın { w∗ , x | (x, y) ∈ D con y = +1)} b− = m´ax { w∗ , x | (x, y) ∈ D con y = −1)} Entonces b∗ = b+ +b− 2 Vectores de entrenamiento asociados a λi > 0 son denominados vectores de soporte. 60 / 125
  • 61. Maquina de Soporte Vectorial Vamos a denominar Maquina de Soporte Vectorial a la función de decisión del clasificador de máximo margen dual, definida como ˆf(x) = sign l i=1 α∗ i yi xi, x − b∗ 61 / 125
  • 62. Maquina de Soporte Vectorial No lineal x · x = 1 Figura: Superficie de decisión no lineal x, x = 1 en R2 . 62 / 125
  • 63. Maquina de Soporte Vectorial No lineal x · x = 1 ϕ ϕ(+) ϕ(+) ϕ(+) ϕ(+) ϕ(+) ϕ(−) ϕ(−) ϕ(−) ϕ(−) ϕ(−) ϕ(−) ϕ(+) w · ϕ(x) = b Figura: Mapeo ϕ de R2 a un espacio de dimensión posiblemente infinita. 63 / 125
  • 64. ¿Es posible separar linealmente los datos cuando se hace el mapeo a un espacio de dimensión mayor?
  • 66. ¿k(x, y) = ϕ(x), ϕ(y) ?
  • 67. El Teorema de Cover Se asume que los puntos considerados cumplen la condición de posición general. Teorema La cantidad de separaciones lineales por el origen de N puntos en un espacio de dimensión d es: C(N, d) = 2 d−1 k=0 N − 1 k El total de separaciones binarias (en cualquier dimensión) es 2N . Entonces la probabilidad de que una dicotomía elegida aleatoriamente es: P(N, d) = C(N, d) 2N = d−1 k=0 N−1 k 2N−1 67 / 125
  • 68. El Teorema de Cover Teorema "La probabilidad de separar un conjunto de puntos aumenta a medida que aumenta la dimensión del espacio". Como se observa en la formula C(N, d) = 2 d−1 k=0 N−1 k , manteniendo fijo N y aumentando la dimensión (mediante una aplicación), se tiene que C(N, d) aumenta en términos positivos de la forma N−1 p mientras N > d. 68 / 125
  • 69. El Teorema de Cover Cuando N ≤ d los términos agregados son igual a cero, pues m n = 0 para m < n por definiciónón, y C(N, d) = 2 N−1 k=0 N − 1 k = 2 ∗ 2N−1 = 2N que es justamente el total de separaciones que puede haber. luego en este caso P(N, d) = 1. 69 / 125
  • 70. El Teorema de Cover Demostración. Si p > d entonces d−1 k=0 N − 1 k < p−1 k=0 N − 1 k entonces C(N, d) < C(N, p) luego C(N, d) 2N < C(N, p) 2N P(N, d) < P(N, p). Esto es justamente lo que afirma el teorema de Cover. 70 / 125
  • 71. El Truco del Kernel El Teorema de Mercer Teorema (Teorema de Mercer) Sea k una función continua en [a, b] × [a, b] que cumple b a b a k(t, s)f(s)f(t) ds dt ≥ 0 para todo f en L2([a, b]), entonces, para todo t y s en [a, b] la serie k(t, s) = ∞ j=1 λjϕj(t)ϕj(s) converge absolutamente y uniformemente en [a, b] × [a, b]. 71 / 125
  • 72. El Truco del Kernel Mapeo caracteristico usando el teorema de Mercer El teorema de Mercer nos permite definir una aplicación de características para el kernel k k(t, s) = ∞ j=1 λjϕj(t)ϕj(s) = λjϕj(t) ∞ n=1 , λjϕj(s) ∞ n=1 2([a,b]) Podemos tomar 2([a, b]) como espacio de características, con la siguiente aplicación característica Φ : [a, b] → 2 ([a, b]) t → λjϕj(t) ∞ j=1 72 / 125
  • 73. Espacios de Hilbert con Kernel Reproductivo Kernel Reproductivo Definición (Kernel Reproductivo) Una función K : E × E → C (s, t) → K(t, s) es un kernel reproductivo del espacio de Hilbert H si y solo si 1. Para todo t en E, se cumple que K(., t) es un elemento de H. 2. Para todo t en E y para todo ϕ en H, se cumple ϕ, K(., t) = ϕ(t) La ultima condición es llamada "La propiedad reproductiva": El valor de la función ϕ en el punto t es reproducido por el producto interno de ϕ con K(., t). 73 / 125
  • 74. Espacios de Hilbert con Kernel Reproductivo Definición Definición (Espacio de Hilbert con Kernel Reproductivo) Un espacio de Hilbert de funciones complejas que posee un kernel reproductivo es llamado Espacio de Hilbert con Kernel Reproductivo (EHKR). 74 / 125
  • 75. El Truco del Kernel Mapeo característico usando el teorema de Mercer Teorema (Representacion de Mercer de un EHKR) Sea X un espacio métrico compacto y k : X × X → R un kernel continuo. Definimos H =    f = ∞ j=1 ajϕj aj λj ∈ 2 ([a, b])    con producto interno ∞ j=1 ajϕj, ∞ j=1 bjϕj H = ∞ j=1 ajbj λj Entonces H es un espacio de hilbert con kernel reproductivo k. 75 / 125
  • 76. El Truco del Kernel Definición Una función k : E × E → R es llamado kernel si existe un espacio de Hilbert (no necesariamente un EHKS) H y un función Φ : E → H, tal que k(x, y) = Φ(x), Φ(y) 76 / 125
  • 77. El Truco del Kernel El Teorema de Moore-Aronszajn Teorema (Moore-Aronszajn) Sea K un kernel simétrico y definido positivo en X entonces existe un único Espacio de Hilbert con Kernel Reproductivo. Teorema Todo kernel reproductivo es un kernel Φ : [a, b] → H x → k(., x) k(x, y) = k(., x), k(., y) 77 / 125
  • 78. El Truco del Kernel La MSV No Lineal Maquina de Soporte Vectorial No Lineal Vamos a denominar Maquina de Soporte Vectorial a la función de decisión del clasificador de máximo margen dual, definida como ˆf(x) = sign l i=1 α∗ i yi φ(xi), φ(x) − b∗ 78 / 125
  • 79. El Truco del Kernel La MSV No Lineal Maquina de Soporte Vectorial No Lineal Vamos a denominar Maquina de Soporte Vectorial a la función de decisión del clasificador de máximo margen dual, definida como ˆf(x) = sign l i=1 α∗ i yik(xi, x) − b∗ 79 / 125
  • 80. Una nota histórica "Teorema de Mercer", James Mercer (1909) "Teorema de Moore-Aronzajn", Nachman Aronszajn (1950) "Teorema de Cover", Thomas Cover (1965) "Maquinas de Soporte Vectorial", Vladimir Vapnik (1992) "Maquinas de Soporte Vectorial Suave", Corinna Cortes y Vladimir Vapnik (1995) 80 / 125
  • 82. Redes neuronales Perceptron En el año 1950 Frank Rosenblatt en el campo de investigación de la inteligencia artificial. x1 x2 xn−1 xn . . . x0 = 1 w0 n i=0 wixi o( n i=0 wixi) Figura: Un perceptron simple. 82 / 125
  • 83. Redes neuronales Unidad signuidal x1 x2 xn−1 xn . . . x0 = 1 w0 net = n i=0 wixi o = σ(net) = 1 1+e−net Figura: Perceptron con unidad signuidal. 83 / 125
  • 84. Redes neuronales Multicamadas x1: Comprimiento das s´epalas x2: Largura das s´epalas x3: Comprimento de p´etalas x4: Largura p´etala Classe Iris-Setosa Classe Iris-Versicolor Classe Iris-Virginica N0 N1 N2 N3 N4 N5 Camada oculta Camada de sa´ıda Figura: Red neuronal multicamada. 84 / 125
  • 85. Metodologías para Minería de Datos CRISP-DM Figura: Metodología CRISP-DM 85 / 125
  • 86. Herramientas para Aprendizaje de Maquina Python scikit-learn Java Weka R Rattle 86 / 125
  • 87. Scikit Learn Figura: Scikit Learn Sheet Cheat 87 / 125
  • 88. Lenguaje de programación R 1. R es un lenguaje de programación para análisis estadístico. 2. Cuenta con entorno de programación propio pero hay entornos desarrollados como RStudio con una interfaz más intuitiva. 3. Potente graficador para análisis. 4. OpenSource. Libre! 88 / 125
  • 90. Introducción 1. Imágenes de intensidad: Imágenes codificadas como intensidad de luz, adquiridas por cámaras digitales. 2. Imágenes de profundidad: Imágenes codificadas como froma y distancia, adquiridas sensores como sonares o digitalizadores lazer. Cualquier imagene digital, no importa su forma o su tipo, es un vector bidimensional de números. 90 / 125
  • 91. Introducción Figura: Imagen 20x20 pixeles de un ojo. Esos números pueden representar intensidad de luz, distancia, etc. La relación exacta entre la imagen digital y el mundo físico es determinada por el proceso de adquisicón, que depende del sensor utilizado. Cualquier información contenida en imagenes (forma, mediciones o identidad de objetos) debe ser extraída (calculada) a partir de vectores numéricos bidimensional, en los cuales está codificada. 91 / 125
  • 92. Conceptos principales Parámetros ópticos de lentes Caracteriza el sensor óptico 1. Tipos de lentes 2. Comprimento de foco/distancia focal 3. Campo de visión 4. Abertura angulares 92 / 125
  • 93. Conceptos principales Parámetros fotométricos Aparecen en modelos de energia de luz incidiendo en el sensor después de haber sido reflejada por objetos en la escena. 1. Tipos, intensidad, y dirección de iluminación 2. Propriedades de reflectancia de las superficies visualizadas 3. Efectos de la estructura del sensor en la cantidad de luz que incidio en los fotoreceptores. 93 / 125
  • 94. Conceptos principales Parámetros geométricos Determinan la posición en la imagen sobre la cual el punto 3-D es projectado 1. Tipos de proyecciones 2. Posición y orientación de la cámara en el espacio 3. Distorciones de perspectiva introducidas por el proceso de adquisión de la imagen Todos los factores anteriores son significativos en cualquier dispositivo de adquisición de imagenes, como cámara fotográfica, video-cámaras, o sistemas computarizados. Otros parámetros puede ser incluídos en la lista anterior para caracterizar imagenes digitales y el proceso de adquisión. 1. Propiedades físicas de la matriz fotosensitiva de la cámara 2. La naturaleza discreta de los fotoreceptores 3. La cuantificación de la escala de intensidades 94 / 125
  • 95. Reflectancia de Lambertian Un punto de superficie refleja la luz incidente igualmente en todas las dirección. No aboserve energía. Figura: Superficie Lambertiana. L = ρIT · n (5) Energía por unidad de área. 95 / 125
  • 96. Modelo de cámara de perspectiva Figura: Formación de imagenes con cámara de perspectiva. Ecuaciones fundamentales x = f X Z (6) y = f Y Z (7) Las ecuaciones fundamentales no son lineales (f foco constante, Z variable) 96 / 125
  • 97. Modelo de cámara de perspectiva No se preservan distancias entre puntos, o angulos entre lineas. Mapean lineas en lineas Figura: Ejemplos de consecuencia del modelo de cámara de perspectiva. 97 / 125
  • 98. Modelo de cámara de perspectiva débil x = f X Z ≈ f ¯Z X (8) y = f Y Z ≈ f ¯Z Y (9) ¯Z = distancia media Las ecuaciones anteriores pueden ser entendidas como una proyección ortográfica con f → ∞ y Z → ∞ entonces f Z = 1 y x = X (10) y = Y (11) 98 / 125
  • 99. Introducción Estructura de un sistema de adquisión de imágenes típico Representación de imagenes digitales en un computador Informaciones prácticas en muestreo espacial y ruídos en cámaras 99 / 125
  • 100. Sistema básico Figura: Componentes de un sistema de adquisión. 100 / 125
  • 101. Sistema básico Representación de imagenes digitales Matriz numérica E, con N lineas, M columnas E(i, j) intensidad de pixel [0,255] (8 bits) Imagenes coloridas con 3 componenetes monocromáticos (RGB) Figura: Representación de una imagen CCD. 101 / 125
  • 102. Sistema básico Representación de imagenes digitales xim = n N .xCCD (12) yim = m M .yCCD (13) donde N, M son las dimensiones de la imagen en píxeles y n, m las dimensiones del CCD, número de sus elementos. n N y m M : diferencia de escala en las coordenadas n m : produce distorción de la imagen (celdas de formas diferentes de los píxeles) Se asume que existe una relación entre los elementos del CCD y los píxeles de imagenes, y se introduce factores de tamaño vertical y horinzontal. 102 / 125
  • 103. Muestro espacial Por el Teorema del muestreo, la mayor frecuencia que puede ser capturada por el sistema vc = 1 2d (14) donde d es la distancia entre los elementos adyacentes en el CCD. 103 / 125
  • 104. Adquisión de ruído y su estimativa Estimativa de ruído n imagenes de la misma escena E0, E1, ..., En−1 imagen de NxN píxeles Para i, j = 0, ..., N − 1 E(i, j) = 1 n n−1 k=0 Ek(i, j) (15) σ(i, j) = 1 n − 1 n−1 k=0 (E(i, j) − Ek(i, j))1/2 (16) por cada píxel. σ(i, j) = 1 NxN N−1 i=0 N−1 j=0 σ(i, j) (17) 104 / 125
  • 105. Parámetros de cámara Se asume que El sistema de referencia de la cámara puede ser localizado con respecto a algun otro sistema conocido, por ejemplo, un sistema de coordenadas externo. Las coordenadas de los puntos de la imagen en el sistema de referencia de la cámara puede ser obtenido de las coordenas de píxeles, los únicos directamente disponibles de la imgen. 105 / 125
  • 106. Parámetros de cámara Los parámetros de las cámaras son divididos en Parámetros extrínsecos: Definen la localización y orientación del sistema de referencia de la cámara con respecto a un sistema externo conocido. Parámtros intrínsecos: Necesarios para relacionar las coordenadas de píxeles de una imagen con las coordenas correspondientes en el sistema de referencia de la cámara. 106 / 125
  • 107. Parámetros de cámara Parámetros extrínsecos Pc = R · (Pw − T) (18) Figura: Parámetros extrínsecos. 107 / 125
  • 108. Parámetros de cámara Parámetros intrínsecos Se asume que no hay distrociones geom etricas ópticas, y que el sensor CCD es un rectangulo grande de elementos fotosensibles. x = −(xim − ox)sx (19) y = −(yim − oy)sy (20) (ox, oy) = coordenadas del centro de la imagen en píxeles (punto principal) (sx, sy) = tamaños efectivos de los píxeles (en milímetros) en las direcciones horinzontales y verticales respectivamente. 108 / 125
  • 109. Parámetros de cámara Problema de aproximación de parametros El problema del modelo de cámara se reduce a encontrar de la mejor manera estos parámetros Hay algoritmos que los aproximan de manera directa o también de manera indirecta. 109 / 125
  • 110. Características de imagenes ¿Qué son? 1. Propiedades globales de una imagen o de parte de ella. Por ejemplo: Medidas de las intensidades de píxel Áreas en pixels 2. Parte de una imagen con algunas propiedades especiales (características locales). Son más importantes en Visión computacional. Por ejemplo: Círculo o linea Región texturada de una imagen de intensidad Superficie plana en una imagen de profundidad 110 / 125
  • 111. Características de imagenes Definición Son partes detectables, locales e significativas de una imagen. Todo esto cuando existe un algoritmo para su detección, si no, no tiene utilidad. Características diferentes tienen algoritmos diferentes para su detección La extracción de características es un paso intermediario Algoritmo de detección solo puede ser validado dentro de el contexto del sistema entero. 111 / 125
  • 112. Características de imagenes Detección de bordes y contornos Definición: Borde y contorno Puntos de un borde, o simplemente bordes, son píxeles, o regiones en torno de ellos, con valores de intensidad de imagen con variaciones acentuadas. Figura: (a) Imagen 325x237 píxeles, con linea en i=56 mostrada. (b) perfil de intensidad a lo largo de la linea. 112 / 125
  • 113. Características de imagenes Detección de bordes y contornos Tres pasos de la detección de bordes 1. Atenuación de ruído 2. Realce de bordes 3. Localización de borde Algoritmos más conocidos CANNY EDGE DETECTOR, ROBERT EDGE y SOBEL EDGE. 113 / 125
  • 114. Características de imagenes Detección de lineas y curvas Detección de lineas y curvas Dada una salida de un detector de contorno en una imagen I, hallar todas las formas de una curva dada o parte de ella en I. a · x = ax + by + c = 0. (21) 114 / 125
  • 115. Características de imagenes La transformada de hough para lineas 115 / 125
  • 116. Características de imagenes La transformada de hough para lineas Figura: Linea en la imagen al espacio de coeficientes. 116 / 125
  • 117. Características de imagenes La transformada de hough para lineas Figura: Muestra de detección con el algoritmo HOUGH LINES. 117 / 125
  • 118. Características de imagenes Generalización para cualquier curva ax2 + bxy + cy2 + dx + ey + f = 0 (22) (elipse, parábolas, hipérbolas, círculos) 118 / 125
  • 122. Referencias T. Mitchell. Machine Learning. McGraw-Hill. 1997. F. Rosenblatt, The perceptron: A probabilistic model for information storage and organization in the brain,Psychological Review, Vol 65(6), Nov 1958, 386-408. R. Fisher, The use of multiple measurements in taxonomic problems, Annual Eugenics, 7, Part II, 179-188 (1936); also in Çontributions to Mathematical Statistics"(John Wiley, NY, 1950). M. Akmam, A Data Mining Approach to Construct Graduates Employability Model in Malaysia, Hong Kong: International Journal on New Computer Architectures and Their Applications, 2011 122 / 125
  • 123. Referencias I. Brown, An experimental comparison of classification techniques for imbalanced credit scoring data sets using SAS, Southampton: SAS Global Forum, 2012 C. Chou,Using Tic-Tac-Toe for Learning Data Mining Classifications and Evaluations, Charleston: International Journal of Information and Education Technology, 2013 J. Yan, Self-Organizing Map, Repository CRAN, 2010 J. Vesanto, J. Himberg, E. Alhoniemi, J. Parhankangas, SOM Toolbox for Matalb 5, SOM Toolbox Team, Helsinki University of Technology, Finland, 2000 123 / 125
  • 124. Referencias C. Yudong,Z. Yi,H. Jianming, Multi-Dimensional Traffic Flow Time Series Analysis with Self-Organizing Maps*, Tsinghua National Laboratory for Information Science and Technology, Department of Automation, Tsinghua University, Beijing 100084, China, 2008 124 / 125