For a long time, relational database management systems have been the only solution for persistent data store. However, with the phenomenal growth of data, this conventional way of storing has become problematic.
To manage the exponentially growing data traffic, largest information technology companies such as Google, Amazon and Yahoo have developed alternative solutions that store data in what have come to be known as NoSQL databases.
Some of the NoSQL features are flexible schema, horizontal scaling and no ACID support. NoSQL databases store and replicate data in distributed systems, often across datacenters, to achieve scalability and reliability.
The CAP theorem states that any networked shared-data system (e.g. NoSQL) can have at most two of three desirable properties:
• consistency(C) - equivalent to having a single up-to-date copy of the data
• availability(A) of that data (for reads and writes)
• tolerance to network partitions(P)
Because of this inherent tradeoff, it is necessary to sacrifice one of these properties. The general belief is that designers cannot sacrifice P and therefore have a difficult choice between C and A.
In this seminar two NoSQL databases are presented: Amazon's Dynamo, which sacrifices consistency thereby achieving very high availability and Google's BigTable, which guarantees strong consistency while provides only best-effort availability.
Conceptos basicos de aprendizaje de maquina, asi como sus aplicaciones e implementaciones en Java, presentación realizada en el Oracle Develooper Tour 2016.
For a long time, relational database management systems have been the only solution for persistent data store. However, with the phenomenal growth of data, this conventional way of storing has become problematic.
To manage the exponentially growing data traffic, largest information technology companies such as Google, Amazon and Yahoo have developed alternative solutions that store data in what have come to be known as NoSQL databases.
Some of the NoSQL features are flexible schema, horizontal scaling and no ACID support. NoSQL databases store and replicate data in distributed systems, often across datacenters, to achieve scalability and reliability.
The CAP theorem states that any networked shared-data system (e.g. NoSQL) can have at most two of three desirable properties:
• consistency(C) - equivalent to having a single up-to-date copy of the data
• availability(A) of that data (for reads and writes)
• tolerance to network partitions(P)
Because of this inherent tradeoff, it is necessary to sacrifice one of these properties. The general belief is that designers cannot sacrifice P and therefore have a difficult choice between C and A.
In this seminar two NoSQL databases are presented: Amazon's Dynamo, which sacrifices consistency thereby achieving very high availability and Google's BigTable, which guarantees strong consistency while provides only best-effort availability.
Conceptos basicos de aprendizaje de maquina, asi como sus aplicaciones e implementaciones en Java, presentación realizada en el Oracle Develooper Tour 2016.
Ipsos, empresa de investigación de mercados y opinión pública, divulgó su informe N°29 “Claves Ipsos” correspondiente al mes de abril, que encuestó a 800 personas con el fin de identificar las principales opiniones y comportamientos de las y los ciudadanos respecto de temas de interés para el país. En esta edición se abordó la a Carabineros de Chile, su evaluación, legitimidad en su actuar y el asesinato de tres funcionarios en Cañete. Además, se consultó sobre el Ejército y la opinión respecto de la marcha en Putre.
Reporte homicidio doloso descripción
Reporte que contiene información de las víctimas de homicidio doloso registradas en el municipio de Irapuato Guanajuato durante el periodo señalado, comprende información cualitativa y cuantitativa que hace referencia a las características principales de cada uno de los homicidios.
La información proviene tanto de medios de comunicación digitales e impresos como de los boletines que la propia Fiscalía del Estado de Guanajuato emite de manera diaria a los medios de comunicación quienes publican estas incidencias en sus distintos canales.
Podemos observar cantidad de personas fallecidas, lugar donde se registraron los eventos, colonia y calle así como un comparativo con el mismo periodo pero del año anterior.
Edades y género de las víctimas es parte de la información que incluye el reporte.
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIOAaronPleitez
linea de tiempo del antiguo testamento donde se detalla la cronología de todos los eventos, personas, sucesos, etc. Además se incluye una parte del periodo intertestamentario en orden cronológico donde se detalla todo lo que sucede en los 400 años del periodo del silencio. Basicamente es un resumen de todos los sucesos desde Abraham hasta Cristo
Este documento ha sido elaborado por el Observatorio Ciudadano de Seguridad Justicia y Legalidad de Irapuato siendo nuestro propósito conocer datos sociodemográficos en conjunto con información de incidencia delictiva de las 10 colonias y/o comunidades que del año 2020 a la fecha han tenido mayor incidencia.
Existen muchas más colonias que presentan cifras y datos en materia de seguridad, sin embargo, en este primer acercamiento lo que se prevées darle al lector una idea de como se encuentran las colonias analizadas, tomando como referencia los datos del INEGI 2020, datos del Secretariado Ejecutivo del Sistema Nacional de Seguridad Pública del 2020 al 2023 y las bases de datos propias que desde el 2017 el Observatorio Ciudadano ha recopilado de manera puntual con datos de las vıć timas de homicidio doloso, accidentes de tránsito, personas lesionadas por arma de fuego, entre otros indicadores.
1. Aprendizaje de Máquina
y
Aplicaciones
J. Luyo1 E. Marca1 D. Benavides2
1Facultad de Ciencias Matemáticas
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS - UNMSM
2Facultade de Tecnologia
UNIVERSIDADE DE BRASILIA - UnB
UNMSM
Facultad de Ciencias Matemáticas
Lima - Perú, 19 y 23 de Febrero, 2015
1 / 125
6. Dos definiciones de Aprendizaje
"Learning is the acquisition of knowledge about the
world."
— Kupfermann (1985)
"Learning is an adaptive change in behavior caused by
experience."
— Shepherd (1988)
6 / 125
8. Aprendizaje de Maquina
Definición
Rama de la inteligencia artificial
que construye y estudia los
sistemas que pueden aprender
apartir de los datos.
8 / 125
9. Tipos Aprendizaje de Maquina
Aprendizaje no Supervisado
Asociación
Clustering
Estimación de Densidad
Aprendizaje Supervisado
Clasificación
Regresión
Aprendizaje por Refuerzos (Reinforcement Learning)
Aprendizaje Activo (Active Learning)
Aprendizaje Semi-Supervisado(SemiSupervised Learning)
9 / 125
10. Ejemplo: Clasificación de Dígitos
Tarea: Escribir un programa que, dado una imagen 28 × 28 en
escalas de grises de un dígito, nos diga cual es el dígito.
Dígitos de la base de datos MNIST
(http://yann.lecun.com/exdb/mnist/)
10 / 125
16. Partición de un conjunto
Definición
Una partición del conjunto A es una familia P de subconjuntos no
vacíos de A, disjuntos dos a dos, cuya unión es A. Es decir,
P = {Ai | i ∈ I}, donde se cumple:
1. Para cada i ∈ I, Ai ⊂ A y Ai = ∅
2. Para cada par i = j, Ai ∩ Aj = ∅
3.
i∈I
Ai = A
16 / 125
17. Clustering
Sea un conjunto de datos D con m datos en un espacio
n-dimensional,
D = {x1, x2, . . . , xm}
y sea k el numero de clusters deseados, la tarea es encontrar una
partición de k elementos para el conjunto de datos. La partición
denotada por C = {C1, C2, . . . , Ck}. Además, para cada cluster Ci
existe un elemento representativo que representa al cluster, una
opción común para este representante es la media (también
llamado centroide) µi de todos los puntos del cluster, así,
µi =
1
|Ci|
xj∈Ci
xj
17 / 125
19. KMeans
Dado un agrupamiento C = {C1, C2, . . . , Ck} necesitamos alguna
función que evalúa la similaridad entre los elementos de un cluster.
Para nuestro caso utilizaremos la suma de cuadrado de los
errores a cada cluster.
SSE(C) =
k
i=1 xj∈Ci
xj − µi
2
El objetivo es encontrar un agrupamiento que minimiza SSE:
C∗
= argmin
C
{SSE(C)}
KMeans emplea un método interactivo ambicioso (greedy) para
buscar el agrupamiento que minimiza la función objetivo SSE. Así,
el algoritmo puede converger a una solución local en vez de la
solución global óptima del problema.
19 / 125
20. KMeans
Algoritmo
Algoritmo KMeans
1. Asigna aleatoriamente un número, de 1 a K, a cada una de las
observaciones.
2. Iterar hasta que la asignación de los cluster deje de cambiar
2.1 Para cada uno de los K cluster, calcular el centroide. El
k-ésimo centroide es el vector con las medias de las variables
para las observaciones en el k-ésimo cluster.
2.2 Asignar cada observación al cluster donde el entroide este más
cerca (donde cercanía se encuentra definida por la distancia
Euclidiana.
20 / 125
21. KMeans
Algoritmo
Algorithm 1 Algoritmo K-means
1: procedure K-MEANS(D, k, )
2: t ← 0
3: Inicializar los k centroides aleatoriamente µt
1, µt
2, . . ., µt
k ∈
Rn
4: repeat
5: t ← t + 1
6: Cj ← ∅ for all j = 1, . . . k
7: for xj ∈ D do
8: j∗ ← argmin xj − µt
i
2
9: Cj∗ ← Cj∗ ∪ {xj}
10: end for
11: for i = 1 to k do
12: µt
i ← 1
|Ci| xj∈Ci
Xj
13: end for
k 21 / 125
22. Ejemplo
Conjunto de Datos Iris1
Este conjunto de datos contiene 3 clases con 50 instancias cada
una. Una de las clases es linealmente separable de las otras 2 y dos
de ellas no son linealmente separables.
(a) Iris Setosa (b) Iris Vesicolor (c) Iris Virginica
1
http://en.wikipedia.org/wiki/Iris_flower_data_set
22 / 125
23. Ejemplo
Conjunto de Datos Iris
Figura: Grafico de dispersión
1 data(’iris’)
2 pairs(iris[1:4], main=’Iris Data’, pch = 21,
3 bg = c(’red’, ’green’, ’blue’)[unclass(iris$Species)])
23 / 125
28. SOM: Self-Organizing Map o Algoritmo de Kohonen
1. Presentado por primera vez por el profesor Teuvo Kohonen
finlandes.
2. Representación de los datos de alta dimensión en una
dimensión mucho menor, generalmente 2 dimensiones.
3. Análisis de comportamiento de atributos. Relación entre
atributos.
28 / 125
33. Self-organizing map (SOM) o Algoritmo de Kohonen
Calculo de pesos
w(x + 1) = w(t) + Θ(y)L(t)(x(t) − w(t)) (1)
L(t) = L0(t)e
t
λ (2)
Θ(t) = e
d2
2θ2(t) (3)
33 / 125
34. Self-organizing map (SOM) o Algoritmo de Kohonen
Descripcion del algoritmo
1. La estructura de la red es escogida (dimensión de la red) y los pesos de cada
nodo es inicializado.
2. Un vector es escogido aleatoriamente a partir del conjunto de datos de
entrenamiento y se introduce a la red.
3. Cada nodo es examinado para calcular cual de los pesos esta mas próximos del
vector de entrada. El nodo vencedor es comúnmente conocido como The Best
Matching Unit - BMU.
4. El radio de la vecindad del BMU es calculado. Este es un valor que comienza
grande, pero disminuye en cada paso de tiempo. Cualquier nodo que esta dentro
deste radio es considerado dentro del entorno de la BMU.
5. Los pesos de cada no vecino son ajustados para acercarlos al vector de entrada.
Cuanto más próximo un nodo esta de la BMU, mas sus pesos se alteran mas.
6. Repetir el paso 2 para n iteraciones.
34 / 125
38. Problema de clasificación binaria
Clasificación - Estructura matemática
Se tienen lo siguientes elementos
El espacio con producto interno Rn como nuestro conjunto universo de datos.
El conjunto S donde S ⊂ Rn un conjunto de muestra.
Una función f : S → {+1, −1} que denominaremos función de etiquetado.
Un conjunto D de entrenamiento, donde D = {(x, y) /x ∈ S, y = f(x)}
Debemos hallar una función ˆf : Rn → {+1, −1}, a partir de D tal que ˆf f para
todo x ∈ S. Vamos a denominar a f como la función de decisión.
Cuando el conjunto de entrenamiento D es linealmente separable el problema
anterior es denominado problema de clasificación binaria lineal.
38 / 125
39. Construcción del modelo de clasificación binaria
Supongamos que un conjunto de entrenamiento D ⊂ Rn es linealmente separable
Si a pertenece a la clase −1, entonces w, a − b < 0
Si a pertenece a la clase +1, entonces w, a − b > 0
Función de decisión de un problema de clasificación binaria
lineal
La función de decisión ˆf para el problema, cuya superficie de decisión es
L : w, x = b esta dada por
ˆf(x) = sign ( w, x − b)
39 / 125
57. Clasificadores margen máximo
1. Superficie de decisión
2. Hiperplanos de soporte
3. Vectores de soporte
4. Margen
57 / 125
58. Construcción del modelo
Sea w∗, x = b∗ la superficie de decisión
óptima para un problema de clasificación
binaria
-2 -1 1 2 3 4 5
1
2
3
4
5
→
xp
m∗
→
xq
→
w∗
·
→
x=b∗
+k
→
w∗
·
→
x=b∗
→
w∗
·
→
x=b∗
−k
→
xp−
→
xq
→
w∗
γ
El margen máximo puede ser calculado
como la proyección del vector (xp − xq) en
dirección de w∗:
m∗
=
w∗, xp − xq
|w∗|
=
2K
|w∗|
= φ(w∗
, b∗
)
De aquí se plantea el siguiente problema de
optimización convexa
m∗
= φ(w∗
, b∗
) = m´ax
w,b
φ(w, b)
Este problema maximizacion es equivalente
a un problema de minimización
m∗
= m´ın
w,b
1
2
w, w
58 / 125
59. Clasificador margen máximo
Proposición (Clasificador margen máximo)
Dado un conjunto de entrenamiento linealmente separable
D = {(x1, y1), (x2, y2), ..., (xl, yl)} ⊂ Rn × {+1, −1},
podemos calcular la superficie de decisión margen máximo w∗, x = b∗ resolviendo el
programa convexo
(P)
m´ın
w,b
φ(w, b) = 1
2
w · w
sujeto a w, yixi ≥ 1 + yib,
donde (xi, yi) ∈ D ⊂ Rn.
(4)
1. La función objetivo no depende de b
2. El termino de desplazamiento b aparece en las restricciones
3. Vamos a tener tantas restricciones como puntos de entrenamiento
Para superar el problema del ítem 3 podemos resolver el problema dual en lugar del
problema primal.
59 / 125
60. Clasificador margen máximo - Programa dual
Problema dual - Clasificador margen máximo
Dado un problema dual (LP) derivado del problema de clasificación margen máximo
(P). Podemos obtener el programa (DP) tal que
(DP)
m´ax
α
h(α) = m´ax
α
l
i=1
αi − 1
2
l
i=1
l
j=1
αiαjyiyj xi, xj
sujeto a
l
i=1
αiyi = 0,
αi ≥ 0
para i = 1, . . . , l.
El calculo de b esta en términos de w∗, como sigue:
b+
= m´ın { w∗
, x | (x, y) ∈ D con y = +1)}
b−
= m´ax { w∗
, x | (x, y) ∈ D con y = −1)}
Entonces b∗ = b+
+b−
2
Vectores de entrenamiento asociados a λi > 0 son denominados vectores de soporte.
60 / 125
61. Maquina de Soporte Vectorial
Vamos a denominar Maquina de Soporte Vectorial a la función de
decisión del clasificador de máximo margen dual, definida como
ˆf(x) = sign
l
i=1
α∗
i yi xi, x − b∗
61 / 125
62. Maquina de Soporte Vectorial No lineal
x · x = 1
Figura: Superficie de decisión no lineal x, x = 1 en R2
.
62 / 125
63. Maquina de Soporte Vectorial No lineal
x · x = 1
ϕ
ϕ(+)
ϕ(+)
ϕ(+)
ϕ(+)
ϕ(+)
ϕ(−)
ϕ(−)
ϕ(−)
ϕ(−)
ϕ(−)
ϕ(−)
ϕ(+)
w · ϕ(x) = b
Figura: Mapeo ϕ de R2
a un espacio de dimensión posiblemente infinita.
63 / 125
64. ¿Es posible separar linealmente
los datos cuando se hace el
mapeo a un espacio de
dimensión mayor?
67. El Teorema de Cover
Se asume que los puntos considerados cumplen la condición de
posición general.
Teorema
La cantidad de separaciones lineales por el origen de N puntos en
un espacio de dimensión d es:
C(N, d) = 2
d−1
k=0
N − 1
k
El total de separaciones binarias (en cualquier dimensión) es 2N .
Entonces la probabilidad de que una dicotomía elegida
aleatoriamente es:
P(N, d) =
C(N, d)
2N
=
d−1
k=0
N−1
k
2N−1
67 / 125
68. El Teorema de Cover
Teorema
"La probabilidad de separar un conjunto de puntos aumenta a
medida que aumenta la dimensión del espacio".
Como se observa en la formula C(N, d) = 2
d−1
k=0
N−1
k ,
manteniendo fijo N y aumentando la dimensión (mediante una
aplicación), se tiene que C(N, d) aumenta en términos positivos de
la forma N−1
p mientras N > d.
68 / 125
69. El Teorema de Cover
Cuando N ≤ d los términos agregados son igual a cero, pues
m
n = 0 para m < n por definiciónón, y
C(N, d) = 2
N−1
k=0
N − 1
k
= 2 ∗ 2N−1
= 2N
que es justamente el total de separaciones que puede haber. luego
en este caso P(N, d) = 1.
69 / 125
70. El Teorema de Cover
Demostración.
Si p > d entonces
d−1
k=0
N − 1
k
<
p−1
k=0
N − 1
k
entonces
C(N, d) < C(N, p)
luego
C(N, d)
2N
<
C(N, p)
2N
P(N, d) < P(N, p).
Esto es justamente lo que afirma el teorema de Cover.
70 / 125
71. El Truco del Kernel
El Teorema de Mercer
Teorema (Teorema de Mercer)
Sea k una función continua en [a, b] × [a, b] que cumple
b
a
b
a
k(t, s)f(s)f(t) ds dt ≥ 0
para todo f en L2([a, b]), entonces, para todo t y s en [a, b] la serie
k(t, s) =
∞
j=1
λjϕj(t)ϕj(s)
converge absolutamente y uniformemente en [a, b] × [a, b].
71 / 125
72. El Truco del Kernel
Mapeo caracteristico usando el teorema de Mercer
El teorema de Mercer nos permite definir una aplicación de
características para el kernel k
k(t, s) =
∞
j=1
λjϕj(t)ϕj(s)
= λjϕj(t)
∞
n=1
, λjϕj(s)
∞
n=1 2([a,b])
Podemos tomar 2([a, b]) como espacio de características, con la
siguiente aplicación característica
Φ : [a, b] → 2
([a, b])
t → λjϕj(t)
∞
j=1
72 / 125
73. Espacios de Hilbert con Kernel Reproductivo
Kernel Reproductivo
Definición (Kernel Reproductivo)
Una función
K : E × E → C
(s, t) → K(t, s)
es un kernel reproductivo del espacio de Hilbert H si y solo si
1. Para todo t en E, se cumple que K(., t) es un elemento de H.
2. Para todo t en E y para todo ϕ en H, se cumple
ϕ, K(., t) = ϕ(t)
La ultima condición es llamada "La propiedad reproductiva": El
valor de la función ϕ en el punto t es reproducido por el producto
interno de ϕ con K(., t). 73 / 125
74. Espacios de Hilbert con Kernel Reproductivo
Definición
Definición (Espacio de Hilbert con Kernel Reproductivo)
Un espacio de Hilbert de funciones complejas que posee un kernel
reproductivo es llamado Espacio de Hilbert con Kernel
Reproductivo (EHKR).
74 / 125
75. El Truco del Kernel
Mapeo característico usando el teorema de Mercer
Teorema (Representacion de Mercer de un EHKR)
Sea X un espacio métrico compacto y k : X × X → R un kernel
continuo. Definimos
H =
f =
∞
j=1
ajϕj
aj
λj
∈ 2
([a, b])
con producto interno
∞
j=1
ajϕj,
∞
j=1
bjϕj
H
=
∞
j=1
ajbj
λj
Entonces H es un espacio de hilbert con kernel reproductivo k.
75 / 125
76. El Truco del Kernel
Definición
Una función k : E × E → R es llamado kernel si existe un espacio
de Hilbert (no necesariamente un EHKS) H y un función
Φ : E → H, tal que
k(x, y) = Φ(x), Φ(y)
76 / 125
77. El Truco del Kernel
El Teorema de Moore-Aronszajn
Teorema (Moore-Aronszajn)
Sea K un kernel simétrico y definido positivo en X entonces existe
un único Espacio de Hilbert con Kernel Reproductivo.
Teorema
Todo kernel reproductivo es un kernel
Φ : [a, b] → H
x → k(., x)
k(x, y) = k(., x), k(., y)
77 / 125
78. El Truco del Kernel
La MSV No Lineal
Maquina de Soporte Vectorial No Lineal
Vamos a denominar Maquina de Soporte Vectorial a la función de
decisión del clasificador de máximo margen dual, definida como
ˆf(x) = sign
l
i=1
α∗
i yi φ(xi), φ(x) − b∗
78 / 125
79. El Truco del Kernel
La MSV No Lineal
Maquina de Soporte Vectorial No Lineal
Vamos a denominar Maquina de Soporte Vectorial a la función de
decisión del clasificador de máximo margen dual, definida como
ˆf(x) = sign
l
i=1
α∗
i yik(xi, x) − b∗
79 / 125
80. Una nota histórica
"Teorema de Mercer", James Mercer (1909)
"Teorema de Moore-Aronzajn", Nachman Aronszajn (1950)
"Teorema de Cover", Thomas Cover (1965)
"Maquinas de Soporte Vectorial", Vladimir Vapnik (1992)
"Maquinas de Soporte Vectorial Suave", Corinna Cortes y
Vladimir Vapnik (1995)
80 / 125
82. Redes neuronales
Perceptron
En el año 1950 Frank Rosenblatt en el campo de investigación
de la inteligencia artificial.
x1
x2
xn−1
xn
.
.
.
x0 = 1
w0
n
i=0
wixi
o(
n
i=0
wixi)
Figura: Un perceptron simple.
82 / 125
88. Lenguaje de programación R
1. R es un lenguaje de programación para análisis estadístico.
2. Cuenta con entorno de programación propio pero hay entornos
desarrollados como RStudio con una interfaz más intuitiva.
3. Potente graficador para análisis.
4. OpenSource. Libre!
88 / 125
90. Introducción
1. Imágenes de intensidad: Imágenes codificadas como
intensidad de luz, adquiridas por cámaras digitales.
2. Imágenes de profundidad: Imágenes codificadas como froma
y distancia, adquiridas sensores como sonares o digitalizadores
lazer.
Cualquier imagene digital, no importa su forma o su tipo, es un
vector bidimensional de números.
90 / 125
91. Introducción
Figura: Imagen 20x20 pixeles de un ojo.
Esos números pueden representar intensidad de luz, distancia, etc.
La relación exacta entre la imagen digital y el mundo físico es determinada por
el proceso de adquisicón, que depende del sensor utilizado.
Cualquier información contenida en imagenes (forma, mediciones o identidad de
objetos) debe ser extraída (calculada) a partir de vectores numéricos
bidimensional, en los cuales está codificada.
91 / 125
92. Conceptos principales
Parámetros ópticos de lentes
Caracteriza el sensor óptico
1. Tipos de lentes
2. Comprimento de foco/distancia focal
3. Campo de visión
4. Abertura angulares
92 / 125
93. Conceptos principales
Parámetros fotométricos
Aparecen en modelos de energia de luz incidiendo en el sensor
después de haber sido reflejada por objetos en la escena.
1. Tipos, intensidad, y dirección de iluminación
2. Propriedades de reflectancia de las superficies visualizadas
3. Efectos de la estructura del sensor en la cantidad de luz que
incidio en los fotoreceptores.
93 / 125
94. Conceptos principales
Parámetros geométricos
Determinan la posición en la imagen sobre la cual el punto 3-D es projectado
1. Tipos de proyecciones
2. Posición y orientación de la cámara en el espacio
3. Distorciones de perspectiva introducidas por el proceso de adquisión de la
imagen
Todos los factores anteriores son significativos en cualquier dispositivo de adquisición
de imagenes, como cámara fotográfica, video-cámaras, o sistemas computarizados.
Otros parámetros puede ser incluídos en la lista anterior para caracterizar imagenes
digitales y el proceso de adquisión.
1. Propiedades físicas de la matriz fotosensitiva de la cámara
2. La naturaleza discreta de los fotoreceptores
3. La cuantificación de la escala de intensidades
94 / 125
95. Reflectancia de Lambertian
Un punto de superficie refleja la luz incidente igualmente en todas las dirección. No
aboserve energía.
Figura: Superficie Lambertiana.
L = ρIT
· n (5)
Energía por unidad de área.
95 / 125
96. Modelo de cámara de perspectiva
Figura: Formación de imagenes con cámara de perspectiva.
Ecuaciones fundamentales
x = f
X
Z
(6)
y = f
Y
Z
(7)
Las ecuaciones fundamentales no son lineales (f foco constante, Z variable)
96 / 125
97. Modelo de cámara de perspectiva
No se preservan distancias entre puntos, o angulos entre lineas.
Mapean lineas en lineas
Figura: Ejemplos de consecuencia del modelo de cámara de perspectiva.
97 / 125
98. Modelo de cámara de perspectiva débil
x = f
X
Z
≈
f
¯Z
X (8)
y = f
Y
Z
≈
f
¯Z
Y (9)
¯Z = distancia media
Las ecuaciones anteriores pueden ser entendidas como una
proyección ortográfica con f → ∞ y Z → ∞ entonces f
Z = 1 y
x = X (10)
y = Y (11)
98 / 125
99. Introducción
Estructura de un sistema de adquisión de imágenes típico
Representación de imagenes digitales en un computador
Informaciones prácticas en muestreo espacial y ruídos en
cámaras
99 / 125
101. Sistema básico
Representación de imagenes digitales
Matriz numérica E, con N lineas, M columnas
E(i, j) intensidad de pixel [0,255] (8 bits)
Imagenes coloridas con 3 componenetes monocromáticos (RGB)
Figura: Representación de una imagen CCD.
101 / 125
102. Sistema básico
Representación de imagenes digitales
xim =
n
N
.xCCD (12)
yim =
m
M
.yCCD (13)
donde N, M son las dimensiones de la imagen en píxeles y n, m las
dimensiones del CCD, número de sus elementos.
n
N y m
M : diferencia de escala en las coordenadas
n
m : produce distorción de la imagen (celdas de formas
diferentes de los píxeles)
Se asume que existe una relación entre los elementos del CCD
y los píxeles de imagenes, y se introduce factores de tamaño
vertical y horinzontal.
102 / 125
103. Muestro espacial
Por el Teorema del muestreo, la mayor frecuencia que puede ser
capturada por el sistema
vc =
1
2d
(14)
donde d es la distancia entre los elementos adyacentes en el CCD.
103 / 125
104. Adquisión de ruído y su estimativa
Estimativa de ruído
n imagenes de la misma escena E0, E1, ..., En−1
imagen de NxN píxeles
Para i, j = 0, ..., N − 1
E(i, j) =
1
n
n−1
k=0
Ek(i, j) (15)
σ(i, j) =
1
n − 1
n−1
k=0
(E(i, j) − Ek(i, j))1/2
(16)
por cada píxel.
σ(i, j) =
1
NxN
N−1
i=0
N−1
j=0
σ(i, j) (17)
104 / 125
105. Parámetros de cámara
Se asume que
El sistema de referencia de la cámara puede ser localizado con
respecto a algun otro sistema conocido, por ejemplo, un
sistema de coordenadas externo.
Las coordenadas de los puntos de la imagen en el sistema de
referencia de la cámara puede ser obtenido de las coordenas de
píxeles, los únicos directamente disponibles de la imgen.
105 / 125
106. Parámetros de cámara
Los parámetros de las cámaras son divididos en
Parámetros extrínsecos: Definen la localización y orientación
del sistema de referencia de la cámara con respecto a un
sistema externo conocido.
Parámtros intrínsecos: Necesarios para relacionar las
coordenadas de píxeles de una imagen con las coordenas
correspondientes en el sistema de referencia de la cámara.
106 / 125
108. Parámetros de cámara
Parámetros intrínsecos
Se asume que no hay distrociones geom etricas ópticas, y que el
sensor CCD es un rectangulo grande de elementos fotosensibles.
x = −(xim − ox)sx (19)
y = −(yim − oy)sy (20)
(ox, oy) = coordenadas del centro de la imagen en píxeles
(punto principal)
(sx, sy) = tamaños efectivos de los píxeles (en milímetros) en
las direcciones horinzontales y verticales respectivamente.
108 / 125
109. Parámetros de cámara
Problema de aproximación de parametros
El problema del modelo de cámara se reduce a encontrar de la
mejor manera estos parámetros
Hay algoritmos que los aproximan de manera directa o
también de manera indirecta.
109 / 125
110. Características de imagenes
¿Qué son?
1. Propiedades globales de una imagen o de parte de ella. Por
ejemplo:
Medidas de las intensidades de píxel
Áreas en pixels
2. Parte de una imagen con algunas propiedades especiales
(características locales). Son más importantes en Visión
computacional. Por ejemplo:
Círculo o linea
Región texturada de una imagen de intensidad
Superficie plana en una imagen de profundidad
110 / 125
111. Características de imagenes
Definición
Son partes detectables, locales e significativas de una imagen.
Todo esto cuando existe un algoritmo para su detección, si no, no
tiene utilidad.
Características diferentes tienen algoritmos diferentes para su
detección
La extracción de características es un paso intermediario
Algoritmo de detección solo puede ser validado dentro de el
contexto del sistema entero.
111 / 125
112. Características de imagenes
Detección de bordes y contornos
Definición: Borde y contorno
Puntos de un borde, o simplemente bordes, son píxeles, o regiones en torno de ellos,
con valores de intensidad de imagen con variaciones acentuadas.
Figura: (a) Imagen 325x237 píxeles, con linea en i=56 mostrada. (b)
perfil de intensidad a lo largo de la linea.
112 / 125
113. Características de imagenes
Detección de bordes y contornos
Tres pasos de la detección de bordes
1. Atenuación de ruído
2. Realce de bordes
3. Localización de borde
Algoritmos más conocidos CANNY EDGE DETECTOR, ROBERT
EDGE y SOBEL EDGE.
113 / 125
114. Características de imagenes
Detección de lineas y curvas
Detección de lineas y curvas
Dada una salida de un detector de contorno en una imagen I, hallar
todas las formas de una curva dada o parte de ella en I.
a · x = ax + by + c = 0. (21)
114 / 125
122. Referencias
T. Mitchell. Machine Learning. McGraw-Hill. 1997.
F. Rosenblatt, The perceptron: A probabilistic model for
information storage and organization in the brain,Psychological
Review, Vol 65(6), Nov 1958, 386-408.
R. Fisher, The use of multiple measurements in taxonomic
problems, Annual Eugenics, 7, Part II, 179-188 (1936); also in
Çontributions to Mathematical Statistics"(John Wiley, NY,
1950).
M. Akmam, A Data Mining Approach to Construct Graduates
Employability Model in Malaysia, Hong Kong: International
Journal on New Computer Architectures and Their
Applications, 2011
122 / 125
123. Referencias
I. Brown, An experimental comparison of classification
techniques for imbalanced credit scoring data sets using SAS,
Southampton: SAS Global Forum, 2012
C. Chou,Using Tic-Tac-Toe for Learning Data Mining
Classifications and Evaluations, Charleston: International
Journal of Information and Education Technology, 2013
J. Yan, Self-Organizing Map, Repository CRAN, 2010
J. Vesanto, J. Himberg, E. Alhoniemi, J. Parhankangas, SOM
Toolbox for Matalb 5, SOM Toolbox Team, Helsinki University
of Technology, Finland, 2000
123 / 125
124. Referencias
C. Yudong,Z. Yi,H. Jianming, Multi-Dimensional Traffic Flow
Time Series Analysis with Self-Organizing Maps*, Tsinghua
National Laboratory for Information Science and Technology,
Department of Automation, Tsinghua University, Beijing
100084, China, 2008
124 / 125