SlideShare una empresa de Scribd logo
1 de 75
Descargar para leer sin conexión
RKHS, Teoría y Aplicaciones
con Machine Learning
Alonso Baranda Lozada
alonsobaranda@ciencias.unam.mx
alonso.baranda@tcs.com
https://sg.com.mx/dataday
#DataDayMxUsuario: Alonso Baranda Lozada
Introducción SVM
La idea de esta plática es presentar modelos de clasificación y regresión
provenientes de Machine Learning llamadas máquinas de soporte vectorial
(SVM)
Alonso Baranda Lozada 13 de marzo de 2018 1 / 42
Introducción SVM
La idea de esta plática es presentar modelos de clasificación y regresión
provenientes de Machine Learning llamadas máquinas de soporte vectorial
(SVM)
Originalmente las SVM fueron desarrolladas para clasificación binaria,
posteriormente se extendió la teoría para poder hacer hacer
regresión y clasificación con M > 2 clases
Alonso Baranda Lozada 13 de marzo de 2018 1 / 42
Introducción SVM
La idea de esta plática es presentar modelos de clasificación y regresión
provenientes de Machine Learning llamadas máquinas de soporte vectorial
(SVM)
Originalmente las SVM fueron desarrolladas para clasificación binaria,
posteriormente se extendió la teoría para poder hacer hacer
regresión y clasificación con M > 2 clases
La idea empírica de las SVM, en el caso de clasificación, consiste en
transformar (mapear) un conjunto de datos de entrenamiento
XN×p ⊂ X, a un espacio H, la dimensión de H es por lo general
mucho mayor a p, incluso puede ser infinita. En este espacio se buscan
fronteras de desición lineales
π(H,v,b) := {w ∈ H : v, w H + b = 0},
para clasificar los datos
Alonso Baranda Lozada 13 de marzo de 2018 1 / 42
Nociones Geométricas Hiperplano Óptimo de Separación
Definición
(Hiperplano) Sean β, p vectores en Rn con β = 0. Sea
π := {x ∈ Rn
: β · (x − p) = 0} (1)
π es llamado el hiperplano que pasa por p ortogonal a β y β es llamado un
vector normal al hiperplano π
Definición
(Conjunto Linealmente Separable) Sea XN×p una matriz con entradas
reales y yi ∈ {1, −1} la clase del i–ésimo dato. Decimos que XN×p es
linealmente separable si existen β ∈ Rp y β0 ∈ R tales que para 1 ≤ i ≤ N
se cumple
yi (xi · β + β0) > 0 (2)
Alonso Baranda Lozada 13 de marzo de 2018 2 / 42
Nociones Geométricas Hiperplano Óptimo de Separación
Figura : Tenemos que yi (xi · β + β0) > 0 para 1 ≤ i ≤ N. El plano π
representado por β · x + β0 = 0 separa linealmente a los datos de manera perfecta
Alonso Baranda Lozada 13 de marzo de 2018 3 / 42
Nociones Geométricas Hiperplano Óptimo de Separación
La SVM en su forma más simple, es decir, en el caso linealmente
separable se define como el siguiente problema de Optimización
Convexa
sup
β∈Rp,β0∈R
M sujeto a
yi
β
(xi · β + β0) ≥ M, 1 ≤ i ≤ N (3)
el cual es equivalente a
ínfβ∈Rp,β0∈R
1
2
β 2
sujeto a yi (xi · β + β0) ≥ 1, 1 ≤ i ≤ N (4)
La solucion se obtiene por medio del problema Dual de optimización
convexa (utilizamos KKT) y está dado por:
g∗
= sup
α1,...,αN ,αi ≥0
−
1
2
N
i=1
N
k=1
(αi αkyi yk) (xi · xk) +
N
i=1
αi (5)
Alonso Baranda Lozada 13 de marzo de 2018 4 / 42
Nociones Geométricas Hiperplano Óptimo de Separación
En (5), las restricciones son
α = (α1, . . . αN) ∈ RN
, αi ≥ 0, 1 ≤ i ≤ N, (6)
N
i=1
αi yi = 0 (7)
Recuperamos β0 de las restricciones KKT y a β de la siguiente manera:
β =
N
i=1
αi yi xi (8)
ambos resultan únicos. Gran parte de los αi son cero, aquellos xi para los
cuales αi > 0 son llamados Vectores Soporte, pues contribuyen en la
combinación lineal para expresar el vector normal β del plano
óptimo de separación en la ecuación (8), ver figura (2)
Alonso Baranda Lozada 13 de marzo de 2018 5 / 42
Nociones Geométricas Hiperplano Óptimo de Separación
Figura : El valor M∗
de (3) equivale al valor 1
β∗ de (4). Los puntos azules + y
− son vectores soporte y π0 es llamado el Hiperplano Óptimo de Separación
Alonso Baranda Lozada 13 de marzo de 2018 6 / 42
Nociones Geométricas Generalización del Caso No Separable
Cuando el conjunto de datos NO es linealmente separable se plantea
el siguiente problema de optimización convexa con penalizaciones
f ∗
= ínfβ∈Rp,β0∈R,ξ∈RN
1
2
β 2
+ C
N
i=1
ξi sujeto a
yi (β · xi + β0) ≥ 1 − ξi , ξi ≥ 0, 1 ≤ i ≤ N (9)
donde C es una constante positiva pre–establecida, que penaliza los
errores, y su solución está dada por
g∗
= sup
0≤(α,µ)∈R2N
−
1
2
N
i=1
N
k=1
(αi αkyi yk) (xi · xk) +
N
i=1
αi (10)
Alonso Baranda Lozada 13 de marzo de 2018 7 / 42
Nociones Geométricas Generalización del Caso No Separable
La solución anterior es analíticamente idéntica a 5, salvo por las
restricciones que toman la forma:
0 ≤ αi ≤ C, 1 ≤ i ≤ N (11)
N
i=1
αi yi = 0, (12)
Recuperamos a β0 de las restricciones KKT y a β de la misma manera, es
decir, como en (8), ambos resultan ser únicos. Geométricamente la
solución de 9 se muestra en la figura (3)
Alonso Baranda Lozada 13 de marzo de 2018 8 / 42
Nociones Geométricas Generalización del Caso No Separable
Figura : Los puntos azules representan vectores soporte o valores para los cuales
ξi > 0
Alonso Baranda Lozada 13 de marzo de 2018 9 / 42
Nociones Geométricas Generalización del Caso No Separable
Finalmente si x es una observación nueva, es decir, independiente a la
muestra en entrenamiento, la clasificamos al la clase {1, −1} de la
siguiente manera:
y(x) = sign (β∗
· x + β∗
0)
Brevario Cultural: En el célebre artículo, Support Vector Networks
(Machine Learning, 20, 273-297, 1995), Vapnik y Cortes introducen
la Generalización del Caso No Separable, ver ecuación 9, el cual
extiende el marco teórico de las SVM. Previamente solo existía el caso
para conjuntos de datos linealmente separables, en este artículo se
extienden las SVM al caso no separable
Alonso Baranda Lozada 13 de marzo de 2018 10 / 42
Máquinas de Soporte Vectorial Transformaciones del Espacio
Sea XN×p un conjunto de N datos p–valuados. Consideremos φ: Rp → Rq
dada por
φ (x) = (φ1(x), . . . , φq(x)) (13)
entonces φ (X) es un conjunto de N datos q–valuados, es decir, es una
Transformación del Espacio. En donde podemos aplicar los resultados
del Hiperplano Óptimo de Separación o su Generalización !
Alonso Baranda Lozada 13 de marzo de 2018 11 / 42
Máquinas de Soporte Vectorial Transformaciones del Espacio
Sea XN×p un conjunto de N datos p–valuados. Consideremos φ: Rp → Rq
dada por
φ (x) = (φ1(x), . . . , φq(x)) (13)
entonces φ (X) es un conjunto de N datos q–valuados, es decir, es una
Transformación del Espacio. En donde podemos aplicar los resultados
del Hiperplano Óptimo de Separación o su Generalización !
Figura : Ejemplo juguete, dos espirales simulados y posteriormente transformados.
Alonso Baranda Lozada 13 de marzo de 2018 11 / 42
Máquinas de Soporte Vectorial Truco del Kernel
Si definimos k : Rp × Rp → R dada por
k x, x = φ(x) · φ(x ) (14)
entonces la clasificación de una nueva observación x se puede calcular como
y(x) = sign
N
i=1
αi yi k (xi , x) + β0 (15)
La clasificación (15) es llamada una asignación de una máquina de
soporte vectorial
Las ecuaciones (14) y (15) tienen un significado profundo, nos dicen
que la transformación del espacio φ pasa a ser irrelevante si
podemos encontrar k de manera que k (x, x ) = φ(x) · φ(x ) para todo
x, x ∈ Rp, está propiedad es llamada Truco del Kernel
Alonso Baranda Lozada 13 de marzo de 2018 12 / 42
Máquinas de Soporte Vectorial Truco del Kernel
El truco del kernel lo podremos extender (como su nombre lo indica) a
funciones k mas generales, llamadas kernels. Existe una teoría robusta
donde (15) es únicamente un caso particular de un problema de
regularización mucho más general en un espacio de Hilbert de
funciones llamado RKHS
Alonso Baranda Lozada 13 de marzo de 2018 13 / 42
Fundamentos Matemáticos
El objetivo de esta sección es mostrar el camino y los conceptos
necesarios para demostrar el Truco del Kernel, lo cual se resume en
el siguiente diagrama
Alonso Baranda Lozada 13 de marzo de 2018 14 / 42
Fundamentos Matemáticos
El objetivo de esta sección es mostrar el camino y los conceptos
necesarios para demostrar el Truco del Kernel, lo cual se resume en
el siguiente diagrama
Alonso Baranda Lozada 13 de marzo de 2018 14 / 42
Fundamentos Matemáticos Espacios de Hilbert
Para hablar de SVM de manera formal necesitamos un Espacio donde
trabajar. Los espacios donde viven las SVM son espacios de Hilbert,
espacios que no tienen agujeros y que están provistos de una
geometría, inducida por su producto interior
Alonso Baranda Lozada 13 de marzo de 2018 15 / 42
Fundamentos Matemáticos Espacios de Hilbert
Para hablar de SVM de manera formal necesitamos un Espacio donde
trabajar. Los espacios donde viven las SVM son espacios de Hilbert,
espacios que no tienen agujeros y que están provistos de una
geometría, inducida por su producto interior
Definición
(Espacio de Hilbert) Un espacio de Hilbert H es un espacio vectorial
completo con la métrica inducida por su producto interior ·, · H, es decir,
con la siguiente métrica ρ(x, y) = x − y H = x − y, x − y
1
2
H
Alonso Baranda Lozada 13 de marzo de 2018 15 / 42
Fundamentos Matemáticos Kernels
Para entender las SVM requerimos tres nociones de kernel; una de
naturaleza geométrica, otra analítica y otra práctica
Alonso Baranda Lozada 13 de marzo de 2018 16 / 42
Fundamentos Matemáticos Kernels
Para entender las SVM requerimos tres nociones de kernel; una de
naturaleza geométrica, otra analítica y otra práctica
Definición
(Kernel - Geométrica) Sea X = ∅. La función k : X × X → R es llamada
kernel si existe un espacio de Hilbert real H y una función φ: X → H tal
que para todo x, y ∈ X, se tiene
k (x, y) = φ(x), φ(y) H (16)
Alonso Baranda Lozada 13 de marzo de 2018 16 / 42
Fundamentos Matemáticos Kernels
Para entender las SVM requerimos tres nociones de kernel; una de
naturaleza geométrica, otra analítica y otra práctica
Definición
(Kernel - Geométrica) Sea X = ∅. La función k : X × X → R es llamada
kernel si existe un espacio de Hilbert real H y una función φ: X → H tal
que para todo x, y ∈ X, se tiene
k (x, y) = φ(x), φ(y) H (16)
Esta definición es la mejor para entender las SVM
Alonso Baranda Lozada 13 de marzo de 2018 16 / 42
Fundamentos Matemáticos Kernels
Definición
(Kernel Réplica - Analítica) Sea H un espacio de Hilbert de funciones
f : X → R. Una función k : X × X → R es llamada una kernel réplica de H
si satisface:
1 ∀x ∈ X, k (·, x) : X → R, x → k (x , x) pertenece a H
(k (·, x) ∈ H ∀x ∈ X).
2 Se cumple la propiedad de réplica:
∀x ∈ X, ∀f ∈ H f , k(·, x) H = f (x)
Alonso Baranda Lozada 13 de marzo de 2018 17 / 42
Fundamentos Matemáticos Kernels
Definición
(Kernel Réplica - Analítica) Sea H un espacio de Hilbert de funciones
f : X → R. Una función k : X × X → R es llamada una kernel réplica de H
si satisface:
1 ∀x ∈ X, k (·, x) : X → R, x → k (x , x) pertenece a H
(k (·, x) ∈ H ∀x ∈ X).
2 Se cumple la propiedad de réplica:
∀x ∈ X, ∀f ∈ H f , k(·, x) H = f (x)
La noción analítica se utiliza para construir y caracterizar los
espacios RKHS
Alonso Baranda Lozada 13 de marzo de 2018 17 / 42
Fundamentos Matemáticos Kernels
Definición
(Kernel simétrico definido semi–positivo (KSPD) - Práctica) Sea k
una función simétrica, k : X × X → R. Decimos que k es un Kernel
simétrico definido semi–positivo, (abreviado por KSPD), si ∀n ≥ 1,
∀ (a1, . . . , an) ∈ Rn y ∀ (x1, . . . xn) ∈ Xn, se cumple
n
i=1
n
j=1
ai aj k (xi , xj ) ≥ 0 (17)
Alonso Baranda Lozada 13 de marzo de 2018 18 / 42
Fundamentos Matemáticos Kernels
Definición
(Kernel simétrico definido semi–positivo (KSPD) - Práctica) Sea k
una función simétrica, k : X × X → R. Decimos que k es un Kernel
simétrico definido semi–positivo, (abreviado por KSPD), si ∀n ≥ 1,
∀ (a1, . . . , an) ∈ Rn y ∀ (x1, . . . xn) ∈ Xn, se cumple
n
i=1
n
j=1
ai aj k (xi , xj ) ≥ 0 (17)
La definición práctica, nos ayudará a dicernir si una función k es un
kernel o no
Alonso Baranda Lozada 13 de marzo de 2018 18 / 42
Fundamentos Matemáticos Kernels
El siguiente diagrama de implicaciones nos dice como demostrar una
definición a partir de la otra
Alonso Baranda Lozada 13 de marzo de 2018 19 / 42
Fundamentos Matemáticos Espacios RKHS
Intuitivamente los espcaios RKHS son espacios de funciones que se
comportan bien en el sentido de proximidad, si dos funciones estan
próximas, sus evaluaciones puntuales también lo harán
Alonso Baranda Lozada 13 de marzo de 2018 20 / 42
Fundamentos Matemáticos Espacios RKHS
Intuitivamente los espcaios RKHS son espacios de funciones que se
comportan bien en el sentido de proximidad, si dos funciones estan
próximas, sus evaluaciones puntuales también lo harán
Definición
(Funcionales de evaluación de Dirac) Sea H un espacio de Hilbert de
funciones f : X → R. Para x ∈ X fijo, sea δx : H → R dada por
δx (f ) = f (x), δx es llamada la funcional de evaluación de Dirac
Alonso Baranda Lozada 13 de marzo de 2018 20 / 42
Fundamentos Matemáticos Espacios RKHS
Intuitivamente los espcaios RKHS son espacios de funciones que se
comportan bien en el sentido de proximidad, si dos funciones estan
próximas, sus evaluaciones puntuales también lo harán
Definición
(Funcionales de evaluación de Dirac) Sea H un espacio de Hilbert de
funciones f : X → R. Para x ∈ X fijo, sea δx : H → R dada por
δx (f ) = f (x), δx es llamada la funcional de evaluación de Dirac
Definición
(RKHS) Sea H un espacio de Hilbert de funciones f : X → R. Decimos
que H es un RKHS si para toda x ∈ X, la funcional de evaluación de Dirac
δx es continua
Alonso Baranda Lozada 13 de marzo de 2018 20 / 42
Fundamentos Matemáticos Espacios RKHS
El Teorema de Caracterización muestra la relación que guardan los
espacios RKHS con la noción de kernel y el Teorema de
Moore–Aronszajn construye un espacio que es lugar donde viven
las SVM
Alonso Baranda Lozada 13 de marzo de 2018 21 / 42
Fundamentos Matemáticos Espacios RKHS
El Teorema de Caracterización muestra la relación que guardan los
espacios RKHS con la noción de kernel y el Teorema de
Moore–Aronszajn construye un espacio que es lugar donde viven
las SVM
Teorema
(Caracterizacion de los espacios RKHS) H es un RKHS si y sólo si H
admite un Kernel Réplica
Alonso Baranda Lozada 13 de marzo de 2018 21 / 42
Fundamentos Matemáticos Espacios RKHS
El Teorema de Caracterización muestra la relación que guardan los
espacios RKHS con la noción de kernel y el Teorema de
Moore–Aronszajn construye un espacio que es lugar donde viven
las SVM
Teorema
(Caracterizacion de los espacios RKHS) H es un RKHS si y sólo si H
admite un Kernel Réplica
Teorema
Moore–Aronszajn Sea k : X × X → R un KSPD, entonces existe un
único RKHS, H ⊆ RX , para el cual k es kernel Réplica
Alonso Baranda Lozada 13 de marzo de 2018 21 / 42
Fundamentos Matemáticos Espacios RKHS
Las SVM son un caso particular del siguiente teorema, el cual afirma
que las soluciones de una minimización de una funcional de riesgo en
un RKHS son combinaciones lineales de la muestra de entrenamiento
Alonso Baranda Lozada 13 de marzo de 2018 22 / 42
Fundamentos Matemáticos Espacios RKHS
Las SVM son un caso particular del siguiente teorema, el cual afirma
que las soluciones de una minimización de una funcional de riesgo en
un RKHS son combinaciones lineales de la muestra de entrenamiento
Teorema
(Teorema de Representación) Sea k : X × X → R un KSPD y H el
RKHS asociado a k. Sean S = (x1, y1) , . . . , (xm, ym) ⊆ X × R, una
muestra de entrenamiento, c : X × R2 m
→ R ∪ {∞} una función de
penalización, g : [0, ∞) → R una función no decreciente, el problema de
regularización
ínfh∈Hc [(x1, y1, h(x1)) , . . . , (xm, ym, h(xm)))] + g ( h H) ,
puede ser resuelto considerando únicamente funciones f con la siguiente
representación
f (·) =
m
i=1
αi k(·, xi )
Alonso Baranda Lozada 13 de marzo de 2018 22 / 42
Fundamentos Matemáticos Espacios RKHS
El Lema de Equivalencia, expresa el problema de optimización de SVM
(caso no separable), como un método de penalización
Alonso Baranda Lozada 13 de marzo de 2018 23 / 42
Fundamentos Matemáticos Espacios RKHS
El Lema de Equivalencia, expresa el problema de optimización de SVM
(caso no separable), como un método de penalización
Lema
(Equivalencia de SVM) El problema de optimización
ínfβ∈Rp,b∈R
N
i=1
[1 − yi (β · xi + b)]+ +
λ
2
β 2
(18)
con λ = 1
C , es equivalente al problema de optimización de SVM (caso no
separable)
1
C
ínfβ∈Rp,b∈R,ξ∈RN C
N
i=1
ξi +
1
2
β 2
sujeto a
ξi ≥ 0, ξi ≥ 1 − yi (β · xi + b) , 1 ≤ i ≤ N
Alonso Baranda Lozada 13 de marzo de 2018 23 / 42
Fundamentos Matemáticos Espacios RKHS
El truco del kernel expresa a las SVM como un problema de
regularización en un RKHS
Alonso Baranda Lozada 13 de marzo de 2018 24 / 42
Fundamentos Matemáticos Espacios RKHS
El truco del kernel expresa a las SVM como un problema de
regularización en un RKHS
Teorema
(Truco del Kernel) Sea k un KSPD en Rp, (k : Rp × Rp → R) y H el
RKHS asociado a k. Entonces el problema de regularización
Cínff ∈H,b∈R
N
i=1
(1 − yi (f (xi ) + b))+ +
λ
2
f 2
H (19)
con λ = 1
C es equivalente a solucionar
g∗
= sup
α∈RN
+
N
i=1
αi −
1
2
N
i,j=1
αi αj yi yj Kij (20)
sujeto a 0 ≤ αi ≤ C (1 ≤ i ≤ N) y N
i=1 αi yi = 0
Alonso Baranda Lozada 13 de marzo de 2018 24 / 42
Fundamentos Matemáticos Espacios RKHS
El tour que acabamos de hacer se resume en el siguiente diagrama
Alonso Baranda Lozada 13 de marzo de 2018 25 / 42
Fundamentos Matemáticos Espacios RKHS
El tour que acabamos de hacer se resume en el siguiente diagrama
Alonso Baranda Lozada 13 de marzo de 2018 25 / 42
Fundamentos Matemáticos Conclusiones SVM
A partir de la definición geométrica de Kernel se puede
demostrar que la frontera de desición, resulta ser un hiperplano
en H:
πH,β,b := {w ∈ H : φ(β), w H + b = 0},
donde β = N
i=1 α∗
i y∗
i xi , la frontera de desición en el espacio
original por lo general, no es lineal
Alonso Baranda Lozada 13 de marzo de 2018 26 / 42
Fundamentos Matemáticos Conclusiones SVM
A partir de la definición geométrica de Kernel se puede
demostrar que la frontera de desición, resulta ser un hiperplano
en H:
πH,β,b := {w ∈ H : φ(β), w H + b = 0},
donde β = N
i=1 α∗
i y∗
i xi , la frontera de desición en el espacio
original por lo general, no es lineal
La clasificación para una nueva observación x queda dada por
f (x) = sign
N
i=1
αi yi k (xi , x) + b
Alonso Baranda Lozada 13 de marzo de 2018 26 / 42
Fundamentos Matemáticos Conclusiones SVM
A partir de la definición geométrica de Kernel se puede
demostrar que la frontera de desición, resulta ser un hiperplano
en H:
πH,β,b := {w ∈ H : φ(β), w H + b = 0},
donde β = N
i=1 α∗
i y∗
i xi , la frontera de desición en el espacio
original por lo general, no es lineal
La clasificación para una nueva observación x queda dada por
f (x) = sign
N
i=1
αi yi k (xi , x) + b
La grandeza del truco del kernel radica en que φ y H pasan a
ser de cierta manera irrelevantes, su información está contenida
en el kernel k
Alonso Baranda Lozada 13 de marzo de 2018 26 / 42
Fundamentos Matemáticos Bonus ! Regresión SVM
Introducimos la función de pérdida de Vapnik, ε–insensible que
penaliza
|y − f (x)|ε := (|y − f (x)| − ε)+
por predecir f (x) cuando el verdadero valor es y, su nombre se debe a
que errores menores en valor absoluto a ε no son penalizados
Alonso Baranda Lozada 13 de marzo de 2018 27 / 42
Fundamentos Matemáticos Bonus ! Regresión SVM
Introducimos la función de pérdida de Vapnik, ε–insensible que
penaliza
|y − f (x)|ε := (|y − f (x)| − ε)+
por predecir f (x) cuando el verdadero valor es y, su nombre se debe a
que errores menores en valor absoluto a ε no son penalizados
La regresión SVM es el caso particular del teorema de
representación aplicado a la función de pérdida de Vapnik, es
decir
«ınf
f ∈H,b∈R
C
N
i=1
(|yi − (f (xi ) + b)| − ε)+ +
1
2
f 2
Alonso Baranda Lozada 13 de marzo de 2018 27 / 42
Calibración y Validación Calibración
En modelos estadísticos paramétricos de regresión (vía máxima
verosimilitud) los parámetros estimados
γ = (θ1, . . . , θd )
son por lo general únicos, encontramos γ que maximiza una función
de verosimilitud
Alonso Baranda Lozada 13 de marzo de 2018 28 / 42
Calibración y Validación Calibración
En modelos estadísticos paramétricos de regresión (vía máxima
verosimilitud) los parámetros estimados
γ = (θ1, . . . , θd )
son por lo general únicos, encontramos γ que maximiza una función
de verosimilitud
Este no es el caso de SVM, cada estimación de una SVM se realiza
con parámetros γ = (C, θ1, . . . , θd ) fijos, aquí C es el parámetro de
penalización y (θ1, . . . , θd ) los parámetros intrínsecos del kernel
Alonso Baranda Lozada 13 de marzo de 2018 28 / 42
Calibración y Validación Calibración
Para calibrar una SVM se utiliza Calibración Cruzada. Dada una
muestra X se separa disjuntamente en dos muestras, desarrollo D y
validación V , con
X = D V
Se considera un subconjunto finito del espacio de parámetros
Γ = {γ1, . . . , γt},
de tal manera que al correr la SVM con todos los γi ∈ Γ sepamos que
combinaciones de parámetros dan buenos resultados tanto en
desarrollo como en validación
Se escoge el parámetro γi ∈ Γ que haya mostrado buenos
resultados tanto en desarrollo como en validación, se busca que
el parámetro γi sea parsimonioso/intuitivo
Alonso Baranda Lozada 13 de marzo de 2018 29 / 42
Calibración y Validación Validación
Los Tests clásicos NO Paramétricos para medir el desempeño de un
modelo (poder de discriminación) de clasificación binaria son los siguientes:
• Tasa de error de clasificación (error rate)
Alonso Baranda Lozada 13 de marzo de 2018 30 / 42
Calibración y Validación Validación
Los Tests clásicos NO Paramétricos para medir el desempeño de un
modelo (poder de discriminación) de clasificación binaria son los siguientes:
• Tasa de error de clasificación (error rate)
• Estadístico KS muestral
Alonso Baranda Lozada 13 de marzo de 2018 30 / 42
Calibración y Validación Validación
Los Tests clásicos NO Paramétricos para medir el desempeño de un
modelo (poder de discriminación) de clasificación binaria son los siguientes:
• Tasa de error de clasificación (error rate)
• Estadístico KS muestral
• Estadístico Gini muestral
Alonso Baranda Lozada 13 de marzo de 2018 30 / 42
Calibración y Validación Validación
Los Tests clásicos NO Paramétricos para medir el desempeño de un
modelo (poder de discriminación) de clasificación binaria son los siguientes:
• Tasa de error de clasificación (error rate)
• Estadístico KS muestral
• Estadístico Gini muestral
• Curvas CAP y ROC y sus estadísticos Accuracy Ratio y AUROC
Alonso Baranda Lozada 13 de marzo de 2018 30 / 42
Calibración y Validación Validación
A continuación enunciamos kernels populares en Machine Learning. Sea
X = Rp, entonces k : Rp × Rp → R dada por:
• k(x, x ) = x · x , es el kernel lineal
Alonso Baranda Lozada 13 de marzo de 2018 31 / 42
Calibración y Validación Validación
A continuación enunciamos kernels populares en Machine Learning. Sea
X = Rp, entonces k : Rp × Rp → R dada por:
• k(x, x ) = x · x , es el kernel lineal
• k(x, x ) = (θx · x + c)n, es el kernel polinomial
Alonso Baranda Lozada 13 de marzo de 2018 31 / 42
Calibración y Validación Validación
A continuación enunciamos kernels populares en Machine Learning. Sea
X = Rp, entonces k : Rp × Rp → R dada por:
• k(x, x ) = x · x , es el kernel lineal
• k(x, x ) = (θx · x + c)n, es el kernel polinomial
• k(x, x ) = exp(−σ x − x ), es el kernel Laplaciano
Alonso Baranda Lozada 13 de marzo de 2018 31 / 42
Calibración y Validación Validación
A continuación enunciamos kernels populares en Machine Learning. Sea
X = Rp, entonces k : Rp × Rp → R dada por:
• k(x, x ) = x · x , es el kernel lineal
• k(x, x ) = (θx · x + c)n, es el kernel polinomial
• k(x, x ) = exp(−σ x − x ), es el kernel Laplaciano
• k(x, x ) = exp(−σ x − x 2), es el kernel Gaussiano de base radial
Alonso Baranda Lozada 13 de marzo de 2018 31 / 42
Calibración y Validación Validación
A continuación enunciamos kernels populares en Machine Learning. Sea
X = Rp, entonces k : Rp × Rp → R dada por:
• k(x, x ) = x · x , es el kernel lineal
• k(x, x ) = (θx · x + c)n, es el kernel polinomial
• k(x, x ) = exp(−σ x − x ), es el kernel Laplaciano
• k(x, x ) = exp(−σ x − x 2), es el kernel Gaussiano de base radial
• k(x, x ) = tanh(θx · x + c), es el kernel tangente hiperbólico
Alonso Baranda Lozada 13 de marzo de 2018 31 / 42
Clasificación Tablero Ajedrez Planteamiento Problema
Problema de Clasificación en un Tablero de Ajedrez.
N observaciones son simuladas, distribuidas uniformemente en el cuadrado
C = [0, 1] × [0, 1].
El cuadrado C tiene una cuadrícula con cuadros blancos y negros, como un
tablero de ajedrez, y cada observación simulada en C pertenece al color
{blanco, negro} del cuadrado donde se encuentra. Formalmente, sea
1 < k ∈ N, para 1 ≤ l ≤ N, sea Xl = (xl,1, xl,2) las coordenadas del l-ésimo
dato simulado en C, definimos al , bl ∈ {1, . . . , k} como los enteros que
satisfacen
(al − 1)/k ≤ xl,1 < al /k, (bl − 1)/k ≤ xl,2 < bl /k,
la clase yl de Xl es -1 si
al + bl ≡ 0 m«od 2,
y 1 si
al + bl ≡ 1 m«od 2,
en este caso tenemos una cuadricula con c = k2
cuadrados.
Alonso Baranda Lozada 13 de marzo de 2018 32 / 42
Clasificación Tablero Ajedrez Planteamiento Problema
Problema de Clasificación en un Tablero de Ajedrez
Tenemos una muestra de desarrollo D ⊂ C de tamaño N y una cuadricula de
validación V ⊂ C de tamaño M2
, dada por
V = {x = (i, j)/M : 1 ≤ i, j ≤ M},
suponiendo que k = 8, deseamos encontrar una SVM mediante calibración
cruzada que genere buena clasificación tanto en D como en V .
Alonso Baranda Lozada 13 de marzo de 2018 33 / 42
Clasificación Tablero Ajedrez Planteamiento Problema
Problema de Clasificación en un Tablero de Ajedrez
Tenemos una muestra de desarrollo D ⊂ C de tamaño N y una cuadricula de
validación V ⊂ C de tamaño M2
, dada por
V = {x = (i, j)/M : 1 ≤ i, j ≤ M},
suponiendo que k = 8, deseamos encontrar una SVM mediante calibración
cruzada que genere buena clasificación tanto en D como en V .
Utilizaremos RStudio y la librería kernlab para solucionar el problema
Alonso Baranda Lozada 13 de marzo de 2018 33 / 42
Clasificación Tablero Ajedrez Solución del Problema
Observaciones Pertinentes
(a) Utilizamos k = 8, debido a que el tablero de ajedrez tiene
c = 64 = 8 × 8 cuadrados, k pudo haber sido cualquier entero positivo
Alonso Baranda Lozada 13 de marzo de 2018 34 / 42
Clasificación Tablero Ajedrez Solución del Problema
Observaciones Pertinentes
(a) Utilizamos k = 8, debido a que el tablero de ajedrez tiene
c = 64 = 8 × 8 cuadrados, k pudo haber sido cualquier entero positivo
(b) El número esperado de datos en cada cuadrado es de = N/64, en
particular N = 10, 000 genera de = 156.25 datos esperados por
cuadrado, mostraremos que fijando N = 10, 000 y M = 101, (en V
hay M2 = 10, 201 datos) se obtienen buenos resultados de
clasificacción tanto en D como en V
Alonso Baranda Lozada 13 de marzo de 2018 34 / 42
Clasificación Tablero Ajedrez Solución del Problema
Observaciones Pertinentes
(c) El lector familiarizado con problemas de clasificación podrá observar
que un modelo logit con c = k2 = 64 variables indicadoras Zi (una
por cada cuadrado) es un modelo natural para solucionar el problema,
sin embargo, dicho lector conocedor podrá advertír que en este
modelo la solución se está dando como input
Alonso Baranda Lozada 13 de marzo de 2018 35 / 42
Clasificación Tablero Ajedrez Solución del Problema
Observaciones Pertinentes
(c) El lector familiarizado con problemas de clasificación podrá observar
que un modelo logit con c = k2 = 64 variables indicadoras Zi (una
por cada cuadrado) es un modelo natural para solucionar el problema,
sin embargo, dicho lector conocedor podrá advertír que en este
modelo la solución se está dando como input
(d) Utilizaremos el kernel Gaussiano de base radial debido a que la
dimensión del espacio asociado H es infinita y está dado por
k (x, x ) = exp(−σ x − x 2
).
En la calibración cruzada, mostraremos que podemos encontrar una
SVM que obtenga buenos resultados de clasificacción tanto en D
como en V , variando únicamente el parámetro σ del kernel en
potencias de 2 y fijando el parámetro de penalización en C = 1.
Alonso Baranda Lozada 13 de marzo de 2018 35 / 42
Clasificación Tablero Ajedrez Solución del Problema
Figura : Muestra de Desarrollo D
Alonso Baranda Lozada 13 de marzo de 2018 36 / 42
Clasificación Tablero Ajedrez Solución del Problema
Figura : Cuadrícula de Validación V
Alonso Baranda Lozada 13 de marzo de 2018 37 / 42
Clasificación Tablero Ajedrez Solución del Problema
Figura : Sintaxis Calibración Cruzada
Alonso Baranda Lozada 13 de marzo de 2018 38 / 42
Clasificación Tablero Ajedrez Solución del Problema
Figura : Primera SVM, muestra mal desempeño, solo produce una clasificación
Alonso Baranda Lozada 13 de marzo de 2018 39 / 42
Clasificación Tablero Ajedrez Solución del Problema
Figura : Octava SVM, no hay buena discriminación ni en training ni en validación
Alonso Baranda Lozada 13 de marzo de 2018 39 / 42
Clasificación Tablero Ajedrez Solución del Problema
Figura : La catorceava SVM es candidata a ser la SVM mas parsimoniosa, debido
al accuracy obtenido y al número de vectores soporte
Alonso Baranda Lozada 13 de marzo de 2018 40 / 42
Clasificación Tablero Ajedrez Solución del Problema
Figura : La vigésimo cuarta SVM muestra overfit generalizado, el accuracy en la
muestra de validación es menor a 57 % y en desarrollo es del 100 %
Alonso Baranda Lozada 13 de marzo de 2018 41 / 42
Contacto Contacto
Usuario: Alonso Baranda Lozada
alonsobaranda@ciencias.unam.mx
alonso.baranda@tcs.com
Alonso Baranda Lozada 13 de marzo de 2018 42 / 42

Más contenido relacionado

La actualidad más candente

Descomposición en Landscapes Elementales del Problema de Diseño de Redes de R...
Descomposición en Landscapes Elementales del Problema de Diseño de Redes de R...Descomposición en Landscapes Elementales del Problema de Diseño de Redes de R...
Descomposición en Landscapes Elementales del Problema de Diseño de Redes de R...jfrchicanog
 
Metodos de integracion
Metodos de integracionMetodos de integracion
Metodos de integracionROAD TRACK
 
Busqueda de Simetrías en S-sistemas
Busqueda de Simetrías en S-sistemasBusqueda de Simetrías en S-sistemas
Busqueda de Simetrías en S-sistemasEnrique Diaz Ocampo
 
Examenes resueltos algebra lineal
Examenes resueltos algebra linealExamenes resueltos algebra lineal
Examenes resueltos algebra linealERICK CONDE
 
Comandos ejemplo-matlab
Comandos ejemplo-matlabComandos ejemplo-matlab
Comandos ejemplo-matlabCate Graham
 
Interior, exterior y frontera de un conjunto
Interior, exterior y frontera de un conjuntoInterior, exterior y frontera de un conjunto
Interior, exterior y frontera de un conjuntowalexander03
 
Ayudantia espacios metricos y topologia
Ayudantia espacios metricos y topologiaAyudantia espacios metricos y topologia
Ayudantia espacios metricos y topologiaHugo Cornejo
 
Teoria aditiva de numeros
Teoria aditiva de numerosTeoria aditiva de numeros
Teoria aditiva de numeroslgbarrerav
 
Integracion multiple
Integracion multipleIntegracion multiple
Integracion multipleERICK CONDE
 
Topologia general (1)
Topologia general (1)Topologia general (1)
Topologia general (1)Marcos Onreva
 
La Integral Definida
La Integral DefinidaLa Integral Definida
La Integral DefinidaERICK CONDE
 
Algoritmos2d
Algoritmos2dAlgoritmos2d
Algoritmos2dozkar Yn
 
SOLUCIONARIO EXAMEN DE ADMISION UNI MATEMATICA II 2009 I
SOLUCIONARIO EXAMEN DE ADMISION UNI MATEMATICA II 2009 ISOLUCIONARIO EXAMEN DE ADMISION UNI MATEMATICA II 2009 I
SOLUCIONARIO EXAMEN DE ADMISION UNI MATEMATICA II 2009 IDANTX
 
Eduardo ruiz seguridad y redes
Eduardo ruiz seguridad y redesEduardo ruiz seguridad y redes
Eduardo ruiz seguridad y redesFutura Networks
 
7 análisis vectorial
7 análisis vectorial7 análisis vectorial
7 análisis vectorialERICK CONDE
 
Transformaciones lineales y nucleo
Transformaciones lineales y nucleoTransformaciones lineales y nucleo
Transformaciones lineales y nucleoalgebra
 

La actualidad más candente (20)

Descomposición en Landscapes Elementales del Problema de Diseño de Redes de R...
Descomposición en Landscapes Elementales del Problema de Diseño de Redes de R...Descomposición en Landscapes Elementales del Problema de Diseño de Redes de R...
Descomposición en Landscapes Elementales del Problema de Diseño de Redes de R...
 
Metodos de integracion
Metodos de integracionMetodos de integracion
Metodos de integracion
 
Busqueda de Simetrías en S-sistemas
Busqueda de Simetrías en S-sistemasBusqueda de Simetrías en S-sistemas
Busqueda de Simetrías en S-sistemas
 
Examenes resueltos algebra lineal
Examenes resueltos algebra linealExamenes resueltos algebra lineal
Examenes resueltos algebra lineal
 
Comandos ejemplo-matlab
Comandos ejemplo-matlabComandos ejemplo-matlab
Comandos ejemplo-matlab
 
Interior, exterior y frontera de un conjunto
Interior, exterior y frontera de un conjuntoInterior, exterior y frontera de un conjunto
Interior, exterior y frontera de un conjunto
 
Integrales triples
Integrales  triplesIntegrales  triples
Integrales triples
 
Ayudantia espacios metricos y topologia
Ayudantia espacios metricos y topologiaAyudantia espacios metricos y topologia
Ayudantia espacios metricos y topologia
 
Teoria aditiva de numeros
Teoria aditiva de numerosTeoria aditiva de numeros
Teoria aditiva de numeros
 
Integracion multiple
Integracion multipleIntegracion multiple
Integracion multiple
 
Topologia general (1)
Topologia general (1)Topologia general (1)
Topologia general (1)
 
Campos vectoriales
Campos vectorialesCampos vectoriales
Campos vectoriales
 
La Integral Definida
La Integral DefinidaLa Integral Definida
La Integral Definida
 
Sem 13 1_la_integral
Sem 13 1_la_integralSem 13 1_la_integral
Sem 13 1_la_integral
 
Algoritmos2d
Algoritmos2dAlgoritmos2d
Algoritmos2d
 
SOLUCIONARIO EXAMEN DE ADMISION UNI MATEMATICA II 2009 I
SOLUCIONARIO EXAMEN DE ADMISION UNI MATEMATICA II 2009 ISOLUCIONARIO EXAMEN DE ADMISION UNI MATEMATICA II 2009 I
SOLUCIONARIO EXAMEN DE ADMISION UNI MATEMATICA II 2009 I
 
Eduardo ruiz seguridad y redes
Eduardo ruiz seguridad y redesEduardo ruiz seguridad y redes
Eduardo ruiz seguridad y redes
 
7 análisis vectorial
7 análisis vectorial7 análisis vectorial
7 análisis vectorial
 
integrales multiples
integrales multiplesintegrales multiples
integrales multiples
 
Transformaciones lineales y nucleo
Transformaciones lineales y nucleoTransformaciones lineales y nucleo
Transformaciones lineales y nucleo
 

Similar a RKHS, teoría y aplicaciones con machine learning

Ecuaciones y sist de ecuaciones no lineales
Ecuaciones y sist de ecuaciones no linealesEcuaciones y sist de ecuaciones no lineales
Ecuaciones y sist de ecuaciones no linealesRonny Malpica
 
FUNDAMENTOS MATEMATICOS (I Bimestre Abril Agosto 2011)
FUNDAMENTOS MATEMATICOS (I Bimestre Abril Agosto 2011)FUNDAMENTOS MATEMATICOS (I Bimestre Abril Agosto 2011)
FUNDAMENTOS MATEMATICOS (I Bimestre Abril Agosto 2011)Videoconferencias UTPL
 
Diagramas, categorías, y huellas de pájaro
Diagramas, categorías, y huellas de pájaroDiagramas, categorías, y huellas de pájaro
Diagramas, categorías, y huellas de pájaroSelim Gómez
 
Función Cuadrática.
Función Cuadrática.Función Cuadrática.
Función Cuadrática.pablo_dolz
 
Funciones Varias Variables
Funciones Varias VariablesFunciones Varias Variables
Funciones Varias VariablesGuadaleivaq
 
2023-TFG3_ArbolesDecision_Basket
2023-TFG3_ArbolesDecision_Basket2023-TFG3_ArbolesDecision_Basket
2023-TFG3_ArbolesDecision_BasketRicardo Lopez-Ruiz
 
Tutoria Algebra I Bimestre 20082
Tutoria Algebra I Bimestre 20082Tutoria Algebra I Bimestre 20082
Tutoria Algebra I Bimestre 20082Germania Rodriguez
 
Matemáticas Básicas: Funciones
Matemáticas Básicas: FuncionesMatemáticas Básicas: Funciones
Matemáticas Básicas: FuncionesJuliho Castillo
 
Unmsm fisi - conjuntos convexos y programación matemática - io1 cl02
Unmsm   fisi - conjuntos convexos y programación matemática - io1 cl02Unmsm   fisi - conjuntos convexos y programación matemática - io1 cl02
Unmsm fisi - conjuntos convexos y programación matemática - io1 cl02Julio Pari
 
Programacion Convexa Presentacion Definitivo
Programacion Convexa Presentacion DefinitivoProgramacion Convexa Presentacion Definitivo
Programacion Convexa Presentacion Definitivowadar3
 

Similar a RKHS, teoría y aplicaciones con machine learning (20)

Funcion cuadratic a
Funcion cuadratic aFuncion cuadratic a
Funcion cuadratic a
 
Ecuaciones y sist de ecuaciones no lineales
Ecuaciones y sist de ecuaciones no linealesEcuaciones y sist de ecuaciones no lineales
Ecuaciones y sist de ecuaciones no lineales
 
No lineal
No linealNo lineal
No lineal
 
Mat lab03
Mat lab03Mat lab03
Mat lab03
 
FUNDAMENTOS MATEMATICOS (I Bimestre Abril Agosto 2011)
FUNDAMENTOS MATEMATICOS (I Bimestre Abril Agosto 2011)FUNDAMENTOS MATEMATICOS (I Bimestre Abril Agosto 2011)
FUNDAMENTOS MATEMATICOS (I Bimestre Abril Agosto 2011)
 
Diagramas, categorías, y huellas de pájaro
Diagramas, categorías, y huellas de pájaroDiagramas, categorías, y huellas de pájaro
Diagramas, categorías, y huellas de pájaro
 
Back Tracking
Back TrackingBack Tracking
Back Tracking
 
Función Cuadrática.
Función Cuadrática.Función Cuadrática.
Función Cuadrática.
 
áLgebra(I Bim)
áLgebra(I Bim)áLgebra(I Bim)
áLgebra(I Bim)
 
Funciones Varias Variables
Funciones Varias VariablesFunciones Varias Variables
Funciones Varias Variables
 
2023-TFG3_ArbolesDecision_Basket
2023-TFG3_ArbolesDecision_Basket2023-TFG3_ArbolesDecision_Basket
2023-TFG3_ArbolesDecision_Basket
 
Introduccion
IntroduccionIntroduccion
Introduccion
 
Algebra
AlgebraAlgebra
Algebra
 
Tutoria Algebra I Bimestre 20082
Tutoria Algebra I Bimestre 20082Tutoria Algebra I Bimestre 20082
Tutoria Algebra I Bimestre 20082
 
Valores propios
Valores propiosValores propios
Valores propios
 
Apuntesdefisica
ApuntesdefisicaApuntesdefisica
Apuntesdefisica
 
Matemáticas Básicas: Funciones
Matemáticas Básicas: FuncionesMatemáticas Básicas: Funciones
Matemáticas Básicas: Funciones
 
Clase8 minisem
Clase8 minisemClase8 minisem
Clase8 minisem
 
Unmsm fisi - conjuntos convexos y programación matemática - io1 cl02
Unmsm   fisi - conjuntos convexos y programación matemática - io1 cl02Unmsm   fisi - conjuntos convexos y programación matemática - io1 cl02
Unmsm fisi - conjuntos convexos y programación matemática - io1 cl02
 
Programacion Convexa Presentacion Definitivo
Programacion Convexa Presentacion DefinitivoProgramacion Convexa Presentacion Definitivo
Programacion Convexa Presentacion Definitivo
 

Más de Software Guru

Hola Mundo del Internet de las Cosas
Hola Mundo del Internet de las CosasHola Mundo del Internet de las Cosas
Hola Mundo del Internet de las CosasSoftware Guru
 
Estructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso realesEstructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso realesSoftware Guru
 
Building bias-aware environments
Building bias-aware environmentsBuilding bias-aware environments
Building bias-aware environmentsSoftware Guru
 
El secreto para ser un desarrollador Senior
El secreto para ser un desarrollador SeniorEl secreto para ser un desarrollador Senior
El secreto para ser un desarrollador SeniorSoftware Guru
 
Cómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto idealCómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto idealSoftware Guru
 
Automatizando ideas con Apache Airflow
Automatizando ideas con Apache AirflowAutomatizando ideas con Apache Airflow
Automatizando ideas con Apache AirflowSoftware Guru
 
How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:Software Guru
 
Introducción al machine learning
Introducción al machine learningIntroducción al machine learning
Introducción al machine learningSoftware Guru
 
Democratizando el uso de CoDi
Democratizando el uso de CoDiDemocratizando el uso de CoDi
Democratizando el uso de CoDiSoftware Guru
 
Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0Software Guru
 
Taller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJSTaller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJSSoftware Guru
 
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...Software Guru
 
¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?Software Guru
 
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.Software Guru
 
Pruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOpsPruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOpsSoftware Guru
 
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivosElixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivosSoftware Guru
 
Así publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stressAsí publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stressSoftware Guru
 
Achieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goalsAchieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goalsSoftware Guru
 
Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19Software Guru
 
De lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseñoDe lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseñoSoftware Guru
 

Más de Software Guru (20)

Hola Mundo del Internet de las Cosas
Hola Mundo del Internet de las CosasHola Mundo del Internet de las Cosas
Hola Mundo del Internet de las Cosas
 
Estructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso realesEstructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso reales
 
Building bias-aware environments
Building bias-aware environmentsBuilding bias-aware environments
Building bias-aware environments
 
El secreto para ser un desarrollador Senior
El secreto para ser un desarrollador SeniorEl secreto para ser un desarrollador Senior
El secreto para ser un desarrollador Senior
 
Cómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto idealCómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto ideal
 
Automatizando ideas con Apache Airflow
Automatizando ideas con Apache AirflowAutomatizando ideas con Apache Airflow
Automatizando ideas con Apache Airflow
 
How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:
 
Introducción al machine learning
Introducción al machine learningIntroducción al machine learning
Introducción al machine learning
 
Democratizando el uso de CoDi
Democratizando el uso de CoDiDemocratizando el uso de CoDi
Democratizando el uso de CoDi
 
Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0
 
Taller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJSTaller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJS
 
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
 
¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?
 
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
 
Pruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOpsPruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOps
 
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivosElixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
 
Así publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stressAsí publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stress
 
Achieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goalsAchieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goals
 
Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19
 
De lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseñoDe lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseño
 

Último

Guia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos BasicosGuia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos BasicosJhonJairoRodriguezCe
 
investigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXIinvestigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXIhmpuellon
 
Buenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptxBuenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptxFederico Castellari
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estossgonzalezp1
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanamcerpam
 
Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21mariacbr99
 
redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativanicho110
 
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxEVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxJorgeParada26
 
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxPROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxAlan779941
 
How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.FlorenciaCattelani
 
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...JohnRamos830530
 

Último (11)

Guia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos BasicosGuia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos Basicos
 
investigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXIinvestigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXI
 
Buenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptxBuenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptx
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estos
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvana
 
Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21
 
redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativa
 
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxEVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
 
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxPROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
 
How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.
 
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
 

RKHS, teoría y aplicaciones con machine learning

  • 1. RKHS, Teoría y Aplicaciones con Machine Learning Alonso Baranda Lozada alonsobaranda@ciencias.unam.mx alonso.baranda@tcs.com https://sg.com.mx/dataday #DataDayMxUsuario: Alonso Baranda Lozada
  • 2. Introducción SVM La idea de esta plática es presentar modelos de clasificación y regresión provenientes de Machine Learning llamadas máquinas de soporte vectorial (SVM) Alonso Baranda Lozada 13 de marzo de 2018 1 / 42
  • 3. Introducción SVM La idea de esta plática es presentar modelos de clasificación y regresión provenientes de Machine Learning llamadas máquinas de soporte vectorial (SVM) Originalmente las SVM fueron desarrolladas para clasificación binaria, posteriormente se extendió la teoría para poder hacer hacer regresión y clasificación con M > 2 clases Alonso Baranda Lozada 13 de marzo de 2018 1 / 42
  • 4. Introducción SVM La idea de esta plática es presentar modelos de clasificación y regresión provenientes de Machine Learning llamadas máquinas de soporte vectorial (SVM) Originalmente las SVM fueron desarrolladas para clasificación binaria, posteriormente se extendió la teoría para poder hacer hacer regresión y clasificación con M > 2 clases La idea empírica de las SVM, en el caso de clasificación, consiste en transformar (mapear) un conjunto de datos de entrenamiento XN×p ⊂ X, a un espacio H, la dimensión de H es por lo general mucho mayor a p, incluso puede ser infinita. En este espacio se buscan fronteras de desición lineales π(H,v,b) := {w ∈ H : v, w H + b = 0}, para clasificar los datos Alonso Baranda Lozada 13 de marzo de 2018 1 / 42
  • 5. Nociones Geométricas Hiperplano Óptimo de Separación Definición (Hiperplano) Sean β, p vectores en Rn con β = 0. Sea π := {x ∈ Rn : β · (x − p) = 0} (1) π es llamado el hiperplano que pasa por p ortogonal a β y β es llamado un vector normal al hiperplano π Definición (Conjunto Linealmente Separable) Sea XN×p una matriz con entradas reales y yi ∈ {1, −1} la clase del i–ésimo dato. Decimos que XN×p es linealmente separable si existen β ∈ Rp y β0 ∈ R tales que para 1 ≤ i ≤ N se cumple yi (xi · β + β0) > 0 (2) Alonso Baranda Lozada 13 de marzo de 2018 2 / 42
  • 6. Nociones Geométricas Hiperplano Óptimo de Separación Figura : Tenemos que yi (xi · β + β0) > 0 para 1 ≤ i ≤ N. El plano π representado por β · x + β0 = 0 separa linealmente a los datos de manera perfecta Alonso Baranda Lozada 13 de marzo de 2018 3 / 42
  • 7. Nociones Geométricas Hiperplano Óptimo de Separación La SVM en su forma más simple, es decir, en el caso linealmente separable se define como el siguiente problema de Optimización Convexa sup β∈Rp,β0∈R M sujeto a yi β (xi · β + β0) ≥ M, 1 ≤ i ≤ N (3) el cual es equivalente a ínfβ∈Rp,β0∈R 1 2 β 2 sujeto a yi (xi · β + β0) ≥ 1, 1 ≤ i ≤ N (4) La solucion se obtiene por medio del problema Dual de optimización convexa (utilizamos KKT) y está dado por: g∗ = sup α1,...,αN ,αi ≥0 − 1 2 N i=1 N k=1 (αi αkyi yk) (xi · xk) + N i=1 αi (5) Alonso Baranda Lozada 13 de marzo de 2018 4 / 42
  • 8. Nociones Geométricas Hiperplano Óptimo de Separación En (5), las restricciones son α = (α1, . . . αN) ∈ RN , αi ≥ 0, 1 ≤ i ≤ N, (6) N i=1 αi yi = 0 (7) Recuperamos β0 de las restricciones KKT y a β de la siguiente manera: β = N i=1 αi yi xi (8) ambos resultan únicos. Gran parte de los αi son cero, aquellos xi para los cuales αi > 0 son llamados Vectores Soporte, pues contribuyen en la combinación lineal para expresar el vector normal β del plano óptimo de separación en la ecuación (8), ver figura (2) Alonso Baranda Lozada 13 de marzo de 2018 5 / 42
  • 9. Nociones Geométricas Hiperplano Óptimo de Separación Figura : El valor M∗ de (3) equivale al valor 1 β∗ de (4). Los puntos azules + y − son vectores soporte y π0 es llamado el Hiperplano Óptimo de Separación Alonso Baranda Lozada 13 de marzo de 2018 6 / 42
  • 10. Nociones Geométricas Generalización del Caso No Separable Cuando el conjunto de datos NO es linealmente separable se plantea el siguiente problema de optimización convexa con penalizaciones f ∗ = ínfβ∈Rp,β0∈R,ξ∈RN 1 2 β 2 + C N i=1 ξi sujeto a yi (β · xi + β0) ≥ 1 − ξi , ξi ≥ 0, 1 ≤ i ≤ N (9) donde C es una constante positiva pre–establecida, que penaliza los errores, y su solución está dada por g∗ = sup 0≤(α,µ)∈R2N − 1 2 N i=1 N k=1 (αi αkyi yk) (xi · xk) + N i=1 αi (10) Alonso Baranda Lozada 13 de marzo de 2018 7 / 42
  • 11. Nociones Geométricas Generalización del Caso No Separable La solución anterior es analíticamente idéntica a 5, salvo por las restricciones que toman la forma: 0 ≤ αi ≤ C, 1 ≤ i ≤ N (11) N i=1 αi yi = 0, (12) Recuperamos a β0 de las restricciones KKT y a β de la misma manera, es decir, como en (8), ambos resultan ser únicos. Geométricamente la solución de 9 se muestra en la figura (3) Alonso Baranda Lozada 13 de marzo de 2018 8 / 42
  • 12. Nociones Geométricas Generalización del Caso No Separable Figura : Los puntos azules representan vectores soporte o valores para los cuales ξi > 0 Alonso Baranda Lozada 13 de marzo de 2018 9 / 42
  • 13. Nociones Geométricas Generalización del Caso No Separable Finalmente si x es una observación nueva, es decir, independiente a la muestra en entrenamiento, la clasificamos al la clase {1, −1} de la siguiente manera: y(x) = sign (β∗ · x + β∗ 0) Brevario Cultural: En el célebre artículo, Support Vector Networks (Machine Learning, 20, 273-297, 1995), Vapnik y Cortes introducen la Generalización del Caso No Separable, ver ecuación 9, el cual extiende el marco teórico de las SVM. Previamente solo existía el caso para conjuntos de datos linealmente separables, en este artículo se extienden las SVM al caso no separable Alonso Baranda Lozada 13 de marzo de 2018 10 / 42
  • 14. Máquinas de Soporte Vectorial Transformaciones del Espacio Sea XN×p un conjunto de N datos p–valuados. Consideremos φ: Rp → Rq dada por φ (x) = (φ1(x), . . . , φq(x)) (13) entonces φ (X) es un conjunto de N datos q–valuados, es decir, es una Transformación del Espacio. En donde podemos aplicar los resultados del Hiperplano Óptimo de Separación o su Generalización ! Alonso Baranda Lozada 13 de marzo de 2018 11 / 42
  • 15. Máquinas de Soporte Vectorial Transformaciones del Espacio Sea XN×p un conjunto de N datos p–valuados. Consideremos φ: Rp → Rq dada por φ (x) = (φ1(x), . . . , φq(x)) (13) entonces φ (X) es un conjunto de N datos q–valuados, es decir, es una Transformación del Espacio. En donde podemos aplicar los resultados del Hiperplano Óptimo de Separación o su Generalización ! Figura : Ejemplo juguete, dos espirales simulados y posteriormente transformados. Alonso Baranda Lozada 13 de marzo de 2018 11 / 42
  • 16. Máquinas de Soporte Vectorial Truco del Kernel Si definimos k : Rp × Rp → R dada por k x, x = φ(x) · φ(x ) (14) entonces la clasificación de una nueva observación x se puede calcular como y(x) = sign N i=1 αi yi k (xi , x) + β0 (15) La clasificación (15) es llamada una asignación de una máquina de soporte vectorial Las ecuaciones (14) y (15) tienen un significado profundo, nos dicen que la transformación del espacio φ pasa a ser irrelevante si podemos encontrar k de manera que k (x, x ) = φ(x) · φ(x ) para todo x, x ∈ Rp, está propiedad es llamada Truco del Kernel Alonso Baranda Lozada 13 de marzo de 2018 12 / 42
  • 17. Máquinas de Soporte Vectorial Truco del Kernel El truco del kernel lo podremos extender (como su nombre lo indica) a funciones k mas generales, llamadas kernels. Existe una teoría robusta donde (15) es únicamente un caso particular de un problema de regularización mucho más general en un espacio de Hilbert de funciones llamado RKHS Alonso Baranda Lozada 13 de marzo de 2018 13 / 42
  • 18. Fundamentos Matemáticos El objetivo de esta sección es mostrar el camino y los conceptos necesarios para demostrar el Truco del Kernel, lo cual se resume en el siguiente diagrama Alonso Baranda Lozada 13 de marzo de 2018 14 / 42
  • 19. Fundamentos Matemáticos El objetivo de esta sección es mostrar el camino y los conceptos necesarios para demostrar el Truco del Kernel, lo cual se resume en el siguiente diagrama Alonso Baranda Lozada 13 de marzo de 2018 14 / 42
  • 20. Fundamentos Matemáticos Espacios de Hilbert Para hablar de SVM de manera formal necesitamos un Espacio donde trabajar. Los espacios donde viven las SVM son espacios de Hilbert, espacios que no tienen agujeros y que están provistos de una geometría, inducida por su producto interior Alonso Baranda Lozada 13 de marzo de 2018 15 / 42
  • 21. Fundamentos Matemáticos Espacios de Hilbert Para hablar de SVM de manera formal necesitamos un Espacio donde trabajar. Los espacios donde viven las SVM son espacios de Hilbert, espacios que no tienen agujeros y que están provistos de una geometría, inducida por su producto interior Definición (Espacio de Hilbert) Un espacio de Hilbert H es un espacio vectorial completo con la métrica inducida por su producto interior ·, · H, es decir, con la siguiente métrica ρ(x, y) = x − y H = x − y, x − y 1 2 H Alonso Baranda Lozada 13 de marzo de 2018 15 / 42
  • 22. Fundamentos Matemáticos Kernels Para entender las SVM requerimos tres nociones de kernel; una de naturaleza geométrica, otra analítica y otra práctica Alonso Baranda Lozada 13 de marzo de 2018 16 / 42
  • 23. Fundamentos Matemáticos Kernels Para entender las SVM requerimos tres nociones de kernel; una de naturaleza geométrica, otra analítica y otra práctica Definición (Kernel - Geométrica) Sea X = ∅. La función k : X × X → R es llamada kernel si existe un espacio de Hilbert real H y una función φ: X → H tal que para todo x, y ∈ X, se tiene k (x, y) = φ(x), φ(y) H (16) Alonso Baranda Lozada 13 de marzo de 2018 16 / 42
  • 24. Fundamentos Matemáticos Kernels Para entender las SVM requerimos tres nociones de kernel; una de naturaleza geométrica, otra analítica y otra práctica Definición (Kernel - Geométrica) Sea X = ∅. La función k : X × X → R es llamada kernel si existe un espacio de Hilbert real H y una función φ: X → H tal que para todo x, y ∈ X, se tiene k (x, y) = φ(x), φ(y) H (16) Esta definición es la mejor para entender las SVM Alonso Baranda Lozada 13 de marzo de 2018 16 / 42
  • 25. Fundamentos Matemáticos Kernels Definición (Kernel Réplica - Analítica) Sea H un espacio de Hilbert de funciones f : X → R. Una función k : X × X → R es llamada una kernel réplica de H si satisface: 1 ∀x ∈ X, k (·, x) : X → R, x → k (x , x) pertenece a H (k (·, x) ∈ H ∀x ∈ X). 2 Se cumple la propiedad de réplica: ∀x ∈ X, ∀f ∈ H f , k(·, x) H = f (x) Alonso Baranda Lozada 13 de marzo de 2018 17 / 42
  • 26. Fundamentos Matemáticos Kernels Definición (Kernel Réplica - Analítica) Sea H un espacio de Hilbert de funciones f : X → R. Una función k : X × X → R es llamada una kernel réplica de H si satisface: 1 ∀x ∈ X, k (·, x) : X → R, x → k (x , x) pertenece a H (k (·, x) ∈ H ∀x ∈ X). 2 Se cumple la propiedad de réplica: ∀x ∈ X, ∀f ∈ H f , k(·, x) H = f (x) La noción analítica se utiliza para construir y caracterizar los espacios RKHS Alonso Baranda Lozada 13 de marzo de 2018 17 / 42
  • 27. Fundamentos Matemáticos Kernels Definición (Kernel simétrico definido semi–positivo (KSPD) - Práctica) Sea k una función simétrica, k : X × X → R. Decimos que k es un Kernel simétrico definido semi–positivo, (abreviado por KSPD), si ∀n ≥ 1, ∀ (a1, . . . , an) ∈ Rn y ∀ (x1, . . . xn) ∈ Xn, se cumple n i=1 n j=1 ai aj k (xi , xj ) ≥ 0 (17) Alonso Baranda Lozada 13 de marzo de 2018 18 / 42
  • 28. Fundamentos Matemáticos Kernels Definición (Kernel simétrico definido semi–positivo (KSPD) - Práctica) Sea k una función simétrica, k : X × X → R. Decimos que k es un Kernel simétrico definido semi–positivo, (abreviado por KSPD), si ∀n ≥ 1, ∀ (a1, . . . , an) ∈ Rn y ∀ (x1, . . . xn) ∈ Xn, se cumple n i=1 n j=1 ai aj k (xi , xj ) ≥ 0 (17) La definición práctica, nos ayudará a dicernir si una función k es un kernel o no Alonso Baranda Lozada 13 de marzo de 2018 18 / 42
  • 29. Fundamentos Matemáticos Kernels El siguiente diagrama de implicaciones nos dice como demostrar una definición a partir de la otra Alonso Baranda Lozada 13 de marzo de 2018 19 / 42
  • 30. Fundamentos Matemáticos Espacios RKHS Intuitivamente los espcaios RKHS son espacios de funciones que se comportan bien en el sentido de proximidad, si dos funciones estan próximas, sus evaluaciones puntuales también lo harán Alonso Baranda Lozada 13 de marzo de 2018 20 / 42
  • 31. Fundamentos Matemáticos Espacios RKHS Intuitivamente los espcaios RKHS son espacios de funciones que se comportan bien en el sentido de proximidad, si dos funciones estan próximas, sus evaluaciones puntuales también lo harán Definición (Funcionales de evaluación de Dirac) Sea H un espacio de Hilbert de funciones f : X → R. Para x ∈ X fijo, sea δx : H → R dada por δx (f ) = f (x), δx es llamada la funcional de evaluación de Dirac Alonso Baranda Lozada 13 de marzo de 2018 20 / 42
  • 32. Fundamentos Matemáticos Espacios RKHS Intuitivamente los espcaios RKHS son espacios de funciones que se comportan bien en el sentido de proximidad, si dos funciones estan próximas, sus evaluaciones puntuales también lo harán Definición (Funcionales de evaluación de Dirac) Sea H un espacio de Hilbert de funciones f : X → R. Para x ∈ X fijo, sea δx : H → R dada por δx (f ) = f (x), δx es llamada la funcional de evaluación de Dirac Definición (RKHS) Sea H un espacio de Hilbert de funciones f : X → R. Decimos que H es un RKHS si para toda x ∈ X, la funcional de evaluación de Dirac δx es continua Alonso Baranda Lozada 13 de marzo de 2018 20 / 42
  • 33. Fundamentos Matemáticos Espacios RKHS El Teorema de Caracterización muestra la relación que guardan los espacios RKHS con la noción de kernel y el Teorema de Moore–Aronszajn construye un espacio que es lugar donde viven las SVM Alonso Baranda Lozada 13 de marzo de 2018 21 / 42
  • 34. Fundamentos Matemáticos Espacios RKHS El Teorema de Caracterización muestra la relación que guardan los espacios RKHS con la noción de kernel y el Teorema de Moore–Aronszajn construye un espacio que es lugar donde viven las SVM Teorema (Caracterizacion de los espacios RKHS) H es un RKHS si y sólo si H admite un Kernel Réplica Alonso Baranda Lozada 13 de marzo de 2018 21 / 42
  • 35. Fundamentos Matemáticos Espacios RKHS El Teorema de Caracterización muestra la relación que guardan los espacios RKHS con la noción de kernel y el Teorema de Moore–Aronszajn construye un espacio que es lugar donde viven las SVM Teorema (Caracterizacion de los espacios RKHS) H es un RKHS si y sólo si H admite un Kernel Réplica Teorema Moore–Aronszajn Sea k : X × X → R un KSPD, entonces existe un único RKHS, H ⊆ RX , para el cual k es kernel Réplica Alonso Baranda Lozada 13 de marzo de 2018 21 / 42
  • 36. Fundamentos Matemáticos Espacios RKHS Las SVM son un caso particular del siguiente teorema, el cual afirma que las soluciones de una minimización de una funcional de riesgo en un RKHS son combinaciones lineales de la muestra de entrenamiento Alonso Baranda Lozada 13 de marzo de 2018 22 / 42
  • 37. Fundamentos Matemáticos Espacios RKHS Las SVM son un caso particular del siguiente teorema, el cual afirma que las soluciones de una minimización de una funcional de riesgo en un RKHS son combinaciones lineales de la muestra de entrenamiento Teorema (Teorema de Representación) Sea k : X × X → R un KSPD y H el RKHS asociado a k. Sean S = (x1, y1) , . . . , (xm, ym) ⊆ X × R, una muestra de entrenamiento, c : X × R2 m → R ∪ {∞} una función de penalización, g : [0, ∞) → R una función no decreciente, el problema de regularización ínfh∈Hc [(x1, y1, h(x1)) , . . . , (xm, ym, h(xm)))] + g ( h H) , puede ser resuelto considerando únicamente funciones f con la siguiente representación f (·) = m i=1 αi k(·, xi ) Alonso Baranda Lozada 13 de marzo de 2018 22 / 42
  • 38. Fundamentos Matemáticos Espacios RKHS El Lema de Equivalencia, expresa el problema de optimización de SVM (caso no separable), como un método de penalización Alonso Baranda Lozada 13 de marzo de 2018 23 / 42
  • 39. Fundamentos Matemáticos Espacios RKHS El Lema de Equivalencia, expresa el problema de optimización de SVM (caso no separable), como un método de penalización Lema (Equivalencia de SVM) El problema de optimización ínfβ∈Rp,b∈R N i=1 [1 − yi (β · xi + b)]+ + λ 2 β 2 (18) con λ = 1 C , es equivalente al problema de optimización de SVM (caso no separable) 1 C ínfβ∈Rp,b∈R,ξ∈RN C N i=1 ξi + 1 2 β 2 sujeto a ξi ≥ 0, ξi ≥ 1 − yi (β · xi + b) , 1 ≤ i ≤ N Alonso Baranda Lozada 13 de marzo de 2018 23 / 42
  • 40. Fundamentos Matemáticos Espacios RKHS El truco del kernel expresa a las SVM como un problema de regularización en un RKHS Alonso Baranda Lozada 13 de marzo de 2018 24 / 42
  • 41. Fundamentos Matemáticos Espacios RKHS El truco del kernel expresa a las SVM como un problema de regularización en un RKHS Teorema (Truco del Kernel) Sea k un KSPD en Rp, (k : Rp × Rp → R) y H el RKHS asociado a k. Entonces el problema de regularización Cínff ∈H,b∈R N i=1 (1 − yi (f (xi ) + b))+ + λ 2 f 2 H (19) con λ = 1 C es equivalente a solucionar g∗ = sup α∈RN + N i=1 αi − 1 2 N i,j=1 αi αj yi yj Kij (20) sujeto a 0 ≤ αi ≤ C (1 ≤ i ≤ N) y N i=1 αi yi = 0 Alonso Baranda Lozada 13 de marzo de 2018 24 / 42
  • 42. Fundamentos Matemáticos Espacios RKHS El tour que acabamos de hacer se resume en el siguiente diagrama Alonso Baranda Lozada 13 de marzo de 2018 25 / 42
  • 43. Fundamentos Matemáticos Espacios RKHS El tour que acabamos de hacer se resume en el siguiente diagrama Alonso Baranda Lozada 13 de marzo de 2018 25 / 42
  • 44. Fundamentos Matemáticos Conclusiones SVM A partir de la definición geométrica de Kernel se puede demostrar que la frontera de desición, resulta ser un hiperplano en H: πH,β,b := {w ∈ H : φ(β), w H + b = 0}, donde β = N i=1 α∗ i y∗ i xi , la frontera de desición en el espacio original por lo general, no es lineal Alonso Baranda Lozada 13 de marzo de 2018 26 / 42
  • 45. Fundamentos Matemáticos Conclusiones SVM A partir de la definición geométrica de Kernel se puede demostrar que la frontera de desición, resulta ser un hiperplano en H: πH,β,b := {w ∈ H : φ(β), w H + b = 0}, donde β = N i=1 α∗ i y∗ i xi , la frontera de desición en el espacio original por lo general, no es lineal La clasificación para una nueva observación x queda dada por f (x) = sign N i=1 αi yi k (xi , x) + b Alonso Baranda Lozada 13 de marzo de 2018 26 / 42
  • 46. Fundamentos Matemáticos Conclusiones SVM A partir de la definición geométrica de Kernel se puede demostrar que la frontera de desición, resulta ser un hiperplano en H: πH,β,b := {w ∈ H : φ(β), w H + b = 0}, donde β = N i=1 α∗ i y∗ i xi , la frontera de desición en el espacio original por lo general, no es lineal La clasificación para una nueva observación x queda dada por f (x) = sign N i=1 αi yi k (xi , x) + b La grandeza del truco del kernel radica en que φ y H pasan a ser de cierta manera irrelevantes, su información está contenida en el kernel k Alonso Baranda Lozada 13 de marzo de 2018 26 / 42
  • 47. Fundamentos Matemáticos Bonus ! Regresión SVM Introducimos la función de pérdida de Vapnik, ε–insensible que penaliza |y − f (x)|ε := (|y − f (x)| − ε)+ por predecir f (x) cuando el verdadero valor es y, su nombre se debe a que errores menores en valor absoluto a ε no son penalizados Alonso Baranda Lozada 13 de marzo de 2018 27 / 42
  • 48. Fundamentos Matemáticos Bonus ! Regresión SVM Introducimos la función de pérdida de Vapnik, ε–insensible que penaliza |y − f (x)|ε := (|y − f (x)| − ε)+ por predecir f (x) cuando el verdadero valor es y, su nombre se debe a que errores menores en valor absoluto a ε no son penalizados La regresión SVM es el caso particular del teorema de representación aplicado a la función de pérdida de Vapnik, es decir «ınf f ∈H,b∈R C N i=1 (|yi − (f (xi ) + b)| − ε)+ + 1 2 f 2 Alonso Baranda Lozada 13 de marzo de 2018 27 / 42
  • 49. Calibración y Validación Calibración En modelos estadísticos paramétricos de regresión (vía máxima verosimilitud) los parámetros estimados γ = (θ1, . . . , θd ) son por lo general únicos, encontramos γ que maximiza una función de verosimilitud Alonso Baranda Lozada 13 de marzo de 2018 28 / 42
  • 50. Calibración y Validación Calibración En modelos estadísticos paramétricos de regresión (vía máxima verosimilitud) los parámetros estimados γ = (θ1, . . . , θd ) son por lo general únicos, encontramos γ que maximiza una función de verosimilitud Este no es el caso de SVM, cada estimación de una SVM se realiza con parámetros γ = (C, θ1, . . . , θd ) fijos, aquí C es el parámetro de penalización y (θ1, . . . , θd ) los parámetros intrínsecos del kernel Alonso Baranda Lozada 13 de marzo de 2018 28 / 42
  • 51. Calibración y Validación Calibración Para calibrar una SVM se utiliza Calibración Cruzada. Dada una muestra X se separa disjuntamente en dos muestras, desarrollo D y validación V , con X = D V Se considera un subconjunto finito del espacio de parámetros Γ = {γ1, . . . , γt}, de tal manera que al correr la SVM con todos los γi ∈ Γ sepamos que combinaciones de parámetros dan buenos resultados tanto en desarrollo como en validación Se escoge el parámetro γi ∈ Γ que haya mostrado buenos resultados tanto en desarrollo como en validación, se busca que el parámetro γi sea parsimonioso/intuitivo Alonso Baranda Lozada 13 de marzo de 2018 29 / 42
  • 52. Calibración y Validación Validación Los Tests clásicos NO Paramétricos para medir el desempeño de un modelo (poder de discriminación) de clasificación binaria son los siguientes: • Tasa de error de clasificación (error rate) Alonso Baranda Lozada 13 de marzo de 2018 30 / 42
  • 53. Calibración y Validación Validación Los Tests clásicos NO Paramétricos para medir el desempeño de un modelo (poder de discriminación) de clasificación binaria son los siguientes: • Tasa de error de clasificación (error rate) • Estadístico KS muestral Alonso Baranda Lozada 13 de marzo de 2018 30 / 42
  • 54. Calibración y Validación Validación Los Tests clásicos NO Paramétricos para medir el desempeño de un modelo (poder de discriminación) de clasificación binaria son los siguientes: • Tasa de error de clasificación (error rate) • Estadístico KS muestral • Estadístico Gini muestral Alonso Baranda Lozada 13 de marzo de 2018 30 / 42
  • 55. Calibración y Validación Validación Los Tests clásicos NO Paramétricos para medir el desempeño de un modelo (poder de discriminación) de clasificación binaria son los siguientes: • Tasa de error de clasificación (error rate) • Estadístico KS muestral • Estadístico Gini muestral • Curvas CAP y ROC y sus estadísticos Accuracy Ratio y AUROC Alonso Baranda Lozada 13 de marzo de 2018 30 / 42
  • 56. Calibración y Validación Validación A continuación enunciamos kernels populares en Machine Learning. Sea X = Rp, entonces k : Rp × Rp → R dada por: • k(x, x ) = x · x , es el kernel lineal Alonso Baranda Lozada 13 de marzo de 2018 31 / 42
  • 57. Calibración y Validación Validación A continuación enunciamos kernels populares en Machine Learning. Sea X = Rp, entonces k : Rp × Rp → R dada por: • k(x, x ) = x · x , es el kernel lineal • k(x, x ) = (θx · x + c)n, es el kernel polinomial Alonso Baranda Lozada 13 de marzo de 2018 31 / 42
  • 58. Calibración y Validación Validación A continuación enunciamos kernels populares en Machine Learning. Sea X = Rp, entonces k : Rp × Rp → R dada por: • k(x, x ) = x · x , es el kernel lineal • k(x, x ) = (θx · x + c)n, es el kernel polinomial • k(x, x ) = exp(−σ x − x ), es el kernel Laplaciano Alonso Baranda Lozada 13 de marzo de 2018 31 / 42
  • 59. Calibración y Validación Validación A continuación enunciamos kernels populares en Machine Learning. Sea X = Rp, entonces k : Rp × Rp → R dada por: • k(x, x ) = x · x , es el kernel lineal • k(x, x ) = (θx · x + c)n, es el kernel polinomial • k(x, x ) = exp(−σ x − x ), es el kernel Laplaciano • k(x, x ) = exp(−σ x − x 2), es el kernel Gaussiano de base radial Alonso Baranda Lozada 13 de marzo de 2018 31 / 42
  • 60. Calibración y Validación Validación A continuación enunciamos kernels populares en Machine Learning. Sea X = Rp, entonces k : Rp × Rp → R dada por: • k(x, x ) = x · x , es el kernel lineal • k(x, x ) = (θx · x + c)n, es el kernel polinomial • k(x, x ) = exp(−σ x − x ), es el kernel Laplaciano • k(x, x ) = exp(−σ x − x 2), es el kernel Gaussiano de base radial • k(x, x ) = tanh(θx · x + c), es el kernel tangente hiperbólico Alonso Baranda Lozada 13 de marzo de 2018 31 / 42
  • 61. Clasificación Tablero Ajedrez Planteamiento Problema Problema de Clasificación en un Tablero de Ajedrez. N observaciones son simuladas, distribuidas uniformemente en el cuadrado C = [0, 1] × [0, 1]. El cuadrado C tiene una cuadrícula con cuadros blancos y negros, como un tablero de ajedrez, y cada observación simulada en C pertenece al color {blanco, negro} del cuadrado donde se encuentra. Formalmente, sea 1 < k ∈ N, para 1 ≤ l ≤ N, sea Xl = (xl,1, xl,2) las coordenadas del l-ésimo dato simulado en C, definimos al , bl ∈ {1, . . . , k} como los enteros que satisfacen (al − 1)/k ≤ xl,1 < al /k, (bl − 1)/k ≤ xl,2 < bl /k, la clase yl de Xl es -1 si al + bl ≡ 0 m«od 2, y 1 si al + bl ≡ 1 m«od 2, en este caso tenemos una cuadricula con c = k2 cuadrados. Alonso Baranda Lozada 13 de marzo de 2018 32 / 42
  • 62. Clasificación Tablero Ajedrez Planteamiento Problema Problema de Clasificación en un Tablero de Ajedrez Tenemos una muestra de desarrollo D ⊂ C de tamaño N y una cuadricula de validación V ⊂ C de tamaño M2 , dada por V = {x = (i, j)/M : 1 ≤ i, j ≤ M}, suponiendo que k = 8, deseamos encontrar una SVM mediante calibración cruzada que genere buena clasificación tanto en D como en V . Alonso Baranda Lozada 13 de marzo de 2018 33 / 42
  • 63. Clasificación Tablero Ajedrez Planteamiento Problema Problema de Clasificación en un Tablero de Ajedrez Tenemos una muestra de desarrollo D ⊂ C de tamaño N y una cuadricula de validación V ⊂ C de tamaño M2 , dada por V = {x = (i, j)/M : 1 ≤ i, j ≤ M}, suponiendo que k = 8, deseamos encontrar una SVM mediante calibración cruzada que genere buena clasificación tanto en D como en V . Utilizaremos RStudio y la librería kernlab para solucionar el problema Alonso Baranda Lozada 13 de marzo de 2018 33 / 42
  • 64. Clasificación Tablero Ajedrez Solución del Problema Observaciones Pertinentes (a) Utilizamos k = 8, debido a que el tablero de ajedrez tiene c = 64 = 8 × 8 cuadrados, k pudo haber sido cualquier entero positivo Alonso Baranda Lozada 13 de marzo de 2018 34 / 42
  • 65. Clasificación Tablero Ajedrez Solución del Problema Observaciones Pertinentes (a) Utilizamos k = 8, debido a que el tablero de ajedrez tiene c = 64 = 8 × 8 cuadrados, k pudo haber sido cualquier entero positivo (b) El número esperado de datos en cada cuadrado es de = N/64, en particular N = 10, 000 genera de = 156.25 datos esperados por cuadrado, mostraremos que fijando N = 10, 000 y M = 101, (en V hay M2 = 10, 201 datos) se obtienen buenos resultados de clasificacción tanto en D como en V Alonso Baranda Lozada 13 de marzo de 2018 34 / 42
  • 66. Clasificación Tablero Ajedrez Solución del Problema Observaciones Pertinentes (c) El lector familiarizado con problemas de clasificación podrá observar que un modelo logit con c = k2 = 64 variables indicadoras Zi (una por cada cuadrado) es un modelo natural para solucionar el problema, sin embargo, dicho lector conocedor podrá advertír que en este modelo la solución se está dando como input Alonso Baranda Lozada 13 de marzo de 2018 35 / 42
  • 67. Clasificación Tablero Ajedrez Solución del Problema Observaciones Pertinentes (c) El lector familiarizado con problemas de clasificación podrá observar que un modelo logit con c = k2 = 64 variables indicadoras Zi (una por cada cuadrado) es un modelo natural para solucionar el problema, sin embargo, dicho lector conocedor podrá advertír que en este modelo la solución se está dando como input (d) Utilizaremos el kernel Gaussiano de base radial debido a que la dimensión del espacio asociado H es infinita y está dado por k (x, x ) = exp(−σ x − x 2 ). En la calibración cruzada, mostraremos que podemos encontrar una SVM que obtenga buenos resultados de clasificacción tanto en D como en V , variando únicamente el parámetro σ del kernel en potencias de 2 y fijando el parámetro de penalización en C = 1. Alonso Baranda Lozada 13 de marzo de 2018 35 / 42
  • 68. Clasificación Tablero Ajedrez Solución del Problema Figura : Muestra de Desarrollo D Alonso Baranda Lozada 13 de marzo de 2018 36 / 42
  • 69. Clasificación Tablero Ajedrez Solución del Problema Figura : Cuadrícula de Validación V Alonso Baranda Lozada 13 de marzo de 2018 37 / 42
  • 70. Clasificación Tablero Ajedrez Solución del Problema Figura : Sintaxis Calibración Cruzada Alonso Baranda Lozada 13 de marzo de 2018 38 / 42
  • 71. Clasificación Tablero Ajedrez Solución del Problema Figura : Primera SVM, muestra mal desempeño, solo produce una clasificación Alonso Baranda Lozada 13 de marzo de 2018 39 / 42
  • 72. Clasificación Tablero Ajedrez Solución del Problema Figura : Octava SVM, no hay buena discriminación ni en training ni en validación Alonso Baranda Lozada 13 de marzo de 2018 39 / 42
  • 73. Clasificación Tablero Ajedrez Solución del Problema Figura : La catorceava SVM es candidata a ser la SVM mas parsimoniosa, debido al accuracy obtenido y al número de vectores soporte Alonso Baranda Lozada 13 de marzo de 2018 40 / 42
  • 74. Clasificación Tablero Ajedrez Solución del Problema Figura : La vigésimo cuarta SVM muestra overfit generalizado, el accuracy en la muestra de validación es menor a 57 % y en desarrollo es del 100 % Alonso Baranda Lozada 13 de marzo de 2018 41 / 42
  • 75. Contacto Contacto Usuario: Alonso Baranda Lozada alonsobaranda@ciencias.unam.mx alonso.baranda@tcs.com Alonso Baranda Lozada 13 de marzo de 2018 42 / 42