RKHS, teoría y aplicaciones con machine learning

RKHS, Teoría y Aplicaciones
con Machine Learning
Alonso Baranda Lozada
alonsobaranda@ciencias.unam.mx
alonso.baranda@tcs.com
https://sg.com.mx/dataday
#DataDayMxUsuario: Alonso Baranda Lozada

Introducción SVM
La idea de esta plática es presentar modelos de clasiﬁcación y regresión
provenientes de Machine Learning llamadas máquinas de soporte vectorial
(SVM)
Alonso Baranda Lozada 13 de marzo de 2018 1 / 42

Introducción SVM
(SVM)
Originalmente las SVM fueron desarrolladas para clasiﬁcación binaria,
posteriormente se extendió la teoría para poder hacer hacer
regresión y clasiﬁcación con M > 2 clases

Introducción SVM
(SVM)
Originalmente las SVM fueron desarrolladas para clasificación binaria,
posteriormente se extendió la teoría para poder hacer hacer
regresión y clasificación con M > 2 clases
La idea empírica de las SVM, en el caso de clasificación, consiste en
transformar (mapear) un conjunto de datos de entrenamiento
XN×p ⊂ X, a un espacio H, la dimensión de H es por lo general
mucho mayor a p, incluso puede ser infinita. En este espacio se buscan
fronteras de desición lineales
π(H,v,b) := {w ∈ H : v, w H + b = 0},
para clasificar los datos

Nociones Geométricas Hiperplano Óptimo de Separación
Deﬁnición
(Hiperplano) Sean β, p vectores en Rn con β = 0. Sea
π := {x ∈ Rn
: β · (x − p) = 0} (1)
π es llamado el hiperplano que pasa por p ortogonal a β y β es llamado un
vector normal al hiperplano π
Deﬁnición
(Conjunto Linealmente Separable) Sea XN×p una matriz con entradas
reales y yi ∈ {1, −1} la clase del i–ésimo dato. Decimos que XN×p es
linealmente separable si existen β ∈ Rp y β0 ∈ R tales que para 1 ≤ i ≤ N
se cumple
yi (xi · β + β0) > 0 (2)

Figura : Tenemos que yi (xi · β + β0) > 0 para 1 ≤ i ≤ N. El plano π
representado por β · x + β0 = 0 separa linealmente a los datos de manera perfecta

La SVM en su forma más simple, es decir, en el caso linealmente
separable se deﬁne como el siguiente problema de Optimización
Convexa
sup
β∈Rp,β0∈R
M sujeto a
yi
β
(xi · β + β0) ≥ M, 1 ≤ i ≤ N (3)
el cual es equivalente a
ínfβ∈Rp,β0∈R
1
2
β 2
sujeto a yi (xi · β + β0) ≥ 1, 1 ≤ i ≤ N (4)
La solucion se obtiene por medio del problema Dual de optimización
convexa (utilizamos KKT) y está dado por:
g∗
= sup
α1,...,αN ,αi ≥0
−
1
2
N
i=1
N
k=1
(αi αkyi yk) (xi · xk) +
N
i=1
αi (5)

En (5), las restricciones son
α = (α1, . . . αN) ∈ RN
, αi ≥ 0, 1 ≤ i ≤ N, (6)
N
i=1
αi yi = 0 (7)
Recuperamos β0 de las restricciones KKT y a β de la siguiente manera:
β =
N
i=1
αi yi xi (8)
ambos resultan únicos. Gran parte de los αi son cero, aquellos xi para los
cuales αi > 0 son llamados Vectores Soporte, pues contribuyen en la
combinación lineal para expresar el vector normal β del plano
óptimo de separación en la ecuación (8), ver ﬁgura (2)

Figura : El valor M∗
de (3) equivale al valor 1
β∗ de (4). Los puntos azules + y
− son vectores soporte y π0 es llamado el Hiperplano Óptimo de Separación

Nociones Geométricas Generalización del Caso No Separable
Cuando el conjunto de datos NO es linealmente separable se plantea
el siguiente problema de optimización convexa con penalizaciones
f ∗
= ínfβ∈Rp,β0∈R,ξ∈RN
1
2
β 2
+ C
N
i=1
ξi sujeto a
yi (β · xi + β0) ≥ 1 − ξi , ξi ≥ 0, 1 ≤ i ≤ N (9)
donde C es una constante positiva pre–establecida, que penaliza los
errores, y su solución está dada por
g∗
= sup
0≤(α,µ)∈R2N
−
1
2
N
i=1
N
k=1
(αi αkyi yk) (xi · xk) +
N
i=1
αi (10)

La solución anterior es analíticamente idéntica a 5, salvo por las
restricciones que toman la forma:
0 ≤ αi ≤ C, 1 ≤ i ≤ N (11)
N
i=1
αi yi = 0, (12)
Recuperamos a β0 de las restricciones KKT y a β de la misma manera, es
decir, como en (8), ambos resultan ser únicos. Geométricamente la
solución de 9 se muestra en la ﬁgura (3)

Figura : Los puntos azules representan vectores soporte o valores para los cuales
ξi > 0

Finalmente si x es una observación nueva, es decir, independiente a la
muestra en entrenamiento, la clasiﬁcamos al la clase {1, −1} de la
siguiente manera:
y(x) = sign (β∗
· x + β∗
0)
Brevario Cultural: En el célebre artículo, Support Vector Networks
(Machine Learning, 20, 273-297, 1995), Vapnik y Cortes introducen
la Generalización del Caso No Separable, ver ecuación 9, el cual
extiende el marco teórico de las SVM. Previamente solo existía el caso
para conjuntos de datos linealmente separables, en este artículo se
extienden las SVM al caso no separable

Máquinas de Soporte Vectorial Transformaciones del Espacio
Sea XN×p un conjunto de N datos p–valuados. Consideremos φ: Rp → Rq
dada por
φ (x) = (φ1(x), . . . , φq(x)) (13)
entonces φ (X) es un conjunto de N datos q–valuados, es decir, es una
Transformación del Espacio. En donde podemos aplicar los resultados
del Hiperplano Óptimo de Separación o su Generalización !

Máquinas de Soporte Vectorial Transformaciones del Espacio
Sea XN×p un conjunto de N datos p–valuados. Consideremos φ: Rp → Rq
dada por
φ (x) = (φ1(x), . . . , φq(x)) (13)
entonces φ (X) es un conjunto de N datos q–valuados, es decir, es una
Transformación del Espacio. En donde podemos aplicar los resultados
del Hiperplano Óptimo de Separación o su Generalización !
Figura : Ejemplo juguete, dos espirales simulados y posteriormente transformados.

Máquinas de Soporte Vectorial Truco del Kernel
Si definimos k : Rp × Rp → R dada por
k x, x = φ(x) · φ(x ) (14)
entonces la clasificación de una nueva observación x se puede calcular como
y(x) = sign
N
i=1
αi yi k (xi , x) + β0 (15)
La clasificación (15) es llamada una asignación de una máquina de
soporte vectorial
Las ecuaciones (14) y (15) tienen un significado profundo, nos dicen
que la transformación del espacio φ pasa a ser irrelevante si
podemos encontrar k de manera que k (x, x ) = φ(x) · φ(x ) para todo
x, x ∈ Rp, está propiedad es llamada Truco del Kernel

Máquinas de Soporte Vectorial Truco del Kernel
El truco del kernel lo podremos extender (como su nombre lo indica) a
funciones k mas generales, llamadas kernels. Existe una teoría robusta
donde (15) es únicamente un caso particular de un problema de
regularización mucho más general en un espacio de Hilbert de
funciones llamado RKHS

Fundamentos Matemáticos
El objetivo de esta sección es mostrar el camino y los conceptos
necesarios para demostrar el Truco del Kernel, lo cual se resume en
el siguiente diagrama

Fundamentos Matemáticos Espacios de Hilbert
Para hablar de SVM de manera formal necesitamos un Espacio donde
trabajar. Los espacios donde viven las SVM son espacios de Hilbert,
espacios que no tienen agujeros y que están provistos de una
geometría, inducida por su producto interior

Fundamentos Matemáticos Espacios de Hilbert
Para hablar de SVM de manera formal necesitamos un Espacio donde
trabajar. Los espacios donde viven las SVM son espacios de Hilbert,
espacios que no tienen agujeros y que están provistos de una
geometría, inducida por su producto interior
Deﬁnición
(Espacio de Hilbert) Un espacio de Hilbert H es un espacio vectorial
completo con la métrica inducida por su producto interior ·, · H, es decir,
con la siguiente métrica ρ(x, y) = x − y H = x − y, x − y
1
2
H

Fundamentos Matemáticos Kernels
Para entender las SVM requerimos tres nociones de kernel; una de
naturaleza geométrica, otra analítica y otra práctica

Deﬁnición
(Kernel - Geométrica) Sea X = ∅. La función k : X × X → R es llamada
kernel si existe un espacio de Hilbert real H y una función φ: X → H tal
que para todo x, y ∈ X, se tiene
k (x, y) = φ(x), φ(y) H (16)

Deﬁnición
(Kernel - Geométrica) Sea X = ∅. La función k : X × X → R es llamada
kernel si existe un espacio de Hilbert real H y una función φ: X → H tal
que para todo x, y ∈ X, se tiene
k (x, y) = φ(x), φ(y) H (16)
Esta deﬁnición es la mejor para entender las SVM

Deﬁnición
(Kernel Réplica - Analítica) Sea H un espacio de Hilbert de funciones
f : X → R. Una función k : X × X → R es llamada una kernel réplica de H
si satisface:
1 ∀x ∈ X, k (·, x) : X → R, x → k (x , x) pertenece a H
(k (·, x) ∈ H ∀x ∈ X).
2 Se cumple la propiedad de réplica:
∀x ∈ X, ∀f ∈ H f , k(·, x) H = f (x)

Deﬁnición
(Kernel Réplica - Analítica) Sea H un espacio de Hilbert de funciones
f : X → R. Una función k : X × X → R es llamada una kernel réplica de H
si satisface:
1 ∀x ∈ X, k (·, x) : X → R, x → k (x , x) pertenece a H
(k (·, x) ∈ H ∀x ∈ X).
2 Se cumple la propiedad de réplica:
∀x ∈ X, ∀f ∈ H f , k(·, x) H = f (x)
La noción analítica se utiliza para construir y caracterizar los
espacios RKHS

Definición
(Kernel simétrico definido semi–positivo (KSPD) - Práctica) Sea k
una función simétrica, k : X × X → R. Decimos que k es un Kernel
simétrico definido semi–positivo, (abreviado por KSPD), si ∀n ≥ 1,
∀ (a1, . . . , an) ∈ Rn y ∀ (x1, . . . xn) ∈ Xn, se cumple
n
i=1
n
j=1
ai aj k (xi , xj ) ≥ 0 (17)

Definición
(Kernel simétrico definido semi–positivo (KSPD) - Práctica) Sea k
una función simétrica, k : X × X → R. Decimos que k es un Kernel
simétrico definido semi–positivo, (abreviado por KSPD), si ∀n ≥ 1,
∀ (a1, . . . , an) ∈ Rn y ∀ (x1, . . . xn) ∈ Xn, se cumple
n
i=1
n
j=1
ai aj k (xi , xj ) ≥ 0 (17)
La definición práctica, nos ayudará a dicernir si una función k es un
kernel o no

El siguiente diagrama de implicaciones nos dice como demostrar una
deﬁnición a partir de la otra

Fundamentos Matemáticos Espacios RKHS
Intuitivamente los espcaios RKHS son espacios de funciones que se
comportan bien en el sentido de proximidad, si dos funciones estan
próximas, sus evaluaciones puntuales también lo harán

Deﬁnición
(Funcionales de evaluación de Dirac) Sea H un espacio de Hilbert de
funciones f : X → R. Para x ∈ X ﬁjo, sea δx : H → R dada por
δx (f ) = f (x), δx es llamada la funcional de evaluación de Dirac

Definición
(Funcionales de evaluación de Dirac) Sea H un espacio de Hilbert de
funciones f : X → R. Para x ∈ X fijo, sea δx : H → R dada por
δx (f ) = f (x), δx es llamada la funcional de evaluación de Dirac
Definición
(RKHS) Sea H un espacio de Hilbert de funciones f : X → R. Decimos
que H es un RKHS si para toda x ∈ X, la funcional de evaluación de Dirac
δx es continua

El Teorema de Caracterización muestra la relación que guardan los
espacios RKHS con la noción de kernel y el Teorema de
Moore–Aronszajn construye un espacio que es lugar donde viven
las SVM

las SVM
Teorema
(Caracterizacion de los espacios RKHS) H es un RKHS si y sólo si H
admite un Kernel Réplica

las SVM
Teorema
(Caracterizacion de los espacios RKHS) H es un RKHS si y sólo si H
admite un Kernel Réplica
Teorema
Moore–Aronszajn Sea k : X × X → R un KSPD, entonces existe un
único RKHS, H ⊆ RX , para el cual k es kernel Réplica

Las SVM son un caso particular del siguiente teorema, el cual aﬁrma
que las soluciones de una minimización de una funcional de riesgo en
un RKHS son combinaciones lineales de la muestra de entrenamiento

Las SVM son un caso particular del siguiente teorema, el cual aﬁrma
que las soluciones de una minimización de una funcional de riesgo en
un RKHS son combinaciones lineales de la muestra de entrenamiento
Teorema
(Teorema de Representación) Sea k : X × X → R un KSPD y H el
RKHS asociado a k. Sean S = (x1, y1) , . . . , (xm, ym) ⊆ X × R, una
muestra de entrenamiento, c : X × R2 m
→ R ∪ {∞} una función de
penalización, g : [0, ∞) → R una función no decreciente, el problema de
regularización
ínfh∈Hc [(x1, y1, h(x1)) , . . . , (xm, ym, h(xm)))] + g ( h H) ,
puede ser resuelto considerando únicamente funciones f con la siguiente
representación
f (·) =
m
i=1
αi k(·, xi )

El Lema de Equivalencia, expresa el problema de optimización de SVM
(caso no separable), como un método de penalización

El Lema de Equivalencia, expresa el problema de optimización de SVM
(caso no separable), como un método de penalización
Lema
(Equivalencia de SVM) El problema de optimización
ínfβ∈Rp,b∈R
N
i=1
[1 − yi (β · xi + b)]+ +
λ
2
β 2
(18)
con λ = 1
C , es equivalente al problema de optimización de SVM (caso no
separable)
1
C
ínfβ∈Rp,b∈R,ξ∈RN C
N
i=1
ξi +
1
2
β 2
sujeto a
ξi ≥ 0, ξi ≥ 1 − yi (β · xi + b) , 1 ≤ i ≤ N

El truco del kernel expresa a las SVM como un problema de
regularización en un RKHS

El truco del kernel expresa a las SVM como un problema de
regularización en un RKHS
Teorema
(Truco del Kernel) Sea k un KSPD en Rp, (k : Rp × Rp → R) y H el
RKHS asociado a k. Entonces el problema de regularización
Cínff ∈H,b∈R
N
i=1
(1 − yi (f (xi ) + b))+ +
λ
2
f 2
H (19)
con λ = 1
C es equivalente a solucionar
g∗
= sup
α∈RN
+
N
i=1
αi −
1
2
N
i,j=1
αi αj yi yj Kij (20)
sujeto a 0 ≤ αi ≤ C (1 ≤ i ≤ N) y N
i=1 αi yi = 0

El tour que acabamos de hacer se resume en el siguiente diagrama

Fundamentos Matemáticos Conclusiones SVM
A partir de la deﬁnición geométrica de Kernel se puede
demostrar que la frontera de desición, resulta ser un hiperplano
en H:
πH,β,b := {w ∈ H : φ(β), w H + b = 0},
donde β = N
i=1 α∗
i y∗
i xi , la frontera de desición en el espacio
original por lo general, no es lineal

en H:
πH,β,b := {w ∈ H : φ(β), w H + b = 0},
donde β = N
i=1 α∗
i y∗
La clasiﬁcación para una nueva observación x queda dada por
f (x) = sign
N
i=1
αi yi k (xi , x) + b

en H:
πH,β,b := {w ∈ H : φ(β), w H + b = 0},
donde β = N
i=1 α∗
i y∗
La clasiﬁcación para una nueva observación x queda dada por
f (x) = sign
N
i=1
αi yi k (xi , x) + b
La grandeza del truco del kernel radica en que φ y H pasan a
ser de cierta manera irrelevantes, su información está contenida
en el kernel k

Fundamentos Matemáticos Bonus ! Regresión SVM
Introducimos la función de pérdida de Vapnik, ε–insensible que
penaliza
|y − f (x)|ε := (|y − f (x)| − ε)+
por predecir f (x) cuando el verdadero valor es y, su nombre se debe a
que errores menores en valor absoluto a ε no son penalizados

Fundamentos Matemáticos Bonus ! Regresión SVM
Introducimos la función de pérdida de Vapnik, ε–insensible que
penaliza
|y − f (x)|ε := (|y − f (x)| − ε)+
por predecir f (x) cuando el verdadero valor es y, su nombre se debe a
que errores menores en valor absoluto a ε no son penalizados
La regresión SVM es el caso particular del teorema de
representación aplicado a la función de pérdida de Vapnik, es
decir
«ınf
f ∈H,b∈R
C
N
i=1
(|yi − (f (xi ) + b)| − ε)+ +
1
2
f 2

Calibración y Validación Calibración
En modelos estadísticos paramétricos de regresión (vía máxima
verosimilitud) los parámetros estimados
γ = (θ1, . . . , θd )
son por lo general únicos, encontramos γ que maximiza una función
de verosimilitud

En modelos estadísticos paramétricos de regresión (vía máxima
verosimilitud) los parámetros estimados
γ = (θ1, . . . , θd )
son por lo general únicos, encontramos γ que maximiza una función
de verosimilitud
Este no es el caso de SVM, cada estimación de una SVM se realiza
con parámetros γ = (C, θ1, . . . , θd ) ﬁjos, aquí C es el parámetro de
penalización y (θ1, . . . , θd ) los parámetros intrínsecos del kernel

Para calibrar una SVM se utiliza Calibración Cruzada. Dada una
muestra X se separa disjuntamente en dos muestras, desarrollo D y
validación V , con
X = D V
Se considera un subconjunto ﬁnito del espacio de parámetros
Γ = {γ1, . . . , γt},
de tal manera que al correr la SVM con todos los γi ∈ Γ sepamos que
combinaciones de parámetros dan buenos resultados tanto en
desarrollo como en validación
Se escoge el parámetro γi ∈ Γ que haya mostrado buenos
resultados tanto en desarrollo como en validación, se busca que
el parámetro γi sea parsimonioso/intuitivo

Calibración y Validación Validación
Los Tests clásicos NO Paramétricos para medir el desempeño de un
modelo (poder de discriminación) de clasiﬁcación binaria son los siguientes:
• Tasa de error de clasiﬁcación (error rate)

• Estadístico KS muestral

• Estadístico Gini muestral

• Estadístico Gini muestral
• Curvas CAP y ROC y sus estadísticos Accuracy Ratio y AUROC

A continuación enunciamos kernels populares en Machine Learning. Sea
X = Rp, entonces k : Rp × Rp → R dada por:
• k(x, x ) = x · x , es el kernel lineal

• k(x, x ) = (θx · x + c)n, es el kernel polinomial

• k(x, x ) = exp(−σ x − x ), es el kernel Laplaciano

• k(x, x ) = exp(−σ x − x 2), es el kernel Gaussiano de base radial

• k(x, x ) = exp(−σ x − x 2), es el kernel Gaussiano de base radial
• k(x, x ) = tanh(θx · x + c), es el kernel tangente hiperbólico

Clasificación Tablero Ajedrez Planteamiento Problema
Problema de Clasificación en un Tablero de Ajedrez.
N observaciones son simuladas, distribuidas uniformemente en el cuadrado
C = [0, 1] × [0, 1].
El cuadrado C tiene una cuadrícula con cuadros blancos y negros, como un
tablero de ajedrez, y cada observación simulada en C pertenece al color
{blanco, negro} del cuadrado donde se encuentra. Formalmente, sea
1 < k ∈ N, para 1 ≤ l ≤ N, sea Xl = (xl,1, xl,2) las coordenadas del l-ésimo
dato simulado en C, definimos al , bl ∈ {1, . . . , k} como los enteros que
satisfacen
(al − 1)/k ≤ xl,1 < al /k, (bl − 1)/k ≤ xl,2 < bl /k,
la clase yl de Xl es -1 si
al + bl ≡ 0 m«od 2,
y 1 si
al + bl ≡ 1 m«od 2,
en este caso tenemos una cuadricula con c = k2
cuadrados.

Problema de Clasiﬁcación en un Tablero de Ajedrez
Tenemos una muestra de desarrollo D ⊂ C de tamaño N y una cuadricula de
validación V ⊂ C de tamaño M2
, dada por
V = {x = (i, j)/M : 1 ≤ i, j ≤ M},
suponiendo que k = 8, deseamos encontrar una SVM mediante calibración
cruzada que genere buena clasiﬁcación tanto en D como en V .

Problema de Clasiﬁcación en un Tablero de Ajedrez
Tenemos una muestra de desarrollo D ⊂ C de tamaño N y una cuadricula de
validación V ⊂ C de tamaño M2
, dada por
V = {x = (i, j)/M : 1 ≤ i, j ≤ M},
suponiendo que k = 8, deseamos encontrar una SVM mediante calibración
cruzada que genere buena clasiﬁcación tanto en D como en V .
Utilizaremos RStudio y la librería kernlab para solucionar el problema

Clasiﬁcación Tablero Ajedrez Solución del Problema
Observaciones Pertinentes
(a) Utilizamos k = 8, debido a que el tablero de ajedrez tiene
c = 64 = 8 × 8 cuadrados, k pudo haber sido cualquier entero positivo

(a) Utilizamos k = 8, debido a que el tablero de ajedrez tiene
c = 64 = 8 × 8 cuadrados, k pudo haber sido cualquier entero positivo
(b) El número esperado de datos en cada cuadrado es de = N/64, en
particular N = 10, 000 genera de = 156.25 datos esperados por
cuadrado, mostraremos que ﬁjando N = 10, 000 y M = 101, (en V
hay M2 = 10, 201 datos) se obtienen buenos resultados de
clasiﬁcacción tanto en D como en V

(c) El lector familiarizado con problemas de clasiﬁcación podrá observar
que un modelo logit con c = k2 = 64 variables indicadoras Zi (una
por cada cuadrado) es un modelo natural para solucionar el problema,
sin embargo, dicho lector conocedor podrá advertír que en este
modelo la solución se está dando como input

(c) El lector familiarizado con problemas de clasificación podrá observar
que un modelo logit con c = k2 = 64 variables indicadoras Zi (una
por cada cuadrado) es un modelo natural para solucionar el problema,
sin embargo, dicho lector conocedor podrá advertír que en este
modelo la solución se está dando como input
(d) Utilizaremos el kernel Gaussiano de base radial debido a que la
dimensión del espacio asociado H es infinita y está dado por
k (x, x ) = exp(−σ x − x 2
).
En la calibración cruzada, mostraremos que podemos encontrar una
SVM que obtenga buenos resultados de clasificacción tanto en D
como en V , variando únicamente el parámetro σ del kernel en
potencias de 2 y fijando el parámetro de penalización en C = 1.

Figura : Muestra de Desarrollo D

Figura : Cuadrícula de Validación V

Figura : Sintaxis Calibración Cruzada

Figura : Primera SVM, muestra mal desempeño, solo produce una clasiﬁcación

Figura : Octava SVM, no hay buena discriminación ni en training ni en validación

Figura : La catorceava SVM es candidata a ser la SVM mas parsimoniosa, debido
al accuracy obtenido y al número de vectores soporte

Figura : La vigésimo cuarta SVM muestra overﬁt generalizado, el accuracy en la
muestra de validación es menor a 57 % y en desarrollo es del 100 %

Contacto Contacto
Usuario: Alonso Baranda Lozada
alonsobaranda@ciencias.unam.mx
alonso.baranda@tcs.com

RKHS, teoría y aplicaciones con machine learning

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a RKHS, teoría y aplicaciones con machine learning

Similar a RKHS, teoría y aplicaciones con machine learning (20)

Más de Software Guru

Más de Software Guru (20)

Último

Último (11)

RKHS, teoría y aplicaciones con machine learning