Multicapa y backpropagation

Problema XOR con 3 neuronas
Diego Milone
Inteligencia Computacional
Departamento de Informática
FICH-UNL

Inteligencia Computacional - FICH - UNL
¿Cómo podríamos resolver el problema XOR?
x1
x2
−1
+1
+1
−1

Primera capa: perceptrones A y B
x1
x2
−1
+1
+1
−1
x1
x2
−1
+1
+1
−1

x1
x2
−1
+1
+1
−1
A
x1
x2
−1
+1
+1
−1
A

x1
x2
−1
+1
+1
−1
A
x1
x2
−1
+1
+1
−1
A
B

Segunda capa: perceptron C
x1
x2
−1
+1
+1
−1
A
x1
x2
−1
+1
+1
−1
A
B
x1
x2
−1
+1
+1
−1

Tabla de verdad para el perceptron C
x1
x2
−1
+1
+1
−1
A
B

yB
yA
−1
+1
−1

yB
yA
−1
+1
−1 X

yB
yA
−1
+1
−1 X
C

Nuestra primera red neuronal
Un perceptrón multicapa con 3 neuronas
Diego Milone
FICH-UNL

Combinación de perceptrones simples: A
x1
x2
−1
+1
+1
−1
A

x1
x2
−1
+1
+1
−1
A
Perceptrón A: x2 = −1 − x1

x1
x2
−1
+1
+1
−1
A
Perceptrón A: x2 = −1 − x1 = wA0
wA2
− wA1
wA2
x1

x1
x2
−1
+1
+1
−1
A
Perceptrón A: x2 = −1 − x1 = wA0
wA2
− wA1
wA2
x1
→



wA0 = −1
wA1 = +1
wA2 = +1



→ yA = sgn(x2 + x1 + 1)

Combinación de perceptrones simples: B
x1
x2
−1
+1
+1
−1
A
B

x1
x2
−1
+1
+1
−1
A
B
Perceptrón B: x2 = +1 − x1

x1
x2
−1
+1
+1
−1
A
B
Perceptrón B: x2 = +1 − x1
→



wB0 = +1
wB1 = +1
wB2 = +1



→ yB = sgn(x2 + x1 − 1)

Combinación de perceptrones simples: C
yB
yA
−1
+1
−1 X
A
C

yB
yA
−1
+1
−1 X
A
C
Perceptrón C: yA = +1 + yB

yB
yA
−1
+1
−1 X
A
C
Perceptrón C: yA = +1 + yB
→



wC0 = +1
wC1 = −1
wC2 = +1



→ yC = sgn(yA − yB − 1)

¿Cómo es la arquitectura de esta red neuronal?



wC0 = +1
wC1 = −1
wC2 = +1






wA0 = −1
wA1 = +1
wA2 = +1






wB0 = +1
wB1 = +1
wB2 = +1



yA = sgn(x2 + x1 + 1)
yB = sgn(x2 + x1 − 1)

→ yC = sgn(yA − yB − 1)

Y... ¿resolverá el XOR?

x1
x2
A
B
C y

x1
x2
A
B
C y
1
1
1
1
1
−1

x1
x2
A
B
C y
1
1
1
1
1
−1
x0 = −1

x1
x2
A
B
C y
1
1
1
1
1
−1
x0 = −1
−1
1
1

x1
x2
A
B
C y
1
1
1
1
1
−1
x0 = −1 −1
1
1

x1
x2
A
B
C y
1
1
1
1
1
−1
x0 = −1 −1
1
1
yA = sgn(x2 + x1 + 1)
yB = sgn(x2 + x1 − 1)

→ yC = sgn(yA−yB−1)

Perceptrón multicapa:
regiones de decisión y arquitectura
Diego Milone
FICH-UNL

Regiones de decisión

Arquitectura del perceptrón multicapa
x1
x2
x3
x4
y1
y2
Capa
oculta
Capa de
entrada
Capa de
salida

Arquitectura del perceptrón multicapa
x1
x2
x3
x4
y1
y2
WII
yII
WI
yI
WIII
yIII

Cálculo de las salidas en cada capa
• Capa I:
vI
j =
D
wI
j , x
E
=
N
P
i=0
wI
jixi (completo vI = WIx)

• Capa I:
vI
j =
D
wI
j , x
E
=
N
P
i=0
wI
yI
j = φ(vI
j ) =
2
1 + e−bvI
j
− 1 (simétrica ± 1)

• Capa I:
vI
j =
D
wI
j , x
E
=
N
P
i=0
wI
yI
j = φ(vI
j ) =
2
1 + e−bvI
j
− 1 (simétrica ± 1)
• Capa II:
vII
j =
D
wII
j , yI
E
→ yII
j = φ(vII
j )
• Capa III:
vIII
j =
D
wIII
j , yII
E
→ yIII
j = φ(vIII
j ) = yj

Propagación hacia atrás:
caso general y capa de salida
Diego Milone
FICH-UNL

Criterio de error
Suma del error cuadrático instantáneo
ξ(n) =
1
2
M
X
j=1
e2
j (n)

Aplicación del gradiente (caso general)
∆wji(n) = −µ ∂ξ(n)
∂wji(n)

∆wji(n) = −µ ∂ξ(n)
∂wji(n)
∂ξ(n)
∂wji(n)
=
∂ξ(n)
∂ej(n)
∂ej(n)
∂yj(n)
∂yj(n)
∂vj(n)
∂vj(n)
∂wji(n)

∆wji(n) = −µ ∂ξ(n)
∂wji(n)
∂ξ(n)
∂wji(n)
=
∂ξ(n)
∂ej(n)
∂ej(n)
∂yj(n)
∂yj(n)
∂vj(n)
∂vj(n)
∂wji(n)
∂vj(n)
∂wji(n)
=
∂
N
P
i=0
wji(n)yi(n)
∂wji(n)
= yi(n)

∆wji(n) = −µ ∂ξ(n)
∂wji(n)
∂ξ(n)
∂wji(n)
=
∂ξ(n)
∂ej(n)
∂ej(n)
∂yj(n)
∂yj(n)
∂vj(n)
yi(n)
Gradiente de error local instantáneo: δj =
∂ξ(n)
∂yj(n)
∂yj(n)
∂vj(n)

∆wji(n) = µδj(n)yi(n)
∂ξ(n)
∂wji(n)
=
∂ξ(n)
∂ej(n)
∂ej(n)
∂yj(n)
∂yj(n)
∂vj(n)
yi(n)
Gradiente de error local instantáneo: δj =
∂ξ(n)
∂yj(n)
∂yj(n)
∂vj(n)

Derivada de la función de activación simétrica (1/2)
∂yj(n)
∂vj(n)
=
∂
n
2
1+e−vj(n) − 1
o
∂vj(n)
= 2
e−vj(n)
1 + e−vj(n)
2
= 2
1
1 + e−vj(n)
e−vj(n)
1 + e−vj(n)
= 2
1
1 + e−vj(n)
0
z }| {
−1 + 1 +e−vj(n)
1 + e−vj(n)
= 2
1
1 + e−vj(n)
−1
1 + e−vj(n)
+
1 + e−vj(n)
1 + e−vj(n)
!

Derivada de la función de activación simétrica (2/2)
∂yj(n)
∂vj(n)
= 2
1
1 + e−vj(n)

1 −
1
1 + e−vj(n)

= 2
yj(n) + 1
2

1 −
yj(n) + 1
2

= (yj(n) + 1)

1 −
yj(n) + 1
2

= (yj(n) + 1)

2 − yj(n) − 1
2

=
1
2
(yj(n) + 1)(yj(n) − 1)

∆wji(n) = µδj(n)yi(n)
∂ξ(n)
∂wji(n)
=
∂ξ(n)
∂ej(n)
∂ej(n)
∂yj(n)
∂yj(n)
∂vj(n)
yi(n)
Gradiente de error local instantáneo: δj = −
∂ξ(n)
∂yj(n)
∂yj(n)
∂vj(n)
δj =
∂ξ(n)
∂yj(n)
1
2
(1 + yj(n))(1 − yj(n))

Retropropagación en la capa III (salida)
∆wIII
ji (n) = µδIII
j (n)yII
i (n)

∆wIII
ji (n) = µδIII
j (n)yII
i (n)
δIII
j (n) = −
∂ξ(n)
∂yIII
j (n)
1
2
(1 + yIII
j (n))(1 − yIII
j (n))

∆wIII
ji (n) = µδIII
j (n)yII
i (n)
δIII
j (n) = −
∂ξ(n)
∂yIII
j (n)
1
2
(1 + yIII
j (n))(1 − yIII
j (n))
δIII
j (n) = −
∂ξ(n)
∂ej(n)
∂ej(n)
∂yIII
j (n)
1
2
(1 + yIII
j (n))(1 − yIII
j (n))

δIII
j (n) = −
∂
n
1
2
P
j e2
j (n)
o
∂ej(n)
·
∂
n
dIII
j (n) − yIII
j (n)
o
∂yIII
j (n)
·
·
1
2
(1 + yIII
j (n))(1 − yIII
j (n))

δIII
j (n) = −
∂
n
1
2
P
j e2
j (n)
o
∂ej(n)
·
∂
n
dIII
j (n) − yIII
j (n)
o
∂yIII
j (n)
·
·
1
2
(1 + yIII
j (n))(1 − yIII
j (n))
δIII
j (n) = 1
2ej(n)(1 + yIII
j (n))(1 − yIII
j (n))F

δIII
j (n) = −
∂
n
1
2
P
j e2
j (n)
o
∂ej(n)
·
∂
n
dIII
j (n) − yIII
j (n)
o
∂yIII
j (n)
·
·
1
2
(1 + yIII
j (n))(1 − yIII
j (n))
δIII
j (n) = 1
2ej(n)(1 + yIII
j (n))(1 − yIII
j (n))F
∆wIII
ji (n) = ηej(n)(1 + yIII
j (n))(1 − yIII
j (n))yII
i (n)

Propagación hacia atrás:
capas ocultas
Diego Milone
FICH-UNL

Retropropagación en la capa II (oculta)
∆wII
ji (n) = µδII
j (n)yI
i (n)

∆wII
ji (n) = µδII
j (n)yI
i (n)
δII
j (n) = −
∂ξ(n)
∂yII
j (n)
1
2
(1 + yII
j (n))(1 − yII
j (n))

∆wII
ji (n) = µδII
j (n)yI
i (n)
δII
j (n) = −
∂ξ(n)
∂yII
j (n)
1
2
(1 + yII
j (n))(1 − yII
j (n))
δII
j (n) = −
∂
1
2
P
k e2
k(n)

∂yII
j (n)
1
2
(1 + yII
j (n))(1 − yII
j (n))

∆wII
ji (n) = µδII
j (n)yI
i (n)
δII
j (n) = −
∂ξ(n)
∂yII
j (n)
1
2
(1 + yII
j (n))(1 − yII
j (n))
δII
j (n) = −
∂
1
2
P
k e2
k(n)

∂yII
j (n)
1
2
(1 + yII
j (n))(1 − yII
j (n))
δII
j (n) = −
1
2
X
k
∂e2
k(n)
∂yII
j (n)
1
2
(1 + yII
j (n))(1 − yII
j (n))

∆wII
ji (n) = µδII
j (n)yI
i (n)
δII
j (n) = −
∂ξ(n)
∂yII
j (n)
1
2
(1 + yII
j (n))(1 − yII
j (n))
δII
j (n) = −
∂
1
2
P
k e2
k(n)

∂yII
j (n)
1
2
(1 + yII
j (n))(1 − yII
j (n))
δII
j (n) = −
1
2
X
k
∂e2
k(n)
∂yII
j (n)
1
2
(1 + yII
j (n))(1 − yII
j (n))
δII
j (n) = −
X
k
ek(n)
∂ek(n)
∂yII
j (n)
1
2
(1 + yII
j (n))(1 − yII
j (n))

δII
j (n) = −
X
k
ek(n)
∂ek(n)
∂yIII
k (n)
∂yIII
k (n)
∂vIII
k (n)
∂vIII
k (n)
∂yII
j (n)
1
2
(1+yII
j (n))(1−yII
j (n))

δII
j (n) = −
X
k
ek(n)
∂ek(n)
∂yIII
k (n)
∂yIII
k (n)
∂vIII
k (n)
∂vIII
k (n)
∂yII
j (n)
1
2
(1+yII
j (n))(1−yII
j (n))
δII
j (n) = −
X
k
ek(n)·
∂

dIII
k (n) − yIII
k (n)

∂yIII
k (n)
·
1
2
(1 + yIII
k (n))(1 − yIII
k (n)) ·
·
∂
nP
j wIII
kj yII
j (n)
o
∂yII
j (n)
·
1
2
(1 + yII
j (n))(1 − yII
j (n))

δII
j (n) = −
X
k
ek(n)
∂ek(n)
∂yIII
k (n)
∂yIII
k (n)
∂vIII
k (n)
∂vIII
k (n)
∂yII
j (n)
1
2
(1+yII
j (n))(1−yII
j (n))
δII
j (n) = −
X
k
ek(n)·
∂

dIII
k (n) − yIII
k (n)

∂yIII
k (n)
·
1
2
(1 + yIII
k (n))(1 − yIII
k (n)) ·
·
∂
nP
j wIII
kj yII
j (n)
o
∂yII
j (n)
·
1
2
(1 + yII
j (n))(1 − yII
j (n))
δII
j (n) = −
X
k
ek(n)·(−1) ·
1
2
(1 + yIII
k (n))(1 − yIII
k (n)) ·
·wIII
kj ·
1
2
(1 + yII
j (n))(1 − yII
j (n))

δII
j (n) =
X
k
ek(n) ·
1
2
(1 + yIII
k (n))(1 − yIII
k (n)) · wIII
kj ·
·
1
2
(1 + yII
j (n))(1 − yII
j (n))

δII
j (n) =
X
k
ek(n) ·
1
2
(1 + yIII
k (n))(1 − yIII
k (n)) · wIII
kj ·
·
1
2
(1 + yII
j (n))(1 − yII
j (n))
Pero de la capa IIIF sabemos que:
δIII
k (n) = 1
2ek(n)(1 + yIII
k (n))(1 − yIII
k (n))

δII
j (n) =
X
k
ek(n) ·
1
2
(1 + yIII
k (n))(1 − yIII
k (n)) · wIII
kj ·
·
1
2
(1 + yII
j (n))(1 − yII
j (n))
Pero de la capa IIIF sabemos que:
δIII
k (n) = 1
2ek(n)(1 + yIII
k (n))(1 − yIII
k (n))
Reemplzando:
δII
j (n) =
X
k
δIII
k (n)wIII
kj ·
1
2
(1 + yII
j (n))(1 − yII
j (n))

Volviendo a:
∆wII
ji (n) = µδII
j (n)yI
i (n)

Volviendo a:
∆wII
ji (n) = µδII
j (n)yI
i (n)
Por lo tanto:
∆wII
ji (n) = η

P
k
δIII
k wIII
kj (n)

(1 + yII
j (n))(1 − yII
j (n))yI
i (n)

Generalizando para la capa “p”
∆wII
ji (n) = η

X
k
δIII
k wIII
kj (n)
#
(1 + yII
j (n))(1 − yII
j (n))yI
i (n)
⇓
∆w
(p)
ji (n) = η
D
δ(p+1), w
(p+1)
j
E
(1 + y
(p)
j (n))(1 − y
(p)
j (n))y
(p−1)
i (n)

Resumen del algoritmo de retropropagación (BP)
1. Inicialización aleatoria
2. Propagación hacia adelante
3. Propagación hacia atras
4. Adaptación de los pesos
5. Iteración: vuelve a 2 hasta convergencia o finalización

Resumen: propagación hacia adelante
φ(vI
1)
φ(vI
2)
φ(vI
3)
φ(vII
1 )
φ(vII
2 )
φ(vIII
1 )
x1
x2
y

φ(vI
1)
φ(vI
2)
φ(vI
3)
φ(vII
1 )
φ(vII
2 )
φ(vIII
1 )
x1
x2
y
wI
11
wI
12
yI
1 = φ(wI
11x1 + wI
12x2 + wI
10(−1))

φ(vI
1)
φ(vI
2)
φ(vI
3)
φ(vII
1 )
φ(vII
2 )
φ(vIII
1 )
x1
x2
y
wI
11
wI
12
yI
1 = φ(wI
11x1 + wI
12x2 + wI
10(−1))
x0 = −1 wI
10

φ(vI
1)
φ(vI
2)
φ(vI
3)
φ(vII
1 )
φ(vII
2 )
φ(vIII
1 )
x1
x2
y
wI
21
wI
22
yI
2

φ(vI
1)
φ(vI
2)
φ(vI
3)
φ(vII
1 )
φ(vII
2 )
φ(vIII
1 )
x1
x2
y
wI
31
wI
32
yI
3

φ(vI
1)
φ(vI
2)
φ(vI
3)
φ(vII
1 )
φ(vII
2 )
φ(vIII
1 )
x1
x2
y
yII
1 = φ(wII
11yI
1 + wII
12yI
2+
+wII
13yI
3 − wII
10)
yII
2

φ(vI
1)
φ(vI
2)
φ(vI
3)
φ(vII
1 )
φ(vII
2 )
φ(vIII
1 )
x1
x2
y
yIII = φ(wIII
11yII
1 +
+wIII
12yII
2 +
−wIII
10)

Resumen: propagación hacia atras
φ(vI
1)
φ(vI
2)
φ(vI
3)
φ(vII
1 )
φ(vII
2 )
φ(vIII
1 )
x1
x2
y

φ(vI
1)
φ(vI
2)
φ(vI
3)
φ(vII
1 )
φ(vII
2 )
φ(vIII
1 )
x1
x2
e
δIII = (d − y)
1
2 (1 + yIII)
(1 − yIII)

φ(vI
1)
φ(vI
2)
φ(vI
3)
φ(vII
1 )
φ(vII
2 )
φ(vIII
1 )
x1
x2
e
δIII
δII
1 = δIIIwIII
11
1
2 (1 + yII
1 )(1 − yII
1 )

φ(vI
1)
φ(vI
2)
φ(vI
3)
φ(vII
1 )
φ(vII
2 )
φ(vIII
1 )
x1
x2
e
δIII
δII
1 = δIIIwIII
11
1
2 (1 + yII
1 )(1 − yII
1 )
δII
2

φ(vI
1)
φ(vI
2)
φ(vI
3)
φ(vII
1 )
φ(vII
2 )
φ(vIII
1 )
x1
x2
e
δIII
δII
1
δII
2
δI
1 = (wII
11δII
1 + wII
12δII
2 )1
2 (1 + yI
1)(1 − yI
1)

φ(vI
1)
φ(vI
2)
φ(vI
3)
φ(vII
1 )
φ(vII
2 )
φ(vIII
1 )
x1
x2
e
δIII
δII
1
δII
2
δI
1
δI
2
δI
3

Resumen: ajuste de pesos
φ(vI
1)
φ(vI
2)
φ(vI
3)
φ(vII
1 )
φ(vII
2 )
φ(vIII
1 )
x1
x2
y
δI
1
δI
2
δI
3
δII
1
δII
2
δIII

φ(vI
1)
φ(vI
2)
φ(vI
3)
φ(vII
1 )
φ(vII
2 )
φ(vIII
1 )
x1
x2
y
δI
1
δI
2
δI
3
δII
1
δII
2
δIII
∆wI
11 = µδI
1x1

φ(vI
1)
φ(vI
2)
φ(vI
3)
φ(vII
1 )
φ(vII
2 )
φ(vIII
1 )
x1
x2
y
δI
1
δI
2
δI
3
δII
1
δII
2
δIII
∆wI
11
∆wI
12 = µδI
1x2

φ(vI
1)
φ(vI
2)
φ(vI
3)
φ(vII
1 )
φ(vII
2 )
φ(vIII
1 )
x1
x2
y
δI
1
δI
2
δI
3
δII
1
δII
2
δIII
∆wI
11
∆wI
12
x0 = −1
∆wI
10 = µδI
1(−1)

φ(vI
1)
φ(vI
2)
φ(vI
3)
φ(vII
1 )
φ(vII
2 )
φ(vIII
1 )
x1
x2
y
δI
1
δI
2
δI
3
δII
1
δII
2
δIII
∆wI
21
∆wI
22

φ(vI
1)
φ(vI
2)
φ(vI
3)
φ(vII
1 )
φ(vII
2 )
φ(vIII
1 )
x1
x2
y
δII
1
δII
2
δIII
∆wI
31
∆wI
32
δI
3

φ(vI
1)
φ(vI
2)
φ(vI
3)
φ(vII
1 )
φ(vII
2 )
φ(vIII
1 )
x1
x2
y
δII
1
δII
2
δIII

φ(vI
1)
φ(vI
2)
φ(vI
3)
φ(vII
1 )
φ(vII
2 )
φ(vIII
1 )
x1
x2
y
δIII

φ(vI
1)
φ(vI
2)
φ(vI
3)
φ(vII
1 )
φ(vII
2 )
φ(vIII
1 )
x1
x2
y

Multicapa y backpropagation

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (17)

Similar a Multicapa y backpropagation

Similar a Multicapa y backpropagation (20)

Más de Spacetoshare

Más de Spacetoshare (20)

Último

Último (20)

Multicapa y backpropagation