SlideShare una empresa de Scribd logo
1 de 9
Descargar para leer sin conexión
4 El Perceptrón Simple
______________________________________________________________________
4.1 Introducción
Una de las características más significativas de las redes neuronales es su capacidad
para aprender a partir de alguna fuente de información interactuando con su entorno. En
1958 el psicólogo Frank Ronsenblant desarrolló un modelo simple de neurona basado
en el modelo de McCulloch y Pitts y en una regla de aprendizaje basada en la corrección
del error. A este modelo le llamó Perceptrón. Una de las características que más interés
despertó de este modelo fue su capacidad de aprender a reconocer patrones. El
Perceptrón está constituido por conjunto de sensores de entrada que reciben los patrones
de entrada a reconocer o clasificar y una neurona de salida que se ocupa de clasificar a
los patrones de entrada en dos clases, según que la salida de la misma se 1 (activada) o 0
(desactivada). Sin embargo, dicho modelo tenía muchas limitaciones, como por
ejemplo, no es capaz de aprender la función lógica XOR. Tuvieron que pasar unos años
hasta que se propusiera la regla de aprendizaje de retropropagación del error para
demostrarse que el Perceptrón multicapa es un aproximador universal.
4.2 El Perceptrón simple
Supongamos que tenemos una función f de Rn
en {-1,1}, que aplica un patrón de
entrada x = (x1,x2,…,xn)T
∈ Rn
en la salida deseada z ∈ {-1,1}, es decir, f(x) = z. La
información de que disponemos sobre dicha función viene dada por p pares de patrones
de entrenamiento
{x1
,z1
}, {x2
,z2
},…,{ xp
,zp
}
donde xi
∈Rn
y f (xi
) = zi
∈{-1,1}, i=1,2,…,p. Dicha función realiza una partición en el
espacio Rn
de patrones de entrada; por una parte estarían los patrones con salida +1 y
por otra parte los patrones con salida −1. Por lo tanto, diremos que la función f
clasifica a los patrones de entrada en dos clases. Ejemplos de funciones f de este tipo son
la función lógica OR o la función par.
Ahora vamos a construir un dispositivo sencillo que aprenda dicha función a partir de un
conjunto conocido de patrones (relaciones) de entrenamiento. Para ello vamos a utilizar
una unidad de proceso bipolar que como vimos es una función matemática con
dominio el conjunto n-dimensional {-1,1}n
y rango el conjunto {-1,1}, definida por la
siguiente expresión:
⎪⎩
⎪
⎨
⎧
<+++−
≥+++
=
...si1
...si1
),...,,(
221
221
21
1
1
θ
θ
nn
nn
n
xwxwxw
xwxwxw
xxxf (1)
donde los parámetros w1,w2,…,wn, se llaman pesos sinápticos y son los pesos con los
que se ponderan los valores de entrada x1,x2,…,xn, o argumentos de la función; la suma
ponderada nn xwxwxwu +++= ...2211 se llama potencial sináptico y el parámetro θ
se llama umbral o sesgo. También se puede expresar la función f mediante la función
signo, es decir,
)sgn(),...,,( 21 θ−= uxxxf n
siendo la función signo,
⎩
⎨
⎧
<−
≥
=
0x1
0x1
)sgn(x
y diremos que en este caso la función de transferencia es la función signo.
Análogamente, se define una unidad de proceso binaria como una función matemática
con dominio el conjunto n-dimensional {0,1}n
y rango el conjunto {0,1}, definida por
la siguiente expresión:
⎪⎩
⎪
⎨
⎧
<+++
≥+++
=
...si0
...si1
),...,,(
221
221
21
1
1
θ
θ
nn
nn
n
xwxwxw
xwxwxw
xxxf (2)
Figura 1. Unidad de proceso bipolar.
Cuando la salida de la unidad de proceso es igual a 1 se dice que dicha unidad de
proceso está activada o encendida y presenta el estado 1, mientras que si su salida es
igual a cero se dice que está desactivada o apagada, presentando el estado 0.
Función signo f(x)
1
x
-1
Función paso o f(x)
De Heaviside
1
0 x
Figura 2. Funciones de transferencia.
x1
x2
x3
y
Para la determinación de los pesos sinápticos y del umbral vamos a seguir un proceso
adaptativo que consiste en comenzar con unos valores iniciales aleatorios e ir
modificándolos iterativamente cuando la salida de la unidad no coincide con la salida
deseada. La regla que vamos a seguir para modificar los pesos sinápticos se conoce con
el nombre de regla de aprendizaje del Perceptrón simple y viene dada por la
expresión:
( ) ( ) ( )kwkwkw jjj ∆+=+1 , k = 1,2,…
siendo
( ) ( ) ( )[ ] ( )kxkykzkkw jj −=∆ )(η (3)
esto nos indica que la variación del peso wj es proporcional al producto del error
( ) ( )kykz ii − por la componente j-ésima del patrón de entrada que hemos introducido en
la iteración k, es decir, ( )kxj . La constante de proporcionalidad η(k) es un parámetro
positivo que se llama tasa de aprendizaje puesto que cuanto mayor es más se modifica
el peso sináptico y viceversa. Es decir, es el parámetro que controla el proceso de
aprendizaje. Cuando es muy pequeño la red aprende poco a poco. Cuando se toma
constante en todas las iteraciones, ( ) 0>= ηη k tendremos la regla de adaptación con
incremento fijo.
Cuando la función de transferencia usada es la función signo (valores bipolares) la regla
de aprendizaje se puede escribir de la forma:
⎪
⎩
⎪
⎨
⎧
−==−
=
=−=+
=+
1)(y1)(si)(2)(
)()(si)(
,1)(y1)(si)(2)(
)1(
kzkykxkw
kzkykw
kzkykxkw
kw
jj
j
jj
j
η
η
Por lo tanto, esta regla de aprendizaje es un método de detección del error y corrección.
Solo aprende, es decir, modifica los pesos, cuando se equivoca. Cuando tenemos un
patrón que pertenece a la primera clase (z(k)=1) y no es asignado a la misma, entonces
corrige el valor del peso sináptico añadiéndole una cantidad proporcional al valor de
entrada, es decir lo refuerza, mientras que si el patrón de entrada no pertenece a esta
clase y el Perceptrón lo asigna a ella, lo que hace es debilitar el peso restándole una
cantidad proporcional al patrón de entrada . No modificaremos los pesos cuando el valor
deseado coincida con la salida de la red.
¿Cómo se modifica el sesgo? De la misma manera, teniendo en cuenta que el sesgo se
puede considerar como el peso sináptico correspondiente a un nuevo sensor de entrada
que tiene siempre una entrada igual a xn+1=−1, y como peso sináptico el valor del
umbral, pues
θ≥+++ nn xwxwxw ...2211 ⇔ 0... 112211 ≥++++ ++ nnnn xwxwxwxw
cuando wn+1=θ y xn+1= −1. Así, la red equivalente tendría n+1 sensores, su umbral
sería siempre cero, los patrones de entrada ( nxxx ,...,, 21 ) serán ahora ( 1,,...,, 21 −nxxx ),
los pesos asociados ( nwww ,...,, 21 ) serán ( 121 ,,...,, +nn wwww ) con θ=+1nw y la regla de
aprendizaje:
( ) ( ) ( )[ ]kykzkk −−=∆ )(ηθ , k=1,2,… (4)
A partir de ahora vamos a considerar el umbral como un peso sináptico más.
Algoritmo de aprendizaje del Perceptrón simple
Paso 0: Inicialización
Inicializar los pesos sinápticos con números aleatorios del
intervalo [-1,1]. Ir al paso 1 con k=1
Paso 1: (k-ésima iteración)
Calcular
⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
= ∑
+
=
1
1
)(sgn)(
n
j
jj kxwky
Paso 2: Corrección de los pesos sinápticos
Si z(k)≠y(k) modificar los pesos sinápticos según la
expresión:
( ) ( ) ( ) ( )[ ] ( ) 1,...,2,1,1 +=−+=+ njkxkykzkwkw jiijj η
Paso 3: Parada
Si no se han modificado los pesos en las últimas p
iteraciones, es decir,
pkkrnjkwrw jj ++=+== ,...,1,1,...,2,1),()( ,
parar. La red se ha estabilizado.
En otro caso, ir al Paso 1 con k=k+1.
Ahora surge la cuestión: ¿Dado un conjunto de patrones de entrenamiento, puede el
Perceptrón aprender a clasificarlos correctamente? Solamente si los patrones son
linealmente separables. Ello reduce considerablemente el campo de aplicaciones del
Perceptrón simple puesto que ni siquiera es capaz de implementar la función lógica
XOR dada por la siguiente relación:
Entradas Salidas
(1, 1) −1
(1, −1) 1
(−1, 1) 1
(−1,−1) −1
Figura . (a) Patrones separables linealmente. (b) Patrones no separables linealmente.
Decimos que dos conjuntos de puntos A y B son linealmente separables en un espacio
n-dimensional si existen n+1 números reales ,,,...,, 21 θnwww de manera que cada punto
( ) Axxx n ∈,...,, 21 satisface ∑=
≥
n
i ii xw1
θ y cada punto ( ) Bxxx n ∈,...,, 21 satisface
∑=
<
n
i ii xw1
θ . A continuación vamos a estudiar la convergencia del Perceptrón simple,
es decir, bajo que condiciones un Perceptrón es capaz de encontrar una solución en un
número finito de iteraciones.
Figura . Semiespacios que define el Perceptrón.
Teorema 1 (de convergencia del Perceptrón)
Si el conjunto de patrones de entrenamiento,
{x1
,z1
}, {x2
,z2
},…,{ xp
,zp
},
es linealmente separable entonces el Perceptrón simple encuentra una solución en un
número finito de iteraciones, es decir, consigue que la salida de la red coincida con la
salida deseada para cada uno de los patrones de entrenamiento.
(a) (b)
w1x1+w2x2≥θ
w1x1+w2x2=θ
w1x1+w2x2<θ
Demostración:
En efecto, como los patrones son linealmente separables existirán unos valores
*
1
*
2
*
1 ,...,, +nwww tales que
∑=
+>
n
j
njj wxw
1
1
*
para los patrones de la clase 1 y
∑=
+<
n
j
njj wxw
1
1
*
para los patrones de la clase 2.
Obsérvese que wn+1 es el umbral θ.
Supongamos que en la iteración k la red tiene que modificar los pesos sinápticos según
la regla de aprendizaje, puesto que la salida de la red y(k) no coincide con la salida
deseada z(k). Tendremos que:
( )( ) [ ]( )∑ ∑
+
=
+
=
−−+=−+
1
1
1
1
2*2*
)()()()(1
n
j
n
j
jjjjj wkxkykzkwwkw η
Desarrollando,
( )( ) ( ) ( )[ ] ( )∑ ∑
+
=
+
=
+−+−=
1
1
1
1
2222*
n
j
n
j
jjj kxkykzwkw η
( ) ( )[ ] ( )( ) ( )∑
+
=
−−+
1
1
*
2
n
j
jjj kxwkwkykzη
(5)
( )( ) ( ) ( )[ ] ( )∑ ∑
+
=
+
=
+−+−=
1
1
1
1
2222*
n
j
n
j
jjj kxkykzwkw η
( ) ( )[ ] ( ) ( ) ( )[ ] ( )∑∑
+
=
+
=
−−−+
1
1
*
1
1
2))((2
n
j
jj
n
j
jj kxwkykzkxkwkykz ηη
Obsérvese que ( ) ( )[ ] ( ) ,0)(
1
1
<− ∑
+
=
n
j
jj kxkwkykz puesto que si ( ) 0)(
1
1
>∑
+
=
n
j
jj kxkw entonces
y(k)=1 y como la salida es incorrecta tiene que ser z(k)=−1, y si ( ) 0)(
1
1
<∑
+
=
n
j
jj kxkw
entonces y(k)=−1 y como la salida es incorrecta, z(k)=1. Dicho término se puede
escribir de la forma:
( ) ( )∑
+
=
−
1
1
2
n
j
jj kxkw
Asimismo, el término
( ) ( )[ ] ( ) 0
1
1
*
>− ∑
+
=
n
j
jj kxwkykz
es positivo puesto que si ( ) 0
1
1
*
>∑
+
=
n
j
jj kxw entonces la salida deseada es z(k)=1 y la salida
incorrecta de la red tiene que ser y(k)=−1, y si ( ) 0
1
1
*
<∑
+
=
n
j
jj kxw entonces z(k)=−1 y la
salida incorrecta de la red tiene que ser y(k)=1. Así, también se puede escribir de la
forma:
( )∑
+
=
1
1
*
2
n
j
jj kxw
Por lo tanto tenemos que
( )( ) ( )( ) ( ) ( )∑ ∑ ∑ ∑
+
=
+
=
+
=
+
=
−+−≤−+
1
1
1
1
1
1
1
1
*222*2*
441
n
j
n
j
n
j
n
j
jjjjjjj kxwkxwkwwkw ηη
puesto que hemos prescindido de un término negativo en la derecha de la expresión.
Sea ( ) ( )( )∑
+
=
−+=+
1
1
2*
11
n
j
jj wkwkD
( ) ( )( )∑
+
=
−=
1
1
2*
n
j
jj wkwkD
( )max
1
1
2
1
⎭
⎬
⎫
⎩
⎨
⎧
= ∑
+
=
≤≤
n
j
j
pk
kxL
( )min
1
1
*
1
⎭
⎬
⎫
⎩
⎨
⎧
= ∑
+
=
≤≤
n
j
jj
pk
kxwT
entonces la expresión anterior se reduce a
( ) ( ) TLkDkD ηη 441 2
−+≤+
( ) ( ) [ ]41 TLkDkD −+≤+ ηη
Si tomamos 0<−TLη , es decir,
L
T
<η
entonces D(k+1)<D(k). Esto significa que eligiendo un valor de η tal que 0<η <
L
T
hace que D(k) disminuya al menos en la cantidad constante )2( TL −ηη en cada
iteración con corrección. Si el número de iteraciones con corrección fuese infinito
entonces llegaríamos al absurdo de alcanzar en una momento determinado un valor
negativo del término D(k) que evidentemente es no negativo.
La siguiente cuestión que vamos a abordar es estudiar cuál sería el valor mejor que
debemos elegir del parámetro de aprendizajeη de forma que se consiga más
rápidamente la convergencia de la red. Se trata de elegir η de manera que D(k+1)
sea lo menor posible y así conseguir un mayor acercamiento de los pesos de la red a
la solución. Como D(k+1) es una función cuadrática del parámetro η solo tenemos
que derivar e igualar a cero para encontrar el valor de dicho parámetro que
corresponde al mínimo de la expresión D(k+1).
( ) ( ) ( ) ( )∑∑ ∑
+
=
+
=
+
=
−−+=+=
1
1
*
1
1
1
1
22
444)()1()(
n
j
jj
n
j
n
j
jjj kxwkxkwkxkDkDE ηηηη
( ) ( ) ( ) ( ) ( )∑ ∑∑
+
=
+
=
+
=
=−−=
∂
∂ 1
1
1
1
*
1
1
2
0448
n
j
n
j
jj
n
j
jjj kxwkxkwkx
E
η
η
η
El valor deη que verifica dicha ecuación es
( ) ( ) ( )
( )∑
∑∑
+
=
+
=
+
=
+
= 1
1
2
1
1
*
1
1
2
n
j
j
n
j
jj
n
j
jj
opt
kx
kxwkxkw
η
Sin embargo el segundo término del numerador no lo conocemos puesto que no
conocemos los valores *
jw . Si aproximamos dicho término por el anterior tenemos
que un valor aproximado de la tasa de aprendizaje óptima es el siguiente:
( ) ( )
( )∑
∑
+
=
+
=
= 1
1
2
1
1~
n
j
j
n
j
jj
opt
kx
kxkw
η
Como hemos visto anteriormente,
( ) ( ) ( )[ ] ( )∑∑
+
=
+
=
−=−
1
1
1
1
)()(2
n
j
jj
n
j
jj kxkwkykzkxkw
y así
[ ] ( ) ( )
( )∑
∑
+
=
+
=
−−
= 1
1
2
1
1
2
)()(
~
n
j
j
n
j
jj
opt
kx
kxkwkykz
η
Sustituyendo este valor del parámetro η en la regla de aprendizaje (cuando y(k)≠z(k))
obtenemos,
( )
( ) ( )[ ] ( ) ( )
( )
( ) ( )[ ] ( )kxkykz
kx
kxkwkykz
kwkw jn
j
j
n
j
jj
jj −
−
−=+
∑
∑
+
=
+
=
1
1
2
1
1
2
)1(
es decir,
( )
( ) ( )
( )
( )kx
kx
kxkw
kwkw jn
j
j
n
j
jj
jj
∑
∑
+
=
+
=
−=+ 1
1
2
1
1
2)1( (6)
puesto que [z(k)−y(k)]2
= 4 cuando y(k)≠z(k).
Dicha regla se conoce con el nombre de regla del Perceptrón normalizada, pues si
partimos de un vector de pesos normalizado, es decir, ,1)( =kw entonces todos los
pesos que se van obteniendo según la regla de aprendizaje se mantienen normalizados.
En efecto,
∑
+
=
+=+
1
1
22
)1()1(
n
j
j kwkw
∑
∑
∑
∑
∑
∑
∑
+
=
+
=
+
=
+
=
+
=
+
=
+
=
−
⎟
⎟
⎟
⎟
⎠
⎞
⎜
⎜
⎜
⎜
⎝
⎛
+=
1
1
1
1
2
1
1
2
1
1
1
1
2
1
1
1
1
22
)()(
)(
)()(
4
)(
)()(
2)()(
n
i
jjn
j
j
n
j
jjn
j
n
j
j
n
j
jjn
j
jj kxkw
kx
kxkw
kx
kxkw
kxkw
1)(
1
1
2
== ∑
+
=
n
j
j kw

Más contenido relacionado

La actualidad más candente

Metodos Para Resolver Integrales
Metodos Para Resolver IntegralesMetodos Para Resolver Integrales
Metodos Para Resolver IntegralesMarcos Boe
 
Utp sirn_s13_sistemas de control basados en logic difusa
 Utp sirn_s13_sistemas de control basados en logic difusa Utp sirn_s13_sistemas de control basados en logic difusa
Utp sirn_s13_sistemas de control basados en logic difusajcbp_peru
 
Learning Vector Quantization LVQ
Learning Vector Quantization LVQLearning Vector Quantization LVQ
Learning Vector Quantization LVQESCOM
 
Operaciones con conjuntos difusos
Operaciones con conjuntos difusosOperaciones con conjuntos difusos
Operaciones con conjuntos difusosyosueldo
 
3.5.2 metodo de newton
3.5.2 metodo de newton3.5.2 metodo de newton
3.5.2 metodo de newtonRoger Burgos
 
IntroduccióN A La LóGica Difusa
IntroduccióN A La LóGica DifusaIntroduccióN A La LóGica Difusa
IntroduccióN A La LóGica DifusaESCOM
 
La Memoria de BAM/Hopfield
La Memoria de BAM/HopfieldLa Memoria de BAM/Hopfield
La Memoria de BAM/HopfieldSpacetoshare
 
1 Principios De MecáNica CuáNtica
1  Principios De MecáNica CuáNtica1  Principios De MecáNica CuáNtica
1 Principios De MecáNica CuáNticaMARYAND14
 
REDES NEURONALES De Hopfield
REDES NEURONALES De HopfieldREDES NEURONALES De Hopfield
REDES NEURONALES De HopfieldESCOM
 
Espacios vectoriales Conceptos
Espacios vectoriales ConceptosEspacios vectoriales Conceptos
Espacios vectoriales Conceptoscarogf9015
 
Metodos de integracion
Metodos de integracionMetodos de integracion
Metodos de integracionROAD TRACK
 

La actualidad más candente (19)

Metodos Para Resolver Integrales
Metodos Para Resolver IntegralesMetodos Para Resolver Integrales
Metodos Para Resolver Integrales
 
Semana03
Semana03Semana03
Semana03
 
Utp sirn_s13_sistemas de control basados en logic difusa
 Utp sirn_s13_sistemas de control basados en logic difusa Utp sirn_s13_sistemas de control basados en logic difusa
Utp sirn_s13_sistemas de control basados en logic difusa
 
Learning Vector Quantization LVQ
Learning Vector Quantization LVQLearning Vector Quantization LVQ
Learning Vector Quantization LVQ
 
Operaciones con conjuntos difusos
Operaciones con conjuntos difusosOperaciones con conjuntos difusos
Operaciones con conjuntos difusos
 
3.5.2 metodo de newton
3.5.2 metodo de newton3.5.2 metodo de newton
3.5.2 metodo de newton
 
IntroduccióN A La LóGica Difusa
IntroduccióN A La LóGica DifusaIntroduccióN A La LóGica Difusa
IntroduccióN A La LóGica Difusa
 
La Memoria de BAM/Hopfield
La Memoria de BAM/HopfieldLa Memoria de BAM/Hopfield
La Memoria de BAM/Hopfield
 
Perceptron
PerceptronPerceptron
Perceptron
 
1 Principios De MecáNica CuáNtica
1  Principios De MecáNica CuáNtica1  Principios De MecáNica CuáNtica
1 Principios De MecáNica CuáNtica
 
REDES NEURONALES De Hopfield
REDES NEURONALES De HopfieldREDES NEURONALES De Hopfield
REDES NEURONALES De Hopfield
 
elem_finitos
elem_finitoselem_finitos
elem_finitos
 
Integrales 4
Integrales 4Integrales 4
Integrales 4
 
Espacios vectoriales Conceptos
Espacios vectoriales ConceptosEspacios vectoriales Conceptos
Espacios vectoriales Conceptos
 
Integrales pdfs
Integrales pdfsIntegrales pdfs
Integrales pdfs
 
Fundamentos Divide Y Venceras
Fundamentos Divide Y VencerasFundamentos Divide Y Venceras
Fundamentos Divide Y Venceras
 
Mecanica cuantica
Mecanica cuanticaMecanica cuantica
Mecanica cuantica
 
Hamilton Lagrange
Hamilton LagrangeHamilton Lagrange
Hamilton Lagrange
 
Metodos de integracion
Metodos de integracionMetodos de integracion
Metodos de integracion
 

Destacado

ARKANSAS STATE UNIVERSITY (ASTATE) Broucher
ARKANSAS STATE UNIVERSITY (ASTATE) BroucherARKANSAS STATE UNIVERSITY (ASTATE) Broucher
ARKANSAS STATE UNIVERSITY (ASTATE) BroucherAbhishek Bajaj
 
Factores de riesgo i
Factores de riesgo iFactores de riesgo i
Factores de riesgo idianamelo95
 
Cuaderno de-valores
Cuaderno de-valoresCuaderno de-valores
Cuaderno de-valoresaideguerra
 
Elementos pictoricos
Elementos pictoricosElementos pictoricos
Elementos pictoricosVe_Cha
 
La historia de la pedagogia desde platon hasta la actualidad
La historia de la pedagogia   desde platon hasta la actualidadLa historia de la pedagogia   desde platon hasta la actualidad
La historia de la pedagogia desde platon hasta la actualidadYesseniaM18
 
California Baptist University Graduate catalog 1617_web
California Baptist University Graduate catalog 1617_webCalifornia Baptist University Graduate catalog 1617_web
California Baptist University Graduate catalog 1617_webAbhishek Bajaj
 
Diseño del sistema
Diseño del sistemaDiseño del sistema
Diseño del sistemathyago1211
 
Ficha #2 version final
Ficha #2 version finalFicha #2 version final
Ficha #2 version finalthyago1211
 
El rock es_cultura_el_reggaeton_basura
El rock es_cultura_el_reggaeton_basuraEl rock es_cultura_el_reggaeton_basura
El rock es_cultura_el_reggaeton_basuramapardo2012
 
Dr. Jonathan AC Brown - How to Approach Hadith
Dr. Jonathan AC Brown - How to Approach HadithDr. Jonathan AC Brown - How to Approach Hadith
Dr. Jonathan AC Brown - How to Approach HadithNdaa Hassan
 
Halloween Displays to Die for (not literally)
Halloween Displays to Die for (not literally)Halloween Displays to Die for (not literally)
Halloween Displays to Die for (not literally)Ryn Gargulinski
 
Revolt Breakfast Club: How to make a viral
Revolt Breakfast Club: How to make a viralRevolt Breakfast Club: How to make a viral
Revolt Breakfast Club: How to make a viralRevolt Agency
 
Týrsday - Digital Sports Day 2016
Týrsday - Digital Sports Day 2016Týrsday - Digital Sports Day 2016
Týrsday - Digital Sports Day 2016Gijsbregt Brouwer
 

Destacado (20)

Sabias distinciones
Sabias distincionesSabias distinciones
Sabias distinciones
 
ARKANSAS STATE UNIVERSITY (ASTATE) Broucher
ARKANSAS STATE UNIVERSITY (ASTATE) BroucherARKANSAS STATE UNIVERSITY (ASTATE) Broucher
ARKANSAS STATE UNIVERSITY (ASTATE) Broucher
 
Factores de riesgo i
Factores de riesgo iFactores de riesgo i
Factores de riesgo i
 
Cuaderno de-valores
Cuaderno de-valoresCuaderno de-valores
Cuaderno de-valores
 
Silabo de informatica)
Silabo de informatica)Silabo de informatica)
Silabo de informatica)
 
Psicologia .
Psicologia  . Psicologia  .
Psicologia .
 
Elementos pictoricos
Elementos pictoricosElementos pictoricos
Elementos pictoricos
 
La historia de la pedagogia desde platon hasta la actualidad
La historia de la pedagogia   desde platon hasta la actualidadLa historia de la pedagogia   desde platon hasta la actualidad
La historia de la pedagogia desde platon hasta la actualidad
 
California Baptist University Graduate catalog 1617_web
California Baptist University Graduate catalog 1617_webCalifornia Baptist University Graduate catalog 1617_web
California Baptist University Graduate catalog 1617_web
 
Psicologia .
Psicologia  . Psicologia  .
Psicologia .
 
Diseño del sistema
Diseño del sistemaDiseño del sistema
Diseño del sistema
 
ARVR TECH TALK
ARVR TECH TALKARVR TECH TALK
ARVR TECH TALK
 
Ficha #2 version final
Ficha #2 version finalFicha #2 version final
Ficha #2 version final
 
Ficha 3
Ficha 3Ficha 3
Ficha 3
 
El rock es_cultura_el_reggaeton_basura
El rock es_cultura_el_reggaeton_basuraEl rock es_cultura_el_reggaeton_basura
El rock es_cultura_el_reggaeton_basura
 
La sociedad feudal
La sociedad feudalLa sociedad feudal
La sociedad feudal
 
Dr. Jonathan AC Brown - How to Approach Hadith
Dr. Jonathan AC Brown - How to Approach HadithDr. Jonathan AC Brown - How to Approach Hadith
Dr. Jonathan AC Brown - How to Approach Hadith
 
Halloween Displays to Die for (not literally)
Halloween Displays to Die for (not literally)Halloween Displays to Die for (not literally)
Halloween Displays to Die for (not literally)
 
Revolt Breakfast Club: How to make a viral
Revolt Breakfast Club: How to make a viralRevolt Breakfast Club: How to make a viral
Revolt Breakfast Club: How to make a viral
 
Týrsday - Digital Sports Day 2016
Týrsday - Digital Sports Day 2016Týrsday - Digital Sports Day 2016
Týrsday - Digital Sports Day 2016
 

Similar a Tema4

Perceptron Simple y Regla Aprendizaje
Perceptron  Simple y  Regla  AprendizajePerceptron  Simple y  Regla  Aprendizaje
Perceptron Simple y Regla AprendizajeRoberth Figueroa-Diaz
 
Redes de propagación hacia delante y aprendizaje supervisado
Redes de propagación hacia delante   y aprendizaje supervisadoRedes de propagación hacia delante   y aprendizaje supervisado
Redes de propagación hacia delante y aprendizaje supervisadoESCOM
 
Cap9 interpolextrapolnumer-ajustedatos3
Cap9 interpolextrapolnumer-ajustedatos3Cap9 interpolextrapolnumer-ajustedatos3
Cap9 interpolextrapolnumer-ajustedatos3JAHADIEL
 
Tabla de integrales (integrales trigonometricas)
Tabla de integrales (integrales trigonometricas)Tabla de integrales (integrales trigonometricas)
Tabla de integrales (integrales trigonometricas)waltergomez627
 
Regla de aprendizaje del perceptrón simple
Regla de aprendizaje del perceptrón simpleRegla de aprendizaje del perceptrón simple
Regla de aprendizaje del perceptrón simpleAndrea Lezcano
 
I fase control ii ecuaciones en diferencias (3)
I fase control ii ecuaciones en diferencias (3)I fase control ii ecuaciones en diferencias (3)
I fase control ii ecuaciones en diferencias (3)ricardozegarra7
 
Utp 2015-2_ia_s4_red perceptron
 Utp 2015-2_ia_s4_red perceptron Utp 2015-2_ia_s4_red perceptron
Utp 2015-2_ia_s4_red perceptronjcbp_peru
 
Utp 2015-2_sirn_s4_red perceptron
 Utp 2015-2_sirn_s4_red perceptron Utp 2015-2_sirn_s4_red perceptron
Utp 2015-2_sirn_s4_red perceptronjcbp_peru
 
Utp ia_s4_red perceptron
 Utp ia_s4_red perceptron Utp ia_s4_red perceptron
Utp ia_s4_red perceptronjcbp_peru
 
PRESENTACION_SISTEMAS_ECUACIONES_NO_LINEALES.pdf
PRESENTACION_SISTEMAS_ECUACIONES_NO_LINEALES.pdfPRESENTACION_SISTEMAS_ECUACIONES_NO_LINEALES.pdf
PRESENTACION_SISTEMAS_ECUACIONES_NO_LINEALES.pdfpumadesalvador
 
INTEGRALES INDEFINIDAS POR CAMBIO DE VARIABLE
INTEGRALES INDEFINIDAS POR CAMBIO DE VARIABLEINTEGRALES INDEFINIDAS POR CAMBIO DE VARIABLE
INTEGRALES INDEFINIDAS POR CAMBIO DE VARIABLEkaterin yende
 
ECUACIONES NO LINEALES
ECUACIONES NO LINEALESECUACIONES NO LINEALES
ECUACIONES NO LINEALESsdiupg1
 
Ejercicios detallados del obj 4 mat ii (178 179
Ejercicios detallados del obj 4 mat ii (178 179Ejercicios detallados del obj 4 mat ii (178 179
Ejercicios detallados del obj 4 mat ii (178 179Jonathan Mejías
 
Analisis numericoi tema4_matlab
Analisis numericoi tema4_matlabAnalisis numericoi tema4_matlab
Analisis numericoi tema4_matlabDivum Tyhuj
 

Similar a Tema4 (20)

Perceptron Simple y Regla Aprendizaje
Perceptron  Simple y  Regla  AprendizajePerceptron  Simple y  Regla  Aprendizaje
Perceptron Simple y Regla Aprendizaje
 
Redes de propagación hacia delante y aprendizaje supervisado
Redes de propagación hacia delante   y aprendizaje supervisadoRedes de propagación hacia delante   y aprendizaje supervisado
Redes de propagación hacia delante y aprendizaje supervisado
 
Mr1i 753-2007-2
Mr1i 753-2007-2Mr1i 753-2007-2
Mr1i 753-2007-2
 
Cap9 interpolextrapolnumer-ajustedatos3
Cap9 interpolextrapolnumer-ajustedatos3Cap9 interpolextrapolnumer-ajustedatos3
Cap9 interpolextrapolnumer-ajustedatos3
 
Tabla de integrales (integrales trigonometricas)
Tabla de integrales (integrales trigonometricas)Tabla de integrales (integrales trigonometricas)
Tabla de integrales (integrales trigonometricas)
 
Perceptrón
PerceptrónPerceptrón
Perceptrón
 
Algoritmos
AlgoritmosAlgoritmos
Algoritmos
 
Regla de aprendizaje del perceptrón simple
Regla de aprendizaje del perceptrón simpleRegla de aprendizaje del perceptrón simple
Regla de aprendizaje del perceptrón simple
 
I fase control ii ecuaciones en diferencias (3)
I fase control ii ecuaciones en diferencias (3)I fase control ii ecuaciones en diferencias (3)
I fase control ii ecuaciones en diferencias (3)
 
Simple Harmonic Oscillator.docx
Simple Harmonic Oscillator.docxSimple Harmonic Oscillator.docx
Simple Harmonic Oscillator.docx
 
Utp 2015-2_ia_s4_red perceptron
 Utp 2015-2_ia_s4_red perceptron Utp 2015-2_ia_s4_red perceptron
Utp 2015-2_ia_s4_red perceptron
 
Utp 2015-2_sirn_s4_red perceptron
 Utp 2015-2_sirn_s4_red perceptron Utp 2015-2_sirn_s4_red perceptron
Utp 2015-2_sirn_s4_red perceptron
 
Utp ia_s4_red perceptron
 Utp ia_s4_red perceptron Utp ia_s4_red perceptron
Utp ia_s4_red perceptron
 
PRESENTACION_SISTEMAS_ECUACIONES_NO_LINEALES.pdf
PRESENTACION_SISTEMAS_ECUACIONES_NO_LINEALES.pdfPRESENTACION_SISTEMAS_ECUACIONES_NO_LINEALES.pdf
PRESENTACION_SISTEMAS_ECUACIONES_NO_LINEALES.pdf
 
INTEGRALES INDEFINIDAS POR CAMBIO DE VARIABLE
INTEGRALES INDEFINIDAS POR CAMBIO DE VARIABLEINTEGRALES INDEFINIDAS POR CAMBIO DE VARIABLE
INTEGRALES INDEFINIDAS POR CAMBIO DE VARIABLE
 
ECUACIONES NO LINEALES
ECUACIONES NO LINEALESECUACIONES NO LINEALES
ECUACIONES NO LINEALES
 
S03 - Planos de fase.pdf
S03 - Planos de fase.pdfS03 - Planos de fase.pdf
S03 - Planos de fase.pdf
 
Ejercicios detallados del obj 4 mat ii (178 179
Ejercicios detallados del obj 4 mat ii (178 179Ejercicios detallados del obj 4 mat ii (178 179
Ejercicios detallados del obj 4 mat ii (178 179
 
Tema3
Tema3Tema3
Tema3
 
Analisis numericoi tema4_matlab
Analisis numericoi tema4_matlabAnalisis numericoi tema4_matlab
Analisis numericoi tema4_matlab
 

Tema4

  • 1. 4 El Perceptrón Simple ______________________________________________________________________ 4.1 Introducción Una de las características más significativas de las redes neuronales es su capacidad para aprender a partir de alguna fuente de información interactuando con su entorno. En 1958 el psicólogo Frank Ronsenblant desarrolló un modelo simple de neurona basado en el modelo de McCulloch y Pitts y en una regla de aprendizaje basada en la corrección del error. A este modelo le llamó Perceptrón. Una de las características que más interés despertó de este modelo fue su capacidad de aprender a reconocer patrones. El Perceptrón está constituido por conjunto de sensores de entrada que reciben los patrones de entrada a reconocer o clasificar y una neurona de salida que se ocupa de clasificar a los patrones de entrada en dos clases, según que la salida de la misma se 1 (activada) o 0 (desactivada). Sin embargo, dicho modelo tenía muchas limitaciones, como por ejemplo, no es capaz de aprender la función lógica XOR. Tuvieron que pasar unos años hasta que se propusiera la regla de aprendizaje de retropropagación del error para demostrarse que el Perceptrón multicapa es un aproximador universal. 4.2 El Perceptrón simple Supongamos que tenemos una función f de Rn en {-1,1}, que aplica un patrón de entrada x = (x1,x2,…,xn)T ∈ Rn en la salida deseada z ∈ {-1,1}, es decir, f(x) = z. La información de que disponemos sobre dicha función viene dada por p pares de patrones de entrenamiento {x1 ,z1 }, {x2 ,z2 },…,{ xp ,zp } donde xi ∈Rn y f (xi ) = zi ∈{-1,1}, i=1,2,…,p. Dicha función realiza una partición en el espacio Rn de patrones de entrada; por una parte estarían los patrones con salida +1 y por otra parte los patrones con salida −1. Por lo tanto, diremos que la función f clasifica a los patrones de entrada en dos clases. Ejemplos de funciones f de este tipo son la función lógica OR o la función par. Ahora vamos a construir un dispositivo sencillo que aprenda dicha función a partir de un conjunto conocido de patrones (relaciones) de entrenamiento. Para ello vamos a utilizar una unidad de proceso bipolar que como vimos es una función matemática con dominio el conjunto n-dimensional {-1,1}n y rango el conjunto {-1,1}, definida por la siguiente expresión: ⎪⎩ ⎪ ⎨ ⎧ <+++− ≥+++ = ...si1 ...si1 ),...,,( 221 221 21 1 1 θ θ nn nn n xwxwxw xwxwxw xxxf (1)
  • 2. donde los parámetros w1,w2,…,wn, se llaman pesos sinápticos y son los pesos con los que se ponderan los valores de entrada x1,x2,…,xn, o argumentos de la función; la suma ponderada nn xwxwxwu +++= ...2211 se llama potencial sináptico y el parámetro θ se llama umbral o sesgo. También se puede expresar la función f mediante la función signo, es decir, )sgn(),...,,( 21 θ−= uxxxf n siendo la función signo, ⎩ ⎨ ⎧ <− ≥ = 0x1 0x1 )sgn(x y diremos que en este caso la función de transferencia es la función signo. Análogamente, se define una unidad de proceso binaria como una función matemática con dominio el conjunto n-dimensional {0,1}n y rango el conjunto {0,1}, definida por la siguiente expresión: ⎪⎩ ⎪ ⎨ ⎧ <+++ ≥+++ = ...si0 ...si1 ),...,,( 221 221 21 1 1 θ θ nn nn n xwxwxw xwxwxw xxxf (2) Figura 1. Unidad de proceso bipolar. Cuando la salida de la unidad de proceso es igual a 1 se dice que dicha unidad de proceso está activada o encendida y presenta el estado 1, mientras que si su salida es igual a cero se dice que está desactivada o apagada, presentando el estado 0. Función signo f(x) 1 x -1 Función paso o f(x) De Heaviside 1 0 x Figura 2. Funciones de transferencia. x1 x2 x3 y
  • 3. Para la determinación de los pesos sinápticos y del umbral vamos a seguir un proceso adaptativo que consiste en comenzar con unos valores iniciales aleatorios e ir modificándolos iterativamente cuando la salida de la unidad no coincide con la salida deseada. La regla que vamos a seguir para modificar los pesos sinápticos se conoce con el nombre de regla de aprendizaje del Perceptrón simple y viene dada por la expresión: ( ) ( ) ( )kwkwkw jjj ∆+=+1 , k = 1,2,… siendo ( ) ( ) ( )[ ] ( )kxkykzkkw jj −=∆ )(η (3) esto nos indica que la variación del peso wj es proporcional al producto del error ( ) ( )kykz ii − por la componente j-ésima del patrón de entrada que hemos introducido en la iteración k, es decir, ( )kxj . La constante de proporcionalidad η(k) es un parámetro positivo que se llama tasa de aprendizaje puesto que cuanto mayor es más se modifica el peso sináptico y viceversa. Es decir, es el parámetro que controla el proceso de aprendizaje. Cuando es muy pequeño la red aprende poco a poco. Cuando se toma constante en todas las iteraciones, ( ) 0>= ηη k tendremos la regla de adaptación con incremento fijo. Cuando la función de transferencia usada es la función signo (valores bipolares) la regla de aprendizaje se puede escribir de la forma: ⎪ ⎩ ⎪ ⎨ ⎧ −==− = =−=+ =+ 1)(y1)(si)(2)( )()(si)( ,1)(y1)(si)(2)( )1( kzkykxkw kzkykw kzkykxkw kw jj j jj j η η Por lo tanto, esta regla de aprendizaje es un método de detección del error y corrección. Solo aprende, es decir, modifica los pesos, cuando se equivoca. Cuando tenemos un patrón que pertenece a la primera clase (z(k)=1) y no es asignado a la misma, entonces corrige el valor del peso sináptico añadiéndole una cantidad proporcional al valor de entrada, es decir lo refuerza, mientras que si el patrón de entrada no pertenece a esta clase y el Perceptrón lo asigna a ella, lo que hace es debilitar el peso restándole una cantidad proporcional al patrón de entrada . No modificaremos los pesos cuando el valor deseado coincida con la salida de la red. ¿Cómo se modifica el sesgo? De la misma manera, teniendo en cuenta que el sesgo se puede considerar como el peso sináptico correspondiente a un nuevo sensor de entrada que tiene siempre una entrada igual a xn+1=−1, y como peso sináptico el valor del umbral, pues θ≥+++ nn xwxwxw ...2211 ⇔ 0... 112211 ≥++++ ++ nnnn xwxwxwxw cuando wn+1=θ y xn+1= −1. Así, la red equivalente tendría n+1 sensores, su umbral sería siempre cero, los patrones de entrada ( nxxx ,...,, 21 ) serán ahora ( 1,,...,, 21 −nxxx ),
  • 4. los pesos asociados ( nwww ,...,, 21 ) serán ( 121 ,,...,, +nn wwww ) con θ=+1nw y la regla de aprendizaje: ( ) ( ) ( )[ ]kykzkk −−=∆ )(ηθ , k=1,2,… (4) A partir de ahora vamos a considerar el umbral como un peso sináptico más. Algoritmo de aprendizaje del Perceptrón simple Paso 0: Inicialización Inicializar los pesos sinápticos con números aleatorios del intervalo [-1,1]. Ir al paso 1 con k=1 Paso 1: (k-ésima iteración) Calcular ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ = ∑ + = 1 1 )(sgn)( n j jj kxwky Paso 2: Corrección de los pesos sinápticos Si z(k)≠y(k) modificar los pesos sinápticos según la expresión: ( ) ( ) ( ) ( )[ ] ( ) 1,...,2,1,1 +=−+=+ njkxkykzkwkw jiijj η Paso 3: Parada Si no se han modificado los pesos en las últimas p iteraciones, es decir, pkkrnjkwrw jj ++=+== ,...,1,1,...,2,1),()( , parar. La red se ha estabilizado. En otro caso, ir al Paso 1 con k=k+1. Ahora surge la cuestión: ¿Dado un conjunto de patrones de entrenamiento, puede el Perceptrón aprender a clasificarlos correctamente? Solamente si los patrones son linealmente separables. Ello reduce considerablemente el campo de aplicaciones del Perceptrón simple puesto que ni siquiera es capaz de implementar la función lógica XOR dada por la siguiente relación: Entradas Salidas (1, 1) −1 (1, −1) 1 (−1, 1) 1 (−1,−1) −1
  • 5. Figura . (a) Patrones separables linealmente. (b) Patrones no separables linealmente. Decimos que dos conjuntos de puntos A y B son linealmente separables en un espacio n-dimensional si existen n+1 números reales ,,,...,, 21 θnwww de manera que cada punto ( ) Axxx n ∈,...,, 21 satisface ∑= ≥ n i ii xw1 θ y cada punto ( ) Bxxx n ∈,...,, 21 satisface ∑= < n i ii xw1 θ . A continuación vamos a estudiar la convergencia del Perceptrón simple, es decir, bajo que condiciones un Perceptrón es capaz de encontrar una solución en un número finito de iteraciones. Figura . Semiespacios que define el Perceptrón. Teorema 1 (de convergencia del Perceptrón) Si el conjunto de patrones de entrenamiento, {x1 ,z1 }, {x2 ,z2 },…,{ xp ,zp }, es linealmente separable entonces el Perceptrón simple encuentra una solución en un número finito de iteraciones, es decir, consigue que la salida de la red coincida con la salida deseada para cada uno de los patrones de entrenamiento. (a) (b) w1x1+w2x2≥θ w1x1+w2x2=θ w1x1+w2x2<θ
  • 6. Demostración: En efecto, como los patrones son linealmente separables existirán unos valores * 1 * 2 * 1 ,...,, +nwww tales que ∑= +> n j njj wxw 1 1 * para los patrones de la clase 1 y ∑= +< n j njj wxw 1 1 * para los patrones de la clase 2. Obsérvese que wn+1 es el umbral θ. Supongamos que en la iteración k la red tiene que modificar los pesos sinápticos según la regla de aprendizaje, puesto que la salida de la red y(k) no coincide con la salida deseada z(k). Tendremos que: ( )( ) [ ]( )∑ ∑ + = + = −−+=−+ 1 1 1 1 2*2* )()()()(1 n j n j jjjjj wkxkykzkwwkw η Desarrollando, ( )( ) ( ) ( )[ ] ( )∑ ∑ + = + = +−+−= 1 1 1 1 2222* n j n j jjj kxkykzwkw η ( ) ( )[ ] ( )( ) ( )∑ + = −−+ 1 1 * 2 n j jjj kxwkwkykzη (5) ( )( ) ( ) ( )[ ] ( )∑ ∑ + = + = +−+−= 1 1 1 1 2222* n j n j jjj kxkykzwkw η ( ) ( )[ ] ( ) ( ) ( )[ ] ( )∑∑ + = + = −−−+ 1 1 * 1 1 2))((2 n j jj n j jj kxwkykzkxkwkykz ηη Obsérvese que ( ) ( )[ ] ( ) ,0)( 1 1 <− ∑ + = n j jj kxkwkykz puesto que si ( ) 0)( 1 1 >∑ + = n j jj kxkw entonces y(k)=1 y como la salida es incorrecta tiene que ser z(k)=−1, y si ( ) 0)( 1 1 <∑ + = n j jj kxkw entonces y(k)=−1 y como la salida es incorrecta, z(k)=1. Dicho término se puede escribir de la forma: ( ) ( )∑ + = − 1 1 2 n j jj kxkw Asimismo, el término ( ) ( )[ ] ( ) 0 1 1 * >− ∑ + = n j jj kxwkykz es positivo puesto que si ( ) 0 1 1 * >∑ + = n j jj kxw entonces la salida deseada es z(k)=1 y la salida incorrecta de la red tiene que ser y(k)=−1, y si ( ) 0 1 1 * <∑ + = n j jj kxw entonces z(k)=−1 y la
  • 7. salida incorrecta de la red tiene que ser y(k)=1. Así, también se puede escribir de la forma: ( )∑ + = 1 1 * 2 n j jj kxw Por lo tanto tenemos que ( )( ) ( )( ) ( ) ( )∑ ∑ ∑ ∑ + = + = + = + = −+−≤−+ 1 1 1 1 1 1 1 1 *222*2* 441 n j n j n j n j jjjjjjj kxwkxwkwwkw ηη puesto que hemos prescindido de un término negativo en la derecha de la expresión. Sea ( ) ( )( )∑ + = −+=+ 1 1 2* 11 n j jj wkwkD ( ) ( )( )∑ + = −= 1 1 2* n j jj wkwkD ( )max 1 1 2 1 ⎭ ⎬ ⎫ ⎩ ⎨ ⎧ = ∑ + = ≤≤ n j j pk kxL ( )min 1 1 * 1 ⎭ ⎬ ⎫ ⎩ ⎨ ⎧ = ∑ + = ≤≤ n j jj pk kxwT entonces la expresión anterior se reduce a ( ) ( ) TLkDkD ηη 441 2 −+≤+ ( ) ( ) [ ]41 TLkDkD −+≤+ ηη Si tomamos 0<−TLη , es decir, L T <η entonces D(k+1)<D(k). Esto significa que eligiendo un valor de η tal que 0<η < L T hace que D(k) disminuya al menos en la cantidad constante )2( TL −ηη en cada iteración con corrección. Si el número de iteraciones con corrección fuese infinito entonces llegaríamos al absurdo de alcanzar en una momento determinado un valor negativo del término D(k) que evidentemente es no negativo. La siguiente cuestión que vamos a abordar es estudiar cuál sería el valor mejor que debemos elegir del parámetro de aprendizajeη de forma que se consiga más rápidamente la convergencia de la red. Se trata de elegir η de manera que D(k+1) sea lo menor posible y así conseguir un mayor acercamiento de los pesos de la red a la solución. Como D(k+1) es una función cuadrática del parámetro η solo tenemos que derivar e igualar a cero para encontrar el valor de dicho parámetro que corresponde al mínimo de la expresión D(k+1).
  • 8. ( ) ( ) ( ) ( )∑∑ ∑ + = + = + = −−+=+= 1 1 * 1 1 1 1 22 444)()1()( n j jj n j n j jjj kxwkxkwkxkDkDE ηηηη ( ) ( ) ( ) ( ) ( )∑ ∑∑ + = + = + = =−−= ∂ ∂ 1 1 1 1 * 1 1 2 0448 n j n j jj n j jjj kxwkxkwkx E η η η El valor deη que verifica dicha ecuación es ( ) ( ) ( ) ( )∑ ∑∑ + = + = + = + = 1 1 2 1 1 * 1 1 2 n j j n j jj n j jj opt kx kxwkxkw η Sin embargo el segundo término del numerador no lo conocemos puesto que no conocemos los valores * jw . Si aproximamos dicho término por el anterior tenemos que un valor aproximado de la tasa de aprendizaje óptima es el siguiente: ( ) ( ) ( )∑ ∑ + = + = = 1 1 2 1 1~ n j j n j jj opt kx kxkw η Como hemos visto anteriormente, ( ) ( ) ( )[ ] ( )∑∑ + = + = −=− 1 1 1 1 )()(2 n j jj n j jj kxkwkykzkxkw y así [ ] ( ) ( ) ( )∑ ∑ + = + = −− = 1 1 2 1 1 2 )()( ~ n j j n j jj opt kx kxkwkykz η Sustituyendo este valor del parámetro η en la regla de aprendizaje (cuando y(k)≠z(k)) obtenemos, ( ) ( ) ( )[ ] ( ) ( ) ( ) ( ) ( )[ ] ( )kxkykz kx kxkwkykz kwkw jn j j n j jj jj − − −=+ ∑ ∑ + = + = 1 1 2 1 1 2 )1( es decir,
  • 9. ( ) ( ) ( ) ( ) ( )kx kx kxkw kwkw jn j j n j jj jj ∑ ∑ + = + = −=+ 1 1 2 1 1 2)1( (6) puesto que [z(k)−y(k)]2 = 4 cuando y(k)≠z(k). Dicha regla se conoce con el nombre de regla del Perceptrón normalizada, pues si partimos de un vector de pesos normalizado, es decir, ,1)( =kw entonces todos los pesos que se van obteniendo según la regla de aprendizaje se mantienen normalizados. En efecto, ∑ + = +=+ 1 1 22 )1()1( n j j kwkw ∑ ∑ ∑ ∑ ∑ ∑ ∑ + = + = + = + = + = + = + = − ⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎜ ⎝ ⎛ += 1 1 1 1 2 1 1 2 1 1 1 1 2 1 1 1 1 22 )()( )( )()( 4 )( )()( 2)()( n i jjn j j n j jjn j n j j n j jjn j jj kxkw kx kxkw kx kxkw kxkw 1)( 1 1 2 == ∑ + = n j j kw