Taller1

000
001
002
003
004
005
006
007
008
009
010
011
012
013
014
015
016
017
018
019
020
021
022
023
024
025
026
027
028
029
030
031
032
033
034
035
036
037
038
039
040
041
042
043
044
000
001
002
003
004
005
006
007
008
009
010
011
012
013
014
015
016
017
018
019
020
021
022
023
024
025
026
027
028
029
030
031
032
033
034
035
036
037
038
039
040
041
042
043
044
Universidad
Distrital
Francisco
Jose
de
caldas
REDES NEURONALES TALLER I
Hernan Sanabria Páez cod: 20062005011
27 de marzo de 2016
1. Punto 1: Clasificador Bayesiano
El clasificador bayesiano, óptimo parte del hecho de que para minimizar el
error se debe optar por la mayor de las probabilidades a posteriori, es decir si
tenemos un conjunto de clases se dice que un elemento X pertenece la clase Ci
si:
P(Ci|X) > P(cj|X) ∀j = i (1)
por lo tanto se puede representar el clasificador de bayes como una función fi(x)
que depende de lo expresado en (1) aplicando el teoremas de bayes:
fi(X) =
P(Ci|X)P(Ci)
P(X)
(2)
Para nuestro caso al tratarse de una distribución normal de 2 dimensiones tene-
mos:
P(x) =
1
√
2π × Σ
e− 1
2 (X−µ)T
Σ−1
(X−µ)
(3)
Donde:
X es el vector [x1 x2]T
Σ es la matriz de covarianza de cada clase.
µ es el vector de valor medio de cada clase.
Por lo tanto si aplicamos ln, y sus propiedades, a ambos lados de la ecuación (2)
tenemos:
gi(X) = ln(P(Ci|X)) + ln(P(Ci)) − ln(P(X)) (4)
Reemplazando (3) en (4) tenemos:
gi(X) = −
1
2
(X − µ)T
Σ−1
i (X − µ) −
1
2
ln(|Σi|) + ln(P(Ci)) (5)
Nótese que se han omitido los valores de ln(P(X)) y 1
2 ln(2π) puesto que son
valores constantes para cada una de las clases, y se cancelaran mas adelante
cuanto se igualen las funciones de cada clase para hallar sus fronteras de decisión.

045
046
047
048
049
050
051
052
053
054
055
056
057
058
059
060
061
062
063
064
065
066
067
068
069
070
071
072
073
074
075
076
077
078
079
080
081
082
083
084
085
086
087
088
089
045
046
047
048
049
050
051
052
053
054
055
056
057
058
059
060
061
062
063
064
065
066
067
068
069
070
071
072
073
074
075
076
077
078
079
080
081
082
083
084
085
086
087
088
089
Universidad
Distrital
Francisco
Jose
de
caldas
2 Universidad Distrital Francisco José de Caldas
Ahora se realizara una simplificación de (5) ,aprovechando la propiedad delas
matrices (A + B)T
= AT
+ BT
, para facilitar los cálculos así:
gi(X) = −
1
2
[XT
Σ−1
i X−XT
Σ−1
i µi−µT
i Σ−1
i X+µT
i Σ−1
i µi]−
1
2
ln(|Σi|)+ln(P(Ci))
(6)
y finalmente agruparemos dicha ecuación como:
gi(X) = XT
WiX +
1
2
XT
ωi +
1
2
ωT
i X + ωi0 (7)
Donde:
Wi = 1
2 Σ−1
i
ωi = µiΣ−1
i
ωi0 = −1
2 µT
i Σ−1
i µi − 1
2 ln(|Σi|) + ln(P(Ci))
y como XT
ωi = ωT
i X dicha ecuación se reduce a:
gi(X) = XT
WiX + ωT
i X + ωi0 (8)
1.1. Ecuación a Partir de C1 y C2
Para determinar la ecuación del clasificador empezaremos calculando los pa-
rámetros Σ y µ para las 2 clases C1 y C2 con la ayuda del software matlab. Para
calcular los vectores de valores medios utilizaremos un script con el siguiente
código:
clear all %limpiar variables
clc %limpiar consola
load(’set1.mat’); %cargar datos
mu1 = mean(clase1) %calcular el valor medio de la clase1
mu2 = mean(clase2) %calcular el valor medio de la clase2
al ejecutar dicho script obtenemos:
mu1 =
1.4363 1.4757
mu2 =
-0.8955 -0.9752

090
091
092
093
094
095
096
097
098
099
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
090
091
092
093
094
095
096
097
098
099
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
Universidad
Distrital
Francisco
Jose
de
caldas
Universidad Distrital Francisco José de Caldas 3
Por lo tanto tenemos que:
µ1 =


1,43
1,47

 y µ2 =


−0,89
−0,97

 (9)
Ahora se procederá a calcular las matrices de covarianza y sus inversas para cada
clase agregando el siguientecodigo al anterior script:
%calculamos Xi -Xmedio para la covarianza extendiendo mu1 600
veces
ce1 = clase1 - repmat(mu1 ,600 ,1);
%calculamos la matriz de covarianza para la clase1
cov1 =(1/600)*ce1 ’*ce1
%calculamos Xi -Xmedio para la covarianza extendiendo mu1 400
veces
ce2 = clase2 - repmat(mu2 ,400 ,1);
%calculamos la matriz de covarianza para la clase2
cov2 =(1/400)*ce2 ’*ce2
invs1=inv(cov1) %inversa de la matriz de covarianza 1
invs2=inv(cov2) %inversa de la matriz de covarianza 2
det(cov1) %determinante de la matriz de covarianza 1
det(cov2) %determinante de la matriz de covarianza 2
El cual nos entrega el siguiente resultado:
Σ1 =


0,9032 −0,0169
−0,0169 0,9782

 y Σ2 =


2,2598 0,4484
0,4484 1,9683

 (10)
Σ−1
1 =


1,1076 0,0191
0,0191 1,0226

 y Σ−1
2 =


0,4635 −0,1056
−0,1056 0,5321

 (11)
|Σ1| = 0,8832 y |Σ2| = 4,2468 (12)
Ahora que se tienen todos los parámetros se puede utilizar la ecuación (8) para
cada una de las clases:
g1(X) = XT
W1X + ωT
1 X + ω10 (13)
g2(X) = XT
W2X + ωT
2 X + ω20 (14)
por lo tanto se empezará calculando el valor de XT
W1X y XT
W2X:
W1 =
1
2
Σ−1
1 (15)
XT
W1X =
1
2
x1 x2 ·


1,1076 0,0191
0,0191 1,0226

 ·


x1
x2



135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
Universidad
Distrital
Francisco
Jose
de
caldas
XT
W1X = 0,5538x2
1 + 0,0191x1x2 + 0,5113x2
2 (16)
W2 =
1
2
Σ−1
1 (17)
XT
W2X =
1
2
x1 x2 ·


0,4635 −0,1056
−0,1056 0,5321

 ·


x1
x2


XT
W2X = 0,2317x2
1 − 0,1056x1x2 + 0,2661x2
2 (18)
Ahora se calculara el valor de ωT
1 X y ωT
2 X:
ωT
1 = µT
1 Σ−1
1 (19)
ωT
1 X = 1,4363 1,4757 ·


1,1076 0,0191
0,0191 1,0226

 ·


x1
x2


ωT
1 X = 1,6191x1 + 1,5366x2 (20)
ωT
2 = µT
2 Σ−1
2 (21)
ωT
2 X = −0,8955 −0,9752 ·


0,4635 −0,1056
−0,1056 0,5321

 ·


x1
x2


ωT
2 X = −0,3121x1 − 0,4244x2 (22)
y ﬁnalmente se calculará el valor de ω01 y ω02:
ω10 = −
1
2
µT
i Σ−1
1 µ1 −
1
2
ln(|Σ1|) + ln(P(C1)) (23)
ω01 = −
1
2
1,4363 1,4757


1,1076 0,0191
0,0191 1,0226




1,4363
1,4757

−
1
2
ln(0,8832)+ln
600
1000
ω01 = −2,7452 (24)
ω20 = −
1
2
µT
2 Σ−1
2 µ2 −
1
2
ln(|Σ2|) + ln(P(C2)) (25)

180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
Universidad
Distrital
Francisco
Jose
de
caldas
ω02 = −
1
2
−0,8955 −0,9752


0,4635 −0,1056
−0,1056 0,5321




1,4363
1,4757

−
1
2
ln(0,8832)+ln
600
1000
ω01 = −2,5865 (26)
Por lo tanto:
g1(X) = 0,5538x2
1 +0,0191x1x2 +0,5113x2
2 +1,6191x1 +1,5366x2 −2,7452 (27)
g2(X) = 0,2317x2
1 −0,1056x1x2 +0,2661x2
2 −0,3121x1 −0,4244x2 −2,5865 (28)
dichas funciones representan paraboloides que encierran la mayoría de los puntos
de las dispersiones como se observa en la siguiente ﬁgura:
−6 −4 −2 0 2 4 6−5
0
5
0
10
20
30
40
50
x2
x1
g1(x1,x2)
Figura 1. paraboloide que encierra la mayoria de los puntos de la clase 1 en el plano
de z =0.
Si g1(X)=0 y g2(X)=0 obtenemos el siguiente resultado:
Etiqueta X1
EtiquetaX2
Funciones discriminantes para el clasificador bayesiano
−6 −4 −2 0 2 4 6
−6
−4
−2
0
2
4
6
Figura 2. Cortes de las superﬁcies de decicion con el plano Z = 0

225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
Universidad
Distrital
Francisco
Jose
de
caldas
Ahora si se iguala g1(X) y g2(X) y se reagrupan términos obtendremos la
frontera de decisión:
0 = 0,3321x2
1 + 0,1247x1x2 + 0,2452x2
2 + 1,9312x1 + 1,9610x2 − 0,1587 (29)
cuya gráfica es la siguiente:
Etiqueta X1
EtiquetaX2
Region de decisión clasificador bayesiano
−6 −4 −2 0 2 4
−8
−6
−4
−2
0
2
4
6
Figura 3. Frontera de decision
Si tomamos la ecuación (29) como una función que depende de x1 y x2 o sea:
g(x1, x2) = 0,3321x2
1+0,1247x1x2+0,2452x2
2+1,9312x1+1,9610x2−0,1587 (30)
si se realiza su gráfica tenemos:
−5
0
5 −5
0
5
0
10
20
30
40
50
g(x1,x2)
x1 x2
Figura 4. Superficie de decisión tomando g(x1, x2) = 0,3321x2
1 + 0,1247x1x2 +
0,2452x2
2 + 1,9312x1 + 1,9610x2 − 0,1587, donde los puntos rojos corresponden a la
clase 1 y los puntos verdes a la clase 2.

270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
Universidad
Distrital
Francisco
Jose
de
caldas
Al ser la gráfica de la Figura 4, que corresponde a la función g(x2, x2), un
paraboloide podemos deducir la siguiente regla de clasificación:
x ∈ C1 si g(x1, x2) > 0 de lo contrario x ∈ C2 (31)
1.2. Comparación clasificador Bayesiano vs Perceptron con bolsillo
Para realizar la comparación primero se ha entrenado un perceptron con
bolsillo obteniendo una buena solución para separar las 2 clases, obteniendo la
siguiente gráfica:
−8 −6 −4 −2 0 2 4 6
−6
−4
−2
0
2
4
6
Etiqueta X1
EtiquetaX2
Perceptrón con bolsillo
Figura 5. Perceptrón con bolsillo cuyo vector de pesos tras su entrenamiento es: W =
[1,3458 3,0498 − 0,9292].
El error de generalización se ha estimado mediante un script que recorre
los mil puntos y determina cuales se encuentran bien clasificados obteniendo el
siguiente resultado:
clasificador/clasificacion Bien clasificados Mal calsificados % Error
Perceptron 907 93 9.3
Bayes 904 95 9.5
Tabla 1. Error de generalización para los 2 clasificadores.
Para comparar los 2 clasificadores se ha realizado un script en matlab el cual
toma 100000 puntos al azar y cuenta cuanto puntos quedaron mal clasificados,
dicho script se ejecuto 10 veces obteniendo los siguientes resultados:

315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
Universidad
Distrital
Francisco
Jose
de
caldas
Perceptrón con bolsillo Clasiﬁcador de bayes
9147 9461
9336 9510
9364 9480
9254 9416
9334 9557
9207 9455
9275 9456
9265 9502
9376 9505
9261 9377
Tabla 2. Cantidad de errores tras tomar 100000 puntos al azar 10 veces.
Al hacer el promedio se obtiene lo siguinte:
%error
Promedio Bayes 9509.2 9,5
Promedio perceptrón 9267.2 9,2
2. Punto 2: Transformación no lineal y clasiﬁcación con
LMS
Para este ejercicio se ha comenzado entrenando una neurona con el algoritmo
LMS. mediante el siguiente script:
clear all;
clc;
load(’set2.mat’);
pex =[[ clase1;clase2] ones (2000 ,1) ]; %puntos extendidos
yi=[-1*ones (492 ,1) ; ones (1508 ,1) ]; %clasificador
hold on;
axis ([-2 2 -2 2]);
x = linspace (-5,5,100);
w = [rand rand rand ]; %vector de pesos
ys = -((w(1)/w(2))*x) -(w(3)/w(2));
plot(x,ys ,’k’);
r = [];
for j =1 : 1 :2000
r(end + 1)= dot(w’,pex(j,:)); %error en cada punto
end
etotal =(1/2)*sum((r’-yi).^2)
contador = 0;
miu =0.8; %Tasa de aprendizaje
while etotal > 790 %Error minimo requerido
j = randi (2000);
g=dot(w,pex(j,:));

360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
Universidad
Distrital
Francisco
Jose
de
caldas
e=yi(j)-g;
w=w+miu*e*pex(j,:);
ys = -((w(1)/w(2))*x) -(w(3)/w(2));
plot(x,ys ,’g’);
r = [];
for j =1 : 1 :2000
r(end + 1)= dot(w’,pex(j,:)); %error en cada punto
end
etotal =0.5*sum((r’-yi).^2); %Error total
contador=contador +1;
end
etotal % error total
contador %cantidad de iteraciones que tardo en encontrar la
solucion
%impresion de los puntos
for k=1:1:2000
if yi(k) == -1
plot(pex(k,1),pex(k,2),’r.’);
else
plot(pex(k,1),pex(k,2),’b.’);
end
end
ys = -((w(1)/w(2))*x) -(w(3)/w(2)); %linea solucion
plot(x,ys ,’r--’);
Sin embargo al ser puntos no separables lineal mente la el algoritmo encuentra
una recta bastante lejana de la dispersión como se observa a continuación:
−2 −1.5 −1 −0.5 0 0.5 1 1.5 2
−2
−1.5
−1
−0.5
0
0.5
1
1.5
2
Etiqueta X 1
EtiquetaX2
Clasificacion con LMS
Figura 6. Gráﬁca Resultante de aplicar el algoritmo LMS al conjunto de puntos del
ejercicio, se observa que el algoritmo arroja que la recta con menor error esta fuera de
la nube de puntos, las rectas verdes son pasos intermedios hasta encontrar la solución.

405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
Universidad
Distrital
Francisco
Jose
de
caldas
Ahora se ha aplicado la transformación:
φ(X) : (x1, x2) → (x12
, x22
,
√
2 · x1 · x2) (32)
La cual envía la nube de puntos a un espacio de 3 dimensiones como se
observa en la siguiente ﬁgura:
0
0.05
0.1
0.15
0.2
0.25 0
0.05
0.1
0.15
0.2
0.25
−0.4
−0.2
0
0.2
0.4
x1
x2
f(x1,x2)
Figura 7. Gráﬁca Resultante de aplicar la transformación φ(X) : (x1, x2) →
(x12
, x22
,
√
2 · x1 · x2) al conjunto de puntos propuesto.
ahora se ha aplicado el algoritmo LMS para separar los puntos con la trans-
formación expuesta en (32) mediante el siguiente script:
clear all;
clc;
load(’set2.mat’); %datos a clasificar
scatter3(clase1 (:,1).^2, clase1 (:,2).^2, sqrt (2).*clase1 (:,1).*
clase1 (:,2),’g.’)
hold on
scatter3(clase2 (:,1).^2, clase2 (:,2).^2, sqrt (2).*clase2 (:,1).*
clase2 (:,2),’m.’)
totaldatos =[ clase1;clase2 ];
puntosex= [totaldatos (:,1) .^2 totaldatos (:,2) .^2 2.*
totaldatos (:,1).*totaldatos (:,2) ones (2000 ,1) ]; %datos
extendidos
yi = [ones (492 ,1);-1*ones (1508 ,1) ];
w=[ rand rand rand rand ]; %pesos iniciales
r = [];
for j =1 : 1 :2000
r(end + 1)= dot(w’,puntosex(j,:)); %error en cad punto
end
etotal =0.5*sum((r’-yi).^2); %error total
miu =1; % tasa de aprendizaje
iteraciones = 0;

450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
Universidad
Distrital
Francisco
Jose
de
caldas
while etotal > 440 %error minimo requerido
j = randi (2000);
g=dot(w’,puntosex(j,:));
e=yi(j)-g;
w=w+miu*e*puntosex(j,:);
r = [];
for k =1 : 1 :2000
r(end + 1)= dot(w’,puntosex(k,:));
end
etotal =0.5*sum((r’-yi).^2);
iteraciones=iteraciones +1;
end
iteraciones %cantidad deiteraciones para hallar la solucion
etotal %error minimo obteido
xd=linspace ( -0.01 ,0.3);
yd=linspace ( -0.3 ,0.3);
[x,y]= meshgrid(xd ,yd);
z=-(w(1)/w(3))*x -(w(2)/w(3))*y-w(4)/w(3);
surf(x,y,z)
xlabel(’Etiqueta textit{X}1’,’Interpreter ’,’latex ’);
ylabel(’Etiqueta textit{X}2’,’Interpreter ’,’latex ’);
title ({’Clasificacion con LMS’},’FontWeight ’,’bold ’);
A partir de dicho script se ha obtenido una clasificación a través de un plano
como se observa a continuación:
−0.1
0
0.1
0.2
0.3
−0.4
−0.2
0
0.2
0.4
−10
−5
0
5
10
15
Etiqueta X 1
Clasificacion con LMS
Etiqueta X 2
Figura 8. Gráfica Resultante de aplicar el algoritmo LMS a la transformación φ(X) :
(x1, x2) → (x12
, x22
,
√
2 · x1 · x2).
La anterior gráfica se realizó con una taza de aprendizaje µ = 1,4 y un error
mínimo requerido de 435.

495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
Universidad
Distrital
Francisco
Jose
de
caldas
Para poner a prueba la velocidad del algoritmo con la transformación reali-
zada se ha variado la tasa de aprendizaje entre 0 y 2 obteniedo:
tasa de aprendizaje número de iteraciones
0.3 1105
0.5 675.5
0.8 442.16
1 329.33
1.2 289
1.5 616
1.8 2111.16
Tabla 4. Cantidad de iteraciones en promedio tras variar las tazas de
aprendizaje con valores entre 0 y 2, se tomaron 10 datos para cada tasa de
aprendizaje.
La siguiente gráﬁca muestra como varia la velocidad de convergencia respecto
a la tasa de aprendizaje:
Figura 9. Velocidad de convergencia al aplicar el algoritmo LMS a la transformación
φ(X) : (x1, x2) → (x12
, x22
,
√
2 · x1 · x2) variando la tasa de aprendizaje.

540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
Universidad
Distrital
Francisco
Jose
de
caldas
A continuación se presenta el comportamiento el error para una tasa de
aprendizaje de 0,3:
0 200 400 600 800 1000 1200 1400
0
200
400
600
800
1000
1200
1400
1600
X= 1296
Y= 434.9988
Iteraciones
Magnituderror
Error de generalizacion
Figura 10. Error de generalización para una tasa de aprendisaje de 0.3.
Se puede observar que aunque el error tiene oscilaciones, su tendencia es a
decrecer exponencialmente hacia un valor , que para el caso tratado es de 430.
3. Punto 3: Método propuesto para solucionar el
problema de la función XOR
La función XOR se caracteriza por ser un problema no separable lineal-mente
como se observa en la ﬁgura 11:
−1.5 −1 −0.5 0 0.5 1 1.5
−1.5
−1
−0.5
0
0.5
1
1.5
Etiqueta X 1
EtiquetaX2
Funcion XOR
Figura 11. Función XOR, Obsérvese que no existe ninguna linea que pueda separar la
clase1(puntos rojos), de la clase2(puntos magenta).

585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
Universidad
Distrital
Francisco
Jose
de
caldas
Para la solución del problema de clasificación en este documento se propone
un método de clasificación basado en una ecuación general de segundo orden
mas exactamente el conjunto de ecuaciones de segundo orden cuyas gráficas es-
tán representadas mediante Hipérbolas.
La ecuación general de segundo orden se representa como:
Ax2
+ By2
+ Cxy + Dx + Ey + F = 0 (33)
La cual puede ser expresada de forma matricial como:
XT
· Aq · X = 0 (34)
donde:
X = x y 1
T
y
Aq =






F D
2
E
2
D
2 A C
2
E
2
C
2 B






Se denominará M0 a la submatriz de resultante de eliminar la primera fila y
la primera columna de Aq.
M0 =


A C
2
C
2 B

 (35)
Dado lo anterior se sabe que (33) es la ecuación de una hipérbola si:
det(Aq) = 0 y det(M0) < 0 (36)
Donde det(•) representa el determinante de la correspondiente matriz.
3.1. El Hiperton.
Para la solución del problema de clasificación de la funcion XOR se propone
utilizar un método que usa el algoritmo del perceptrón junto con la ecuación de
una hipérbola para clasificar los puntos, al cual se denominará hipertrón.
En este método se toma un vector de pesos W igual al del perceptron, en
el cual se pondrán tres de los coeficientes de la ecuación (33) de la siguiente
manera:
W = [A B C D E] (37)

630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
Universidad
Distrital
Francisco
Jose
de
caldas
Los coeficientes DyE se asignaran como 0 (aunque no se tendrán en cuenta
en el resultado final sus valores obtenidos en W) y se comprobaran las condi-
ciones descritas en (36) si no se cumplen se actualizara el vector de pesos igual
que en el perceptrón y también se actualizarán las matrices AQ y M0 con los
nuevos coeficientes de W y los coeficientes restantes se asignaran aleatoria-mente.
Después de que se cumplan las restricciones de (36) se procederá a clasificar
un punto aleatoria-mente, si dicho punto no se encuentra bien clasificado se vol-
verán a actualizar los pesos, y los demás parámetros.
La regla de clasificación que se utilizará será:
Ic =



x ∈ C1 si g(x1, x2) > 0
x ∈ C2 si g(x1, x2) 0
(38)
Donde C1 y C2 son las 2 clases y g(x1, x2) se define como:
g(x1, x2) = A · (x1)2
+ B · (x2)2
+ C · x1 · x2 + D · x1 + E · x2 + F (39)
A continuación se presenta un script que implementa el algoritmo anterior-
mente descrito:
clear all
clc
A=rand; B=rand; C=rand; D=0; E=0;
F= -1.3;
pex = [-1 -1 1 1 1; -1 1 1 1 1; 1 -1 1 1 1; 1 1 1 1 1];
yi = [1 -1 -1 1];
w = [A B C D E];
p = [-1 -1; -1 1; 1 -1; 1 1];
M=[F w(4)/2 w(5) /2; w(4)/2 w(1) w(3) /2; w(5)/2 w(3)/2 w(2)];
M0=[w(1) w(3) /2; w(3)/2 w(2)];
n=1;
while n <100
j = randi (4);
if det(M)~=0 && det(M0) <0
v=w(1)*p(j,1)^2 +w(2)*p(j,2)^2 + w(3)*p(j,1)*p(j,2) +
D*p(j,1) + E*p(j,2)+F;
if v < 0 && yi(j)==-1
w = w + pex(j,:)*yi(j);
M=[F w(4)/2 w(5) /2; w(4)/2 w(1) w(3) /2; w(5)/2
w(3)/2 w(2) ];;
M0=[w(1) w(3) /2; w(3)/2 w(2)];
end
%% % % % % % % % % % % % % % % % % % % %

675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
Universidad
Distrital
Francisco
Jose
de
caldas
%segmento de codigo opcional , que para cuando encuentra la
solucion
%% % % % % % % % % % % % % % % % % % % % %
%V1=w(1)*p(1,1)^2 +w(2)*p(1,2)^2 + w(3)*p(1,1)*p(1,2) + D*p
(1,1) + E*p(1,2)+F;
%V2=w(1)*p(2,1)^2 +w(2)*p(2,2)^2 + w(3)*p(2,1)*p(2,2) + D*p
(2,1) + E*p(2,2)+F;
%V3=w(1)*p(3,1)^2 +w(2)*p(3,2)^2 + w(3)*p(3,1)*p(3,2) + D*p
(3,1) + E*p(3,2)+F;
%V4=w(1)*p(4,1)^2 +w(2)*p(4,2)^2 + w(3)*p(4,1)*p(4,2) + D*p
(4,1) + E*p(4,2)+F;
%
%if V1 <0 && V4 <0
% if V2 >0 && V3 >0
% disp(’pasos para la solucion :’);
% n
% break;
% end
% end
%% % % % % % % % % % % % % % % % % % % % % % % % % % %5
else
w = w + pex(j,:)*yi(j);
M=[F w(4)/2 w(5) /2; w(4)/2 w(1) w(3) /2; w(5)/2 w(3)/2 w
(2)];
M0=[w(1) w(3) /2; w(3)/2 w(2)];
end
n=n+1;
end
axis ([-2 2 -2 2]);
syms g(x,y);
A=w(1);
B=w(2);
C= w(3);
g(x,y)=w(1)*x^2 +w(2)*y^2 + w(3)*x*y + D*x + E*y+F;
hold on
plot(p(1,1),p(1,2),’r.’);
plot(p(2,1),p(2,2),’b.’);
plot(p(3,1),p(3,2),’b.’);
plot(p(4,1),p(4,2),’r.’);
ezplot(g,[-7,7,-9,7])
xlabel(’Etiqueta textit{X}1’,’Interpreter ’,’latex ’);
ylabel(’Etiqueta textit{X}2’,’Interpreter ’,’latex ’);
title ({’Clasificacion con hiper -tron ’},’FontWeight ’,’bold ’);

720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
Universidad
Distrital
Francisco
Jose
de
caldas
Si ejecutamos dicho script imprimiendo todos los pasos se puede ver el si-
guiente resultado:
−6 −4 −2 0 2 4 6
−6
−4
−2
0
2
4
6
Etiqueta X 1
EtiquetaX2
Clasificacion con hiper−tron
Figura 12. Pasos intermedios hasta encontrar una solución.
A continuación se presentan una clasificaciones exitosa con el hipertrón y su
correspondiente función g(x1, x2):
−2 −1.5 −1 −0.5 0 0.5 1 1.5 2
−2
−1.5
−1
−0.5
0
0.5
1
1.5
2
Etiqueta X 1
EtiquetaX2
−5
0
5
−6 −4 −2 0 2 4 6
−200
−150
−100
−50
0
50
100
Etiqueta X 2Etiqueta X 1
Figura 13. clasificaciones exitosa con el hipertrón y su correspondiente función o su-
perficie de decisión g(x1, x2).
Se puede observar que los puntos azules están por encima del paraboloide
hiperbólico que representa su función de decisión.

765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
Universidad
Distrital
Francisco
Jose
de
caldas
El modelo propuesto es posible de realizar para patrones d-dimensionales,
acudiendo a la forma matricial de las ecuaciones de segundo grado para hiper-
superficies, y tendría que establecerse las restricciones que se establecieron es
este modelo, un ejemplo para el caso particular de 3 dimensiones se podrían uti-
lizar hiperboloides de 2 hojas para clasificar los patrones, y su hiper-superficie
de decisión estaría en R4
siendo hipeparaboloides hiperblolicos en 4 dimensio-
nes, a continuacion se muestra un hiperboloide de 2 hojas para el caso de 3
dimensiones:
Figura 14. Ejemplo de clasificación para el caso de 3 dimensione.
4. Conclusiones
El clasificador bayesiano representa una clasificación óptimo para un proble-
ma no separable lineal mente, pero en este caso se logro una mejor clasifica-
ción con el perceptron con bolsillo, aunque eso se debe a que el clasificador
bayesiano toma en cuenta la probabilidad de escoger un punto y que este
pertenezca a una clase, en este caso la probabilidad era 60/40 pero aun así
se cometían mas errores con el bayesiano que con el perceptron con bolsillo.
Para el caso de dos clases no separables linealmente como el del segundo
punto, es muy útil encontrar una transformacion no lineal que facilite la
separación de los puntos como la que se propuso, se pudo observar que el
algoritmo LMS aplicado a dicho problema no tenia ningún efecto separando
los puntos, también se evidencio un costo computacional mayor al pasar de
un espacio de 2 dimensiones a un espacio de 3.
he podido encontrar un método,(ignoro si ya existía) para solucionar el pro-
blema de la XOR el cual converge la mayoría de las veces en pocos pasos.

Taller1

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (18)

Destacado

Destacado (14)

Similar a Taller1

Similar a Taller1 (20)

Último

Último (20)

Taller1