2. OCTUBRE 2002 ESCOM IPN 2
• El uso de muchas neuronas ocultas
pueden causar overfitting.
• Esto es que en vez de que se aprenda
patrones generales necesario para
producir una decisión correcta. La red se
enfoca excesivamente en idiosincrasias de
ejemplos individuales. Particulariza.
3. OCTUBRE 2002 ESCOM IPN 3
• La calidad de la red a menudo alcanza
un pico conforme el entrenamiento
progresa y entonces se deteriora
• Reducir el numero de neuronas ocultas a
tal punto que la red no tenga la capacidad
de aprender idiosincrasias, o bien
incremente el tamaño y la variedad del
conjunto de entrenamiento.
4. OCTUBRE 2002 ESCOM IPN 4
Overfitting
• Una red que es demasiado compleja puede
seguir el ruido, y no a una señal;
produciendo overfitting.
• El overfitting puede conducir fácilmente a
predicciones que están lejos del rango de
los datos de entrenamiento.
• También puede producir predicciones
extravagantes en Perceptrones Multicapa
con datos libres de ruido
6. OCTUBRE 2002 ESCOM IPN 6
• El overfitting no esta confinado a
redes neuronales con capas
ocultas.
• El overfitting puede ocurrir en
redes sin capas ocultas.
• El overfitting puede ocurrir
cuando se tienen las siguientes
condiciones:
7. OCTUBRE 2002 ESCOM IPN 7
• Cuando el numero de variables de
entrada (y por lo tanto el número
de pesos) es grande respecto al
numero de casos de
entrenamiento. Se debe tener una
relación de 10 a 1 del numero de
casos de entrenamiento respecto al
numero de variables de entrada.
8. OCTUBRE 2002 ESCOM IPN 8
• Cuando las variables de entrada
están altamente correlacionadas
entre si (Multicolinealidad*). Esto
puede causar que los pesos se
hagan extremadamente grandes
• *Multicollinearity: en Estadística
9. OCTUBRE 2002 ESCOM IPN 9
• La mejor forma de evitar el overfitting es
usar lotes de datos de entrenamiento.
• Por ejemplo ; Tener una relación de 30
veces los casos de entrenamiento respecto
al número de pesos en la red .
• Para datos libres de ruido con una
relación de 5 veces el número de casos de
entrenamiento respecto al numero de pesos
en la red, será suficiente.
12. OCTUBRE 2002 ESCOM IPN 12
Underfitting
• Cuando una red no resulta lo
suficientemente compleja puede fallar en
detectar completamente una señal en un
conjunto de datos complicados.
• El efecto de underfitting produce un
excesivo umbral en las salidas.
13. OCTUBRE 2002 ESCOM IPN 13
Alternativas para evitar
Underfitting & Overfitting
• a) Selección del modelo
• b) Jittering
• c) Detención temprana
• d) Degradación de Pesos
• e) Aprendizaje Bayesiano
• f) Combinación de Redes
14. OCTUBRE 2002 ESCOM IPN 14
a) Selección del modelo
• Se relaciona con el número de pesos,
número de neuronas ocultas y numero
de capas. El numero de pesos esta
relacionado con el numero de casos de
entrenamiento. A mayor numero de
pesos mayor numero de caso de
entrenamiento
15. OCTUBRE 2002 ESCOM IPN 15
b) Jitte ring
(entrenamiento con ruido)
• Es un ruido artificial entregado a las
entradas de forma deliberada durante el
entrenamiento.
• Se puede tomar cualquier caso de
entrenamiento y generar mas casos de
entrenamiento al agregarle pequeñas
cantidades de ruido (Jittering) a las entradas.
16. OCTUBRE 2002 ESCOM IPN 16
• Demasiado ruido (jitter) producirá
basura.
• Muy poco ruido (jitter) producirá
muy poco efecto.
• Entre mas caso de entrenamiento
se tengan menorruido sera
necesario
17. OCTUBRE 2002 ESCOM IPN 17
c) “Detención Temprana” o
“Entrenamiento Detenido”
• Se procede de la forma siguiente:
1) Se divide el conjunto de datos
disponible en grupos de
entrenamiento y de validación.
2) Usar un gran numero de unidades
ocultas.
18. OCTUBRE 2002 ESCOM IPN 18
3) Usar una razón de aprendizaje
pequeña.
4) Calcular periódicamente la razón
del error de validación durante el
entrenamiento.
5) Detener el entrenamiento cuando
la razón del error de validación
comience a incrementarse (subir).
19. OCTUBRE 2002 ESCOM IPN 19
Ventajas de la
“Detención Temprana”
• Es un método rápido
• Se puede aplicar exitosamente a redes
donde el numero de pesos excede por
mucho al numero de patrones muestra
• Requiere de una mejor decisión del
usuario: Que proporción de casos de
validación usar.
20. OCTUBRE 2002 ESCOM IPN 20
Aspectos No resueltos en la
“Detención Temprana”
• Cuantos casos asignar al conjunto de
entrenamiento y al de validación.
• Separar los datos en los dos conjuntos
anteriores de forma aleatorio o por
algún algoritmo sistemático.
• Como decidir cuando el error de
validación comenzó a crecer
21. OCTUBRE 2002 ESCOM IPN 21
• La alternativa mas segura es entrenar
hasta al convergencia, entonces
regresar hasta la iteración donde se
tuvo el error de validación mas bajo.
22. OCTUBRE 2002 ESCOM IPN 22
d) Degradación de Pesos
• La degradación de pesos agrega un
termino de penalización a la función de
error.
• Usualmente, la penalización es la
suma cuadrática de los pesos veces
una constante de degradación.
• Penaliza a pesos grandes.
23. OCTUBRE 2002 ESCOM IPN 23
• El termino de penalización de la
degradación de pesos causa que los pesos
converjan a pequeños valores absolutos.
22
2
cw
w
sum
i
i
i
+
=Donde:
Wi es el i-esimo peso,
C es una constante especificada por el usuario.
Los valores grandes de los pesos pueden
conducir a una varianza excesiva de la salida.
24. OCTUBRE 2002 ESCOM IPN 24
e) Aprendizaje Bayesiano
• La escuela Bayesiana de estadística esta
basada en un diferente punto de vista de lo
que significa aprender de los datos.
• Típicamente el propósito del entrenamiento
es hacer predicciones de casos futuros, en el
cual únicamente se conozcan las entradas.
Como resultado del entrenamiento se
obtienen un conjunto de pesos.
25. OCTUBRE 2002 ESCOM IPN 25
• En contraste, en el entrenamiento
bayesiano, el resultado es una distribución
posterior sobre los pesos de la red.
• Si las entradas a la red son ajustadas a los
valores de un nuevo caso, la distribución
posterior de los pesos de la red dará un
incremento en la distribución de las salidas
en la red, lo que se conoce como
distribución predictiva.
• El método Bayesianos se aplica
principalmente a otros tipos de redes:
RBFN, y Maquina de Bolzmann.
26. OCTUBRE 2002 ESCOM IPN 26
f) Combinación de Redes
• Estos métodos son actualmente
objeto de investigación activa.
• Boosting: remedio para
underfitting
• Bagging: remedio para overfitting
o inestabilidad.