REDES NEURONALES ENTRENAMIENTO Efectos No Deseados

OCTUBRE 2002 ESCOM IPN 1
*** Efectos No
Deseables enel
Entrenamiento ***

• El uso de muchas neuronas ocultas
pueden causar overfitting.
• Esto es que en vez de que se aprenda
patrones generales necesario para
producir una decisión correcta. La red se
enfoca excesivamente en idiosincrasias de
ejemplos individuales. Particulariza.

• La calidad de la red a menudo alcanza
un pico conforme el entrenamiento
progresa y entonces se deteriora
• Reducir el numero de neuronas ocultas a
tal punto que la red no tenga la capacidad
de aprender idiosincrasias, o bien
incremente el tamaño y la variedad del
conjunto de entrenamiento.

Overfitting
• Una red que es demasiado compleja puede
seguir el ruido, y no a una señal;
produciendo overfitting.
• El overfitting puede conducir fácilmente a
predicciones que están lejos del rango de
los datos de entrenamiento.
• También puede producir predicciones
extravagantes en Perceptrones Multicapa
con datos libres de ruido

• El overfitting no esta confinado a
redes neuronales con capas
ocultas.
• El overfitting puede ocurrir en
redes sin capas ocultas.
• El overfitting puede ocurrir
cuando se tienen las siguientes
condiciones:

• Cuando el numero de variables de
entrada (y por lo tanto el número
de pesos) es grande respecto al
numero de casos de
entrenamiento. Se debe tener una
relación de 10 a 1 del numero de
casos de entrenamiento respecto al
numero de variables de entrada.

• Cuando las variables de entrada
están altamente correlacionadas
entre si (Multicolinealidad*). Esto
puede causar que los pesos se
hagan extremadamente grandes
• *Multicollinearity: en Estadística

• La mejor forma de evitar el overfitting es
usar lotes de datos de entrenamiento.
• Por ejemplo ; Tener una relación de 30
veces los casos de entrenamiento respecto
al número de pesos en la red .
• Para datos libres de ruido con una
relación de 5 veces el número de casos de
entrenamiento respecto al numero de pesos
en la red, será suficiente.

Underfitting
• Cuando una red no resulta lo
suficientemente compleja puede fallar en
detectar completamente una señal en un
conjunto de datos complicados.
• El efecto de underfitting produce un
excesivo umbral en las salidas.

Alternativas para evitar
Underfitting & Overfitting
• a) Selección del modelo
• b) Jittering
• c) Detención temprana
• d) Degradación de Pesos
• e) Aprendizaje Bayesiano
• f) Combinación de Redes

a) Selección del modelo
• Se relaciona con el número de pesos,
número de neuronas ocultas y numero
de capas. El numero de pesos esta
relacionado con el numero de casos de
entrenamiento. A mayor numero de
pesos mayor numero de caso de
entrenamiento

b) Jitte ring
(entrenamiento con ruido)
• Es un ruido artificial entregado a las
entradas de forma deliberada durante el
entrenamiento.
• Se puede tomar cualquier caso de
entrenamiento y generar mas casos de
entrenamiento al agregarle pequeñas
cantidades de ruido (Jittering) a las entradas.

• Demasiado ruido (jitter) producirá
basura.
• Muy poco ruido (jitter) producirá
muy poco efecto.
• Entre mas caso de entrenamiento
se tengan menorruido sera
necesario

c) “Detención Temprana” o
“Entrenamiento Detenido”
• Se procede de la forma siguiente:
1) Se divide el conjunto de datos
disponible en grupos de
entrenamiento y de validación.
2) Usar un gran numero de unidades
ocultas.

3) Usar una razón de aprendizaje
pequeña.
4) Calcular periódicamente la razón
del error de validación durante el
entrenamiento.
5) Detener el entrenamiento cuando
la razón del error de validación
comience a incrementarse (subir).

Ventajas de la
“Detención Temprana”
• Es un método rápido
• Se puede aplicar exitosamente a redes
donde el numero de pesos excede por
mucho al numero de patrones muestra
• Requiere de una mejor decisión del
usuario: Que proporción de casos de
validación usar.

Aspectos No resueltos en la
“Detención Temprana”
• Cuantos casos asignar al conjunto de
entrenamiento y al de validación.
• Separar los datos en los dos conjuntos
anteriores de forma aleatorio o por
algún algoritmo sistemático.
• Como decidir cuando el error de
validación comenzó a crecer

• La alternativa mas segura es entrenar
hasta al convergencia, entonces
regresar hasta la iteración donde se
tuvo el error de validación mas bajo.

d) Degradación de Pesos
• La degradación de pesos agrega un
termino de penalización a la función de
error.
• Usualmente, la penalización es la
suma cuadrática de los pesos veces
una constante de degradación.
• Penaliza a pesos grandes.

• El termino de penalización de la
degradación de pesos causa que los pesos
converjan a pequeños valores absolutos.
22
2
cw
w
sum
i
i
i
+
=Donde:
Wi es el i-esimo peso,
C es una constante especificada por el usuario.
Los valores grandes de los pesos pueden
conducir a una varianza excesiva de la salida.

e) Aprendizaje Bayesiano
• La escuela Bayesiana de estadística esta
basada en un diferente punto de vista de lo
que significa aprender de los datos.
• Típicamente el propósito del entrenamiento
es hacer predicciones de casos futuros, en el
cual únicamente se conozcan las entradas.
Como resultado del entrenamiento se
obtienen un conjunto de pesos.

• En contraste, en el entrenamiento
bayesiano, el resultado es una distribución
posterior sobre los pesos de la red.
• Si las entradas a la red son ajustadas a los
valores de un nuevo caso, la distribución
posterior de los pesos de la red dará un
incremento en la distribución de las salidas
en la red, lo que se conoce como
distribución predictiva.
• El método Bayesianos se aplica
principalmente a otros tipos de redes:
RBFN, y Maquina de Bolzmann.

f) Combinación de Redes
• Estos métodos son actualmente
objeto de investigación activa.
• Boosting: remedio para
underfitting
• Bagging: remedio para overfitting
o inestabilidad.

Dudas ???

Hasta la próxima !!!

REDES NEURONALES ENTRENAMIENTO Efectos No Deseados

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (20)

Similar a REDES NEURONALES ENTRENAMIENTO Efectos No Deseados

Similar a REDES NEURONALES ENTRENAMIENTO Efectos No Deseados (20)

Más de ESCOM

Más de ESCOM (20)

Último

Último (20)

REDES NEURONALES ENTRENAMIENTO Efectos No Deseados