RED De Retro-propagación Modelo Y Arquitectura De La Red
Red Multicapa R – S 1  – S 2  – S 3   Network
Arquitectura general de una red de propagación hacia atrás
 
ARQUITECTURA DE LA RBP Esta red puede utilizarse para “Aproximar una función”.  Puede aproximar cualquier función con un numero finito de discontinuidades.
Introducción En 1986, Rumelhart, Hinton y Williams formalizaron un método para que una red neuronal  aprendiera  la relación que existe entre los patrones de entrada a la red y las salidas correspondientes, utilizando más niveles de neuronas que los que utilizó Rosenblatt para desarrollar el Perceptron.
Introducción La red Back-Propagation está basada en la generalización de la regla delta. Al igual que el Perceptron, ADALINE y MADALINE, la red Back-Propagation se caracteriza por tener una arquitectura en niveles y conexiones estrictamente hacia adelante entre las neuronas.  Utilizan aprendizaje supervisado.
¿En que consiste la RBP?  Consiste en un aprendizaje de un conjunto predefinido de pares de entradas-salidas dados como ejemplo, empleando un ciclo  propagación-adaptación  de dos fases.
FASES Primero .-  se aplica un patrón de entrada como estímulo para la primera capa de las neuronas de la red, se va propagando a través de todas las capas superiores hasta generar una salida. Después  se compara el resultado obtenido en las neuronas de salida con la salida que se desea obtener y se calcula un valor del error para cada neurona de salida.
FASES Segundo .- estos errores se transmiten hacia atrás, partiendo de la capa de salida, hacia todas las neuronas de la capa intermedia que contribuyan directamente a la salida, recibiendo el porcentaje de error aproximado a la participación de la neurona intermedia en la salida original.
La importancia de este algoritmo consiste en su capacidad de auto adaptar los pesos de las neuronas de las capas intermedias para aprender la  relación  que existe entre un conjunto de patrones dados como ejemplo y sus salidas correspondientes. Importancia
Ya entrenada la red se podrá aplicar esa misma relación ( terminado el entrenamiento ), a nuevos vectores de entrada con ruido o incompletos, dando una salida activa si la nueva entrada es parecida a las presentadas durante el aprendizaje. Generalización
Regla Delta Generalizada Es una extensión de la regla delta propuesta por Widrow (1960). Se usa en redes con capas intermedias con conexiones hacia delante y cuyas células tienen funciones de activación continuas.  Estas funciones continuas son no decrecientes y derivables (la función sigmoidal pertenece a este tipo de funciones).
Superficie de error El algoritmo utiliza una superficie de error asociada a la red, buscando el estado de mínimo error a través del camino descendente de la superficie del error.
Superficie de error
Estructura y aprendizaje Capa de entrada con n neuronas. Capa de salida con m neuronas. Al menos una capa oculta de neuronas. Cada neurona de una capa recibe entradas de todas las neuronas de la capa anterior y envía su salida a todas las neuronas de la capa posterior. No hay conexiones hacia atrás  ni laterales entre neuronas de la misma capa.
Control de la convergencia La velocidad de aprendizaje se controla mediante   . Normalmente, debe ser un número entre 0.05 y 0.25. Velocidad de convergencia El valor de    se aumenta a medida que disminuye el error. Añadir un momento (sumar una fracción del ajuste de peso anterior al ajuste actual).
Si una red deja de aprender: Realizar un cambio en el número de neuronas ocultas. Volver a empezar con un conjunto distinto de pesos.
BPN vs. PERCEPTRON La salida de BPN puede tomar valores entre 0 y 1; el perceptrón sólo toma 0 o 1. Perceptrón y BPN normalmente empiezan con un conjunto de pesos aleatorios. El método de la regla delta generalizada para ajustar pesos es el mismo que el de la regla delta utilizada en el perceptrón y ADALINE. BPN usa neuronas con función de activación continua.
RED De Retro-propagación Algoritmo  de Aprendizaje y  Entrenamiento
Funcionamiento del Algoritmo de Aprendizaje Inicialice los pesos de la red con valores pequeños aleatorios. Presentar un patrón de entrada y especificar la salida deseada. Calcule los valores de ajuste de las unidades de salida en base al error observado.
Funcionamiento del Algoritmo de Aprendizaje Empezando por el nivel de salida, repita lo siguiente por cada nivel de la red, hasta llegar al primero de los niveles ocultos: Propague los valores de ajuste de regreso al nivel anterior. Actualice los pesos que hay entre los dos niveles. El proceso se repite hasta que el error resulta aceptablemente pequeño para cada uno de los patrones aprendidos.
Funcionamiento del Algoritmo de  Entrenamiento El método es exactamente el mismo que el de la regla delta utilizada en el Perceptron y ADALINE.
Algoritmo de retropropagación Primer Paso
Algoritmo de retropropagación Segundo Paso
Algoritmo de retropropagación Tercer  Paso
Suponer que se quiere utilizar una  RNA (1-2-1)para aproximar la función :
Entrenamiento Si  p  = 1  y  entonces:
Entrenamiento La salida de la primera capa es:
Entrenamiento Mientras que la salida para la segunda capa es   :   Y se calcula el  error de la red que será de:
Entrenamiento Etapa 2  retropopagación de la sensibilidad.  Se necesita derivar las funciones de transferencia de las capas de la Red:
Entrenamiento El punto de inicio se encuentra en la segunda etapa   :   La sensibilidad de la primera capa se calcula  al retropropagar la sensibilidad desde la segunda capa :
Entrenamiento La etapa final del algoritmo conlleva la  actualización de los pesos   :
Entrenamiento La etapa final del algoritmo conlleva la  actualización de los pesos y umbrales,  para la capa de salida:
Entrenamiento Y para las capas ocultas:
Entrenamiento Estos resultados completan la primera iteración del algoritmo de la retropropagación. Se continuará iterando hasta que la diferencia entre la respuesta de la red y la función objetivo alcance algún nivel aceptable.
Consideraciones sobre el algoritmo de aprendizaje   Este  algoritmo   encuentra un valor mínimo de error (local o global) mediante pasos descendentes (gradiente descendente). Cada punto de la superficie corresponde a un conjunto de valores de los pesos de la red.
Consideraciones sobre el algoritmo de aprendizaje   Con el gradiente descendente, siempre que se realiza un cambio en todos los pesos de la red, se asegura el descenso por la superficie del error hasta encontrar el valle más cercano, lo que puede hacer que el proceso de aprendizaje se detenga en un mínimo local de error.
Superficie de error

RED De Retro-propagación Neuronal

  • 1.
    RED De Retro-propagaciónModelo Y Arquitectura De La Red
  • 2.
    Red Multicapa R– S 1 – S 2 – S 3 Network
  • 3.
    Arquitectura general deuna red de propagación hacia atrás
  • 4.
  • 5.
    ARQUITECTURA DE LARBP Esta red puede utilizarse para “Aproximar una función”. Puede aproximar cualquier función con un numero finito de discontinuidades.
  • 6.
    Introducción En 1986,Rumelhart, Hinton y Williams formalizaron un método para que una red neuronal aprendiera la relación que existe entre los patrones de entrada a la red y las salidas correspondientes, utilizando más niveles de neuronas que los que utilizó Rosenblatt para desarrollar el Perceptron.
  • 7.
    Introducción La redBack-Propagation está basada en la generalización de la regla delta. Al igual que el Perceptron, ADALINE y MADALINE, la red Back-Propagation se caracteriza por tener una arquitectura en niveles y conexiones estrictamente hacia adelante entre las neuronas. Utilizan aprendizaje supervisado.
  • 8.
    ¿En que consistela RBP? Consiste en un aprendizaje de un conjunto predefinido de pares de entradas-salidas dados como ejemplo, empleando un ciclo propagación-adaptación de dos fases.
  • 9.
    FASES Primero .- se aplica un patrón de entrada como estímulo para la primera capa de las neuronas de la red, se va propagando a través de todas las capas superiores hasta generar una salida. Después se compara el resultado obtenido en las neuronas de salida con la salida que se desea obtener y se calcula un valor del error para cada neurona de salida.
  • 10.
    FASES Segundo .-estos errores se transmiten hacia atrás, partiendo de la capa de salida, hacia todas las neuronas de la capa intermedia que contribuyan directamente a la salida, recibiendo el porcentaje de error aproximado a la participación de la neurona intermedia en la salida original.
  • 11.
    La importancia deeste algoritmo consiste en su capacidad de auto adaptar los pesos de las neuronas de las capas intermedias para aprender la relación que existe entre un conjunto de patrones dados como ejemplo y sus salidas correspondientes. Importancia
  • 12.
    Ya entrenada lared se podrá aplicar esa misma relación ( terminado el entrenamiento ), a nuevos vectores de entrada con ruido o incompletos, dando una salida activa si la nueva entrada es parecida a las presentadas durante el aprendizaje. Generalización
  • 13.
    Regla Delta GeneralizadaEs una extensión de la regla delta propuesta por Widrow (1960). Se usa en redes con capas intermedias con conexiones hacia delante y cuyas células tienen funciones de activación continuas. Estas funciones continuas son no decrecientes y derivables (la función sigmoidal pertenece a este tipo de funciones).
  • 14.
    Superficie de errorEl algoritmo utiliza una superficie de error asociada a la red, buscando el estado de mínimo error a través del camino descendente de la superficie del error.
  • 15.
  • 16.
    Estructura y aprendizajeCapa de entrada con n neuronas. Capa de salida con m neuronas. Al menos una capa oculta de neuronas. Cada neurona de una capa recibe entradas de todas las neuronas de la capa anterior y envía su salida a todas las neuronas de la capa posterior. No hay conexiones hacia atrás ni laterales entre neuronas de la misma capa.
  • 17.
    Control de laconvergencia La velocidad de aprendizaje se controla mediante  . Normalmente, debe ser un número entre 0.05 y 0.25. Velocidad de convergencia El valor de  se aumenta a medida que disminuye el error. Añadir un momento (sumar una fracción del ajuste de peso anterior al ajuste actual).
  • 18.
    Si una reddeja de aprender: Realizar un cambio en el número de neuronas ocultas. Volver a empezar con un conjunto distinto de pesos.
  • 19.
    BPN vs. PERCEPTRONLa salida de BPN puede tomar valores entre 0 y 1; el perceptrón sólo toma 0 o 1. Perceptrón y BPN normalmente empiezan con un conjunto de pesos aleatorios. El método de la regla delta generalizada para ajustar pesos es el mismo que el de la regla delta utilizada en el perceptrón y ADALINE. BPN usa neuronas con función de activación continua.
  • 20.
    RED De Retro-propagaciónAlgoritmo de Aprendizaje y Entrenamiento
  • 21.
    Funcionamiento del Algoritmode Aprendizaje Inicialice los pesos de la red con valores pequeños aleatorios. Presentar un patrón de entrada y especificar la salida deseada. Calcule los valores de ajuste de las unidades de salida en base al error observado.
  • 22.
    Funcionamiento del Algoritmode Aprendizaje Empezando por el nivel de salida, repita lo siguiente por cada nivel de la red, hasta llegar al primero de los niveles ocultos: Propague los valores de ajuste de regreso al nivel anterior. Actualice los pesos que hay entre los dos niveles. El proceso se repite hasta que el error resulta aceptablemente pequeño para cada uno de los patrones aprendidos.
  • 23.
    Funcionamiento del Algoritmode Entrenamiento El método es exactamente el mismo que el de la regla delta utilizada en el Perceptron y ADALINE.
  • 24.
  • 25.
  • 26.
  • 27.
    Suponer que sequiere utilizar una RNA (1-2-1)para aproximar la función :
  • 28.
    Entrenamiento Si p = 1 y entonces:
  • 29.
    Entrenamiento La salidade la primera capa es:
  • 30.
    Entrenamiento Mientras quela salida para la segunda capa es : Y se calcula el error de la red que será de:
  • 31.
    Entrenamiento Etapa 2 retropopagación de la sensibilidad. Se necesita derivar las funciones de transferencia de las capas de la Red:
  • 32.
    Entrenamiento El puntode inicio se encuentra en la segunda etapa : La sensibilidad de la primera capa se calcula al retropropagar la sensibilidad desde la segunda capa :
  • 33.
    Entrenamiento La etapafinal del algoritmo conlleva la actualización de los pesos :
  • 34.
    Entrenamiento La etapafinal del algoritmo conlleva la actualización de los pesos y umbrales, para la capa de salida:
  • 35.
    Entrenamiento Y paralas capas ocultas:
  • 36.
    Entrenamiento Estos resultadoscompletan la primera iteración del algoritmo de la retropropagación. Se continuará iterando hasta que la diferencia entre la respuesta de la red y la función objetivo alcance algún nivel aceptable.
  • 37.
    Consideraciones sobre elalgoritmo de aprendizaje Este algoritmo encuentra un valor mínimo de error (local o global) mediante pasos descendentes (gradiente descendente). Cada punto de la superficie corresponde a un conjunto de valores de los pesos de la red.
  • 38.
    Consideraciones sobre elalgoritmo de aprendizaje Con el gradiente descendente, siempre que se realiza un cambio en todos los pesos de la red, se asegura el descenso por la superficie del error hasta encontrar el valle más cercano, lo que puede hacer que el proceso de aprendizaje se detenga en un mínimo local de error.
  • 39.