AUTORES: Rodrigo Granda Diego Guaman SISTEMAS INFORMATICOS Y COMPUTACION INTELIGENCIA ARTIFICIAL “ DISEÑO DE UN MODELO PARA DETERMINAR CUANTAS VECES DEBE UN PERCEPTRON REALIZAR EL NÚMERO DE ENTRENAMIENTOS  PARA RELIZAR UN APRENDIZAJE ” Ing. Jhannet Chicaiza
En el aprendizaje por refuerzo se utilizan datos de entrada con información sobre sus salidas pero, a diferencia del supervisado, no se tiene información acerca del error cometido, de modo que simplemente se ha de determinar si una salida dada por la ANN es buena o no comparándola con la deseada, hasta que las salidas de la ANN sean prácticamente iguales a las del ejemplo.
Un agente es conectado a su entorno via percepción y acción.
El comportamiento,  B , del agente elige acciones que incrementen la suma de todas las  señales de refuerzo recibidas a lo largo del  tiempo. Formalmente, el modelo consiste de  1. Un conjunto discreto de estados, ;  2. Un conjunto discreto de acciones del agente, ; 3. Un conjunto de señales de refuerzo escalares, , típicamente .
Un inconveniente del aprendizaje por refuerzo es que se asume que el entorno debe estar sincretizado, y que el total de dicho entorno puede ser enumerado (implica un orden entre los estados) y almacenado (implica un conjunto de estados finito). Estos son algunos de los principales problemas que se encuentran al aplicar el aprendizaje por refuerzo para adquirir la habilidad de interceptar el balón en  Soccer Server . Por ir adelantando algunas cuestiones, cabe indicar que dicho entorno es un entorno de infinitos estados con valores continuos. Esto obliga al uso de alguna técnica de desratización, que además limite el número de estados del entorno a un número viable, desde el punto de vista del almacenamiento de memoria y tamaño del conjunto de casos de prueba necesarios para hacer el aprendizaje. A esto último se le denomina  generalización de los pares estado-acción .
Entradas x1=[1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0]; x2=[1 1 1 1 0 0 0 0 1 1 1 1 0 0 0 0]; x3=[1 1 0 0 1 1 0 0 1 1 0 0 1 1 0 0]; x4=[1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0];   Test de Salida T=[1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]

Video

  • 1.
    AUTORES: Rodrigo GrandaDiego Guaman SISTEMAS INFORMATICOS Y COMPUTACION INTELIGENCIA ARTIFICIAL “ DISEÑO DE UN MODELO PARA DETERMINAR CUANTAS VECES DEBE UN PERCEPTRON REALIZAR EL NÚMERO DE ENTRENAMIENTOS PARA RELIZAR UN APRENDIZAJE ” Ing. Jhannet Chicaiza
  • 2.
    En el aprendizajepor refuerzo se utilizan datos de entrada con información sobre sus salidas pero, a diferencia del supervisado, no se tiene información acerca del error cometido, de modo que simplemente se ha de determinar si una salida dada por la ANN es buena o no comparándola con la deseada, hasta que las salidas de la ANN sean prácticamente iguales a las del ejemplo.
  • 3.
    Un agente esconectado a su entorno via percepción y acción.
  • 4.
    El comportamiento, B , del agente elige acciones que incrementen la suma de todas las señales de refuerzo recibidas a lo largo del tiempo. Formalmente, el modelo consiste de 1. Un conjunto discreto de estados, ; 2. Un conjunto discreto de acciones del agente, ; 3. Un conjunto de señales de refuerzo escalares, , típicamente .
  • 5.
    Un inconveniente delaprendizaje por refuerzo es que se asume que el entorno debe estar sincretizado, y que el total de dicho entorno puede ser enumerado (implica un orden entre los estados) y almacenado (implica un conjunto de estados finito). Estos son algunos de los principales problemas que se encuentran al aplicar el aprendizaje por refuerzo para adquirir la habilidad de interceptar el balón en Soccer Server . Por ir adelantando algunas cuestiones, cabe indicar que dicho entorno es un entorno de infinitos estados con valores continuos. Esto obliga al uso de alguna técnica de desratización, que además limite el número de estados del entorno a un número viable, desde el punto de vista del almacenamiento de memoria y tamaño del conjunto de casos de prueba necesarios para hacer el aprendizaje. A esto último se le denomina generalización de los pares estado-acción .
  • 6.
    Entradas x1=[1 11 1 1 1 1 1 0 0 0 0 0 0 0 0]; x2=[1 1 1 1 0 0 0 0 1 1 1 1 0 0 0 0]; x3=[1 1 0 0 1 1 0 0 1 1 0 0 1 1 0 0]; x4=[1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0];   Test de Salida T=[1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]