Este documento presenta un modelo para determinar cuántas veces debe entrenarse un perceptrón para lograr el aprendizaje. Describe que el aprendizaje por refuerzo usa datos de entrada y salida pero sin información de error, por lo que se debe determinar si la salida es buena comparándola con la deseada. Explica que el comportamiento del agente elige acciones que maximicen las señales de refuerzo a lo largo del tiempo y define los componentes básicos de un modelo de aprendizaje por refuerzo.