Aprendizaje Refuerzo

Universidad Técnica particular de Loja Aprendizaje por Refuerzo Por: Alexandra Cueva E.

Introducción El aprendizaje por refuerzo consiste en aprender a decidir ante una situación predeterminada que acción es la más adecuada para lograr el objetivo. Figura 1 1 Oficina Camino Dañado Camino libre

Introducción Se utiliza los procesos de decisión de Markov que establece un marco matemático en el que se basa el aprendizaje por refuerzo.

Aprendizaje por Refuerzo Un agente H/S está conectado a su entorno vía percepción y acción. En donde el agente recibe a través de sensores el estado en que se encuentra s , y el agente decide ejecutar la acción a , que genera una salida que cambia el estado del entorno s’, transmitiendo una señal de refuerzo r . Figura 2 Entorno T(s,a) R(s,a) Agente π (s) a r s’ r s

Aprendizaje por Refuerzo Se tienen que: Π = Elige la acción que incrementa la suma de todas las señales de aprendizaje recibidas. S = Conjunto de estados. A = Conjunto de acciones. R = Calcula el esfuerzo que recibe el agente. T= Transiciones de estado.

Proceso de decisión de Markov Nos dice que no importa las acciones que se hayan llevado a cabo para alcanzar el estado actual, ya que el estado actual es suficiente para decidir cuales son las acciones futuras. Ejemplo de proceso markoviano sería el juego del tres en raya en el que la decisión de mover una determinada ficha, sólo depende de la configuración actual del tablero (estado) y no del conjunto de movimientos anteriores que he realizado .

Proceso de decisión de Markov La importancia de la propiedad de Markov para los problemas de aprendizaje por refuerzo, es que no importa el camino que se a tomado para llegar al estado actual, si no que solo se rige al estado en que se encuentra para tomar una decisión.

Proceso de Decisión de Markov Proceso de Markov finito .-Si el número de estados y acciones definidas en un modelo son finitos. Figura 3 a1=0,1 a2=1 a1=0,9 a1=0,9 a3=0,5 a2=1 a3=0,5 a1=0,1 meta

Proceso de Decisión de Markov La figura 3 se muestra una ilustración de un MPD. En donde los círculos representan estados es estado sombreado es la meta. Las flechas entre los estados representan una probabilidad de transición a cada uno de los estados cuando se ejecuta una acción

Descomposición de las cadenas de Markov Dadas dos clases comunicantes en una cadena de Markov, o bien son iguales, o bien son disjuntas. Se puede escribir una cadena de Markov como la unión de una serie de clases comunicantes no coherentes.

Descomposición de las cadenas de Markov Hay que tener cuidado con los conjuntos de estados cerrados, es decir, aquellos en los que desde ningún estado interno al conjunto es accesible ningún estado externo. Cadena de Markov irreducible: si todos los pares de estados de la cadena se comunican, por tanto la cadena estará formada exactamente por una sola clase comunicante.

Bibliografía Aprendizaje por Refuerzo en Tablas Disponible en WWW: http://www.cs.us.es/~delia/sia/html98-99/pag-alumnos/web10/indice.html . Aprendizaje Automático conceptos básicos y avanzados. Autor: Basilio Sierra Araujo.

Aprendizaje Refuerzo

Más contenido relacionado

La actualidad más candente

Destacado

Similar a Aprendizaje Refuerzo

Aprendizaje Refuerzo