Universidad Técnica particular de Loja Aprendizaje por Refuerzo Por: Alexandra Cueva E.
Introducción <ul><li>El aprendizaje por refuerzo consiste en aprender a decidir ante una situación predeterminada que acci...
Introducción <ul><li>Se utiliza los procesos de decisión de Markov  que establece un marco matemático en el que se basa el...
Aprendizaje por Refuerzo <ul><li>Un agente H/S está conectado a su entorno vía percepción y acción. En donde el agente rec...
Aprendizaje por Refuerzo <ul><li>Se tienen que: </li></ul><ul><li>Π  = Elige la acción que incrementa la suma de todas las...
Proceso de decisión de Markov <ul><li>Nos dice que no importa las acciones  que se hayan llevado a cabo para alcanzar el e...
Proceso de decisión de Markov <ul><li>La importancia de la propiedad de Markov para los problemas de aprendizaje por refue...
Proceso de Decisión de Markov <ul><ul><li>Proceso de Markov finito .-Si el número de estados y acciones definidas en un mo...
Proceso de Decisión de Markov <ul><li>La figura 3 se muestra una ilustración de un MPD. </li></ul><ul><li>En donde los cír...
Descomposición de las cadenas de Markov <ul><li>Dadas dos clases comunicantes en una cadena de Markov, o bien son iguales,...
Descomposición de las cadenas de Markov <ul><li>Hay que tener cuidado con los conjuntos de estados cerrados, es decir, aqu...
Bibliografía <ul><li>Aprendizaje por Refuerzo en Tablas Disponible en WWW:  http://www.cs.us.es/~delia/sia/html98-99/pag-a...
Próxima SlideShare
Cargando en…5
×

Aprendizaje Refuerzo

1.667 visualizaciones

Publicado el

Una pequeña descripción de lo ques Aprendizaje Refuerzo

0 comentarios
1 recomendación
Estadísticas
Notas
  • Sé el primero en comentar

Sin descargas
Visualizaciones
Visualizaciones totales
1.667
En SlideShare
0
De insertados
0
Número de insertados
11
Acciones
Compartido
0
Descargas
21
Comentarios
0
Recomendaciones
1
Insertados 0
No insertados

No hay notas en la diapositiva.

Aprendizaje Refuerzo

  1. 1. Universidad Técnica particular de Loja Aprendizaje por Refuerzo Por: Alexandra Cueva E.
  2. 2. Introducción <ul><li>El aprendizaje por refuerzo consiste en aprender a decidir ante una situación predeterminada que acción es la más adecuada para lograr el objetivo. </li></ul><ul><li>Figura 1 </li></ul><ul><li>1 </li></ul>Oficina Camino Dañado Camino libre
  3. 3. Introducción <ul><li>Se utiliza los procesos de decisión de Markov que establece un marco matemático en el que se basa el aprendizaje por refuerzo. </li></ul>
  4. 4. Aprendizaje por Refuerzo <ul><li>Un agente H/S está conectado a su entorno vía percepción y acción. En donde el agente recibe a través de sensores el estado en que se encuentra s , y el agente decide ejecutar la acción a , que genera una salida que cambia el estado del entorno s’, transmitiendo una señal de refuerzo r . </li></ul><ul><li>Figura 2 </li></ul>Entorno T(s,a) R(s,a) Agente π (s) a r s’ r s
  5. 5. Aprendizaje por Refuerzo <ul><li>Se tienen que: </li></ul><ul><li>Π = Elige la acción que incrementa la suma de todas las señales de aprendizaje recibidas. </li></ul><ul><li>S = Conjunto de estados. </li></ul><ul><li>A = Conjunto de acciones. </li></ul><ul><li>R = Calcula el esfuerzo que recibe el agente. </li></ul><ul><li>T= Transiciones de estado. </li></ul>
  6. 6. Proceso de decisión de Markov <ul><li>Nos dice que no importa las acciones que se hayan llevado a cabo para alcanzar el estado actual, ya que el estado actual es suficiente para decidir cuales son las acciones futuras. </li></ul><ul><li>Ejemplo de proceso markoviano sería el juego del tres en raya en el que la decisión de mover una determinada ficha, sólo depende de la configuración actual del tablero (estado) y no del conjunto de movimientos anteriores que he realizado . </li></ul>
  7. 7. Proceso de decisión de Markov <ul><li>La importancia de la propiedad de Markov para los problemas de aprendizaje por refuerzo, es que no importa el camino que se a tomado para llegar al estado actual, si no que solo se rige al estado en que se encuentra para tomar una decisión. </li></ul>
  8. 8. Proceso de Decisión de Markov <ul><ul><li>Proceso de Markov finito .-Si el número de estados y acciones definidas en un modelo son finitos. </li></ul></ul><ul><ul><li>Figura 3 </li></ul></ul>a1=0,1 a2=1 a1=0,9 a1=0,9 a3=0,5 a2=1 a3=0,5 a1=0,1 meta
  9. 9. Proceso de Decisión de Markov <ul><li>La figura 3 se muestra una ilustración de un MPD. </li></ul><ul><li>En donde los círculos representan estados es estado sombreado es la meta. Las flechas entre los estados representan una probabilidad de transición a cada uno de los estados cuando se ejecuta una acción </li></ul>
  10. 10. Descomposición de las cadenas de Markov <ul><li>Dadas dos clases comunicantes en una cadena de Markov, o bien son iguales, o bien son disjuntas. </li></ul><ul><li>Se puede escribir una cadena de Markov como la unión de una serie de clases comunicantes no coherentes. </li></ul>
  11. 11. Descomposición de las cadenas de Markov <ul><li>Hay que tener cuidado con los conjuntos de estados cerrados, es decir, aquellos en los que desde ningún estado interno al conjunto es accesible ningún estado externo. </li></ul><ul><li>Cadena de Markov irreducible: si todos los pares de estados de la cadena se comunican, por tanto la cadena estará formada exactamente por una sola clase comunicante. </li></ul>
  12. 12. Bibliografía <ul><li>Aprendizaje por Refuerzo en Tablas Disponible en WWW: http://www.cs.us.es/~delia/sia/html98-99/pag-alumnos/web10/indice.html . </li></ul><ul><li>Aprendizaje Automático conceptos básicos y avanzados. Autor: Basilio Sierra Araujo. </li></ul>

×