UNIVERSIDAD TECNICA PARTICULAR DE LOJA ESCUELA DE LAS CIENCIAS DE LA COMPUTACIÓN
INTELIGENCIA ARTIFICIAL  <ul><li>Aprendizaje por refuerzo </li></ul><ul><li>Prof: Ing. Janeth Chicaiza </li></ul><ul><li>P...
Aprendizaje por refuerzo <ul><li>El aprendizaje por refuerzo consiste en aprender a decidir, ante una situación determinad...
Introducción <ul><li>El comportamiento inteligente es elemento que se presenta en muchos de los sistemas que se está acost...
<ul><li>Para dar inteligencia a éstos son definen dos características.  </li></ul><ul><li>El aprendizaje de una tarea por ...
Modelo de Aprendizaje por Refuerzo.
<ul><li>El aprendizaje por refuerzo se basa en los siguientes elemento s para su desarrollo </li></ul><ul><li>1. Un conjun...
<ul><li>El objetivo del agente es encontrar una política, que maximice alguna medida de refuerzo a largo plazo. Un inconve...
Métodos de resolución tradicionales <ul><li>Se definen dos clases de problemas de aprendizaje en base al conocimiento que ...
Aplicación Modelo del percepptron
<ul><li>Entradas </li></ul><ul><li>x1=[1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0]; </li></ul><ul><li>x2=[1 1 1 1 0 0 0 0 1 1 1 1 0 0...
<ul><li>Codigo del Programa  //MATLAB </li></ul><ul><li>clear all </li></ul><ul><li>clc </li></ul><ul><li>x1=[1 1 1 1 1 1 ...
Resultados La corrida nos indica, el  perceptron tardará hasta 38 veces de entrenamiento para tener un aprendizaje óptimo.
Conclusiones  <ul><li>El uso redes neuronales artificiales son un pilar fundamental en el futuro de la Inteligencia artifi...
Próxima SlideShare
Cargando en…5
×

aprendizaje por refuerzo

7.019 visualizaciones

Publicado el

aprendizaje por refuerzo, conceptos básicos y aplicación

Publicado en: Viajes
0 comentarios
6 recomendaciones
Estadísticas
Notas
  • Sé el primero en comentar

Sin descargas
Visualizaciones
Visualizaciones totales
7.019
En SlideShare
0
De insertados
0
Número de insertados
61
Acciones
Compartido
0
Descargas
0
Comentarios
0
Recomendaciones
6
Insertados 0
No insertados

No hay notas en la diapositiva.

aprendizaje por refuerzo

  1. 1. UNIVERSIDAD TECNICA PARTICULAR DE LOJA ESCUELA DE LAS CIENCIAS DE LA COMPUTACIÓN
  2. 2. INTELIGENCIA ARTIFICIAL <ul><li>Aprendizaje por refuerzo </li></ul><ul><li>Prof: Ing. Janeth Chicaiza </li></ul><ul><li>Por: Diego Danilo Guamán L </li></ul><ul><li>Narciso Rodrigo Granda </li></ul>
  3. 3. Aprendizaje por refuerzo <ul><li>El aprendizaje por refuerzo consiste en aprender a decidir, ante una situación determinada, que acción es la más adecuada para lograr un objetivo. </li></ul>
  4. 4. Introducción <ul><li>El comportamiento inteligente es elemento que se presenta en muchos de los sistemas que se está acostumbrados a tratar en la vida diaria, desde aparatos muy sencillos como un reloj o aparatos muy complejos como una empresa de ensamblaje de carros. </li></ul>
  5. 5. <ul><li>Para dar inteligencia a éstos son definen dos características. </li></ul><ul><li>El aprendizaje de una tarea por parte del sistema o agente se realiza mediante un proceso iterativo de prueba y error en el entorno donde el interactúa </li></ul><ul><li>La forma en que el entorno informa al agente sobre si está haciendo bien o mal la tarea que está aprendiendo </li></ul>
  6. 6. Modelo de Aprendizaje por Refuerzo.
  7. 7. <ul><li>El aprendizaje por refuerzo se basa en los siguientes elemento s para su desarrollo </li></ul><ul><li>1. Un conjunto de estados, S; </li></ul><ul><li>2. Un conjunto de acciones del agente, A; </li></ul><ul><li>3. Un conjunto de señales de refuerzo escalares,R , típicamente R={0,1}. </li></ul>
  8. 8. <ul><li>El objetivo del agente es encontrar una política, que maximice alguna medida de refuerzo a largo plazo. Un inconveniente del aprendizaje por refuerzo es que se asume que el entorno debe estar redefinido, implica un orden entre los estados y almacenado. Esto obliga al uso de alguna técnica de discretización, que además limite el número de estados del entorno a un número viable, desde el punto de vista del almacenamiento de memoria y tamaño del conjunto de casos de prueba necesarios para hacer el aprendizaje. A esto último se le denomina generalización de los pares estado-acción. </li></ul>
  9. 9. Métodos de resolución tradicionales <ul><li>Se definen dos clases de problemas de aprendizaje en base al conocimiento que se tiene sobre el modelo a tratar. Si se tiene un conocimiento completo, se conocen los estados y acciones y la dinámica en el entorno donde se desarrollan con la función de transición de estados y la función de refuerzo, se pueden aplicar directamente técnicas de programación dinámica. </li></ul><ul><li>Al contrario, si no se dispone de ese conocimiento, se pueden seguir dos aproximaciones. La primera, se encamina a aprender el modelo, y luego aplicar las técnicas de programación dinámica. La segunda, se buscan técnicas alternativas que puedan aplicarse sin un conocimiento &quot;a priori&quot; del modelo, es decir, métodos libres de modelo. </li></ul>
  10. 10. Aplicación Modelo del percepptron
  11. 11. <ul><li>Entradas </li></ul><ul><li>x1=[1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0]; </li></ul><ul><li>x2=[1 1 1 1 0 0 0 0 1 1 1 1 0 0 0 0]; </li></ul><ul><li>x3=[1 1 0 0 1 1 0 0 1 1 0 0 1 1 0 0]; </li></ul><ul><li>x4=[1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0]; </li></ul><ul><li>Test de Salida </li></ul><ul><li>T=[1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0] </li></ul>
  12. 12. <ul><li>Codigo del Programa //MATLAB </li></ul><ul><li>clear all </li></ul><ul><li>clc </li></ul><ul><li>x1=[1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0]; </li></ul><ul><li>x2=[1 1 1 1 0 0 0 0 1 1 1 1 0 0 0 0]; </li></ul><ul><li>x3=[1 1 0 0 1 1 0 0 1 1 0 0 1 1 0 0]; </li></ul><ul><li>x4=[1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0]; </li></ul><ul><li>P=[x1;x2;x3;x4] </li></ul><ul><li>T=[1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0] </li></ul><ul><li>net= newp([0 1;0 1;0 1;0 1],1); //estructura y parámetros del perceptrón </li></ul><ul><li>net = init(net); </li></ul><ul><li>net = train(net,P,T); </li></ul><ul><li>net.trainParam.epochs =10 </li></ul><ul><li>net.trainParam.goal=0; //valor de error </li></ul><ul><li>net.trainParam.show=1; //valor de exito </li></ul><ul><li>Y = sim(net,P) </li></ul><ul><li>sw=net.IW{1,1} </li></ul><ul><li>a=net.b{1} </li></ul>
  13. 13. Resultados La corrida nos indica, el perceptron tardará hasta 38 veces de entrenamiento para tener un aprendizaje óptimo.
  14. 14. Conclusiones <ul><li>El uso redes neuronales artificiales son un pilar fundamental en el futuro de la Inteligencia artificial las cuales se pueden aplicar en diferentes ramas de la ciencia actual y moderna, como la robótica, simulación de sistemas complejos. </li></ul><ul><li>Brindan soluciones en problemas o situaciones en las que intervienen muchas entradas y son difíciles de precisar. </li></ul><ul><li>Se ha demostrado que los patrones de entrada son una parte fundamental en el aprendizaje de las redes neuronales ya que permiten obtener resultados exactos o cercanos a ciertos tipos de objetos. </li></ul><ul><li>Mientras mayor sea el número de entranamiento, el algoritmo se vuelve más eficiente. </li></ul><ul><li>La integración del modelo de aprendizaje en un sistema, reduce la necesidad de reprogramar el cuerpo de conocimientos </li></ul><ul><li>El modelo de aprendizaje puede ser incorporado a sistemas expertos y dotarles capacidades adaptativas. </li></ul>

×