SlideShare una empresa de Scribd logo
1 de 24
Aprendizaje por Refuerzo Framework Aplicado a robots en RealTime Battle José Luis Marina Máster Investigación Informática Universidad Complutense de Madrid Obra Creative Commons Febrero  de 2009 Aprendizaje Automático
Introducción Introducción   Entorno  Estrategia  Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Problema genérico a resolver: “ Cómo un agente autónomo que  siente  y  reacciona  con su entorno, puede  aprender a elegir  acciones óptimas para la consecución de sus objetivos .” Machine Learning - Tom Mitchell Aprendizaje por refuerzo
Introducción Introducción   Entorno  Estrategia  Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Aprendizaje por refuerzo
Introducción Introducción   Entorno  Estrategia  Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Elegir  política de control  o acciones que maximizen: Aprendizaje por refuerzo s 0 s 1 s 2 a 2 a 1 a 0 r 0 r 1 r 2 r 0  + Ɣ r 1  + Ɣ²r 2  + ... donde 0  ≤  Ɣ < 1 ... Agente Entorno
Introducción Introducción   Entorno  Estrategia  Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Aprendizaje por refuerzo
Introducción Introducción   Entorno  Estrategia  Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots ,[object Object],[object Object],[object Object],[object Object],[object Object],Aprendizaje por refuerzo
Introducción Introducción   Entorno  Estrategia  Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Aprendizaje por refuerzo ,[object Object]
Introducción Introducción   Entorno  Estrategia  Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots ,[object Object],Aprendizaje por refuerzo ,[object Object],[object Object],[object Object],[object Object],[object Object]
Real Time Battle Introducción   Entorno   Estrategia  Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Real Time Battle Introducción   Entorno   Estrategia  Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Real Time Battle Introducción   Entorno   Estrategia  Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Trabajo Introducción   Entorno   Estrategia   Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Trabajo Introducción   Entorno   Estrategia   Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Trabajo Introducción   Entorno   Estrategia   Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Sensores, estados y Acciones X SEE_COOKIE – SEE_WALL  - SEE_ROBOT No Lejos Cerca NUM_ROBOTS ENERGY UNDER_FIRE Poco Medio Mucho -> S 1  S 2  . S n  n=3 8 (6561)   3 8 PATROL  FIRE_AROUND  BE_QUIET  GO_FOR_COOKIES FIRE_CRAZY  RAMBOW  STOP  ACELERAR GIRAR ROBOT GIRAR RADAR Y CAÑÓN FRENAR DISPARAR ....  Acciones Básicas Acciones Elaboradas 7 Q(s,a) 3 8  x 7 45927 elementos NUMROBOTS  = 0, SEE_ROBOT  = 1, SEE_WALL  = 2, SEE_COOKIE = 3, SEE_MINE  = 4, SEE_BULLET = 5, MY_ENERGY  = 6, UNDER_FIRE = 7, LEVEL_1 = 0 LEVEL_2 = 1 LEVEL_3 = 2
Trabajo Introducción   Entorno   Estrategia   Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Clase Qtable y Rebote MAIN: RTB_Rebote Rebote(&quot;Nombre&quot;,&quot;Color&quot;); Rebote. run() ; Rebote.run() RTB_QTable Qt; Qt.open (num_actions  , num_states ,init_val “ qtable_file&quot;,explore_rate ,learning); While (!end_game) get_sensor_values();  calculate_state();  reward = energy + 400 / (robots_left *  robots_left); action = Qt.next_action(state, reward); execute_action(action);
Resultados Introducción   Entorno   Estrategia   Conclusiones   Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Introducción José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Al Azar Gamma = 1.0 Explore = 10% Learning Gamma = 0.8 Explore = 10% Gamma = 1.0 No Learning Introducción   Entorno   Estrategia   Conclusiones   Futuro
Datos de Resultados José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Introducción   Entorno   Estrategia   Conclusiones   Futuro ,[object Object],[object Object],[object Object],[object Object],[object Object]
Datos de Resultados José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Introducción   Entorno   Estrategia   Conclusiones   Futuro
Conclusiones sobre los resultados  José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Introducción   Entorno   Estrategia   Conclusiones   Futuro ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Acciones Futuras José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Introducción   Entorno   Estrategia   Conclusiones   Futuro ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Principales Referencias José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Introducción   Entorno   Estrategia   Conclusiones   Futuro Machine Learning: C13 – Reiforcement Learning Tom Mitchell -  1997 RETALIATE: Learning Winning Policies in First-Person Shooter Games Megan Smith, Stephen Lee-Urban, Héctor Muñoz-Avila –  2007 Learning to be a Bot: Reiforcement Learning in Shooter Games. Michelle McPartland and Marcus Gallagher –  2008 Sutton, R. S. & Barto, A. G. Reinforcement Learning:An Introduction,  MIT Press, Cambridge, MA -  1998 . Recognizing the Enemy: Combining RL with Strategy Selection using CBR. B. auslander, S. Lee-Urban, Chad Hogg and H. Muñoz -  2008 Real Time Battle: Web page and documentation. http://realtimebattle.sourceforge.net/ Imágenes de: http://www.sxc.hu
Fin José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Introducción   Entorno   Estrategia   Conclusiones   Futuro ¿Preguntas? [email_address]
Introducción Introducción   Entorno  Estrategia  Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots ,[object Object],[object Object],[object Object],[object Object],[object Object],Aprendizaje por refuerzo

Más contenido relacionado

Similar a Aprendizaje por Refuerzo: Luchas de Robots

Curso java desde cero nivel i - modulo iii
Curso java desde cero   nivel i - modulo iiiCurso java desde cero   nivel i - modulo iii
Curso java desde cero nivel i - modulo iiiGiovanny Guillen
 
Algoritmos Voraces (Greedy)
Algoritmos Voraces (Greedy)Algoritmos Voraces (Greedy)
Algoritmos Voraces (Greedy)luzenith_g
 
Introduccion a la Simulación de Sistemas
Introduccion a la Simulación de SistemasIntroduccion a la Simulación de Sistemas
Introduccion a la Simulación de SistemasP.A. Ortiz Bochard
 
Competencias de simulación
Competencias de simulaciónCompetencias de simulación
Competencias de simulaciónAlejandra Pérez
 
Automatizando el aprendizaje basado en datos
Automatizando el aprendizaje basado en datosAutomatizando el aprendizaje basado en datos
Automatizando el aprendizaje basado en datosManuel Martín
 
Proyecto final MODELADO DE ROBOTS UPC TABASCO
Proyecto final MODELADO DE ROBOTS UPC TABASCOProyecto final MODELADO DE ROBOTS UPC TABASCO
Proyecto final MODELADO DE ROBOTS UPC TABASCODave R Rdez
 
Memoria intermedia
Memoria intermediaMemoria intermedia
Memoria intermediasinchan607
 
2010-10-15 (upm) eMadrid arcarrio uc3m algoritmos aprendizaje patrones
2010-10-15 (upm) eMadrid arcarrio uc3m algoritmos aprendizaje patrones2010-10-15 (upm) eMadrid arcarrio uc3m algoritmos aprendizaje patrones
2010-10-15 (upm) eMadrid arcarrio uc3m algoritmos aprendizaje patroneseMadrid network
 
Final Degree Project SMIT
Final Degree Project SMITFinal Degree Project SMIT
Final Degree Project SMITIvan Pretel
 

Similar a Aprendizaje por Refuerzo: Luchas de Robots (20)

Curso java desde cero nivel i - modulo iii
Curso java desde cero   nivel i - modulo iiiCurso java desde cero   nivel i - modulo iii
Curso java desde cero nivel i - modulo iii
 
Algoritmos Voraces (Greedy)
Algoritmos Voraces (Greedy)Algoritmos Voraces (Greedy)
Algoritmos Voraces (Greedy)
 
Colisiones (2) (1)
Colisiones (2) (1)Colisiones (2) (1)
Colisiones (2) (1)
 
EVALUACION DE ALGORTIMOS
EVALUACION DE ALGORTIMOSEVALUACION DE ALGORTIMOS
EVALUACION DE ALGORTIMOS
 
Introduccion a la Simulación de Sistemas
Introduccion a la Simulación de SistemasIntroduccion a la Simulación de Sistemas
Introduccion a la Simulación de Sistemas
 
Competencias de simulación
Competencias de simulaciónCompetencias de simulación
Competencias de simulación
 
ISO 13053
ISO 13053ISO 13053
ISO 13053
 
Automatizando el aprendizaje basado en datos
Automatizando el aprendizaje basado en datosAutomatizando el aprendizaje basado en datos
Automatizando el aprendizaje basado en datos
 
Proyecto final MODELADO DE ROBOTS UPC TABASCO
Proyecto final MODELADO DE ROBOTS UPC TABASCOProyecto final MODELADO DE ROBOTS UPC TABASCO
Proyecto final MODELADO DE ROBOTS UPC TABASCO
 
Presentacion fermath
Presentacion fermathPresentacion fermath
Presentacion fermath
 
Presentacion robotica
Presentacion roboticaPresentacion robotica
Presentacion robotica
 
talleres de lpp
talleres de lpptalleres de lpp
talleres de lpp
 
Memoria intermedia
Memoria intermediaMemoria intermedia
Memoria intermedia
 
Sesion 04 NXT
Sesion 04 NXTSesion 04 NXT
Sesion 04 NXT
 
Complejidad Computacional
Complejidad ComputacionalComplejidad Computacional
Complejidad Computacional
 
2010-10-15 (upm) eMadrid arcarrio uc3m algoritmos aprendizaje patrones
2010-10-15 (upm) eMadrid arcarrio uc3m algoritmos aprendizaje patrones2010-10-15 (upm) eMadrid arcarrio uc3m algoritmos aprendizaje patrones
2010-10-15 (upm) eMadrid arcarrio uc3m algoritmos aprendizaje patrones
 
Teoria optimizacion
Teoria optimizacionTeoria optimizacion
Teoria optimizacion
 
TOminer-1.2
TOminer-1.2TOminer-1.2
TOminer-1.2
 
trabajo final
trabajo finaltrabajo final
trabajo final
 
Final Degree Project SMIT
Final Degree Project SMITFinal Degree Project SMIT
Final Degree Project SMIT
 

Más de Joselu Marina

La vida real: Presentando un proyecto innovador a H2020
La vida real: Presentando un proyecto innovador a H2020La vida real: Presentando un proyecto innovador a H2020
La vida real: Presentando un proyecto innovador a H2020Joselu Marina
 
Kubernetes: Caso de uso real con mememtum y Taniwa
Kubernetes: Caso de uso real con mememtum y TaniwaKubernetes: Caso de uso real con mememtum y Taniwa
Kubernetes: Caso de uso real con mememtum y TaniwaJoselu Marina
 
Visión sobre tecnología y medicina
Visión sobre tecnología y medicinaVisión sobre tecnología y medicina
Visión sobre tecnología y medicinaJoselu Marina
 
mememtum: presentación para inversores - IESE Jul 2013
mememtum: presentación para inversores - IESE Jul 2013mememtum: presentación para inversores - IESE Jul 2013
mememtum: presentación para inversores - IESE Jul 2013Joselu Marina
 
mememtum: Móviles para la salud
mememtum: Móviles para la saludmememtum: Móviles para la salud
mememtum: Móviles para la saludJoselu Marina
 
Taniwa: Servicios y productos
Taniwa: Servicios y productosTaniwa: Servicios y productos
Taniwa: Servicios y productosJoselu Marina
 
Sharing Osmius experiences in Startup Boot Camp Ma
Sharing Osmius experiences in Startup Boot Camp MaSharing Osmius experiences in Startup Boot Camp Ma
Sharing Osmius experiences in Startup Boot Camp MaJoselu Marina
 
Osmius: RoadMap (MadridOnRails)
Osmius: RoadMap (MadridOnRails)Osmius: RoadMap (MadridOnRails)
Osmius: RoadMap (MadridOnRails)Joselu Marina
 
Osmius: Monitoriza tu negocio
Osmius: Monitoriza tu negocioOsmius: Monitoriza tu negocio
Osmius: Monitoriza tu negocioJoselu Marina
 
bioLabeler para primerViernes
bioLabeler para primerViernesbioLabeler para primerViernes
bioLabeler para primerViernesJoselu Marina
 
Uso GPUs para alineación de secuencias de Genes
Uso GPUs para alineación de secuencias de GenesUso GPUs para alineación de secuencias de Genes
Uso GPUs para alineación de secuencias de GenesJoselu Marina
 
Priorización de Requisitos
Priorización de RequisitosPriorización de Requisitos
Priorización de RequisitosJoselu Marina
 
Extracción automática de conceptos de Textos Biomédicos
Extracción automática de conceptos de Textos BiomédicosExtracción automática de conceptos de Textos Biomédicos
Extracción automática de conceptos de Textos BiomédicosJoselu Marina
 

Más de Joselu Marina (15)

La vida real: Presentando un proyecto innovador a H2020
La vida real: Presentando un proyecto innovador a H2020La vida real: Presentando un proyecto innovador a H2020
La vida real: Presentando un proyecto innovador a H2020
 
Kubernetes: Caso de uso real con mememtum y Taniwa
Kubernetes: Caso de uso real con mememtum y TaniwaKubernetes: Caso de uso real con mememtum y Taniwa
Kubernetes: Caso de uso real con mememtum y Taniwa
 
Visión sobre tecnología y medicina
Visión sobre tecnología y medicinaVisión sobre tecnología y medicina
Visión sobre tecnología y medicina
 
mememtum: presentación para inversores - IESE Jul 2013
mememtum: presentación para inversores - IESE Jul 2013mememtum: presentación para inversores - IESE Jul 2013
mememtum: presentación para inversores - IESE Jul 2013
 
mememtum: Móviles para la salud
mememtum: Móviles para la saludmememtum: Móviles para la salud
mememtum: Móviles para la salud
 
Taniwa: Servicios y productos
Taniwa: Servicios y productosTaniwa: Servicios y productos
Taniwa: Servicios y productos
 
Sharing Osmius experiences in Startup Boot Camp Ma
Sharing Osmius experiences in Startup Boot Camp MaSharing Osmius experiences in Startup Boot Camp Ma
Sharing Osmius experiences in Startup Boot Camp Ma
 
Abredatos2011
Abredatos2011Abredatos2011
Abredatos2011
 
Osmius: RoadMap (MadridOnRails)
Osmius: RoadMap (MadridOnRails)Osmius: RoadMap (MadridOnRails)
Osmius: RoadMap (MadridOnRails)
 
Osmius: Monitoriza tu negocio
Osmius: Monitoriza tu negocioOsmius: Monitoriza tu negocio
Osmius: Monitoriza tu negocio
 
bioLabeler para primerViernes
bioLabeler para primerViernesbioLabeler para primerViernes
bioLabeler para primerViernes
 
Uso GPUs para alineación de secuencias de Genes
Uso GPUs para alineación de secuencias de GenesUso GPUs para alineación de secuencias de Genes
Uso GPUs para alineación de secuencias de Genes
 
Priorización de Requisitos
Priorización de RequisitosPriorización de Requisitos
Priorización de Requisitos
 
Extracción automática de conceptos de Textos Biomédicos
Extracción automática de conceptos de Textos BiomédicosExtracción automática de conceptos de Textos Biomédicos
Extracción automática de conceptos de Textos Biomédicos
 
Osmius morfeo2010
Osmius morfeo2010Osmius morfeo2010
Osmius morfeo2010
 

Último

Planificacion Anual 4to Grado Educacion Primaria 2024 Ccesa007.pdf
Planificacion Anual 4to Grado Educacion Primaria   2024   Ccesa007.pdfPlanificacion Anual 4to Grado Educacion Primaria   2024   Ccesa007.pdf
Planificacion Anual 4to Grado Educacion Primaria 2024 Ccesa007.pdfDemetrio Ccesa Rayme
 
Neurociencias para Educadores NE24 Ccesa007.pdf
Neurociencias para Educadores  NE24  Ccesa007.pdfNeurociencias para Educadores  NE24  Ccesa007.pdf
Neurociencias para Educadores NE24 Ccesa007.pdfDemetrio Ccesa Rayme
 
Estrategia de prompts, primeras ideas para su construcción
Estrategia de prompts, primeras ideas para su construcciónEstrategia de prompts, primeras ideas para su construcción
Estrategia de prompts, primeras ideas para su construcciónLourdes Feria
 
TEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOS
TEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOSTEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOS
TEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOSjlorentemartos
 
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADODECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADOJosé Luis Palma
 
TECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptx
TECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptxTECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptx
TECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptxKarlaMassielMartinez
 
la unidad de s sesion edussssssssssssssscacio fisca
la unidad de s sesion edussssssssssssssscacio fiscala unidad de s sesion edussssssssssssssscacio fisca
la unidad de s sesion edussssssssssssssscacio fiscaeliseo91
 
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptxSINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptxlclcarmen
 
RETO MES DE ABRIL .............................docx
RETO MES DE ABRIL .............................docxRETO MES DE ABRIL .............................docx
RETO MES DE ABRIL .............................docxAna Fernandez
 
Historia y técnica del collage en el arte
Historia y técnica del collage en el arteHistoria y técnica del collage en el arte
Historia y técnica del collage en el arteRaquel Martín Contreras
 
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyzel CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyzprofefilete
 
cortes de luz abril 2024 en la provincia de tungurahua
cortes de luz abril 2024 en la provincia de tungurahuacortes de luz abril 2024 en la provincia de tungurahua
cortes de luz abril 2024 en la provincia de tungurahuaDANNYISAACCARVAJALGA
 
CALENDARIZACION DE MAYO / RESPONSABILIDAD
CALENDARIZACION DE MAYO / RESPONSABILIDADCALENDARIZACION DE MAYO / RESPONSABILIDAD
CALENDARIZACION DE MAYO / RESPONSABILIDADauxsoporte
 
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARONARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFAROJosé Luis Palma
 
Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...Lourdes Feria
 
Heinsohn Privacidad y Ciberseguridad para el sector educativo
Heinsohn Privacidad y Ciberseguridad para el sector educativoHeinsohn Privacidad y Ciberseguridad para el sector educativo
Heinsohn Privacidad y Ciberseguridad para el sector educativoFundación YOD YOD
 
programa dia de las madres 10 de mayo para evento
programa dia de las madres 10 de mayo  para eventoprograma dia de las madres 10 de mayo  para evento
programa dia de las madres 10 de mayo para eventoDiegoMtsS
 
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIARAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIACarlos Campaña Montenegro
 

Último (20)

Planificacion Anual 4to Grado Educacion Primaria 2024 Ccesa007.pdf
Planificacion Anual 4to Grado Educacion Primaria   2024   Ccesa007.pdfPlanificacion Anual 4to Grado Educacion Primaria   2024   Ccesa007.pdf
Planificacion Anual 4to Grado Educacion Primaria 2024 Ccesa007.pdf
 
Neurociencias para Educadores NE24 Ccesa007.pdf
Neurociencias para Educadores  NE24  Ccesa007.pdfNeurociencias para Educadores  NE24  Ccesa007.pdf
Neurociencias para Educadores NE24 Ccesa007.pdf
 
Estrategia de prompts, primeras ideas para su construcción
Estrategia de prompts, primeras ideas para su construcciónEstrategia de prompts, primeras ideas para su construcción
Estrategia de prompts, primeras ideas para su construcción
 
Medición del Movimiento Online 2024.pptx
Medición del Movimiento Online 2024.pptxMedición del Movimiento Online 2024.pptx
Medición del Movimiento Online 2024.pptx
 
TEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOS
TEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOSTEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOS
TEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOS
 
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADODECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
 
TECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptx
TECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptxTECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptx
TECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptx
 
la unidad de s sesion edussssssssssssssscacio fisca
la unidad de s sesion edussssssssssssssscacio fiscala unidad de s sesion edussssssssssssssscacio fisca
la unidad de s sesion edussssssssssssssscacio fisca
 
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptxSINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
 
RETO MES DE ABRIL .............................docx
RETO MES DE ABRIL .............................docxRETO MES DE ABRIL .............................docx
RETO MES DE ABRIL .............................docx
 
Power Point: "Defendamos la verdad".pptx
Power Point: "Defendamos la verdad".pptxPower Point: "Defendamos la verdad".pptx
Power Point: "Defendamos la verdad".pptx
 
Historia y técnica del collage en el arte
Historia y técnica del collage en el arteHistoria y técnica del collage en el arte
Historia y técnica del collage en el arte
 
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyzel CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
 
cortes de luz abril 2024 en la provincia de tungurahua
cortes de luz abril 2024 en la provincia de tungurahuacortes de luz abril 2024 en la provincia de tungurahua
cortes de luz abril 2024 en la provincia de tungurahua
 
CALENDARIZACION DE MAYO / RESPONSABILIDAD
CALENDARIZACION DE MAYO / RESPONSABILIDADCALENDARIZACION DE MAYO / RESPONSABILIDAD
CALENDARIZACION DE MAYO / RESPONSABILIDAD
 
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARONARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
 
Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...
 
Heinsohn Privacidad y Ciberseguridad para el sector educativo
Heinsohn Privacidad y Ciberseguridad para el sector educativoHeinsohn Privacidad y Ciberseguridad para el sector educativo
Heinsohn Privacidad y Ciberseguridad para el sector educativo
 
programa dia de las madres 10 de mayo para evento
programa dia de las madres 10 de mayo  para eventoprograma dia de las madres 10 de mayo  para evento
programa dia de las madres 10 de mayo para evento
 
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIARAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
 

Aprendizaje por Refuerzo: Luchas de Robots

  • 1. Aprendizaje por Refuerzo Framework Aplicado a robots en RealTime Battle José Luis Marina Máster Investigación Informática Universidad Complutense de Madrid Obra Creative Commons Febrero de 2009 Aprendizaje Automático
  • 2. Introducción Introducción Entorno Estrategia Conclusiones Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Problema genérico a resolver: “ Cómo un agente autónomo que siente y reacciona con su entorno, puede aprender a elegir acciones óptimas para la consecución de sus objetivos .” Machine Learning - Tom Mitchell Aprendizaje por refuerzo
  • 3.
  • 4. Introducción Introducción Entorno Estrategia Conclusiones Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Elegir política de control o acciones que maximizen: Aprendizaje por refuerzo s 0 s 1 s 2 a 2 a 1 a 0 r 0 r 1 r 2 r 0 + Ɣ r 1 + Ɣ²r 2 + ... donde 0 ≤ Ɣ < 1 ... Agente Entorno
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.
  • 11.
  • 12.
  • 13.
  • 14. Trabajo Introducción Entorno Estrategia Conclusiones Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Sensores, estados y Acciones X SEE_COOKIE – SEE_WALL - SEE_ROBOT No Lejos Cerca NUM_ROBOTS ENERGY UNDER_FIRE Poco Medio Mucho -> S 1 S 2 . S n n=3 8 (6561) 3 8 PATROL FIRE_AROUND BE_QUIET GO_FOR_COOKIES FIRE_CRAZY RAMBOW STOP ACELERAR GIRAR ROBOT GIRAR RADAR Y CAÑÓN FRENAR DISPARAR .... Acciones Básicas Acciones Elaboradas 7 Q(s,a) 3 8 x 7 45927 elementos NUMROBOTS = 0, SEE_ROBOT = 1, SEE_WALL = 2, SEE_COOKIE = 3, SEE_MINE = 4, SEE_BULLET = 5, MY_ENERGY = 6, UNDER_FIRE = 7, LEVEL_1 = 0 LEVEL_2 = 1 LEVEL_3 = 2
  • 15. Trabajo Introducción Entorno Estrategia Conclusiones Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Clase Qtable y Rebote MAIN: RTB_Rebote Rebote(&quot;Nombre&quot;,&quot;Color&quot;); Rebote. run() ; Rebote.run() RTB_QTable Qt; Qt.open (num_actions , num_states ,init_val “ qtable_file&quot;,explore_rate ,learning); While (!end_game) get_sensor_values(); calculate_state(); reward = energy + 400 / (robots_left * robots_left); action = Qt.next_action(state, reward); execute_action(action);
  • 16.
  • 17. Introducción José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Al Azar Gamma = 1.0 Explore = 10% Learning Gamma = 0.8 Explore = 10% Gamma = 1.0 No Learning Introducción Entorno Estrategia Conclusiones Futuro
  • 18.
  • 19. Datos de Resultados José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Introducción Entorno Estrategia Conclusiones Futuro
  • 20.
  • 21.
  • 22. Principales Referencias José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Introducción Entorno Estrategia Conclusiones Futuro Machine Learning: C13 – Reiforcement Learning Tom Mitchell - 1997 RETALIATE: Learning Winning Policies in First-Person Shooter Games Megan Smith, Stephen Lee-Urban, Héctor Muñoz-Avila – 2007 Learning to be a Bot: Reiforcement Learning in Shooter Games. Michelle McPartland and Marcus Gallagher – 2008 Sutton, R. S. & Barto, A. G. Reinforcement Learning:An Introduction, MIT Press, Cambridge, MA - 1998 . Recognizing the Enemy: Combining RL with Strategy Selection using CBR. B. auslander, S. Lee-Urban, Chad Hogg and H. Muñoz - 2008 Real Time Battle: Web page and documentation. http://realtimebattle.sourceforge.net/ Imágenes de: http://www.sxc.hu
  • 23. Fin José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Introducción Entorno Estrategia Conclusiones Futuro ¿Preguntas? [email_address]
  • 24.