Breve introducción a control óptimo y programación dinámica

1. Ecuaciones de Bellman, HJB y Pontryagin Breve Introducción al Control Óptimo y a la Programación Dinámica Análisis Cuantitativo del Riesgo David Solís

2. Control a Tiempo Discreto Caso Estocástico Límite Continuo Principio del Minimo Pontryagin Introducción Referencias 1 2 3 4 5 6

3. Introducción ‣ Teoría del control óptimo • Optimizar la suma de costos de la ruta y el costo final. El resultado es la secuencia de control óptima y la trayectoria óptima • Entrada: Función de costo • Salida: Trayectoria y controles óptimos 3 G-‐NIUS Hybrid Unmanned Ground Vehicle

4. Introducción ‣ Optimización de trayectorias para naves espaciales • Trayectoria de retorno de la luna a la tierra para ahorro de combustible ‣ Finanzas • Idear una secuencia de ordenes de compra / venta para maximizar el beneficio 4 Los problemas de control son problemas donde la recompensa se encuentra posteriormente

5. Tipos de Problemas de Control Óptimo ‣ Dinámica y ambiente pueden depender explícitamente del tiempo ‣ El control óptimo depende explícitamente del tiempo 5 Horizonte finito (horizonte de tiempo fijo)

6. Tipos de Problemas de Control Óptimo ‣ Dinámica y ambiente son estáticos ‣ El control óptimo es independiente del tiempo 6 Horizonte finito (horizonte móvil)

7. Tipos de Problemas de Control Óptimo ‣ Tiempo mínimo ‣ Horizonte Infinito • Recompensa con descuento, aprendizaje por refuerzo • Recompensa total, estados de absorción • Recompensa promedio ‣ Otras consideraciones • Discreto vs. estado continuo • Discreto vs. tiempo continuo • Observable vs. observable parcial 7

8. Intuición 8 ! ∈ Χ!representa!el!medio!ambiente!de!un!agente! ! ∈ U(x)!la!acción!o!control!que!el!agente!elige!cuando!se!encuentra!en!el!estado!x! ! !"#$(!, !) ∈ Χ!denota!el!estado!que!resulta!de!aplicar!la!acción!!!en!el!estado!!! !"#$(!, !) ≥ 0!el!costo!de!aplicar!!!en!!! ! !!puede!ser!la!ciudad!donde!se!encuentra!el!agente! !!el!vuelo!a!tomar! !"#$(!, !)!el!destino!del!vuelo! !"#$(!, !)!el!precio!del!boleto!de!avión! ! Problema! Encontrar!la!ruta!más!barata!al!destino!deseado! ! Formalización! Encontrar!una!secuencia!de!acciones!(!!, !!, … , !!!!)!y!la!correspondiente! secuencia!de!estados!(!!, !!, … , !!)!que!minimice!el!costo!total! ! !(!, !) = !"#$(!!, !!) !!! !!! ! ! donde!!!!! = !"#$(!!, !!)!y!!! ∈ !(!!)! ! El!estado!inicial!!! = !!"!# !y!el!estado!final!(destino)!!! = !!"#$ !son!conocidos!

9. Intuición 8 ! ∈ Χ!representa!el!medio!ambiente!de!un!agente! ! ∈ U(x)!la!acción!o!control!que!el!agente!elige!cuando!se!encuentra!en!el!estado!x! ! !"#$(!, !) ∈ Χ!denota!el!estado!que!resulta!de!aplicar!la!acción!!!en!el!estado!!! !"#$(!, !) ≥ 0!el!costo!de!aplicar!!!en!!! ! !!puede!ser!la!ciudad!donde!se!encuentra!el!agente! !!el!vuelo!a!tomar! !"#$(!, !)!el!destino!del!vuelo! !"#$(!, !)!el!precio!del!boleto!de!avión! ! Problema! Encontrar!la!ruta!más!barata!al!destino!deseado! ! Formalización! Encontrar!una!secuencia!de!acciones!(!!, !!, … , !!!!)!y!la!correspondiente! secuencia!de!estados!(!!, !!, … , !!)!que!minimice!el!costo!total! ! !(!, !) = !"#$(!!, !!) !!! !!! ! ! donde!!!!! = !"#$(!!, !!)!y!!! ∈ !(!!)! ! El!estado!inicial!!! = !!"!# !y!el!estado!final!(destino)!!! = !!"#$ !son!conocidos!

10. Control a Tiempo Discreto Caso Estocástico Límite Continuo Principio del Minimo de Pontryagin Introducción Referencias 1 2 3 4 5 6

11. Control a Tiempo Discreto 10

12. Programación Dinámica 11

13. Programación Dinámica 11 Encontrar(la(ruta(de(costo(mínimo(de(A(a(J( ( ! ! = 0, ! ! = 3, ! ! = 4 ! ! = !"# 6 + ! ! , 3 + ! ! ( (

14. Programación Dinámica 12 t0 t1 t2 t3 Hay 3 trayectorias óptimas de 18 posibles con costo 11: (A,D,F,I,J), (A,D,E,H,J) y (A,C,E,H,J)

15. Control a Tiempo Discreto 13 El#problema#de#control#óptimo#se#puede#resolver#mediante#programación#dinámica.# # Introducir#la#función#de#costo#óptima#(optimal(cost+to+go(function)# # ! !, !! = min !!:!!! ! !! + ! !, !!, !! !!! !!! # # que#resuelve#el#problema#de#control#óptimo#desde#un#tiempo#intermedio#!#hasta#el#tiempo# de#finalización#!,#para#todos#los#estados#intermedios#!!# # Entonces,# # ! !, ! = ! ! ! 0, ! = min !!:!!! ! !, !!:!!! # #

16. Control a Tiempo Discreto 13 El#problema#de#control#óptimo#se#puede#resolver#mediante#programación#dinámica.# # Introducir#la#función#de#costo#óptima#(optimal(cost+to+go(function)# # ! !, !! = min !!:!!! ! !! + ! !, !!, !! !!! !!! # # que#resuelve#el#problema#de#control#óptimo#desde#un#tiempo#intermedio#!#hasta#el#tiempo# de#finalización#!,#para#todos#los#estados#intermedios#!!# # Entonces,# # ! !, ! = ! ! ! 0, ! = min !!:!!! ! !, !!:!!! # #

19. 15 Principio de Optimalidad de Bellman  [Bellman, R.E.: “Dynamic Programming”. Princeton University Press, 1957] Una política óptima tiene la propiedad de que, sean cuales sea el estado inicial y la decisión inicial, las decisiones restantes deben constituir una solución óptima con respecto al estado resultante de la primera decisión.

22. Caso Estocástico 18

25. Ecuación de Bellman Estocástica 20

26. Ecuación de Bellman Estocástica 20

28. Límite Continuo 22

32. Principio del mínimo de Pontryagin 25 Una$alternativa$es$el$enfoque$variacional$que$directamente$encuentra$la$trayectoria$óptima$ y$el$control$óptimo.$

33. Principio del mínimo de Pontryagin 26

34. Principio del mínimo de Pontryagin 26

35. Derivación Principio de Pontryagin 27

38. Receta Principio de Pontryagin 29

40. Referencias Otras fuentes 31

41. Preguntas 32

Breve introducción a control óptimo y programación dinámica

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (20)

Más de David Solis

Más de David Solis (20)

Último

Último (20)

Breve introducción a control óptimo y programación dinámica