Este documento describe los procesos de decisión de Markov (MDP), que modelan problemas de toma de decisiones secuenciales bajo incertidumbre. Explica los conceptos clave de MDP como estados, acciones, funciones de transición y recompensa, y métodos como la iteración de valor y de política para encontrar la política óptima. También introduce los procesos de decisión de Markov parcialmente observables (POMDP) cuando no se observa directamente el estado.
Este documento presenta una introducción a los Procesos de Decisión de Markov (MDP) y el Aprendizaje por Refuerzo (RL). Explica que los MDP modelan problemas de toma de decisiones secuenciales bajo incertidumbre, donde un agente debe tomar acciones para maximizar una recompensa a largo plazo. Describe métodos básicos como la Programación Dinámica y el aprendizaje por refuerzo para resolver MDP, así como técnicas avanzadas para problemas más complejos. Finalmente, menciona algunas aplicaciones como control de
Este documento describe los pasos para diseñar experimentos de simulación por computadora de manera sistemática. Explica que el diseño determina el análisis estadístico y el éxito del experimento. Luego detalla tres pasos clave: 1) determinar los criterios del diseño, 2) sintetizar el modelo experimental, 3) seleccionar el diseño óptimo comparando opciones. Finalmente, ofrece consideraciones como el número de factores, niveles y repeticiones para lograr el aprendizaje más económico posible.
El documento resume las derivadas de funciones, incluyendo su definición, aplicaciones y ejemplos. Explica que la derivada representa la pendiente de la recta tangente y mide cómo varía una función. Luego detalla algunas aplicaciones comunes como determinar la velocidad, puntos críticos, valores máximos y mínimos, y el método de Newton. Finalmente, ofrece ejemplos del uso de derivadas en la vida cotidiana como medir la velocidad de un auto o un corredor.
Este documento describe varios métodos matemáticos para la optimización de sistemas y funciones, incluyendo el método de Lagrange, el método de Kuhn-Tucker y las matrices jacobianas. Explica que la optimización busca mejorar el funcionamiento de un sistema a través de una gestión eficiente de los recursos, y que involucra procedimientos matemáticos como la programación lineal para encontrar la solución óptima.
Este documento presenta información sobre derivadas en matemática. Define derivadas como la rapidez con la que cambia una función cuando cambia su variable independiente. Explica algunas aplicaciones como tasa de variación, puntos críticos, y determinación de máximos y mínimos. Resuelve dos problemas de aplicación de derivadas para encontrar máximos y mínimos absolutos. Finalmente, indica que las derivadas se usan en la vida cotidiana incluso para dividir cantidades o hacer cuentas diarias, desde nivel básico de suma y resta.
El documento describe los diferentes tipos de modelos matemáticos, incluyendo modelos icónicos, analógicos y simbólicos o matemáticos. Explica los modelos matemáticos en detalle, dividiéndolos en cuantitativos y cualitativos, probabilísticos y determinísticos, estáticos y dinámicos, descriptivos y de optimización, y de simulación y no simulación. Finalmente, introduce el modelo de programación lineal, describiendo sus elementos clave como la función objetivo, las variables de decisión, las
Prácticas y exámenes de control óptimo (subida a slide share)Jaime Martínez Verdú
Control óptimo está incluido como unidad docente de la asignatura Control Avanzado de Sistemas impartido en la UMH por José María Azorín Poveda.
http://ocw.umh.es/ingenieria-y-arquitectura/control-avanzado
El objetivo general de las prácticas es que los alumnos diseñen y comprueben en simulación el comportamiento de los controladores estudiados en teoría. En particular:
- Técnicas de optimización para su aplicación en ingeniería de control.
- Diseño de reguladores que optimicen el índice de prestaciones de un sistema (control óptimo).
Se incorporan también ejemplos de examen.
Este documento describe diferentes métodos para la toma de decisiones bajo incertidumbre, incluyendo el criterio de probabilidad máxima, criterio de probabilidades iguales, y el método de valor esperado. Luego presenta un caso aplicativo sobre las estrategias de marketing y producción para una empresa, y usa los métodos para determinar que la estrategia B es la recomendada. Finalmente, analiza la sensibilidad de la decisión a cambios en las probabilidades.
Este documento presenta una introducción a los Procesos de Decisión de Markov (MDP) y el Aprendizaje por Refuerzo (RL). Explica que los MDP modelan problemas de toma de decisiones secuenciales bajo incertidumbre, donde un agente debe tomar acciones para maximizar una recompensa a largo plazo. Describe métodos básicos como la Programación Dinámica y el aprendizaje por refuerzo para resolver MDP, así como técnicas avanzadas para problemas más complejos. Finalmente, menciona algunas aplicaciones como control de
Este documento describe los pasos para diseñar experimentos de simulación por computadora de manera sistemática. Explica que el diseño determina el análisis estadístico y el éxito del experimento. Luego detalla tres pasos clave: 1) determinar los criterios del diseño, 2) sintetizar el modelo experimental, 3) seleccionar el diseño óptimo comparando opciones. Finalmente, ofrece consideraciones como el número de factores, niveles y repeticiones para lograr el aprendizaje más económico posible.
El documento resume las derivadas de funciones, incluyendo su definición, aplicaciones y ejemplos. Explica que la derivada representa la pendiente de la recta tangente y mide cómo varía una función. Luego detalla algunas aplicaciones comunes como determinar la velocidad, puntos críticos, valores máximos y mínimos, y el método de Newton. Finalmente, ofrece ejemplos del uso de derivadas en la vida cotidiana como medir la velocidad de un auto o un corredor.
Este documento describe varios métodos matemáticos para la optimización de sistemas y funciones, incluyendo el método de Lagrange, el método de Kuhn-Tucker y las matrices jacobianas. Explica que la optimización busca mejorar el funcionamiento de un sistema a través de una gestión eficiente de los recursos, y que involucra procedimientos matemáticos como la programación lineal para encontrar la solución óptima.
Este documento presenta información sobre derivadas en matemática. Define derivadas como la rapidez con la que cambia una función cuando cambia su variable independiente. Explica algunas aplicaciones como tasa de variación, puntos críticos, y determinación de máximos y mínimos. Resuelve dos problemas de aplicación de derivadas para encontrar máximos y mínimos absolutos. Finalmente, indica que las derivadas se usan en la vida cotidiana incluso para dividir cantidades o hacer cuentas diarias, desde nivel básico de suma y resta.
El documento describe los diferentes tipos de modelos matemáticos, incluyendo modelos icónicos, analógicos y simbólicos o matemáticos. Explica los modelos matemáticos en detalle, dividiéndolos en cuantitativos y cualitativos, probabilísticos y determinísticos, estáticos y dinámicos, descriptivos y de optimización, y de simulación y no simulación. Finalmente, introduce el modelo de programación lineal, describiendo sus elementos clave como la función objetivo, las variables de decisión, las
Prácticas y exámenes de control óptimo (subida a slide share)Jaime Martínez Verdú
Control óptimo está incluido como unidad docente de la asignatura Control Avanzado de Sistemas impartido en la UMH por José María Azorín Poveda.
http://ocw.umh.es/ingenieria-y-arquitectura/control-avanzado
El objetivo general de las prácticas es que los alumnos diseñen y comprueben en simulación el comportamiento de los controladores estudiados en teoría. En particular:
- Técnicas de optimización para su aplicación en ingeniería de control.
- Diseño de reguladores que optimicen el índice de prestaciones de un sistema (control óptimo).
Se incorporan también ejemplos de examen.
Este documento describe diferentes métodos para la toma de decisiones bajo incertidumbre, incluyendo el criterio de probabilidad máxima, criterio de probabilidades iguales, y el método de valor esperado. Luego presenta un caso aplicativo sobre las estrategias de marketing y producción para una empresa, y usa los métodos para determinar que la estrategia B es la recomendada. Finalmente, analiza la sensibilidad de la decisión a cambios en las probabilidades.
El documento trata sobre programación dinámica. Explica conceptos clave como etapas, estados, variables de decisión y subproblemas. Luego presenta el problema de la diligencia como un ejemplo de problema de programación dinámica, donde un vendedor debe elegir la ruta óptima entre varios estados. Finalmente, resume los cálculos paso a paso para encontrar la solución óptima a este problema dividiéndolo en subproblemas por etapas.
Este documento presenta una introducción a varios modelos y métodos de investigación de operaciones, incluyendo programación lineal, análisis de sensibilidad, solución gráfica y algebraica de problemas de programación lineal, método simplex, programación dual, modelos de transporte y asignación, redes, programación de metas, inventario, colas de espera y más. Explica los conceptos clave de cada modelo y los métodos utilizados para resolverlos.
La planificación de Radioterapia de Intensidad Modulada (IMRT) involucra procesos de optimización en múltiples etapas, incluyendo la optimización de mapas de flujo para cada campo. Los algoritmos de optimización inversa buscan minimizar una función objetivo que mide la distancia entre la distribución de dosis deseada y la alcanzada, optimizando las intensidades de cientos de mini-haces ("beamlets"). Esto requiere métodos computacionales avanzados para lograr tiempos de cálculo interactivos, como proces
Este documento presenta la planificación de un curso de optimización que consta de 5 semanas. Cada semana se cubrirán aproximadamente 2 temas. Habrá un parcial a mediados del curso y un proyecto final al final del curso. El documento también incluye conceptos teóricos básicos de optimización como funciones objetivo, restricciones y regiones factibles.
El documento habla sobre la programación dinámica. Explica que es una técnica cuantitativa de toma de decisiones secuenciales desarrollada en 1957 por Bellman y Dantzig. Se basa en que una política óptima consiste de subpolíticas óptimas. También presenta el problema de la diligencia como un ejemplo conceptual para ilustrar cómo funciona la programación dinámica al dividir el problema en etapas y encontrar la solución óptima de cada pequeña parte para resolver el problema completo de manera recursiva.
Este documento describe la programación dinámica y varios problemas que pueden resolverse usando este método. Brevemente explica que la programación dinámica divide un problema complejo en subproblemas, almacena las soluciones de estos subproblemas y los usa de manera recursiva para resolver el problema original de manera óptima. Luego, detalla algunos problemas como el problema de la diligencia, el árbol binario de búsqueda óptimo y el problema del vendedor viajero, y cómo se pueden resolver usando programación dinámica.
Introducci´on a matlab y simulink para el control3inar
Este documento presenta una introducción a MATLAB y SIMULINK para el análisis y simulación de sistemas de control. Explica comandos básicos de MATLAB como conversión de funciones de transferencia, cálculo de raíces, desarrollo en fracciones simples, y gráficos de respuesta. También introduce SIMULINK describiendo su interfaz, modelado de sistemas en lazo cerrado, respuesta al escalón y uso de parámetros.
Este documento presenta una introducción a la programación dinámica. Explica que la programación dinámica es un enfoque para resolver problemas de toma de decisiones en múltiples etapas mediante el análisis recursivo de cada etapa. Describe el principio de optimalidad de Bellman, que establece que la subsecuencia óptima de cualquier secuencia óptima también es óptima. Proporciona ejemplos como el problema del viajero de negocios y explica las diferencias entre programación dinámica y programación lineal.
Este documento resume el método de los multiplicadores de Lagrange, que es una herramienta para resolver problemas de optimización con restricciones. Introduce variables adicionales llamadas multiplicadores de Lagrange para cada restricción, formando una combinación lineal que elimina las variables adicionales. Tiene aplicaciones en economía, como maximizar la utilidad de un consumidor sujeta a un presupuesto, y en teoría de control óptimo.
Este documento presenta una introducción a la simulación. Explica conceptos clave como sistemas, variables, eventos y aplicaciones de la simulación. Luego describe elementos básicos de la simulación como procesos, estados, eventos y variables. Finalmente, introduce métodos para la generación de números aleatorios y el uso de hojas de cálculo para simulación.
Este documento presenta una introducción a varios métodos de programación no lineal como la programación cuadrática, programación dinámica, funciones separables, programación geométrica y optimización estocástica. Explica que la programación no lineal busca maximizar o minimizar funciones sujetas a restricciones no lineales y que no existe un solo algoritmo para resolver todos los problemas no lineales.
La programación dinámica es una técnica para resolver problemas de optimización dividiéndolos en subproblemas. Resuelve cada subproblema una vez y almacena la solución para usarla en problemas mayores, evitando calcular lo mismo varias veces. Se aplica cuando los subproblemas óptimos definen la solución óptima general y hay solapamiento entre subproblemas.
La programación dinámica es una técnica para resolver problemas de optimización dividiéndolos en subproblemas. Resuelve cada subproblema una vez y almacena la solución para usarla en problemas mayores, evitando calcular lo mismo varias veces. Se aplica cuando los subproblemas se solapan y la solución óptima depende de soluciones óptimas de subproblemas más pequeños.
Proceso de Ortogonalización sobre señales para Comunicaciones compartir.pdfJuanIngaOrtega
1) El documento describe el procedimiento de ortogonalización de Gram-Schmidt aplicado a señales para sistemas de comunicaciones. 2) El procedimiento genera una base ortonormal de señales a partir de un conjunto original de señales, lo que permite representar cada señal original como una combinación lineal de la base ortonormal. 3) Se explican los pasos del algoritmo de Gram-Schmidt, incluyendo el cálculo de productos internos y la generación recursiva de las funciones base ortonormales.
Este documento presenta los conceptos básicos de los algoritmos y su metodología, incluyendo estructuras como secuencial, decisión y repetitiva. Explica cómo definir un problema, analizarlo, diseñar el algoritmo y verificarlo. Muestra formas de representar algoritmos como diagramas de flujo y pseudocódigo, con ejemplos. El objetivo es que los estudiantes aprendan a aplicar esta metodología para resolver problemas de manera lógica y estructurada.
La programación dinámica es una estrategia para resolver problemas de optimización dividiéndolos en etapas. Se resuelve cada subproblema de forma independiente para minimizar el número de cálculos, empezando por una pequeña porción del problema original y ampliándolo gradualmente hasta resolverlo completamente. El principio de optimalidad establece que la política óptima para las etapas restantes depende solo del estado actual, independientemente de cómo se llegó a ese estado.
Metodo lagrange & kuhn tucker - Optimizacion de sistemas y funciones.Daniel Paz
El documento describe el método de multiplicadores de Lagrange y las condiciones de Kuhn-Tucker para la optimización de funciones sujetas a restricciones. Explica que estos métodos permiten encontrar los máximos y mínimos de funciones de múltiples variables sujetas a restricciones reduciendo el problema a uno sin restricciones. Además, se aplican en economía, teoría de control y otros campos.
Utp 2015-2_ia_s6_adaline y backpropagationjcbp_peru
Este documento trata sobre Adaline y Backpropagation. Brevemente describe:
1) Adaline, una red neuronal lineal entrenada con el algoritmo LMS para minimizar el error cuadrático medio.
2) La regla del perceptrón para entrenar redes con función de activación de escalón.
3) Backpropagation, un algoritmo para entrenar redes multicapas mediante retropropagación del error.
El documento trata sobre programación dinámica. Explica conceptos clave como etapas, estados, variables de decisión y subproblemas. Luego presenta el problema de la diligencia como un ejemplo de problema de programación dinámica, donde un vendedor debe elegir la ruta óptima entre varios estados. Finalmente, resume los cálculos paso a paso para encontrar la solución óptima a este problema dividiéndolo en subproblemas por etapas.
Este documento presenta una introducción a varios modelos y métodos de investigación de operaciones, incluyendo programación lineal, análisis de sensibilidad, solución gráfica y algebraica de problemas de programación lineal, método simplex, programación dual, modelos de transporte y asignación, redes, programación de metas, inventario, colas de espera y más. Explica los conceptos clave de cada modelo y los métodos utilizados para resolverlos.
La planificación de Radioterapia de Intensidad Modulada (IMRT) involucra procesos de optimización en múltiples etapas, incluyendo la optimización de mapas de flujo para cada campo. Los algoritmos de optimización inversa buscan minimizar una función objetivo que mide la distancia entre la distribución de dosis deseada y la alcanzada, optimizando las intensidades de cientos de mini-haces ("beamlets"). Esto requiere métodos computacionales avanzados para lograr tiempos de cálculo interactivos, como proces
Este documento presenta la planificación de un curso de optimización que consta de 5 semanas. Cada semana se cubrirán aproximadamente 2 temas. Habrá un parcial a mediados del curso y un proyecto final al final del curso. El documento también incluye conceptos teóricos básicos de optimización como funciones objetivo, restricciones y regiones factibles.
El documento habla sobre la programación dinámica. Explica que es una técnica cuantitativa de toma de decisiones secuenciales desarrollada en 1957 por Bellman y Dantzig. Se basa en que una política óptima consiste de subpolíticas óptimas. También presenta el problema de la diligencia como un ejemplo conceptual para ilustrar cómo funciona la programación dinámica al dividir el problema en etapas y encontrar la solución óptima de cada pequeña parte para resolver el problema completo de manera recursiva.
Este documento describe la programación dinámica y varios problemas que pueden resolverse usando este método. Brevemente explica que la programación dinámica divide un problema complejo en subproblemas, almacena las soluciones de estos subproblemas y los usa de manera recursiva para resolver el problema original de manera óptima. Luego, detalla algunos problemas como el problema de la diligencia, el árbol binario de búsqueda óptimo y el problema del vendedor viajero, y cómo se pueden resolver usando programación dinámica.
Introducci´on a matlab y simulink para el control3inar
Este documento presenta una introducción a MATLAB y SIMULINK para el análisis y simulación de sistemas de control. Explica comandos básicos de MATLAB como conversión de funciones de transferencia, cálculo de raíces, desarrollo en fracciones simples, y gráficos de respuesta. También introduce SIMULINK describiendo su interfaz, modelado de sistemas en lazo cerrado, respuesta al escalón y uso de parámetros.
Este documento presenta una introducción a la programación dinámica. Explica que la programación dinámica es un enfoque para resolver problemas de toma de decisiones en múltiples etapas mediante el análisis recursivo de cada etapa. Describe el principio de optimalidad de Bellman, que establece que la subsecuencia óptima de cualquier secuencia óptima también es óptima. Proporciona ejemplos como el problema del viajero de negocios y explica las diferencias entre programación dinámica y programación lineal.
Este documento resume el método de los multiplicadores de Lagrange, que es una herramienta para resolver problemas de optimización con restricciones. Introduce variables adicionales llamadas multiplicadores de Lagrange para cada restricción, formando una combinación lineal que elimina las variables adicionales. Tiene aplicaciones en economía, como maximizar la utilidad de un consumidor sujeta a un presupuesto, y en teoría de control óptimo.
Este documento presenta una introducción a la simulación. Explica conceptos clave como sistemas, variables, eventos y aplicaciones de la simulación. Luego describe elementos básicos de la simulación como procesos, estados, eventos y variables. Finalmente, introduce métodos para la generación de números aleatorios y el uso de hojas de cálculo para simulación.
Este documento presenta una introducción a varios métodos de programación no lineal como la programación cuadrática, programación dinámica, funciones separables, programación geométrica y optimización estocástica. Explica que la programación no lineal busca maximizar o minimizar funciones sujetas a restricciones no lineales y que no existe un solo algoritmo para resolver todos los problemas no lineales.
La programación dinámica es una técnica para resolver problemas de optimización dividiéndolos en subproblemas. Resuelve cada subproblema una vez y almacena la solución para usarla en problemas mayores, evitando calcular lo mismo varias veces. Se aplica cuando los subproblemas óptimos definen la solución óptima general y hay solapamiento entre subproblemas.
La programación dinámica es una técnica para resolver problemas de optimización dividiéndolos en subproblemas. Resuelve cada subproblema una vez y almacena la solución para usarla en problemas mayores, evitando calcular lo mismo varias veces. Se aplica cuando los subproblemas se solapan y la solución óptima depende de soluciones óptimas de subproblemas más pequeños.
Proceso de Ortogonalización sobre señales para Comunicaciones compartir.pdfJuanIngaOrtega
1) El documento describe el procedimiento de ortogonalización de Gram-Schmidt aplicado a señales para sistemas de comunicaciones. 2) El procedimiento genera una base ortonormal de señales a partir de un conjunto original de señales, lo que permite representar cada señal original como una combinación lineal de la base ortonormal. 3) Se explican los pasos del algoritmo de Gram-Schmidt, incluyendo el cálculo de productos internos y la generación recursiva de las funciones base ortonormales.
Este documento presenta los conceptos básicos de los algoritmos y su metodología, incluyendo estructuras como secuencial, decisión y repetitiva. Explica cómo definir un problema, analizarlo, diseñar el algoritmo y verificarlo. Muestra formas de representar algoritmos como diagramas de flujo y pseudocódigo, con ejemplos. El objetivo es que los estudiantes aprendan a aplicar esta metodología para resolver problemas de manera lógica y estructurada.
La programación dinámica es una estrategia para resolver problemas de optimización dividiéndolos en etapas. Se resuelve cada subproblema de forma independiente para minimizar el número de cálculos, empezando por una pequeña porción del problema original y ampliándolo gradualmente hasta resolverlo completamente. El principio de optimalidad establece que la política óptima para las etapas restantes depende solo del estado actual, independientemente de cómo se llegó a ese estado.
Metodo lagrange & kuhn tucker - Optimizacion de sistemas y funciones.Daniel Paz
El documento describe el método de multiplicadores de Lagrange y las condiciones de Kuhn-Tucker para la optimización de funciones sujetas a restricciones. Explica que estos métodos permiten encontrar los máximos y mínimos de funciones de múltiples variables sujetas a restricciones reduciendo el problema a uno sin restricciones. Además, se aplican en economía, teoría de control y otros campos.
Utp 2015-2_ia_s6_adaline y backpropagationjcbp_peru
Este documento trata sobre Adaline y Backpropagation. Brevemente describe:
1) Adaline, una red neuronal lineal entrenada con el algoritmo LMS para minimizar el error cuadrático medio.
2) La regla del perceptrón para entrenar redes con función de activación de escalón.
3) Backpropagation, un algoritmo para entrenar redes multicapas mediante retropropagación del error.
Este documento ha sido elaborado por el Observatorio Ciudadano de Seguridad Justicia y Legalidad de Irapuato siendo nuestro propósito conocer datos sociodemográficos en conjunto con información de incidencia delictiva de las 10 colonias y/o comunidades que del año 2020 a la fecha han tenido mayor incidencia.
Existen muchas más colonias que presentan cifras y datos en materia de seguridad, sin embargo, en este primer acercamiento lo que se prevées darle al lector una idea de como se encuentran las colonias analizadas, tomando como referencia los datos del INEGI 2020, datos del Secretariado Ejecutivo del Sistema Nacional de Seguridad Pública del 2020 al 2023 y las bases de datos propias que desde el 2017 el Observatorio Ciudadano ha recopilado de manera puntual con datos de las vıć timas de homicidio doloso, accidentes de tránsito, personas lesionadas por arma de fuego, entre otros indicadores.
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIOAaronPleitez
linea de tiempo del antiguo testamento donde se detalla la cronología de todos los eventos, personas, sucesos, etc. Además se incluye una parte del periodo intertestamentario en orden cronológico donde se detalla todo lo que sucede en los 400 años del periodo del silencio. Basicamente es un resumen de todos los sucesos desde Abraham hasta Cristo
Reporte homicidio doloso descripción
Reporte que contiene información de las víctimas de homicidio doloso registradas en el municipio de Irapuato Guanajuato durante el periodo señalado, comprende información cualitativa y cuantitativa que hace referencia a las características principales de cada uno de los homicidios.
La información proviene tanto de medios de comunicación digitales e impresos como de los boletines que la propia Fiscalía del Estado de Guanajuato emite de manera diaria a los medios de comunicación quienes publican estas incidencias en sus distintos canales.
Podemos observar cantidad de personas fallecidas, lugar donde se registraron los eventos, colonia y calle así como un comparativo con el mismo periodo pero del año anterior.
Edades y género de las víctimas es parte de la información que incluye el reporte.
Ipsos, empresa de investigación de mercados y opinión pública, divulgó su informe N°29 “Claves Ipsos” correspondiente al mes de abril, que encuestó a 800 personas con el fin de identificar las principales opiniones y comportamientos de las y los ciudadanos respecto de temas de interés para el país. En esta edición se abordó la a Carabineros de Chile, su evaluación, legitimidad en su actuar y el asesinato de tres funcionarios en Cañete. Además, se consultó sobre el Ejército y la opinión respecto de la marcha en Putre.
2. Incertidumbre - MDP, L.E. Sucar 2
Procesos de Decisión de Markov
• Procesos de Decisión Secuenciales
• Procesos de Decisión de Markov (MDP)
• Método de Iteración de Valor
• Método de Iteración de Política
• Procesos de Decisión de Markov
Parcialmente Observables (POMDP)
• Aplicaciones
3. Incertidumbre - MDP, L.E. Sucar 3
Problemas de decisión secuenciales
• Problema de decisión que involucra un
conjunto de decisiones cuyo resultado
(utilidad) se conoce hasta el final
• Se considera que se tiene una serie de
estados y decisiones asociadas en el tiempo
4. Incertidumbre - MDP, L.E. Sucar 4
Modelo de Transición
• Normalmente existe incertidumbre respecto a los
resultados de una decisión (acción)
• Esta incertidumbre se modela como una
probabilidad de llegar al estado s’ dado que se
encuentra en el estado s y se realiza la acción a:
P(s’| s, a)
• Las transición entre estados sólo dependen del
estado actual por lo que se consideran procesos
markovianos
6. Incertidumbre - MDP, L.E. Sucar 6
Historia ambiental
• Cuando solo se conoce la utilidad de los
estados terminales, la utilidad de los estados
restantes depende de una secuencia de
estados (historia).
• Ejemplo:
Uh = valor estado final – 1/25 (número de
pasos)
7. Incertidumbre - MDP, L.E. Sucar 7
Utilidad
• El valor de utilidad de un estado s depende de la
secuencia de acciones tomadas a partir de dicho
estado de acuerdo a la política establecida ()
• En principio, se puede obtener como la utilidad
esperada de todas las posibles secuencias de
acciones (Hs) y la utilidad resultante para c/u:
U(s) = UE( Hs ) = S P(Hs) Uh(Hs)
8. Incertidumbre - MDP, L.E. Sucar 8
Utilidad
• Si la utilidad es separable, se puede estimar como la
utilidad del estado presente y la utilidad de los siguiente
estados
• La forma más sencilla es que sea una función aditiva:
U[s0, s1, ... sn] = R(s0) + U[s1, ... sn]
• Donde R se conoce como la función de recompensa
• La función de recompensa en nuestro ejemplo es:
R = +1, -1 para los estados terminales
R = -1/25 para los demás estados
10. Incertidumbre - MDP, L.E. Sucar 10
Modelo de los Sensores
• Normalmente el agente puede sensar el
ambiente para observar en que estado se
encuentra.
• Existen dos casos principales:
– Observa directamente el estado donde se
encuentra (ambiente accesible)
– Se tiene incertidumbre sobre el estado en que se
encuentra (ambiente parcialmente observable)
13. Incertidumbre - MDP, L.E. Sucar 13
Política Óptima
• Una política indica la acción que se debe ejecutar
dado el estado (o probabilidad del estado)
• Dado el modelo de transición y el modelo de los
sensores, el objetivo es encontrar una política para
maximizar la utilidad esperada la cual se conoce
como política óptima.
• Al calculo de la política óptima en un ambiente
accesible o parcialmente observable se le conoce
como proceso de decisión de Markov, o proceso
de decisión de Markov parcialmente observable.
15. Incertidumbre - MDP, L.E. Sucar 15
Horizonte finito
• Los problemas con un número finito de
pasos se conocen como MDP de horizonte
finito.
• Si se tiene un número finito de pasos (n),
entonces la política óptima se puede
calcular eficientemente utilizando PD:
16. Incertidumbre - MDP, L.E. Sucar 16
Programación Dinámica
Algoritmo
– Se obtiene la utilidad de los estados en el paso
n-1 en base a la utilidad de los estados
terminales y se determina la mejor acción
– Se obtiene la utilidad de los estados en el paso
n-2 en base al paso n-1, y así sucesivamente
– Al final se tiene la política óptima (mejor
acción para cada estado)
17. Incertidumbre - MDP, L.E. Sucar 17
Programación Dinámica
• Dada la condición de separabilidad, la utilidad de
un estado se puede obtener en forma iterativa
maximizando la utilidad del siguiente estado:
U(s) = R(s) + maxa Sj P(s’ | s,a) U(s’)
• La política óptima esta dada por la acción que de
mayor utilidad:
P*(s) = arg maxa Sj P(s’ | s,a) U(s’)
18. Incertidumbre - MDP, L.E. Sucar 18
PD – ejemplo robot
• Asumiendo que se llega a la meta en n pasos:
U(a=derecha) = [0.8*1-0.1*1/25 -0.1*1/25] = 0.792
U(a=abajo) = [0.1*1-0.8*1/25 -0.1*1/25] = 0.064
U(a=izq.) = [-0.1*1/25-0.8*1/25 +0.1*1] = 0.064
U(s33) = -1/25 + max [.792, .064, -.064] = 0.752; P*(s31) = derecha
1
2
3
1 2 3 4
19. Incertidumbre - MDP, L.E. Sucar 19
Horizonte infinito
• Los problemas en que puede haber un número
infinito de pasos se conocen como MDP de
horizonte infinito
• Muchos problemas, como el ejemplo del robot,
son de horizonte infinito y no se pueden resolver
directamente por PD.
• En el caso de horizonte infinito, se puede obtener
la utilidad de los estados y en base a ésta la
política óptima, mediante un método iterativo
20. Incertidumbre - MDP, L.E. Sucar 20
• Formalmente un MDP se representa mediante la
tupla M= {S, A, T, R} donde:
– S={s1, s2, .. sn} conjunto de estados
– A={a1, a2, …am} conjunto de acciones
– T= p(s’|s,ak) función de transición de estados de
dimensión S X A X S.
– R=r(s, a, s’) función de recompensa de
dimensión S X A X S.
– A(s) son las acciones aplicables al estado s.
– : s → a Política determinista de M que
especifica la acción dado el estado.
Procesos de Decisión de Markov
21. Incertidumbre - MDP, L.E. Sucar 21
Iteración de Valor
• Un método clásico para resolver estos problemas
se conoce como “iteración de valor” (value
iteration)
• La idea básica es calcular la utilidad de cada
posible estado y usar éstas para seleccionar la
acción óptima en cada estado.
• El método converge cuando se alcanza una
diferencia mínima (error) entre los valores de la
iteración t respecto a la iteración t+1.
22. Incertidumbre - MDP, L.E. Sucar 22
Iteración de Valor
• En cada iteración (t+1), se estima la utilidad
de cada estado basada en los valores de la
iteración anterior (t):
Ut+1(i) = R(i) + maxa Sj P(sj | si,a) Ut(j)
• Cuando tinf, los valores de utilidad
convergen a un valor estable
23. Incertidumbre - MDP, L.E. Sucar 23
Iteración de Valor
Algoritmo:
– Inicializar: Ut = Ut+1 = R
– Repetir:
• Ut=Ut+1
• Ut+1(s) = R(s) + maxa Sj P(s’ | s,a) Ut(s’)
– Hasta: | Ut-Ut+1 | < e
24. Incertidumbre - MDP, L.E. Sucar 24
Iteración de Valor
• ¿Cuántas veces repetir la iteración?
• Normalmente el número de iteraciones para
obtener la política óptima es menor que el
requerido para que las utilidades converjan
• En la práctica, el número de iteraciones es
relativamente pequeño
25. Incertidumbre - MDP, L.E. Sucar 25
Iteración de valor
• Para evitar problemas de valores muy grandes
(infinito) de la utilidad esperada, normalmente
se aplica un factor de descuento, 0<g<1, para
el valor de los siguientes estados
• El cálculo iterativo de la utilidad con el factor
de descuento es entonces:
Ut+1(s) = R(s) + maxa g Sj P(s’| s,a) Ut(s’)
30. Incertidumbre - MDP, L.E. Sucar 30
Iteración de Política
• Este método inicia con una política cualquiera,
la cual se mejora progresivamente determinando
una acción por estado cuyo valor sea mayor al
de la politica actual.
• La politica inicial puede ser aleatoria o basada
en algun conocimiento previo del problema.
• El proceso termina cuando no se presente
mejora alguna.
31. Incertidumbre - MDP, L.E. Sucar 31
Iteración de Política
• Policy iteration aprovecha el hecho de que
la politica normalmente converge antes que
los valores de utilidad.
• La política y los valores de utilidad se
obtienen simultaneamente.
• Conforme la política va cambiando, se van
actualizando los valores de utilidad de cada
estado.
32. Incertidumbre - MDP, L.E. Sucar 32
Escoger una política inicial
Hacer U=R
• Repetir hasta noMasCambios
– Determinar el valor de utilidad para todos los estados U de acuerdo
con la política actual
– noMasCambios=true
– Por cada estado s, calcular
• Q(s, a) = R+ Ss’P(s´|s,a)U(s’)
• Q(s, ) = R+ Ss’P(s´|s,)U(s’)
• Si maxa Q(s,a)> maxa Q(s,)
– Redefinir (s) : = argmaxa Q(s,a)
– noMasCambios=false
Iteración de Política
34. Incertidumbre - MDP, L.E. Sucar 34
Determinación de valor
• Simplificación de Iteración de valor
Ut+1:= R(s) + Ss’P(s’|s,(s)) Ut(s)
• Resolver sistema de ecuaciones para las
utilidades
U(s)=R(s)+ Ss’P(s’|s,(s)) U(s)
– Para el ejemplo:
U(s11) = 0.8 U(s12) + 0.1 U(s11) + 0.1 U(s21)
U(s12) = 0.8 U(s13) + 0.2 U(s12)
35. Incertidumbre - MDP, L.E. Sucar 35
POMDP
• En muchos problemas reales, no se puede
observar exactamente el estado del agente,
por lo que se tiene un POMDP
• Además de los elementos de un MDP, un
POMDP incluye:
– Una función de observación que especifica la
probabilidad de las observaciones dado el
estado, P(O|S)
– Una distribución de probabilidad inicial para
los estados, P(S)
36. Incertidumbre - MDP, L.E. Sucar 36
POMDP
• El enfoque exacto para resolver un POMDP
consiste en considerar la distribución de
probabilidad sobre los estados y en base a esta
determinar las decisiones óptimas
• Para ello, se puede considerar un POMDP como
un MDP en que los estados corresponden a la
distribución de probabilidad
• El problema es que el espacio de estados se vuelve
infinito y la solución exacta es muy compleja
37. Incertidumbre - MDP, L.E. Sucar 37
POMDP
• Soluciones aproximadas:
– Asumir que el agente se encuentra en el estado
más probable – se transforma en un MDP que
se puede resolver por el método de iteración de
valor
– Considerar un número finito de pasos y
modelar el problema como una red de decisión
dinámica – la aproximación depende del
número de estados que se “ven” hacia delante
(lookahead)
38. Incertidumbre - MDP, L.E. Sucar 38
Ejemplo POMDP
• El robot detecta su posición con sonares
• Hay errores y ruido en las lecturas, alcance limitado
• Ciertas celdas son muy parecidas (1,2 – 3,2)
39. Incertidumbre - MDP, L.E. Sucar 39
Aplicaciones
• Manejo de inventarios
• Mantenimiento de equipos y carreteras
• Control de sistemas de comunicaciones
• Modelado de procesos biológicos
• Planeación en robótica móvil
• Construcción de mapas / localización
• Control de procesos industriales
46. Incertidumbre - MDP, L.E. Sucar 46
Referencias
• [Russell & Norvig] – Cap. 17
• H. A. Taha, “Investigación de Operaciones”,
Alfaomega, 1991 – Cap. 14
• M. Puterman, “Markov Decision Processes”,
Wiley, 1994.
• M. Agueda, P. Ibargüengoytia, “Control of a
power plant using MDP and POMDP” (por
publicarse).
47. Incertidumbre - MDP, L.E. Sucar 47
Actividades
• Obtener los valores de utilidad para cada
estado en el ejemplo del robot mediante el
método de iteración de valor e iteración de
política.