SlideShare una empresa de Scribd logo
1 de 7
INTRODUCCION PROGRAMACIÓN
        NEURODINAMICA


                                   Dr. Ing. Danilo Chavez
                                 Escuela Politécnica Nacional




20/12/12   PROGRAMACIÓN NEURODINÁMICA                     1
INTRODUCCIÓN
                                           Aprendizaje




           Con Profesor (Supervisado)                              Sin Profesor



                                                  Reforzado                          Auto-organizativo



                             Método Moderno                            Método Clásico
                             “Planeamiento”                     “Comportamiento especializado”



                          Programación Dinámica       Programación Neurodinámica




20/12/12                         PROGRAMACIÓN NEURODINÁMICA                                              2
Aprendizaje Supervisado:                          Programación Dinámica
      –    Aprendizaje Cognititivo                     –   Trata con situaciones donde las
                                                           decisiones se hacen por etapas.
      –    Necesita un conjunto de elementos
                                                       –   Situaciones donde las decisiones no
           representativos de la operación del
                                                           pueden realizarse en forma aislada.
           entorno
                                                       –   Problema de asignación de crédito.
    Aprendizaje Reforzado:                             –   Dos características: un Sistema
      –    Aprendizaje Conductista                         dinámico discreto oculto y una función
      –    Aprendizaje a través de la interacción          de costo aditiva todo el tiempo.
           entorno-sistema de aprendizaje.            Programación Neurodinámica
      –    Alcance de objetivos a pesar de             –   Fundamentos teóricos provistos por la
           incertidumbres.                                 programación dinámica.
                                                       –   Capacidad de aprendizaje provista por
    Método Clásico:                                        las redes neuronales.
      –    Aprendizaje: proceso de Castigo-            –   Definición (Bertsekas et. al. 1996)
           Recompensa.                                     La programación neurodinámica
      –    Objetivo: Alcanzar un Comportamiento            posibilita a un sistema a tomar buenas
           Especializado.                                  decisiones observando su propio
                                                           comportamiento y mejorar sus
    Método Moderno:                                        acciones usando un mecanismo
      –    Basado en Programación Dinámica.                incorporado a través del refuerzo.
      –    Las decisiones actuales consideran los
           efectos futuros.
      –    Énfasis en el Planeamiento.
20/12/12                            PROGRAMACIÓN NEURODINÁMICA                                      3
PROGRAMACIÓN NEURODINÁMICA
     Dos Situaciones Posibles:
       –    El conjunto de datos de entrenamiento                  La simulación permite el uso de
            {i, J*(i)} esta disponible, entonces se                métodos de programación
            busca la aproximación de la función                    neurodinámica para diseñar
            J*(.) para que el vector W tenga una                   sistemas para los cuales no se
            dimensión pequeña. Representación                      tiene el modelo explicito, porque
            Compacta, solo se almacena W y la                      es engorroso o imposible estimar
            función de aproximación.                               las probabilidades de transición
       –    El conjunto de datos de entrenamiento                  de estados.
            no esta disponible, entonces se                        A través de la simulación
            optimiza en un sentido estadístico                     podemos identificar los estados
            usando la simulación de Monte Carlo,                   mas importantes como aquellos
            para sustituir al modelo Markoviano del                mas visitados durante la
            sistema (Modo de operación de                          simulación. Por lo tanto, la
            programación dinámica off-line ).                      función de costo aproximada
            Ventajas:                                              encontrada por la RN puede
                  La simulación permite evaluar                    proveer una buena aproximación
                  aproximadamente la función de                    de la función J*(i); y el resultado
                  costo por alcanzar óptima, esta                  final una buena política
                  es la principal distinción entre la              subóptima.
                  metodología de programación
                  neurodinámica de los métodos
                  tradicionales de aproximación de
                  la programación dinámica.

 20/12/12                             PROGRAMACIÓN NEURODINÁMICA                                     4
Q-LEARNING
       Q-Learning se define como una forma de aprender
       modelo-libre del aprendizaje reforzado[Watkins, 1989;
       Watkins y Dayan, 1992; Jang, et. Todos, 1997].
       Es utilizado para un problema donde se tiene
       información incompleta DEL MODELO, pero se
       necesita que el modelo sea absolutamente observable.
       Podría ser vista como versión incremental de
       Programación Dinámica que mejora sucesivamente sus
       evaluaciones de acciones específicas en los estados
       específicos.
       El objetivo es encontrar la política óptima y el valor
       de su estado se estima mientras que se valora el mejor
       par de estado-acción del estado


20/12/12               PROGRAMACIÓN NEURODINÁMICA               5
Aplicación de la NPD al Control Óptimo
             de Sistemas
     Sistema de control óptimo: sistema en           Solución de Problemas de Control
     el cual se optimiza un índice de                Óptimo: debido a los problemas inherentes
     desempeño.                                      de la programación dinámica
     Problema de control óptimo: dado un             (dimensionalidad,...) para resolver ciertos
     estado inicial del sistema, buscar una          problemas, se han desarrollado sistemas de
     secuencia de acciones de control de             control óptimo basados en métodos
     manera tal de llevar al sistema a una región    avanzados de la PD, como la Programación
     deseada del espacio de estado                   Dinámica Iterativa y la Programación
     minimizando un índice de desempeño              Neurodinámica. Esta última en vez de
     predeterminado.                                 evaluar el índice de desempeño para todos
      – El enfoque tradicional de resolver un        los estados posibles, emplea RN para
                                                     aproximarlo.
          problema de control óptimo se basa en
          el principio de optimalidad de Bellman,    Diseños Críticos Adaptables: existen
          el cual aplicado a sistemas continuos      básicamente 3 tipos de métodos de PD
          conduce a la ecuación de Hamilton,         aproximada o NPD: PD Heurística (HDP),
          Jacobi, Bellman. Estas ecuaciones no       PD Heurística Dual (DHP) y PD Heurística
          siempre tienen una solución analítica,     Dual Globalizada (GDHP); estos métodos
          se encuentran soluciones para              en conjunto son llamados Diseños Críticos
          sistemas lineales, variantes y con         Adaptables.
          índices de desempeño cuadráticos
          como el (LQR) que lleva a la ecuación
          de Riccati. El mismo principio aplicado
          a sistemas discretos conduce a
          algoritmos de programación dinámica.



 20/12/12                          PROGRAMACIÓN NEURODINÁMICA                                  6
BIBLIOGRAFÍA
    Simon Haykin, 1999, Neural Networks: A Comprehensive
    Foundation.
    Bertsekas and Tsitsiklis, 1996, Neuro-Dynamic Programming.
    Patiño, Fullana and Schugurensky, 2004, Programación Dinámica.




20/12/12               PROGRAMACIÓN NEURODINÁMICA                    7

Más contenido relacionado

Similar a Introducción a la Programación Neurodinámica (PN

Sistemas de pronóstico de calidad del aire
Sistemas de pronóstico de calidad del aireSistemas de pronóstico de calidad del aire
Sistemas de pronóstico de calidad del aireClaudio Cortes
 
Enfoques cuali cuantitativos en la toma de decisiones
Enfoques cuali cuantitativos en la toma de decisionesEnfoques cuali cuantitativos en la toma de decisiones
Enfoques cuali cuantitativos en la toma de decisionesgarciara
 
Curso Big Data. Introducción a Deep Learning by Gabriel Valverde Castilla
Curso Big Data. Introducción a  Deep Learning by Gabriel Valverde CastillaCurso Big Data. Introducción a  Deep Learning by Gabriel Valverde Castilla
Curso Big Data. Introducción a Deep Learning by Gabriel Valverde CastillaVictoria López
 
Enfoques cuali cuantitativos en la toma de decisiones
Enfoques cuali cuantitativos en la toma de decisionesEnfoques cuali cuantitativos en la toma de decisiones
Enfoques cuali cuantitativos en la toma de decisionesgarciara
 
Separata Io 2009 Ii
Separata Io 2009 IiSeparata Io 2009 Ii
Separata Io 2009 Iifgalarreta
 
Sistema de soporte de decisiones (dss) grupo-6
Sistema de soporte de decisiones (dss)  grupo-6Sistema de soporte de decisiones (dss)  grupo-6
Sistema de soporte de decisiones (dss) grupo-6Kervin Perche
 
Lady informe ia
Lady informe iaLady informe ia
Lady informe ialadyespino
 
Lady informe ia
Lady informe iaLady informe ia
Lady informe ialadyespino
 
Lady informe ia
Lady informe iaLady informe ia
Lady informe ialadyespino
 
ESTYLF'2008: Modelado Causal en Marketing mediante Aprendizaje no Supervisado...
ESTYLF'2008: Modelado Causal en Marketing mediante Aprendizaje no Supervisado...ESTYLF'2008: Modelado Causal en Marketing mediante Aprendizaje no Supervisado...
ESTYLF'2008: Modelado Causal en Marketing mediante Aprendizaje no Supervisado...Albert Orriols-Puig
 
Escuela Superior de Cd Sahagun plantilla2.pptx
Escuela Superior de Cd Sahagun plantilla2.pptxEscuela Superior de Cd Sahagun plantilla2.pptx
Escuela Superior de Cd Sahagun plantilla2.pptxjosevillaltadso
 

Similar a Introducción a la Programación Neurodinámica (PN (20)

Simulacion - Generalidades
Simulacion - GeneralidadesSimulacion - Generalidades
Simulacion - Generalidades
 
Sistemas de pronóstico de calidad del aire
Sistemas de pronóstico de calidad del aireSistemas de pronóstico de calidad del aire
Sistemas de pronóstico de calidad del aire
 
REDES NEURONALES.pptx
REDES NEURONALES.pptxREDES NEURONALES.pptx
REDES NEURONALES.pptx
 
Sistemas expertos
Sistemas expertosSistemas expertos
Sistemas expertos
 
Paradigmas
ParadigmasParadigmas
Paradigmas
 
Enfoques cuali cuantitativos en la toma de decisiones
Enfoques cuali cuantitativos en la toma de decisionesEnfoques cuali cuantitativos en la toma de decisiones
Enfoques cuali cuantitativos en la toma de decisiones
 
Redes neuronales
Redes neuronalesRedes neuronales
Redes neuronales
 
Curso Big Data. Introducción a Deep Learning by Gabriel Valverde Castilla
Curso Big Data. Introducción a  Deep Learning by Gabriel Valverde CastillaCurso Big Data. Introducción a  Deep Learning by Gabriel Valverde Castilla
Curso Big Data. Introducción a Deep Learning by Gabriel Valverde Castilla
 
Deber sitema experto
Deber sitema expertoDeber sitema experto
Deber sitema experto
 
Enfoques cuali cuantitativos en la toma de decisiones
Enfoques cuali cuantitativos en la toma de decisionesEnfoques cuali cuantitativos en la toma de decisiones
Enfoques cuali cuantitativos en la toma de decisiones
 
Separata Io 2009 Ii
Separata Io 2009 IiSeparata Io 2009 Ii
Separata Io 2009 Ii
 
Sistema de soporte de decisiones (dss) grupo-6
Sistema de soporte de decisiones (dss)  grupo-6Sistema de soporte de decisiones (dss)  grupo-6
Sistema de soporte de decisiones (dss) grupo-6
 
Sistemas expertos
Sistemas expertosSistemas expertos
Sistemas expertos
 
Lady informe ia
Lady informe iaLady informe ia
Lady informe ia
 
Lady informe ia
Lady informe iaLady informe ia
Lady informe ia
 
Lady informe ia
Lady informe iaLady informe ia
Lady informe ia
 
ESTYLF'2008: Modelado Causal en Marketing mediante Aprendizaje no Supervisado...
ESTYLF'2008: Modelado Causal en Marketing mediante Aprendizaje no Supervisado...ESTYLF'2008: Modelado Causal en Marketing mediante Aprendizaje no Supervisado...
ESTYLF'2008: Modelado Causal en Marketing mediante Aprendizaje no Supervisado...
 
Tp1
Tp1Tp1
Tp1
 
Curso Aop01
Curso Aop01Curso Aop01
Curso Aop01
 
Escuela Superior de Cd Sahagun plantilla2.pptx
Escuela Superior de Cd Sahagun plantilla2.pptxEscuela Superior de Cd Sahagun plantilla2.pptx
Escuela Superior de Cd Sahagun plantilla2.pptx
 

Último

RETO MES DE ABRIL .............................docx
RETO MES DE ABRIL .............................docxRETO MES DE ABRIL .............................docx
RETO MES DE ABRIL .............................docxAna Fernandez
 
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...JAVIER SOLIS NOYOLA
 
FICHA DE MONITOREO Y ACOMPAÑAMIENTO 2024 MINEDU
FICHA DE MONITOREO Y ACOMPAÑAMIENTO  2024 MINEDUFICHA DE MONITOREO Y ACOMPAÑAMIENTO  2024 MINEDU
FICHA DE MONITOREO Y ACOMPAÑAMIENTO 2024 MINEDUgustavorojas179704
 
codigos HTML para blogs y paginas web Karina
codigos HTML para blogs y paginas web Karinacodigos HTML para blogs y paginas web Karina
codigos HTML para blogs y paginas web Karinavergarakarina022
 
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptxSINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptxlclcarmen
 
CULTURA NAZCA, presentación en aula para compartir
CULTURA NAZCA, presentación en aula para compartirCULTURA NAZCA, presentación en aula para compartir
CULTURA NAZCA, presentación en aula para compartirPaddySydney1
 
Heinsohn Privacidad y Ciberseguridad para el sector educativo
Heinsohn Privacidad y Ciberseguridad para el sector educativoHeinsohn Privacidad y Ciberseguridad para el sector educativo
Heinsohn Privacidad y Ciberseguridad para el sector educativoFundación YOD YOD
 
Factores ecosistemas: interacciones, energia y dinamica
Factores ecosistemas: interacciones, energia y dinamicaFactores ecosistemas: interacciones, energia y dinamica
Factores ecosistemas: interacciones, energia y dinamicaFlor Idalia Espinoza Ortega
 
Flores Nacionales de América Latina - Botánica
Flores Nacionales de América Latina - BotánicaFlores Nacionales de América Latina - Botánica
Flores Nacionales de América Latina - BotánicaJuan Carlos Fonseca Mata
 
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptxLINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptxdanalikcruz2000
 
Presentación de Estrategias de Enseñanza-Aprendizaje Virtual.pptx
Presentación de Estrategias de Enseñanza-Aprendizaje Virtual.pptxPresentación de Estrategias de Enseñanza-Aprendizaje Virtual.pptx
Presentación de Estrategias de Enseñanza-Aprendizaje Virtual.pptxYeseniaRivera50
 
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyzel CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyzprofefilete
 
Lecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadLecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadAlejandrino Halire Ccahuana
 
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.pptDE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.pptELENA GALLARDO PAÚLS
 
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...fcastellanos3
 
Análisis de la Implementación de los Servicios Locales de Educación Pública p...
Análisis de la Implementación de los Servicios Locales de Educación Pública p...Análisis de la Implementación de los Servicios Locales de Educación Pública p...
Análisis de la Implementación de los Servicios Locales de Educación Pública p...Baker Publishing Company
 

Último (20)

Defendamos la verdad. La defensa es importante.
Defendamos la verdad. La defensa es importante.Defendamos la verdad. La defensa es importante.
Defendamos la verdad. La defensa es importante.
 
RETO MES DE ABRIL .............................docx
RETO MES DE ABRIL .............................docxRETO MES DE ABRIL .............................docx
RETO MES DE ABRIL .............................docx
 
La Trampa De La Felicidad. Russ-Harris.pdf
La Trampa De La Felicidad. Russ-Harris.pdfLa Trampa De La Felicidad. Russ-Harris.pdf
La Trampa De La Felicidad. Russ-Harris.pdf
 
Power Point: "Defendamos la verdad".pptx
Power Point: "Defendamos la verdad".pptxPower Point: "Defendamos la verdad".pptx
Power Point: "Defendamos la verdad".pptx
 
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
 
FICHA DE MONITOREO Y ACOMPAÑAMIENTO 2024 MINEDU
FICHA DE MONITOREO Y ACOMPAÑAMIENTO  2024 MINEDUFICHA DE MONITOREO Y ACOMPAÑAMIENTO  2024 MINEDU
FICHA DE MONITOREO Y ACOMPAÑAMIENTO 2024 MINEDU
 
codigos HTML para blogs y paginas web Karina
codigos HTML para blogs y paginas web Karinacodigos HTML para blogs y paginas web Karina
codigos HTML para blogs y paginas web Karina
 
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptxSINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
 
CULTURA NAZCA, presentación en aula para compartir
CULTURA NAZCA, presentación en aula para compartirCULTURA NAZCA, presentación en aula para compartir
CULTURA NAZCA, presentación en aula para compartir
 
Heinsohn Privacidad y Ciberseguridad para el sector educativo
Heinsohn Privacidad y Ciberseguridad para el sector educativoHeinsohn Privacidad y Ciberseguridad para el sector educativo
Heinsohn Privacidad y Ciberseguridad para el sector educativo
 
Factores ecosistemas: interacciones, energia y dinamica
Factores ecosistemas: interacciones, energia y dinamicaFactores ecosistemas: interacciones, energia y dinamica
Factores ecosistemas: interacciones, energia y dinamica
 
Flores Nacionales de América Latina - Botánica
Flores Nacionales de América Latina - BotánicaFlores Nacionales de América Latina - Botánica
Flores Nacionales de América Latina - Botánica
 
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptxLINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
 
Presentación de Estrategias de Enseñanza-Aprendizaje Virtual.pptx
Presentación de Estrategias de Enseñanza-Aprendizaje Virtual.pptxPresentación de Estrategias de Enseñanza-Aprendizaje Virtual.pptx
Presentación de Estrategias de Enseñanza-Aprendizaje Virtual.pptx
 
Unidad 4 | Teorías de las Comunicación | MCDI
Unidad 4 | Teorías de las Comunicación | MCDIUnidad 4 | Teorías de las Comunicación | MCDI
Unidad 4 | Teorías de las Comunicación | MCDI
 
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyzel CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
 
Lecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadLecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdad
 
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.pptDE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
 
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
 
Análisis de la Implementación de los Servicios Locales de Educación Pública p...
Análisis de la Implementación de los Servicios Locales de Educación Pública p...Análisis de la Implementación de los Servicios Locales de Educación Pública p...
Análisis de la Implementación de los Servicios Locales de Educación Pública p...
 

Introducción a la Programación Neurodinámica (PN

  • 1. INTRODUCCION PROGRAMACIÓN NEURODINAMICA Dr. Ing. Danilo Chavez Escuela Politécnica Nacional 20/12/12 PROGRAMACIÓN NEURODINÁMICA 1
  • 2. INTRODUCCIÓN Aprendizaje Con Profesor (Supervisado) Sin Profesor Reforzado Auto-organizativo Método Moderno Método Clásico “Planeamiento” “Comportamiento especializado” Programación Dinámica Programación Neurodinámica 20/12/12 PROGRAMACIÓN NEURODINÁMICA 2
  • 3. Aprendizaje Supervisado: Programación Dinámica – Aprendizaje Cognititivo – Trata con situaciones donde las decisiones se hacen por etapas. – Necesita un conjunto de elementos – Situaciones donde las decisiones no representativos de la operación del pueden realizarse en forma aislada. entorno – Problema de asignación de crédito. Aprendizaje Reforzado: – Dos características: un Sistema – Aprendizaje Conductista dinámico discreto oculto y una función – Aprendizaje a través de la interacción de costo aditiva todo el tiempo. entorno-sistema de aprendizaje. Programación Neurodinámica – Alcance de objetivos a pesar de – Fundamentos teóricos provistos por la incertidumbres. programación dinámica. – Capacidad de aprendizaje provista por Método Clásico: las redes neuronales. – Aprendizaje: proceso de Castigo- – Definición (Bertsekas et. al. 1996) Recompensa. La programación neurodinámica – Objetivo: Alcanzar un Comportamiento posibilita a un sistema a tomar buenas Especializado. decisiones observando su propio comportamiento y mejorar sus Método Moderno: acciones usando un mecanismo – Basado en Programación Dinámica. incorporado a través del refuerzo. – Las decisiones actuales consideran los efectos futuros. – Énfasis en el Planeamiento. 20/12/12 PROGRAMACIÓN NEURODINÁMICA 3
  • 4. PROGRAMACIÓN NEURODINÁMICA Dos Situaciones Posibles: – El conjunto de datos de entrenamiento La simulación permite el uso de {i, J*(i)} esta disponible, entonces se métodos de programación busca la aproximación de la función neurodinámica para diseñar J*(.) para que el vector W tenga una sistemas para los cuales no se dimensión pequeña. Representación tiene el modelo explicito, porque Compacta, solo se almacena W y la es engorroso o imposible estimar función de aproximación. las probabilidades de transición – El conjunto de datos de entrenamiento de estados. no esta disponible, entonces se A través de la simulación optimiza en un sentido estadístico podemos identificar los estados usando la simulación de Monte Carlo, mas importantes como aquellos para sustituir al modelo Markoviano del mas visitados durante la sistema (Modo de operación de simulación. Por lo tanto, la programación dinámica off-line ). función de costo aproximada Ventajas: encontrada por la RN puede La simulación permite evaluar proveer una buena aproximación aproximadamente la función de de la función J*(i); y el resultado costo por alcanzar óptima, esta final una buena política es la principal distinción entre la subóptima. metodología de programación neurodinámica de los métodos tradicionales de aproximación de la programación dinámica. 20/12/12 PROGRAMACIÓN NEURODINÁMICA 4
  • 5. Q-LEARNING Q-Learning se define como una forma de aprender modelo-libre del aprendizaje reforzado[Watkins, 1989; Watkins y Dayan, 1992; Jang, et. Todos, 1997]. Es utilizado para un problema donde se tiene información incompleta DEL MODELO, pero se necesita que el modelo sea absolutamente observable. Podría ser vista como versión incremental de Programación Dinámica que mejora sucesivamente sus evaluaciones de acciones específicas en los estados específicos. El objetivo es encontrar la política óptima y el valor de su estado se estima mientras que se valora el mejor par de estado-acción del estado 20/12/12 PROGRAMACIÓN NEURODINÁMICA 5
  • 6. Aplicación de la NPD al Control Óptimo de Sistemas Sistema de control óptimo: sistema en Solución de Problemas de Control el cual se optimiza un índice de Óptimo: debido a los problemas inherentes desempeño. de la programación dinámica Problema de control óptimo: dado un (dimensionalidad,...) para resolver ciertos estado inicial del sistema, buscar una problemas, se han desarrollado sistemas de secuencia de acciones de control de control óptimo basados en métodos manera tal de llevar al sistema a una región avanzados de la PD, como la Programación deseada del espacio de estado Dinámica Iterativa y la Programación minimizando un índice de desempeño Neurodinámica. Esta última en vez de predeterminado. evaluar el índice de desempeño para todos – El enfoque tradicional de resolver un los estados posibles, emplea RN para aproximarlo. problema de control óptimo se basa en el principio de optimalidad de Bellman, Diseños Críticos Adaptables: existen el cual aplicado a sistemas continuos básicamente 3 tipos de métodos de PD conduce a la ecuación de Hamilton, aproximada o NPD: PD Heurística (HDP), Jacobi, Bellman. Estas ecuaciones no PD Heurística Dual (DHP) y PD Heurística siempre tienen una solución analítica, Dual Globalizada (GDHP); estos métodos se encuentran soluciones para en conjunto son llamados Diseños Críticos sistemas lineales, variantes y con Adaptables. índices de desempeño cuadráticos como el (LQR) que lleva a la ecuación de Riccati. El mismo principio aplicado a sistemas discretos conduce a algoritmos de programación dinámica. 20/12/12 PROGRAMACIÓN NEURODINÁMICA 6
  • 7. BIBLIOGRAFÍA Simon Haykin, 1999, Neural Networks: A Comprehensive Foundation. Bertsekas and Tsitsiklis, 1996, Neuro-Dynamic Programming. Patiño, Fullana and Schugurensky, 2004, Programación Dinámica. 20/12/12 PROGRAMACIÓN NEURODINÁMICA 7