SlideShare una empresa de Scribd logo
1 de 7
INTRODUCCION PROGRAMACIÓN
        NEURODINAMICA


                                   Dr. Ing. Danilo Chavez
                                 Escuela Politécnica Nacional




20/12/12   PROGRAMACIÓN NEURODINÁMICA                     1
INTRODUCCIÓN
                                           Aprendizaje




           Con Profesor (Supervisado)                              Sin Profesor



                                                  Reforzado                          Auto-organizativo



                             Método Moderno                            Método Clásico
                             “Planeamiento”                     “Comportamiento especializado”



                          Programación Dinámica       Programación Neurodinámica




20/12/12                         PROGRAMACIÓN NEURODINÁMICA                                              2
Aprendizaje Supervisado:                          Programación Dinámica
      –    Aprendizaje Cognititivo                     –   Trata con situaciones donde las
                                                           decisiones se hacen por etapas.
      –    Necesita un conjunto de elementos
                                                       –   Situaciones donde las decisiones no
           representativos de la operación del
                                                           pueden realizarse en forma aislada.
           entorno
                                                       –   Problema de asignación de crédito.
    Aprendizaje Reforzado:                             –   Dos características: un Sistema
      –    Aprendizaje Conductista                         dinámico discreto oculto y una función
      –    Aprendizaje a través de la interacción          de costo aditiva todo el tiempo.
           entorno-sistema de aprendizaje.            Programación Neurodinámica
      –    Alcance de objetivos a pesar de             –   Fundamentos teóricos provistos por la
           incertidumbres.                                 programación dinámica.
                                                       –   Capacidad de aprendizaje provista por
    Método Clásico:                                        las redes neuronales.
      –    Aprendizaje: proceso de Castigo-            –   Definición (Bertsekas et. al. 1996)
           Recompensa.                                     La programación neurodinámica
      –    Objetivo: Alcanzar un Comportamiento            posibilita a un sistema a tomar buenas
           Especializado.                                  decisiones observando su propio
                                                           comportamiento y mejorar sus
    Método Moderno:                                        acciones usando un mecanismo
      –    Basado en Programación Dinámica.                incorporado a través del refuerzo.
      –    Las decisiones actuales consideran los
           efectos futuros.
      –    Énfasis en el Planeamiento.
20/12/12                            PROGRAMACIÓN NEURODINÁMICA                                      3
PROGRAMACIÓN NEURODINÁMICA
     Dos Situaciones Posibles:
       –    El conjunto de datos de entrenamiento                  La simulación permite el uso de
            {i, J*(i)} esta disponible, entonces se                métodos de programación
            busca la aproximación de la función                    neurodinámica para diseñar
            J*(.) para que el vector W tenga una                   sistemas para los cuales no se
            dimensión pequeña. Representación                      tiene el modelo explicito, porque
            Compacta, solo se almacena W y la                      es engorroso o imposible estimar
            función de aproximación.                               las probabilidades de transición
       –    El conjunto de datos de entrenamiento                  de estados.
            no esta disponible, entonces se                        A través de la simulación
            optimiza en un sentido estadístico                     podemos identificar los estados
            usando la simulación de Monte Carlo,                   mas importantes como aquellos
            para sustituir al modelo Markoviano del                mas visitados durante la
            sistema (Modo de operación de                          simulación. Por lo tanto, la
            programación dinámica off-line ).                      función de costo aproximada
            Ventajas:                                              encontrada por la RN puede
                  La simulación permite evaluar                    proveer una buena aproximación
                  aproximadamente la función de                    de la función J*(i); y el resultado
                  costo por alcanzar óptima, esta                  final una buena política
                  es la principal distinción entre la              subóptima.
                  metodología de programación
                  neurodinámica de los métodos
                  tradicionales de aproximación de
                  la programación dinámica.

 20/12/12                             PROGRAMACIÓN NEURODINÁMICA                                     4
Q-LEARNING
       Q-Learning se define como una forma de aprender
       modelo-libre del aprendizaje reforzado[Watkins, 1989;
       Watkins y Dayan, 1992; Jang, et. Todos, 1997].
       Es utilizado para un problema donde se tiene
       información incompleta DEL MODELO, pero se
       necesita que el modelo sea absolutamente observable.
       Podría ser vista como versión incremental de
       Programación Dinámica que mejora sucesivamente sus
       evaluaciones de acciones específicas en los estados
       específicos.
       El objetivo es encontrar la política óptima y el valor
       de su estado se estima mientras que se valora el mejor
       par de estado-acción del estado


20/12/12               PROGRAMACIÓN NEURODINÁMICA               5
Aplicación de la NPD al Control Óptimo
             de Sistemas
     Sistema de control óptimo: sistema en           Solución de Problemas de Control
     el cual se optimiza un índice de                Óptimo: debido a los problemas inherentes
     desempeño.                                      de la programación dinámica
     Problema de control óptimo: dado un             (dimensionalidad,...) para resolver ciertos
     estado inicial del sistema, buscar una          problemas, se han desarrollado sistemas de
     secuencia de acciones de control de             control óptimo basados en métodos
     manera tal de llevar al sistema a una región    avanzados de la PD, como la Programación
     deseada del espacio de estado                   Dinámica Iterativa y la Programación
     minimizando un índice de desempeño              Neurodinámica. Esta última en vez de
     predeterminado.                                 evaluar el índice de desempeño para todos
      – El enfoque tradicional de resolver un        los estados posibles, emplea RN para
                                                     aproximarlo.
          problema de control óptimo se basa en
          el principio de optimalidad de Bellman,    Diseños Críticos Adaptables: existen
          el cual aplicado a sistemas continuos      básicamente 3 tipos de métodos de PD
          conduce a la ecuación de Hamilton,         aproximada o NPD: PD Heurística (HDP),
          Jacobi, Bellman. Estas ecuaciones no       PD Heurística Dual (DHP) y PD Heurística
          siempre tienen una solución analítica,     Dual Globalizada (GDHP); estos métodos
          se encuentran soluciones para              en conjunto son llamados Diseños Críticos
          sistemas lineales, variantes y con         Adaptables.
          índices de desempeño cuadráticos
          como el (LQR) que lleva a la ecuación
          de Riccati. El mismo principio aplicado
          a sistemas discretos conduce a
          algoritmos de programación dinámica.



 20/12/12                          PROGRAMACIÓN NEURODINÁMICA                                  6
BIBLIOGRAFÍA
    Simon Haykin, 1999, Neural Networks: A Comprehensive
    Foundation.
    Bertsekas and Tsitsiklis, 1996, Neuro-Dynamic Programming.
    Patiño, Fullana and Schugurensky, 2004, Programación Dinámica.




20/12/12               PROGRAMACIÓN NEURODINÁMICA                    7

Más contenido relacionado

Similar a Introducción a la Programación Neurodinámica (PN

Sistemas de pronóstico de calidad del aire
Sistemas de pronóstico de calidad del aireSistemas de pronóstico de calidad del aire
Sistemas de pronóstico de calidad del aireClaudio Cortes
 
Enfoques cuali cuantitativos en la toma de decisiones
Enfoques cuali cuantitativos en la toma de decisionesEnfoques cuali cuantitativos en la toma de decisiones
Enfoques cuali cuantitativos en la toma de decisionesgarciara
 
Curso Big Data. Introducción a Deep Learning by Gabriel Valverde Castilla
Curso Big Data. Introducción a  Deep Learning by Gabriel Valverde CastillaCurso Big Data. Introducción a  Deep Learning by Gabriel Valverde Castilla
Curso Big Data. Introducción a Deep Learning by Gabriel Valverde CastillaVictoria López
 
Enfoques cuali cuantitativos en la toma de decisiones
Enfoques cuali cuantitativos en la toma de decisionesEnfoques cuali cuantitativos en la toma de decisiones
Enfoques cuali cuantitativos en la toma de decisionesgarciara
 
Separata Io 2009 Ii
Separata Io 2009 IiSeparata Io 2009 Ii
Separata Io 2009 Iifgalarreta
 
Sistema de soporte de decisiones (dss) grupo-6
Sistema de soporte de decisiones (dss)  grupo-6Sistema de soporte de decisiones (dss)  grupo-6
Sistema de soporte de decisiones (dss) grupo-6Kervin Perche
 
Lady informe ia
Lady informe iaLady informe ia
Lady informe ialadyespino
 
Lady informe ia
Lady informe iaLady informe ia
Lady informe ialadyespino
 
Lady informe ia
Lady informe iaLady informe ia
Lady informe ialadyespino
 
ESTYLF'2008: Modelado Causal en Marketing mediante Aprendizaje no Supervisado...
ESTYLF'2008: Modelado Causal en Marketing mediante Aprendizaje no Supervisado...ESTYLF'2008: Modelado Causal en Marketing mediante Aprendizaje no Supervisado...
ESTYLF'2008: Modelado Causal en Marketing mediante Aprendizaje no Supervisado...Albert Orriols-Puig
 
Escuela Superior de Cd Sahagun plantilla2.pptx
Escuela Superior de Cd Sahagun plantilla2.pptxEscuela Superior de Cd Sahagun plantilla2.pptx
Escuela Superior de Cd Sahagun plantilla2.pptxjosevillaltadso
 

Similar a Introducción a la Programación Neurodinámica (PN (20)

Simulacion - Generalidades
Simulacion - GeneralidadesSimulacion - Generalidades
Simulacion - Generalidades
 
Sistemas de pronóstico de calidad del aire
Sistemas de pronóstico de calidad del aireSistemas de pronóstico de calidad del aire
Sistemas de pronóstico de calidad del aire
 
REDES NEURONALES.pptx
REDES NEURONALES.pptxREDES NEURONALES.pptx
REDES NEURONALES.pptx
 
Sistemas expertos
Sistemas expertosSistemas expertos
Sistemas expertos
 
Paradigmas
ParadigmasParadigmas
Paradigmas
 
Enfoques cuali cuantitativos en la toma de decisiones
Enfoques cuali cuantitativos en la toma de decisionesEnfoques cuali cuantitativos en la toma de decisiones
Enfoques cuali cuantitativos en la toma de decisiones
 
Redes neuronales
Redes neuronalesRedes neuronales
Redes neuronales
 
Curso Big Data. Introducción a Deep Learning by Gabriel Valverde Castilla
Curso Big Data. Introducción a  Deep Learning by Gabriel Valverde CastillaCurso Big Data. Introducción a  Deep Learning by Gabriel Valverde Castilla
Curso Big Data. Introducción a Deep Learning by Gabriel Valverde Castilla
 
Deber sitema experto
Deber sitema expertoDeber sitema experto
Deber sitema experto
 
Enfoques cuali cuantitativos en la toma de decisiones
Enfoques cuali cuantitativos en la toma de decisionesEnfoques cuali cuantitativos en la toma de decisiones
Enfoques cuali cuantitativos en la toma de decisiones
 
Separata Io 2009 Ii
Separata Io 2009 IiSeparata Io 2009 Ii
Separata Io 2009 Ii
 
Sistema de soporte de decisiones (dss) grupo-6
Sistema de soporte de decisiones (dss)  grupo-6Sistema de soporte de decisiones (dss)  grupo-6
Sistema de soporte de decisiones (dss) grupo-6
 
Sistemas expertos
Sistemas expertosSistemas expertos
Sistemas expertos
 
Lady informe ia
Lady informe iaLady informe ia
Lady informe ia
 
Lady informe ia
Lady informe iaLady informe ia
Lady informe ia
 
Lady informe ia
Lady informe iaLady informe ia
Lady informe ia
 
ESTYLF'2008: Modelado Causal en Marketing mediante Aprendizaje no Supervisado...
ESTYLF'2008: Modelado Causal en Marketing mediante Aprendizaje no Supervisado...ESTYLF'2008: Modelado Causal en Marketing mediante Aprendizaje no Supervisado...
ESTYLF'2008: Modelado Causal en Marketing mediante Aprendizaje no Supervisado...
 
Tp1
Tp1Tp1
Tp1
 
Curso Aop01
Curso Aop01Curso Aop01
Curso Aop01
 
Escuela Superior de Cd Sahagun plantilla2.pptx
Escuela Superior de Cd Sahagun plantilla2.pptxEscuela Superior de Cd Sahagun plantilla2.pptx
Escuela Superior de Cd Sahagun plantilla2.pptx
 

Último

PLAN DE REFUERZO ESCOLAR primaria (1).docx
PLAN DE REFUERZO ESCOLAR primaria (1).docxPLAN DE REFUERZO ESCOLAR primaria (1).docx
PLAN DE REFUERZO ESCOLAR primaria (1).docxlupitavic
 
plan de capacitacion docente AIP 2024 clllll.pdf
plan de capacitacion docente  AIP 2024          clllll.pdfplan de capacitacion docente  AIP 2024          clllll.pdf
plan de capacitacion docente AIP 2024 clllll.pdfenelcielosiempre
 
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLAACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLAJAVIER SOLIS NOYOLA
 
Ejercicios de PROBLEMAS PAEV 6 GRADO 2024.pdf
Ejercicios de PROBLEMAS PAEV 6 GRADO 2024.pdfEjercicios de PROBLEMAS PAEV 6 GRADO 2024.pdf
Ejercicios de PROBLEMAS PAEV 6 GRADO 2024.pdfMaritzaRetamozoVera
 
plande accion dl aula de innovación pedagogica 2024.pdf
plande accion dl aula de innovación pedagogica 2024.pdfplande accion dl aula de innovación pedagogica 2024.pdf
plande accion dl aula de innovación pedagogica 2024.pdfenelcielosiempre
 
La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.amayarogel
 
Cuaderno de trabajo Matemática 3 tercer grado.pdf
Cuaderno de trabajo Matemática 3 tercer grado.pdfCuaderno de trabajo Matemática 3 tercer grado.pdf
Cuaderno de trabajo Matemática 3 tercer grado.pdfNancyLoaa
 
Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...Lourdes Feria
 
Estrategia de prompts, primeras ideas para su construcción
Estrategia de prompts, primeras ideas para su construcciónEstrategia de prompts, primeras ideas para su construcción
Estrategia de prompts, primeras ideas para su construcciónLourdes Feria
 
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VSOCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VSYadi Campos
 
Sesión de aprendizaje Planifica Textos argumentativo.docx
Sesión de aprendizaje Planifica Textos argumentativo.docxSesión de aprendizaje Planifica Textos argumentativo.docx
Sesión de aprendizaje Planifica Textos argumentativo.docxMaritzaRetamozoVera
 
Qué es la Inteligencia artificial generativa
Qué es la Inteligencia artificial generativaQué es la Inteligencia artificial generativa
Qué es la Inteligencia artificial generativaDecaunlz
 
Programacion Anual Matemática5 MPG 2024 Ccesa007.pdf
Programacion Anual Matemática5    MPG 2024  Ccesa007.pdfProgramacion Anual Matemática5    MPG 2024  Ccesa007.pdf
Programacion Anual Matemática5 MPG 2024 Ccesa007.pdfDemetrio Ccesa Rayme
 
Programacion Anual Matemática4 MPG 2024 Ccesa007.pdf
Programacion Anual Matemática4    MPG 2024  Ccesa007.pdfProgramacion Anual Matemática4    MPG 2024  Ccesa007.pdf
Programacion Anual Matemática4 MPG 2024 Ccesa007.pdfDemetrio Ccesa Rayme
 
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURAFORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURAEl Fortí
 
PIAR v 015. 2024 Plan Individual de ajustes razonables
PIAR v 015. 2024 Plan Individual de ajustes razonablesPIAR v 015. 2024 Plan Individual de ajustes razonables
PIAR v 015. 2024 Plan Individual de ajustes razonablesYanirisBarcelDelaHoz
 
CALENDARIZACION DE MAYO / RESPONSABILIDAD
CALENDARIZACION DE MAYO / RESPONSABILIDADCALENDARIZACION DE MAYO / RESPONSABILIDAD
CALENDARIZACION DE MAYO / RESPONSABILIDADauxsoporte
 
Valoración Crítica de EEEM Feco2023 FFUCV
Valoración Crítica de EEEM Feco2023 FFUCVValoración Crítica de EEEM Feco2023 FFUCV
Valoración Crítica de EEEM Feco2023 FFUCVGiustinoAdesso1
 

Último (20)

PLAN DE REFUERZO ESCOLAR primaria (1).docx
PLAN DE REFUERZO ESCOLAR primaria (1).docxPLAN DE REFUERZO ESCOLAR primaria (1).docx
PLAN DE REFUERZO ESCOLAR primaria (1).docx
 
plan de capacitacion docente AIP 2024 clllll.pdf
plan de capacitacion docente  AIP 2024          clllll.pdfplan de capacitacion docente  AIP 2024          clllll.pdf
plan de capacitacion docente AIP 2024 clllll.pdf
 
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLAACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
 
Ejercicios de PROBLEMAS PAEV 6 GRADO 2024.pdf
Ejercicios de PROBLEMAS PAEV 6 GRADO 2024.pdfEjercicios de PROBLEMAS PAEV 6 GRADO 2024.pdf
Ejercicios de PROBLEMAS PAEV 6 GRADO 2024.pdf
 
plande accion dl aula de innovación pedagogica 2024.pdf
plande accion dl aula de innovación pedagogica 2024.pdfplande accion dl aula de innovación pedagogica 2024.pdf
plande accion dl aula de innovación pedagogica 2024.pdf
 
La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.
 
Cuaderno de trabajo Matemática 3 tercer grado.pdf
Cuaderno de trabajo Matemática 3 tercer grado.pdfCuaderno de trabajo Matemática 3 tercer grado.pdf
Cuaderno de trabajo Matemática 3 tercer grado.pdf
 
Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...
 
Sesión de clase: Fe contra todo pronóstico
Sesión de clase: Fe contra todo pronósticoSesión de clase: Fe contra todo pronóstico
Sesión de clase: Fe contra todo pronóstico
 
Unidad 3 | Metodología de la Investigación
Unidad 3 | Metodología de la InvestigaciónUnidad 3 | Metodología de la Investigación
Unidad 3 | Metodología de la Investigación
 
Estrategia de prompts, primeras ideas para su construcción
Estrategia de prompts, primeras ideas para su construcciónEstrategia de prompts, primeras ideas para su construcción
Estrategia de prompts, primeras ideas para su construcción
 
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VSOCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
 
Sesión de aprendizaje Planifica Textos argumentativo.docx
Sesión de aprendizaje Planifica Textos argumentativo.docxSesión de aprendizaje Planifica Textos argumentativo.docx
Sesión de aprendizaje Planifica Textos argumentativo.docx
 
Qué es la Inteligencia artificial generativa
Qué es la Inteligencia artificial generativaQué es la Inteligencia artificial generativa
Qué es la Inteligencia artificial generativa
 
Programacion Anual Matemática5 MPG 2024 Ccesa007.pdf
Programacion Anual Matemática5    MPG 2024  Ccesa007.pdfProgramacion Anual Matemática5    MPG 2024  Ccesa007.pdf
Programacion Anual Matemática5 MPG 2024 Ccesa007.pdf
 
Programacion Anual Matemática4 MPG 2024 Ccesa007.pdf
Programacion Anual Matemática4    MPG 2024  Ccesa007.pdfProgramacion Anual Matemática4    MPG 2024  Ccesa007.pdf
Programacion Anual Matemática4 MPG 2024 Ccesa007.pdf
 
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURAFORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
 
PIAR v 015. 2024 Plan Individual de ajustes razonables
PIAR v 015. 2024 Plan Individual de ajustes razonablesPIAR v 015. 2024 Plan Individual de ajustes razonables
PIAR v 015. 2024 Plan Individual de ajustes razonables
 
CALENDARIZACION DE MAYO / RESPONSABILIDAD
CALENDARIZACION DE MAYO / RESPONSABILIDADCALENDARIZACION DE MAYO / RESPONSABILIDAD
CALENDARIZACION DE MAYO / RESPONSABILIDAD
 
Valoración Crítica de EEEM Feco2023 FFUCV
Valoración Crítica de EEEM Feco2023 FFUCVValoración Crítica de EEEM Feco2023 FFUCV
Valoración Crítica de EEEM Feco2023 FFUCV
 

Introducción a la Programación Neurodinámica (PN

  • 1. INTRODUCCION PROGRAMACIÓN NEURODINAMICA Dr. Ing. Danilo Chavez Escuela Politécnica Nacional 20/12/12 PROGRAMACIÓN NEURODINÁMICA 1
  • 2. INTRODUCCIÓN Aprendizaje Con Profesor (Supervisado) Sin Profesor Reforzado Auto-organizativo Método Moderno Método Clásico “Planeamiento” “Comportamiento especializado” Programación Dinámica Programación Neurodinámica 20/12/12 PROGRAMACIÓN NEURODINÁMICA 2
  • 3. Aprendizaje Supervisado: Programación Dinámica – Aprendizaje Cognititivo – Trata con situaciones donde las decisiones se hacen por etapas. – Necesita un conjunto de elementos – Situaciones donde las decisiones no representativos de la operación del pueden realizarse en forma aislada. entorno – Problema de asignación de crédito. Aprendizaje Reforzado: – Dos características: un Sistema – Aprendizaje Conductista dinámico discreto oculto y una función – Aprendizaje a través de la interacción de costo aditiva todo el tiempo. entorno-sistema de aprendizaje. Programación Neurodinámica – Alcance de objetivos a pesar de – Fundamentos teóricos provistos por la incertidumbres. programación dinámica. – Capacidad de aprendizaje provista por Método Clásico: las redes neuronales. – Aprendizaje: proceso de Castigo- – Definición (Bertsekas et. al. 1996) Recompensa. La programación neurodinámica – Objetivo: Alcanzar un Comportamiento posibilita a un sistema a tomar buenas Especializado. decisiones observando su propio comportamiento y mejorar sus Método Moderno: acciones usando un mecanismo – Basado en Programación Dinámica. incorporado a través del refuerzo. – Las decisiones actuales consideran los efectos futuros. – Énfasis en el Planeamiento. 20/12/12 PROGRAMACIÓN NEURODINÁMICA 3
  • 4. PROGRAMACIÓN NEURODINÁMICA Dos Situaciones Posibles: – El conjunto de datos de entrenamiento La simulación permite el uso de {i, J*(i)} esta disponible, entonces se métodos de programación busca la aproximación de la función neurodinámica para diseñar J*(.) para que el vector W tenga una sistemas para los cuales no se dimensión pequeña. Representación tiene el modelo explicito, porque Compacta, solo se almacena W y la es engorroso o imposible estimar función de aproximación. las probabilidades de transición – El conjunto de datos de entrenamiento de estados. no esta disponible, entonces se A través de la simulación optimiza en un sentido estadístico podemos identificar los estados usando la simulación de Monte Carlo, mas importantes como aquellos para sustituir al modelo Markoviano del mas visitados durante la sistema (Modo de operación de simulación. Por lo tanto, la programación dinámica off-line ). función de costo aproximada Ventajas: encontrada por la RN puede La simulación permite evaluar proveer una buena aproximación aproximadamente la función de de la función J*(i); y el resultado costo por alcanzar óptima, esta final una buena política es la principal distinción entre la subóptima. metodología de programación neurodinámica de los métodos tradicionales de aproximación de la programación dinámica. 20/12/12 PROGRAMACIÓN NEURODINÁMICA 4
  • 5. Q-LEARNING Q-Learning se define como una forma de aprender modelo-libre del aprendizaje reforzado[Watkins, 1989; Watkins y Dayan, 1992; Jang, et. Todos, 1997]. Es utilizado para un problema donde se tiene información incompleta DEL MODELO, pero se necesita que el modelo sea absolutamente observable. Podría ser vista como versión incremental de Programación Dinámica que mejora sucesivamente sus evaluaciones de acciones específicas en los estados específicos. El objetivo es encontrar la política óptima y el valor de su estado se estima mientras que se valora el mejor par de estado-acción del estado 20/12/12 PROGRAMACIÓN NEURODINÁMICA 5
  • 6. Aplicación de la NPD al Control Óptimo de Sistemas Sistema de control óptimo: sistema en Solución de Problemas de Control el cual se optimiza un índice de Óptimo: debido a los problemas inherentes desempeño. de la programación dinámica Problema de control óptimo: dado un (dimensionalidad,...) para resolver ciertos estado inicial del sistema, buscar una problemas, se han desarrollado sistemas de secuencia de acciones de control de control óptimo basados en métodos manera tal de llevar al sistema a una región avanzados de la PD, como la Programación deseada del espacio de estado Dinámica Iterativa y la Programación minimizando un índice de desempeño Neurodinámica. Esta última en vez de predeterminado. evaluar el índice de desempeño para todos – El enfoque tradicional de resolver un los estados posibles, emplea RN para aproximarlo. problema de control óptimo se basa en el principio de optimalidad de Bellman, Diseños Críticos Adaptables: existen el cual aplicado a sistemas continuos básicamente 3 tipos de métodos de PD conduce a la ecuación de Hamilton, aproximada o NPD: PD Heurística (HDP), Jacobi, Bellman. Estas ecuaciones no PD Heurística Dual (DHP) y PD Heurística siempre tienen una solución analítica, Dual Globalizada (GDHP); estos métodos se encuentran soluciones para en conjunto son llamados Diseños Críticos sistemas lineales, variantes y con Adaptables. índices de desempeño cuadráticos como el (LQR) que lleva a la ecuación de Riccati. El mismo principio aplicado a sistemas discretos conduce a algoritmos de programación dinámica. 20/12/12 PROGRAMACIÓN NEURODINÁMICA 6
  • 7. BIBLIOGRAFÍA Simon Haykin, 1999, Neural Networks: A Comprehensive Foundation. Bertsekas and Tsitsiklis, 1996, Neuro-Dynamic Programming. Patiño, Fullana and Schugurensky, 2004, Programación Dinámica. 20/12/12 PROGRAMACIÓN NEURODINÁMICA 7