SlideShare una empresa de Scribd logo
1 de 58
Descargar para leer sin conexión
‫ﻣﻌﺮﻓ‬
                                    ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬
                            ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬




         ‫.‬
                                                                                                       ‫.‬
                                ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬
         ‫.‬
         ‫..‬                                                                                        ‫.‬




                                                                                                       ‫.‬
                                       ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن‬

                                        ‫داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ‬


                                         ‫۵ ﺧﺮداد ٨٨٣١‬




                                                                 ‫.‬   ‫.‬        ‫.‬       ‫.‬        ‫.‬           ‫.‬

‫۶۴ / ١‬       ‫۵ ﺧﺮداد ٨٨٣١‬                    ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬           ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
‫ﻣﻌﺮﻓ‬
                                          ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬
                                  ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬


‫.‬                                                                       ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬

                                                 ‫روش ﯾﺎدﮔﯿﺮی اﺳﺖ‬            ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ ﯾ‬
                        ‫ﺳﯿﺴﺘﻢ ﭘﻮﯾﺎ در دراز ﻣﺪّت‬              ‫• ﯾﺎدﮔﯿﺮی ﺑﺮای ﭘﯿﺶﺑﯿﻨ وﺿﻌﯿﺖ ﯾ‬
                                     ‫• ﯾﺎدﮔﯿﺮی ﺑﺮای ﮐﻨﺘﺮل ⇐ ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬
                                                                            ‫اﻧﻮاع روشﻫﺎی ﯾﺎدﮔﯿﺮی:‬
         ‫ﺳﺮی ورودی و ﭘﺎﺳﺦ ﺻﺤﯿﺢ از ﻗﺒﻞ ﺗﻌﯿﯿﻦ‬                      ‫• ﯾﺎدﮔﯿﺮی ﺑﺎﻧﻈﺎرت: ﻋﺎﻣﻞ ﺑﺎ ﯾ‬
                                                                            ‫ﺷﺪه آﻣﻮزش ﻣ ﺑﯿﻨﺪ‬
           ‫• ﯾﺎدﮔﯿﺮی ﺑﯽﻧﻈﺎرت: ﻋﺎﻣﻞ ﻫﯿﭻ ﺑﺎزﺧﻮردی درﯾﺎﻓﺖ ﻧﻤ ﮐﻨﺪ؛ ورودیﻫﺎ را‬
                                ‫ﺑﺼﻮرت ﺧﻮﺷﻪﻫﺎ، ﯾﺎ ﻃﺒﻘﻪﺑﻨﺪیﻫﺎ ﺑﺎزﺳﺎزی ﻣ ﮐﻨﺪ‬
           ‫• ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ : ﯾﺎدﮔﯿﺮی از ﻃﺮﯾﻖ ﺗﻌﺎﻣﻞ ﺑﺎ ﻣﺤﯿﻂ، و ﺳﻌ و ﺧﻄﺎ ﺗﻮﺳﻂ‬
                                                                 ‫ﺧﻮد ﻋﺎﻣﻞ‬
                   ‫ﯾﺎدﮔﯿﺮی ﺑﻪ روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ از ﻧﻮع ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ ﺑﻪﺣﺴﺎب ﻣ آﯾﺪ‬
                                                                        ‫.‬      ‫.‬        ‫.‬       ‫.‬        ‫.‬        ‫.‬

‫۶۴ / ٢‬   ‫۵ ﺧﺮداد ٨٨٣١‬                              ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬               ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
‫ﻣﻌﺮﻓ‬
                                          ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬
                                  ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬


‫.‬                                                                       ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬

                                                 ‫روش ﯾﺎدﮔﯿﺮی اﺳﺖ‬            ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ ﯾ‬
                        ‫ﺳﯿﺴﺘﻢ ﭘﻮﯾﺎ در دراز ﻣﺪّت‬              ‫• ﯾﺎدﮔﯿﺮی ﺑﺮای ﭘﯿﺶﺑﯿﻨ وﺿﻌﯿﺖ ﯾ‬
                                     ‫• ﯾﺎدﮔﯿﺮی ﺑﺮای ﮐﻨﺘﺮل ⇐ ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬
                                                                            ‫اﻧﻮاع روشﻫﺎی ﯾﺎدﮔﯿﺮی:‬
         ‫ﺳﺮی ورودی و ﭘﺎﺳﺦ ﺻﺤﯿﺢ از ﻗﺒﻞ ﺗﻌﯿﯿﻦ‬                      ‫• ﯾﺎدﮔﯿﺮی ﺑﺎﻧﻈﺎرت: ﻋﺎﻣﻞ ﺑﺎ ﯾ‬
                                                                            ‫ﺷﺪه آﻣﻮزش ﻣ ﺑﯿﻨﺪ‬
           ‫• ﯾﺎدﮔﯿﺮی ﺑﯽﻧﻈﺎرت: ﻋﺎﻣﻞ ﻫﯿﭻ ﺑﺎزﺧﻮردی درﯾﺎﻓﺖ ﻧﻤ ﮐﻨﺪ؛ ورودیﻫﺎ را‬
                                ‫ﺑﺼﻮرت ﺧﻮﺷﻪﻫﺎ، ﯾﺎ ﻃﺒﻘﻪﺑﻨﺪیﻫﺎ ﺑﺎزﺳﺎزی ﻣ ﮐﻨﺪ‬
           ‫• ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ : ﯾﺎدﮔﯿﺮی از ﻃﺮﯾﻖ ﺗﻌﺎﻣﻞ ﺑﺎ ﻣﺤﯿﻂ، و ﺳﻌ و ﺧﻄﺎ ﺗﻮﺳﻂ‬
                                                                 ‫ﺧﻮد ﻋﺎﻣﻞ‬
                   ‫ﯾﺎدﮔﯿﺮی ﺑﻪ روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ از ﻧﻮع ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ ﺑﻪﺣﺴﺎب ﻣ آﯾﺪ‬
                                                                        ‫.‬      ‫.‬        ‫.‬       ‫.‬        ‫.‬        ‫.‬

‫۶۴ / ٢‬   ‫۵ ﺧﺮداد ٨٨٣١‬                              ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬               ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
‫ﻣﻌﺮﻓ‬
                                          ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬
                                  ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬


‫.‬                                                                       ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬

                                                 ‫روش ﯾﺎدﮔﯿﺮی اﺳﺖ‬            ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ ﯾ‬
                        ‫ﺳﯿﺴﺘﻢ ﭘﻮﯾﺎ در دراز ﻣﺪّت‬              ‫• ﯾﺎدﮔﯿﺮی ﺑﺮای ﭘﯿﺶﺑﯿﻨ وﺿﻌﯿﺖ ﯾ‬
                                     ‫• ﯾﺎدﮔﯿﺮی ﺑﺮای ﮐﻨﺘﺮل ⇐ ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬
                                                                            ‫اﻧﻮاع روشﻫﺎی ﯾﺎدﮔﯿﺮی:‬
         ‫ﺳﺮی ورودی و ﭘﺎﺳﺦ ﺻﺤﯿﺢ از ﻗﺒﻞ ﺗﻌﯿﯿﻦ‬                      ‫• ﯾﺎدﮔﯿﺮی ﺑﺎﻧﻈﺎرت: ﻋﺎﻣﻞ ﺑﺎ ﯾ‬
                                                                            ‫ﺷﺪه آﻣﻮزش ﻣ ﺑﯿﻨﺪ‬
           ‫• ﯾﺎدﮔﯿﺮی ﺑﯽﻧﻈﺎرت: ﻋﺎﻣﻞ ﻫﯿﭻ ﺑﺎزﺧﻮردی درﯾﺎﻓﺖ ﻧﻤ ﮐﻨﺪ؛ ورودیﻫﺎ را‬
                                ‫ﺑﺼﻮرت ﺧﻮﺷﻪﻫﺎ، ﯾﺎ ﻃﺒﻘﻪﺑﻨﺪیﻫﺎ ﺑﺎزﺳﺎزی ﻣ ﮐﻨﺪ‬
           ‫• ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ : ﯾﺎدﮔﯿﺮی از ﻃﺮﯾﻖ ﺗﻌﺎﻣﻞ ﺑﺎ ﻣﺤﯿﻂ، و ﺳﻌ و ﺧﻄﺎ ﺗﻮﺳﻂ‬
                                                                 ‫ﺧﻮد ﻋﺎﻣﻞ‬
                   ‫ﯾﺎدﮔﯿﺮی ﺑﻪ روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ از ﻧﻮع ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ ﺑﻪﺣﺴﺎب ﻣ آﯾﺪ‬
                                                                        ‫.‬      ‫.‬        ‫.‬       ‫.‬        ‫.‬        ‫.‬

‫۶۴ / ٢‬   ‫۵ ﺧﺮداد ٨٨٣١‬                              ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬               ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
‫ﻣﻌﺮﻓ‬     ‫ﻣﻘﺪّﻣﻪ‬
                                            ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬       ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬
                                    ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬       ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬


‫.‬                                                                                ‫ﭘﯿﺶﺑﯿﻨ ﭼﻨﺪﻣﺮﺣﻠﻪای‬
          ‫.‬
                                                                            ‫.ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ ﭼﻨﺪ ﻣﺮﺣﻠﻪای‬
         ‫..‬
                              ‫• ورودی: دﻧﺒﺎﻟﻪی ﻣﺸﺎﻫﺪات-ﻧﺘﯿﺠﻪ: ‪x١ , x٢ , . . . , xm , z‬‬
                                                                      ‫• ﺧﺮوﺟ : ‪P١ , P٢ , . . . , Pm‬‬
              ‫• ‪ xt‬ﺑﺮدار ﻣﺸﺎﻫﺪه در ﻣﺮﺣﻠﻪی ‪ t‬ﺑﺎ دراﯾﻪﻫﺎی ﺣﻘﯿﻘ )ﺑﺮداری از اﻧﺪازهﮔﯿﺮیﻫﺎ‬
                                                         ‫ﯾﺎ ﺧﺼﻮﺻﯿﺎت ﻣﺤﯿﻂ( اﺳﺖ‬
                               ‫اﺳ ﺎﻟﺮ ﺣﻘﯿﻘ و ﻧﺘﯿﺠﻪی دﻧﺒﺎﻟﻪی ﻣﺸﺎﻫﺪات اﺳﺖ‬                                        ‫• ‪z‬ﯾ‬
              ‫• ‪ Pt‬ﭘﯿﺶﺑﯿﻨ ﻣﻘﺪار ‪ z‬ﮐﻪ در ﻣﺮﺣﻠﻪی ‪ t‬اﻧﺠﺎم ﺷﺪه، ‪ P‬ﺗﺎﺑﻌ از ‪ xt‬و ﺑﺮدار‬
          ‫وزنﻫﺎ ‪) ،w‬ﺑﺮداری از ﭘﺎراﻣﺘﺮﻫﺎی ﺗﻐﯿﯿﺮ ﭘﺬﯾﺮ( اﺳﺖ و آن را ﺑﺎ )‪ P(xt , w‬ﻧﺸﺎن‬
                                               ‫ﻣ دﻫﻨﺪ، ﺑﻪ ‪ P‬ﺗﺎﺑﻊ ﭘﯿﺶﺑﯿﻨ ﻣ ﮔﻮﯾﻨﺪ.‬
          ‫.‬
          ‫..‬                                                                         ‫.‬




                                                                                                                            ‫.‬
          ‫.‬
                                                                                   ‫.ﻣﺜﺎل‬
         ‫..‬
                 ‫ﭘﯿﺶﺑﯿﻨ اﯾﻦ ﮐﻪ آﯾﺎ روز ﺟﻤﻌﻪ ﺑﺎران ﻣ ﺑﺎرد ﯾﺎ ﺧﯿﺮ، از ﻃﺮﯾﻖ ﻣﺸﺎﻫﺪهی وﺿﻌﯿﺖ ﻫﻮای‬
                                        ‫دوﺷﻨﺒﻪ، و اﻧﺠﺎم ﭘﯿﺶﺑﯿﻨ ﺑﺮای روزﻫﺎی ﻣﺘﻮاﻟ ﺗﺎ ﺟﻤﻌﻪ‬
          ‫۵ ﺧﺮداد ٨٨٣١ .‬
                                                                                   ‫.‬      ‫.‬        ‫.‬       ‫.‬        ‫.‬        ‫.‬

‫۶۴ / ٣‬    ‫..‬                                         ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬                                                  ‫.‬
                                                                                              ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬




                                                                                                                            ‫.‬
‫ﻣﻌﺮﻓ‬     ‫ﻣﻘﺪّﻣﻪ‬
                                            ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬       ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬
                                    ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬       ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬


‫.‬                                                                                ‫ﭘﯿﺶﺑﯿﻨ ﭼﻨﺪﻣﺮﺣﻠﻪای‬
          ‫.‬
                                                                            ‫.ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ ﭼﻨﺪ ﻣﺮﺣﻠﻪای‬
         ‫..‬
                              ‫• ورودی: دﻧﺒﺎﻟﻪی ﻣﺸﺎﻫﺪات-ﻧﺘﯿﺠﻪ: ‪x١ , x٢ , . . . , xm , z‬‬
                                                                      ‫• ﺧﺮوﺟ : ‪P١ , P٢ , . . . , Pm‬‬
              ‫• ‪ xt‬ﺑﺮدار ﻣﺸﺎﻫﺪه در ﻣﺮﺣﻠﻪی ‪ t‬ﺑﺎ دراﯾﻪﻫﺎی ﺣﻘﯿﻘ )ﺑﺮداری از اﻧﺪازهﮔﯿﺮیﻫﺎ‬
                                                         ‫ﯾﺎ ﺧﺼﻮﺻﯿﺎت ﻣﺤﯿﻂ( اﺳﺖ‬
                               ‫اﺳ ﺎﻟﺮ ﺣﻘﯿﻘ و ﻧﺘﯿﺠﻪی دﻧﺒﺎﻟﻪی ﻣﺸﺎﻫﺪات اﺳﺖ‬                                        ‫• ‪z‬ﯾ‬
              ‫• ‪ Pt‬ﭘﯿﺶﺑﯿﻨ ﻣﻘﺪار ‪ z‬ﮐﻪ در ﻣﺮﺣﻠﻪی ‪ t‬اﻧﺠﺎم ﺷﺪه، ‪ P‬ﺗﺎﺑﻌ از ‪ xt‬و ﺑﺮدار‬
          ‫وزنﻫﺎ ‪) ،w‬ﺑﺮداری از ﭘﺎراﻣﺘﺮﻫﺎی ﺗﻐﯿﯿﺮ ﭘﺬﯾﺮ( اﺳﺖ و آن را ﺑﺎ )‪ P(xt , w‬ﻧﺸﺎن‬
                                               ‫ﻣ دﻫﻨﺪ، ﺑﻪ ‪ P‬ﺗﺎﺑﻊ ﭘﯿﺶﺑﯿﻨ ﻣ ﮔﻮﯾﻨﺪ.‬
          ‫.‬
          ‫..‬                                                                         ‫.‬




                                                                                                                            ‫.‬
          ‫.‬
                                                                                   ‫.ﻣﺜﺎل‬
         ‫..‬
                 ‫ﭘﯿﺶﺑﯿﻨ اﯾﻦ ﮐﻪ آﯾﺎ روز ﺟﻤﻌﻪ ﺑﺎران ﻣ ﺑﺎرد ﯾﺎ ﺧﯿﺮ، از ﻃﺮﯾﻖ ﻣﺸﺎﻫﺪهی وﺿﻌﯿﺖ ﻫﻮای‬
                                        ‫دوﺷﻨﺒﻪ، و اﻧﺠﺎم ﭘﯿﺶﺑﯿﻨ ﺑﺮای روزﻫﺎی ﻣﺘﻮاﻟ ﺗﺎ ﺟﻤﻌﻪ‬
          ‫۵ ﺧﺮداد ٨٨٣١ .‬
                                                                                   ‫.‬      ‫.‬        ‫.‬       ‫.‬        ‫.‬        ‫.‬

‫۶۴ / ٣‬    ‫..‬                                         ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬                                                  ‫.‬
                                                                                              ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬




                                                                                                                            ‫.‬
‫ﻣﻌﺮﻓ‬     ‫ﻣﻘﺪّﻣﻪ‬
                                          ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬       ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬
                                  ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬       ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬


‫.‬                                                                              ‫ﭘﯿﺶﺑﯿﻨ ﺗﮏﻣﺮﺣﻠﻪای‬

          ‫.‬
                                                                          ‫.ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ ﺗﮏ ﻣﺮﺣﻠﻪای‬
         ‫..‬
                                                       ‫• ﭘﯿﺶﺑﯿﻨ ﭼﻨﺪﻣﺮﺣﻠﻪای ﺑﻪ ازای ١ = ‪m‬‬
                               ‫• دﯾ ﺮ در زﻣﺮهی ﻣﺴﺎﺋﻞ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ ﻗﺮار ﻧﻤ ﮔﯿﺮد‬
              ‫• در دﺳﺘﻪی ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت ﻗﺮار ﻣ ﮔﯿﺮد )ﭼﻮن ﺑﻼﻓﺎﺻﻠﻪ ﭘﺲ از ﭘﯿﺶﺑﯿﻨ ،‬
                                                          ‫ﻧﺘﯿﺠﻪ ﻧﯿﺰ اراﺋﻪ ﻣ ﺷﻮد(‬
          ‫.‬
          ‫..‬                                                                                                          ‫.‬




                                                                                                                          ‫.‬
          ‫.‬
                                                                                                                  ‫.ﻣﺜﺎل‬
         ‫..‬
             ‫ﭘﯿﺶﺑﯿﻨ اﯾﻦ ﮐﻪ آﯾﺎ روز ﺟﻤﻌﻪ ﺑﺎران ﻣ ﺑﺎرد ﯾﺎ ﺧﯿﺮ، از ﻃﺮﯾﻖ ﻣﺸﺎﻫﺪهی وﺿﻌﯿﺖ‬
          ‫.‬                                                            ‫ﻫﻮای ﭘﻨﺞﺷﻨﺒﻪ‬
          ‫..‬                                                                     ‫.‬




                                                                                                                          ‫.‬
                                                                                 ‫.‬      ‫.‬        ‫.‬       ‫.‬        ‫.‬        ‫.‬

‫۶۴ / ۴‬        ‫۵ ﺧﺮداد ٨٨٣١‬                         ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬                        ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
‫ﻣﻌﺮﻓ‬     ‫ﻣﻘﺪّﻣﻪ‬
                                          ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬       ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬
                                  ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬       ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬


‫.‬                                                                              ‫ﭘﯿﺶﺑﯿﻨ ﺗﮏﻣﺮﺣﻠﻪای‬

          ‫.‬
                                                                          ‫.ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ ﺗﮏ ﻣﺮﺣﻠﻪای‬
         ‫..‬
                                                       ‫• ﭘﯿﺶﺑﯿﻨ ﭼﻨﺪﻣﺮﺣﻠﻪای ﺑﻪ ازای ١ = ‪m‬‬
                               ‫• دﯾ ﺮ در زﻣﺮهی ﻣﺴﺎﺋﻞ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ ﻗﺮار ﻧﻤ ﮔﯿﺮد‬
              ‫• در دﺳﺘﻪی ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت ﻗﺮار ﻣ ﮔﯿﺮد )ﭼﻮن ﺑﻼﻓﺎﺻﻠﻪ ﭘﺲ از ﭘﯿﺶﺑﯿﻨ ،‬
                                                          ‫ﻧﺘﯿﺠﻪ ﻧﯿﺰ اراﺋﻪ ﻣ ﺷﻮد(‬
          ‫.‬
          ‫..‬                                                                                                          ‫.‬




                                                                                                                          ‫.‬
          ‫.‬
                                                                                                                  ‫.ﻣﺜﺎل‬
         ‫..‬
             ‫ﭘﯿﺶﺑﯿﻨ اﯾﻦ ﮐﻪ آﯾﺎ روز ﺟﻤﻌﻪ ﺑﺎران ﻣ ﺑﺎرد ﯾﺎ ﺧﯿﺮ، از ﻃﺮﯾﻖ ﻣﺸﺎﻫﺪهی وﺿﻌﯿﺖ‬
          ‫.‬                                                            ‫ﻫﻮای ﭘﻨﺞﺷﻨﺒﻪ‬
          ‫..‬                                                                     ‫.‬




                                                                                                                          ‫.‬
                                                                                 ‫.‬      ‫.‬        ‫.‬       ‫.‬        ‫.‬        ‫.‬

‫۶۴ / ۴‬        ‫۵ ﺧﺮداد ٨٨٣١‬                         ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬                        ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
‫ﻣﻌﺮﻓ‬         ‫ﻣﻘﺪّﻣﻪ‬
                                         ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬           ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬
                                 ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬           ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬


‫.‬                                                                                          ‫ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬


         ‫• ﻣﻨﻈﻮر از ﯾﺎدﮔﯿﺮی، ﺗﻨﻈﯿﻢ ﻣﻘﺎدﯾﺮ ﺑﺮدار وزنﻫﺎ ‪ w‬اﺳﺖ، ﺑﻪﻃﻮرﯾ ﻪ ﺧﻄﺎی ﺗﺎﺑﻊ‬
                                             ‫ﭘﯿﺶﺑﯿﻨ در ﻫﺮ ﻣﺮﺣﻠﻪ ﮐﻤﯿﻨﻪ ﺷﻮد.‬
                   ‫• ﺑﻪازای ﻫﺮﻣﺮﺣﻠﻪ ﻣ ﺗﻮان ﺗﻐﯿﯿﺮ در ﺑﺮدار وزنﻫﺎ ‪ ∆wt‬را در ﻧﻈﺮ ﮔﺮﻓﺖ‬

                                                           ‫∑‬
                                                           ‫‪m‬‬
                                  ‫+‪w←w‬‬                            ‫‪∆wt‬‬                                        ‫)١(‬
                                                           ‫١=‪t‬‬


               ‫• در ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت ﺗﻤﺎم ﺗﻐﯿﯿﺮات در اﻧﺘﻬﺎی دﻧﺒﺎﻟﻪی ﻣﺸﺎﻫﺪات اﻋﻤﺎل‬
                                                          ‫ﻣ ﺷﻮد؛ ﻧﻪ در ﻫﺮ ﻣﺮﺣﻠﻪ‬


                                                                                    ‫.‬       ‫.‬        ‫.‬       ‫.‬        ‫.‬        ‫.‬

‫۶۴ / ۵‬   ‫۵ ﺧﺮداد ٨٨٣١‬                             ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬                             ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
‫ﻣﻌﺮﻓ‬     ‫ﻣﻘﺪّﻣﻪ‬
                                       ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬       ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬
                               ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬       ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬


‫.‬                                                                   ‫ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت )اداﻣﻪ(‬

             ‫• ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت ﺑﻪ ﻫﺮ دﻧﺒﺎﻟﻪی ﻣﺸﺎﻫﺪات-ﻧﺘﯿﺠﻪ، ﺑﻪ ﺻﻮرت دﻧﺒﺎﻟﻪای از‬
                                          ‫زوجﻫﺎی ﻣﺸﺎﻫﺪه-ﻧﺘﯿﺠﻪ ﺑﺮﺧﻮرد ﻣ ﮐﻨﺪ‬

                            ‫)‪(x١ , z), (x٢ , z), . . . , (xm , z‬‬

                             ‫• ﺗﻐﯿﯿﺮات در ﺑﺮدار وزنﻫﺎ ﺑﻪازای ﻣﺸﺎﻫﺪه در ﻟﺤﻈﻪی ‪:t‬‬

                              ‫‪∆wt = α(z − Pt )∇w Pt‬‬                                                   ‫)٢(‬


                                                                                     ‫• ‪ :α‬ﻧﺮخ ﯾﺎدﮔﯿﺮی‬
         ‫• ‪ :∇w Pt‬ﺑﺮدار ﻣﺸﺘﻘّﺎت ﺟﺰﺋ ‪ ،P‬ﻧﺴﺒﺖ ﺑﻪ ‪w‬؛ ﻣﺸﺨﺺ ﮐﻨﻨﺪهی ﺟﻬﺘ ﮐﻪ در‬
                               ‫آن ﺗﻐﯿﯿﺮات در ‪ w‬ﺑﯿﺸﺘﺮﯾﻦ ﺗﺄﺛﯿﺮ را در ‪ P‬دارد.‬
                                                                              ‫.‬      ‫.‬        ‫.‬       ‫.‬        ‫.‬        ‫.‬

‫۶۴ / ۶‬   ‫۵ ﺧﺮداد ٨٨٣١‬                           ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬                        ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
‫ﻣﻌﺮﻓ‬       ‫ﻣﻘﺪّﻣﻪ‬
                                         ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬         ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬
                                 ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬         ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬


                                                                        ‫ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت )اداﻣﻪ(‬
‫.‬                                                                                                     ‫ﺣﺎﻟﺖ ﺧﺎص ﺧﻄ‬

                                    ‫• ﺣﺎﻟﺖ ﺧﺎص: ‪ Pt‬ﺗﺎﺑﻊ ﺧﻄ از ‪ xt‬و ‪ w‬اﺳﺖ:‬
                                           ‫∑‬
                              ‫= ‪Pt = wT xt‬‬    ‫)‪w(i)x(i‬‬
                                                           ‫‪i‬‬
                                                                    ‫• ﺧﻮاﻫﯿﻢ داﺷﺖ: ‪∇w Pt = xt‬‬
          ‫.‬
                                ‫.ﻗﺎﻧﻮن ‪ Widrow-Hoff‬ﺑﺮای ﺑﺮوزرﺳﺎﻧ وزنﻫﺎ - ﻗﺎﻧﻮن دﻟﺘﺎ‬
         ‫..‬

                                    ‫‪∆wt = α(z − wT xt )xt‬‬                                                          ‫)٣(‬

          ‫.‬
          ‫..‬                                                                       ‫.‬




                                                                                                                        ‫.‬
            ‫• ﻣﻘﺪار ‪ z‬در اﻧﺘﻬﺎی دﻧﺒﺎﻟﻪی ﻣﺸﺎﻫﺪات ﻣﺸﺨﺺ ﻣ ﺷﻮد، ﺑﻨﺎﺑﺮاﯾﻦ ﺗﻤﺎﻣ ‪ xt‬ﻫﺎ‬
                 ‫ﺑﺎﯾﺪ ذﺧﯿﺮه ﺷﻮﻧﺪ، و ﺗﻤﺎﻣ ﺑﺮوزرﺳﺎﻧ ﻫﺎ در اﻧﺘﻬﺎی دﻧﺒﺎﻟﻪ ﻣﺤﺎﺳﺒﻪ ﺷﻮﻧﺪ.‬
                                                                                  ‫.‬      ‫.‬        ‫.‬       ‫.‬        ‫.‬        ‫.‬

‫۶۴ / ٧‬        ‫۵ ﺧﺮداد ٨٨٣١‬                        ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬                          ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
‫ﻣﻌﺮﻓ‬       ‫ﻣﻘﺪّﻣﻪ‬
                                         ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬         ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬
                                 ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬         ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬


                                                                        ‫ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت )اداﻣﻪ(‬
‫.‬                                                                                                     ‫ﺣﺎﻟﺖ ﺧﺎص ﺧﻄ‬

                                    ‫• ﺣﺎﻟﺖ ﺧﺎص: ‪ Pt‬ﺗﺎﺑﻊ ﺧﻄ از ‪ xt‬و ‪ w‬اﺳﺖ:‬
                                           ‫∑‬
                              ‫= ‪Pt = wT xt‬‬    ‫)‪w(i)x(i‬‬
                                                           ‫‪i‬‬
                                                                    ‫• ﺧﻮاﻫﯿﻢ داﺷﺖ: ‪∇w Pt = xt‬‬
          ‫.‬
                                ‫.ﻗﺎﻧﻮن ‪ Widrow-Hoff‬ﺑﺮای ﺑﺮوزرﺳﺎﻧ وزنﻫﺎ - ﻗﺎﻧﻮن دﻟﺘﺎ‬
         ‫..‬

                                    ‫‪∆wt = α(z − wT xt )xt‬‬                                                          ‫)٣(‬

          ‫.‬
          ‫..‬                                                                       ‫.‬




                                                                                                                        ‫.‬
            ‫• ﻣﻘﺪار ‪ z‬در اﻧﺘﻬﺎی دﻧﺒﺎﻟﻪی ﻣﺸﺎﻫﺪات ﻣﺸﺨﺺ ﻣ ﺷﻮد، ﺑﻨﺎﺑﺮاﯾﻦ ﺗﻤﺎﻣ ‪ xt‬ﻫﺎ‬
                 ‫ﺑﺎﯾﺪ ذﺧﯿﺮه ﺷﻮﻧﺪ، و ﺗﻤﺎﻣ ﺑﺮوزرﺳﺎﻧ ﻫﺎ در اﻧﺘﻬﺎی دﻧﺒﺎﻟﻪ ﻣﺤﺎﺳﺒﻪ ﺷﻮﻧﺪ.‬
                                                                                  ‫.‬      ‫.‬        ‫.‬       ‫.‬        ‫.‬        ‫.‬

‫۶۴ / ٧‬        ‫۵ ﺧﺮداد ٨٨٣١‬                        ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬                          ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
‫ﻣﻌﺮﻓ‬       ‫ﻣﻘﺪّﻣﻪ‬
                                         ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬         ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬
                                 ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬         ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬


                                                                        ‫ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت )اداﻣﻪ(‬
‫.‬                                                                                                     ‫ﺣﺎﻟﺖ ﺧﺎص ﺧﻄ‬

                                    ‫• ﺣﺎﻟﺖ ﺧﺎص: ‪ Pt‬ﺗﺎﺑﻊ ﺧﻄ از ‪ xt‬و ‪ w‬اﺳﺖ:‬
                                           ‫∑‬
                              ‫= ‪Pt = wT xt‬‬    ‫)‪w(i)x(i‬‬
                                                           ‫‪i‬‬
                                                                    ‫• ﺧﻮاﻫﯿﻢ داﺷﺖ: ‪∇w Pt = xt‬‬
          ‫.‬
                                ‫.ﻗﺎﻧﻮن ‪ Widrow-Hoff‬ﺑﺮای ﺑﺮوزرﺳﺎﻧ وزنﻫﺎ - ﻗﺎﻧﻮن دﻟﺘﺎ‬
         ‫..‬

                                    ‫‪∆wt = α(z − wT xt )xt‬‬                                                          ‫)٣(‬

          ‫.‬
          ‫..‬                                                                       ‫.‬




                                                                                                                        ‫.‬
            ‫• ﻣﻘﺪار ‪ z‬در اﻧﺘﻬﺎی دﻧﺒﺎﻟﻪی ﻣﺸﺎﻫﺪات ﻣﺸﺨﺺ ﻣ ﺷﻮد، ﺑﻨﺎﺑﺮاﯾﻦ ﺗﻤﺎﻣ ‪ xt‬ﻫﺎ‬
                 ‫ﺑﺎﯾﺪ ذﺧﯿﺮه ﺷﻮﻧﺪ، و ﺗﻤﺎﻣ ﺑﺮوزرﺳﺎﻧ ﻫﺎ در اﻧﺘﻬﺎی دﻧﺒﺎﻟﻪ ﻣﺤﺎﺳﺒﻪ ﺷﻮﻧﺪ.‬
                                                                                  ‫.‬      ‫.‬        ‫.‬       ‫.‬        ‫.‬        ‫.‬

‫۶۴ / ٧‬        ‫۵ ﺧﺮداد ٨٨٣١‬                        ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬                          ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
‫ﻣﻌﺮﻓ‬     ‫ﻣﻘﺪّﻣﻪ‬
                                           ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬       ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬
                                   ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬       ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬


‫.‬                                                                                                ‫ﻣﺤﺎﺳﺒﻪی اﻓﺰاﯾﺸ‬

          ‫• ﻧﻤﺎﯾﺶ ﺧﻄﺎی ‪ z − Pt‬ﺑﻪ ﺻﻮرت ﻣﺠﻤﻮع ﺗﻐﯿﯿﺮات در ﭘﯿﺶﺑﯿﻨ ﻫﺎی ﻣﺘﻮاﻟ :‬

                                   ‫∑‬
                                   ‫‪m‬‬
                                                                                         ‫ﺗﻌﺮﯾﻒ‬
                        ‫= ‪z − Pt‬‬         ‫‪ Pm+١ = z‬و ) ‪(Pk+١ − Pk‬‬
                                   ‫‪k=t‬‬

                                     ‫• ﺑﺎ ﺗﺮﮐﯿﺐ ﺑﺎ )١( و )٢(، رواﺑﻂ زﯾﺮ ﺑﺪﺳﺖ ﻣ آﯾﻨﺪ:‬

                                          ‫∑‬
                                          ‫‪m‬‬
                        ‫+‪w ← w‬‬                    ‫‪α(z − Pt )∇w Pt‬‬
                                          ‫١=‪t‬‬
                                          ‫∑‬‫‪m‬‬          ‫∑‬
                                                      ‫‪m‬‬
                            ‫=‬      ‫+‪w‬‬             ‫‪α‬‬          ‫‪(Pk+١ − Pk )∇w Pt‬‬
                                          ‫١=‪t‬‬         ‫‪k=t‬‬


                                                                                  ‫.‬          ‫.‬         ‫.‬       ‫.‬        ‫.‬        ‫.‬

‫۶۴ / ٨‬   ‫۵ ﺧﺮداد ٨٨٣١‬                               ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬                             ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
‫ﻣﻌﺮﻓ‬     ‫ﻣﻘﺪّﻣﻪ‬
                                           ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬       ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬
                                   ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬       ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬


‫.‬                                                                                                ‫ﻣﺤﺎﺳﺒﻪی اﻓﺰاﯾﺸ‬

          ‫• ﻧﻤﺎﯾﺶ ﺧﻄﺎی ‪ z − Pt‬ﺑﻪ ﺻﻮرت ﻣﺠﻤﻮع ﺗﻐﯿﯿﺮات در ﭘﯿﺶﺑﯿﻨ ﻫﺎی ﻣﺘﻮاﻟ :‬

                                   ‫∑‬
                                   ‫‪m‬‬
                                                                                         ‫ﺗﻌﺮﯾﻒ‬
                        ‫= ‪z − Pt‬‬         ‫‪ Pm+١ = z‬و ) ‪(Pk+١ − Pk‬‬
                                   ‫‪k=t‬‬

                                     ‫• ﺑﺎ ﺗﺮﮐﯿﺐ ﺑﺎ )١( و )٢(، رواﺑﻂ زﯾﺮ ﺑﺪﺳﺖ ﻣ آﯾﻨﺪ:‬

                                          ‫∑‬
                                          ‫‪m‬‬
                        ‫+‪w ← w‬‬                    ‫‪α(z − Pt )∇w Pt‬‬
                                          ‫١=‪t‬‬
                                          ‫∑‬‫‪m‬‬          ‫∑‬
                                                      ‫‪m‬‬
                            ‫=‬      ‫+‪w‬‬             ‫‪α‬‬          ‫‪(Pk+١ − Pk )∇w Pt‬‬
                                          ‫١=‪t‬‬         ‫‪k=t‬‬


                                                                                  ‫.‬          ‫.‬         ‫.‬       ‫.‬        ‫.‬        ‫.‬

‫۶۴ / ٨‬   ‫۵ ﺧﺮداد ٨٨٣١‬                               ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬                             ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
‫ﻣﻌﺮﻓ‬     ‫ﻣﻘﺪّﻣﻪ‬
                                             ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬       ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬
                                     ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬       ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬


‫.‬                                                                          ‫ﻣﺤﺎﺳﺒﻪی اﻓﺰاﯾﺸ )اداﻣﻪ(‬
                                                               ‫• ﺑﺎ ﺟﺎﺑﺠﺎﯾﯽ دو ﺟﻤﻊ و ﺗﺒﺪﯾﻞ ﺣﺪود‬

                                            ‫∑ ∑‬
                                            ‫‪m‬‬   ‫‪k‬‬
                             ‫+‪w ← w‬‬           ‫‪α‬‬   ‫‪(Pk+١ − Pk )∇w Pt‬‬
                                            ‫١=‪k‬‬         ‫١=‪t‬‬
                                            ‫∑‬
                                            ‫‪m‬‬                                ‫∑‬
                                                                             ‫‪t‬‬
                               ‫=‬    ‫+‪w‬‬              ‫) ‪α(Pt+١ − Pt‬‬                       ‫‪∇w Pk‬‬
                                            ‫١=‪t‬‬                              ‫١=‪k‬‬

          ‫.‬
                                                         ‫.راﺑﻄﻪی ﺑﺮوز رﺳﺎﻧ اﻓﺰاﯾﺸ وزنﻫﺎ - ⑴‪TD‬‬
         ‫..‬

                                                                          ‫∑‬
                                                                          ‫‪t‬‬
                                   ‫) ‪∆wt = α(Pt+١ − Pt‬‬                          ‫‪∇w Pk‬‬                                 ‫)۴(‬
                                                                          ‫١=‪k‬‬
          ‫.‬
          ‫..‬                                                                                                              ‫.‬




                                                                                                                              ‫.‬
                                                                                    ‫.‬      ‫.‬         ‫.‬       ‫.‬        ‫.‬        ‫.‬

‫۶۴ / ٩‬        ‫۵ ﺧﺮداد ٨٨٣١‬                            ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬                         ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
‫ﻣﻌﺮﻓ‬     ‫ﻣﻘﺪّﻣﻪ‬
                                             ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬       ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬
                                     ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬       ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬


‫.‬                                                                          ‫ﻣﺤﺎﺳﺒﻪی اﻓﺰاﯾﺸ )اداﻣﻪ(‬
                                                               ‫• ﺑﺎ ﺟﺎﺑﺠﺎﯾﯽ دو ﺟﻤﻊ و ﺗﺒﺪﯾﻞ ﺣﺪود‬

                                            ‫∑ ∑‬
                                            ‫‪m‬‬   ‫‪k‬‬
                             ‫+‪w ← w‬‬           ‫‪α‬‬   ‫‪(Pk+١ − Pk )∇w Pt‬‬
                                            ‫١=‪k‬‬         ‫١=‪t‬‬
                                            ‫∑‬
                                            ‫‪m‬‬                                ‫∑‬
                                                                             ‫‪t‬‬
                               ‫=‬    ‫+‪w‬‬              ‫) ‪α(Pt+١ − Pt‬‬                       ‫‪∇w Pk‬‬
                                            ‫١=‪t‬‬                              ‫١=‪k‬‬

          ‫.‬
                                                         ‫.راﺑﻄﻪی ﺑﺮوز رﺳﺎﻧ اﻓﺰاﯾﺸ وزنﻫﺎ - ⑴‪TD‬‬
         ‫..‬

                                                                          ‫∑‬
                                                                          ‫‪t‬‬
                                   ‫) ‪∆wt = α(Pt+١ − Pt‬‬                          ‫‪∇w Pk‬‬                                 ‫)۴(‬
                                                                          ‫١=‪k‬‬
          ‫.‬
          ‫..‬                                                                                                              ‫.‬




                                                                                                                              ‫.‬
                                                                                    ‫.‬      ‫.‬         ‫.‬       ‫.‬        ‫.‬        ‫.‬

‫۶۴ / ٩‬        ‫۵ ﺧﺮداد ٨٨٣١‬                            ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬                         ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
‫ﻣﻌﺮﻓ‬     ‫ﻣﻘﺪّﻣﻪ‬
                                                 ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬       ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬
                                         ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬       ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬


‫.‬                                                                                                                   ‫⑴‪TD‬‬


           ‫• اﮔﺮ ﺑﯿﺸﺘﺮﯾﻦ ﻃﻮل دﻧﺒﺎﻟﻪی ﻣﺸﺎﻫﺪات ‪ M‬ﺑﺎﺷﺪ، آنﮔﺎه اﻟ ﻮرﯾﺘﻢ ⑴‪ TD‬ﻧﯿﺎز ﺑﻪ‬
                                                                           ‫١‬
                     ‫‪ M‬ﺣﺎﻓﻈﻪ و ﺳﺮﻋﺖ ﭘﺮدازﺷ ﺮ ﻻزم ﺑﺮای ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت دارد.‬
                                                   ‫• اﮔﺮ ﺗﺎﺑﻊ ﭘﯿﺶﺑﯿﻨ را ﺗﺎﺑﻊ ﺧﻄ در ﻧﻈﺮ ﺑ ﯿﺮﯾﻢ‬

           ‫.‬
                                                                                ‫.راﺑﻄﻪی ﺑﺮوز رﺳﺎﻧ ⑴‪ TD‬ﺧﻄ‬
          ‫..‬

                                                              ‫∑‬
                                                              ‫‪t‬‬
                               ‫) ‪∆wt = α(Pt+١ − Pt‬‬                  ‫‪xk‬‬                      ‫‪Pt = wT xt‬‬
           ‫.‬                                                  ‫١=‪k‬‬
           ‫..‬                                                                                                                ‫.‬




                                                                                                                                 ‫.‬
                                                                                        ‫.‬      ‫.‬        ‫.‬       ‫.‬        ‫.‬        ‫.‬

‫۶۴ / ٠١‬         ‫۵ ﺧﺮداد ٨٨٣١‬                              ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬                        ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
‫ﻣﻌﺮﻓ‬     ‫ﻣﻘﺪّﻣﻪ‬
                                             ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬       ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬
                                     ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬       ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬



           ‫.‬
                                                                                           ‫.اﻟ ﻮرﯾﺘﻢ ⑴‪ TD‬ﺧﻄ‬
          ‫..‬
           ‫‪: x١ , x٢ , . . . , xm , z‬ورودی‬                             ‫دﻧﺒﺎﻟﻪی ﻣﺸﺎﻫﺪات-ﻧﺘﯿﺠﻪ ◃‬
            ‫‪: w‬ﺧﺮوﺟ‬                                                                ‫ﺑﺮدار وزنﻫﺎ ◃‬
            ‫٠‪1: w ← w‬‬                           ‫ﺑﺮدار وزنﻫﺎ را ﺑﺎ ﻣﻘﺎدﯾﺮ ﺗﺼﺎدﻓ ﻣﻘﺪاردﻫ اوﻟﯿﻪ ﮐﻦ ◃‬
            ‫١‪2: Pt ← wT x‬‬                                                       ‫١‪ x‬ﻣﺸﺎﻫﺪه ﺷﺪ ◃‬
            ‫١‪3: St ← x‬‬                                             ‫‪ St‬ﻫﻤﺎن ﺟﻤﻊ ﮔﺮادﯾﺎنﻫﺎﺳﺖ ◃‬
            ‫‪4: for all xt , t = ٢, . . . , m do‬‬                       ‫ﺑﺮای ﻣﺸﺎﻫﺪات ٢‪ x‬ﺗﺎ ‪◃ xm‬‬
            ‫:5‬     ‫‪Pt−١ ← Pt‬‬
            ‫:6‬     ‫‪Pt ← wT xt‬‬
            ‫:7‬     ‫ﻣﯿﺰان اﻓﺰاﯾﺶ ﺑﺮدار وزنﻫﺎ ﺑﺮای ﻣﺸﺎﻫﺪهی ﻗﺒﻠ ◃ ‪∆wt−١ ← α(Pt − Pt−١ )St‬‬
            ‫:8‬     ‫‪St ← St + xt‬‬
            ‫:9‬     ‫١−‪w ← w + ∆wt‬‬                                         ‫ﺑﺮوزرﺳﺎﻧ ﺑﺮدار وزنﻫﺎ ◃‬
           ‫‪10: end for‬‬
           ‫‪11: ∆wt−١ ← α(z − Pt )St‬‬
           ‫١−‪. w ← w + ∆wt‬‬
           ‫:21‬                                                     ‫ﺑﺮوزرﺳﺎﻧ ﻧﻬﺎﯾﯽ ﺑﺮدار وزنﻫﺎ ◃‬
           ‫..‬                                                                                                            ‫.‬




                                                                                                                             ‫.‬
                                                                                    ‫.‬      ‫.‬        ‫.‬       ‫.‬        ‫.‬        ‫.‬

‫۶۴ / ١١‬         ‫۵ ﺧﺮداد ٨٨٣١‬                          ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬                        ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
‫ﻣﻌﺮﻓ‬     ‫ﻣﻘﺪّﻣﻪ‬
                                            ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬       ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬
                                    ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬       ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬


‫.‬                                                  ‫ﺧﺎﻧﻮادهی روشﻫﺎی ﯾﺎدﮔﯿﺮی )‪TD(λ‬‬

                 ‫• در ⑴‪ ،TD‬ﺑﻪ ازای ﻫﺮ ﻣﺸﺎﻫﺪه، ﺑﺮدار وزنﻫﺎ ﻃﻮری ﺗﻐﯿﯿﺮ ﻣ ﮐﻨﺪ، ﮐﻪ ﺗﻤﺎم‬
                                       ‫ﭘﯿﺶﺑﯿﻨ ﻫﺎی ﮔﺬﺷﺘﻪ را ﺑﻪ ﯾ ﻣﯿﺰان ﺗﻐﯿﯿﺮ ﻣ دﻫﺪ‬
                ‫• ﮐﻼس روشﻫﺎی )‪ ،TD(λ‬ﭘﯿﺶﺑﯿﻨ ﻫﺎی ﺟﺪﯾﺪﺗﺮ را ﺑﯿﺶﺗﺮ از ﭘﯿﺶﺑﯿﻨ ﻫﺎی‬
                                                             ‫ﮔﺬﺷﺘﻪ ﺗﻐﯿﯿﺮ ﻣ دﻫﺪ‬
                ‫• ﺑﺎ وزندﻫ ﻧﻤﺎﯾﯽ ﺑﺎ ﺗﺄﺧّﺮ، ﺗﻐﯿﯿﺮ در ﭘﯿﺶﺑﯿﻨ ﻣﺸﺎﻫﺪاﺗ ﮐﻪ در ‪ k‬ﻣﺮﺣﻠﻪ ﭘﯿﺶ‬
                                    ‫اﻧﺠﺎم ﺷﺪﻧﺪ ﻣﺘﻨﺎﺳﺐ اﺳﺖ ﺑﺎ ‪ λk‬ﺑﺮای ١ ≤ ‪٠ ≤ λ‬‬

           ‫.‬
                                                                         ‫.راﺑﻄﻪی ﺑﺮوزرﺳﺎﻧ وزنﻫﺎ )‪TD(λ‬‬
          ‫..‬

                                                                   ‫∑‬
                                                                   ‫‪t‬‬
                               ‫) ‪∆wt = α(Pt+١ − Pt‬‬                         ‫‪λt−k ∇w Pk‬‬                               ‫)۵(‬
                                                                   ‫١=‪k‬‬
           ‫.‬
           ‫..‬                                                                                                           ‫.‬




                                                                                                                            ‫.‬
                                                                                   ‫.‬      ‫.‬        ‫.‬       ‫.‬        ‫.‬        ‫.‬

‫۶۴ / ٢١‬         ‫۵ ﺧﺮداد ٨٨٣١‬                         ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬                        ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
‫ﻣﻌﺮﻓ‬     ‫ﻣﻘﺪّﻣﻪ‬
                                            ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬       ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬
                                    ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬       ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬


‫.‬                                                  ‫ﺧﺎﻧﻮادهی روشﻫﺎی ﯾﺎدﮔﯿﺮی )‪TD(λ‬‬

                 ‫• در ⑴‪ ،TD‬ﺑﻪ ازای ﻫﺮ ﻣﺸﺎﻫﺪه، ﺑﺮدار وزنﻫﺎ ﻃﻮری ﺗﻐﯿﯿﺮ ﻣ ﮐﻨﺪ، ﮐﻪ ﺗﻤﺎم‬
                                       ‫ﭘﯿﺶﺑﯿﻨ ﻫﺎی ﮔﺬﺷﺘﻪ را ﺑﻪ ﯾ ﻣﯿﺰان ﺗﻐﯿﯿﺮ ﻣ دﻫﺪ‬
                ‫• ﮐﻼس روشﻫﺎی )‪ ،TD(λ‬ﭘﯿﺶﺑﯿﻨ ﻫﺎی ﺟﺪﯾﺪﺗﺮ را ﺑﯿﺶﺗﺮ از ﭘﯿﺶﺑﯿﻨ ﻫﺎی‬
                                                             ‫ﮔﺬﺷﺘﻪ ﺗﻐﯿﯿﺮ ﻣ دﻫﺪ‬
                ‫• ﺑﺎ وزندﻫ ﻧﻤﺎﯾﯽ ﺑﺎ ﺗﺄﺧّﺮ، ﺗﻐﯿﯿﺮ در ﭘﯿﺶﺑﯿﻨ ﻣﺸﺎﻫﺪاﺗ ﮐﻪ در ‪ k‬ﻣﺮﺣﻠﻪ ﭘﯿﺶ‬
                                    ‫اﻧﺠﺎم ﺷﺪﻧﺪ ﻣﺘﻨﺎﺳﺐ اﺳﺖ ﺑﺎ ‪ λk‬ﺑﺮای ١ ≤ ‪٠ ≤ λ‬‬

           ‫.‬
                                                                         ‫.راﺑﻄﻪی ﺑﺮوزرﺳﺎﻧ وزنﻫﺎ )‪TD(λ‬‬
          ‫..‬

                                                                   ‫∑‬
                                                                   ‫‪t‬‬
                               ‫) ‪∆wt = α(Pt+١ − Pt‬‬                         ‫‪λt−k ∇w Pk‬‬                               ‫)۵(‬
                                                                   ‫١=‪k‬‬
           ‫.‬
           ‫..‬                                                                                                           ‫.‬




                                                                                                                            ‫.‬
                                                                                   ‫.‬      ‫.‬        ‫.‬       ‫.‬        ‫.‬        ‫.‬

‫۶۴ / ٢١‬         ‫۵ ﺧﺮداد ٨٨٣١‬                         ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬                        ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
‫ﻣﻌﺮﻓ‬     ‫ﻣﻘﺪّﻣﻪ‬
                                          ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬       ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬
                                  ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬       ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬


‫.‬                                 ‫ﺧﺎﻧﻮادهی روشﻫﺎی ﯾﺎدﮔﯿﺮی )‪)TD(λ‬اداﻣﻪ(‬

                ‫• ﻣﺰﯾﺖ وزندﻫ ﻧﻤﺎﯾﯽ در اﯾﻦ اﺳﺖ ﮐﻪ راﺑﻄﻪ را ﻣ ﺗﻮان ﺑﻪﺻﻮرت اﻓﺰاﯾﺸ‬
                                                                   ‫ﻣﺤﺎﺳﺒﻪ ﮐﺮد‬
           ‫• ﻣﺜﻼ اﮔﺮ ﻣﻘﺪار ﺟﻤﻊ در )۵( را ﺑﺮای ﻣﺮﺣﻠﻪی ‪ ،t‬ﺑﺎ ‪ st‬ﻧﻤﺎﯾﺶ دﻫﯿﻢ، در اﯾﻦ‬
                       ‫ﺻﻮرت ﻣﻘﺪار ١+‪ st‬را ﻣ ﺗﻮان ﺑﻪ ﺻﻮرت اﻓﺰاﯾﺸ ﻣﺤﺎﺳﺒﻪ ﮐﺮد‬

                                     ‫∑‬
                                     ‫١+‪t‬‬
                         ‫= ١+‪st‬‬              ‫‪λt+١−k ∇w Pk‬‬
                                     ‫١=‪k‬‬
                                                            ‫∑‬
                                                            ‫‪t‬‬
                             ‫+ ١+‪= ∇w Pt‬‬                          ‫‪λt+١−k ∇w Pk‬‬
                                                            ‫١=‪k‬‬
                             ‫‪= ∇w Pt+١ + λ st‬‬

                                                                                 ‫.‬      ‫.‬        ‫.‬       ‫.‬        ‫.‬        ‫.‬

‫۶۴ / ٣١‬   ‫۵ ﺧﺮداد ٨٨٣١‬                             ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬                        ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
‫ﻣﻌﺮﻓ‬     ‫ﻣﻘﺪّﻣﻪ‬
                                            ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬       ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬
                                    ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬       ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬


‫.‬                                  ‫ﺧﺎﻧﻮادهی روشﻫﺎی ﯾﺎدﮔﯿﺮی )‪)TD(λ‬اداﻣﻪ(‬


                 ‫• ﺑﻪ ازای ١ < ‪ ،λ‬ﺧﺎﻧﻮادهی روشﻫﺎی ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ ، ﺑﺮدار وزنﻫﺎ را ﺑﻪ‬
                     ‫ﺷ ﻠ ﮐﺎﻣﻼ ﻣﺘﻤﺎﯾﺰ ﺑﺎ ﺗﻤﺎﻣ روشﻫﺎی ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت ﺗﻐﯿﯿﺮ ﻣ دﻫﺪ‬
                  ‫• ﺑﻪ ازای ٠ = ‪ ،λ‬اﯾﻦ ﻣﻄﻠﺐ ﻣﺸﻬﻮدﺗﺮ اﺳﺖ. در )0(‪ ،TD‬ﻣﯿﺰان اﻓﺰاﯾﺶ در‬
           ‫٠٠(‬      ‫ﺑﺮدار وزنﻫﺎ ﻣﺘﻨﺎﺳﺐ اﺳﺖ ﺑﺎ ﺗﺄﺛﯿﺮ آن در آﺧﺮﯾﻦ ﭘﯿﺶﺑﯿﻨ )ﺑﺎ ﻓﺮض ١ =‬
           ‫.‬
                                                                           ‫.روش ﺑﺮوز رﺳﺎﻧ وزنﻫﺎ )0(‪TD‬‬
          ‫..‬

                                   ‫‪∆wt = α(Pt+١ − Pt )∇w Pt‬‬                                                         ‫)۶(‬

           ‫.‬
           ‫..‬                                                                                                           ‫.‬




                                                                                                                            ‫.‬
                                                                                   ‫.‬      ‫.‬        ‫.‬       ‫.‬        ‫.‬        ‫.‬

‫۶۴ / ۴١‬         ‫۵ ﺧﺮداد ٨٨٣١‬                         ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬                        ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
‫ﻣﻌﺮﻓ‬     ‫ﻣﻘﺪّﻣﻪ‬
                                             ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬       ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬
                                     ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬       ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬



           ‫.‬
                                                                                                ‫.اﻟ ﻮرﻳﺘﻢ )‪TD(λ‬‬
          ‫..‬
           ‫‪: x١ , x٢ , . . . , xm , z‬ورودی‬                             ‫دﻧﺒﺎﻟﻪی ﻣﺸﺎﻫﺪات-ﻧﺘﯿﺠﻪ ◃‬
            ‫‪: w‬ﺧﺮوﺟ‬                                                                 ‫ﺑﺮدار وزنﻫﺎ ◃‬
            ‫٠‪1: w ← w‬‬                           ‫ﺑﺮدار وزنﻫﺎ را ﺑﺎ ﻣﻘﺎدﯾﺮ دﻟﺨﻮاه ﻣﻘﺪاردﻫ اوﻟﯿﻪ ﮐﻦ ◃‬
            ‫) ١‪2: Pt ← P(w, x‬‬                                                   ‫١‪ x‬ﻣﺸﺎﻫﺪه ﺷﺪ ◃‬
            ‫‪3: S ← ∇w Pt‬‬                                    ‫‪ S‬ﻫﻤﺎن ﺟﻤﻊ وزندار ﮔﺮادﯾﺎنﻫﺎﺳﺖ ◃‬
            ‫‪4: for all xt , t = ٢, . . . , m do‬‬                       ‫ﺑﺮای ﻣﺸﺎﻫﺪات ٢‪ x‬ﺗﺎ ‪◃ xm‬‬
            ‫:5‬     ‫‪Pt−١ ← Pt‬‬
            ‫:6‬     ‫) ‪Pt ← P(w, xt‬‬
            ‫:7‬     ‫ﻣﯿﺰان اﻓﺰاﯾﺶ ﺑﺮدار وزنﻫﺎ ﺑﺮای ﻣﺸﺎﻫﺪهی ﻗﺒﻠ ◃ ‪∆wt−١ ← α(Pt − Pt−١ )S‬‬
            ‫:8‬     ‫‪S ← ∇w Pt + λS‬‬
            ‫:9‬     ‫١−‪w ← w + ∆wt‬‬                                         ‫ﺑﺮوزرﺳﺎﻧ ﺑﺮدار وزنﻫﺎ ◃‬
           ‫‪10: end for‬‬
           ‫‪11: ∆wt−١ ← α(z − Pt )S‬‬
           ‫١−‪. w ← w + ∆wt‬‬
           ‫:21‬                                                     ‫ﺑﺮوزرﺳﺎﻧ ﻧﻬﺎﯾﯽ ﺑﺮدار وزنﻫﺎ ◃‬
           ‫..‬                                                                                                            ‫.‬




                                                                                                                             ‫.‬
                                                                                    ‫.‬      ‫.‬        ‫.‬       ‫.‬        ‫.‬        ‫.‬

‫۶۴ / ۵١‬         ‫۵ ﺧﺮداد ٨٨٣١‬                          ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬                        ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
‫ﻣﻌﺮﻓ‬     ‫ﻣﻘﺪّﻣﻪ‬
                                         ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬       ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬
                                 ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬       ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬



‫.‬                               ‫ﻣﺜﺎل ﻗﺪمﺑﺮداﺷﺘﻦ ﺗﺼﺎدﻓ )‪(Random Walk‬‬




                ‫• ﺗﻤﺎﻣ اﭘﯿﺰودﻫﺎ از ﺧﺎﻧﻪی ﻣﺮﮐﺰ، ‪ ،C‬ﺷﺮوع ﻣ ﺷﻮﻧﺪ. ﺑﺎ اﺣﺘﻤﺎلﻫﺎی ﺑﺮاﺑﺮ‬
                   ‫ﺣﺮﮐﺖ ﺑﻪ ﺳﻤﺖ راﺳﺖ، ﯾﺎ ﭼﭗ اﻧﺠﺎم ﻣ ﺷﻮد. ﺑﺎ رﺳﯿﺪن ﺑﻪ ﻫﺮﯾ از‬
                         ‫ﺧﺎﻧﻪﻫﺎﯾﯽ ﮐﻪ ﺑﺎ ﻣﺮﺑﻊ ﻧﻤﺎﯾﺶ داده ﺷﺪهاﻧﺪ اﭘﯿﺰود ﭘﺎﯾﺎن ﻣ ﯾﺎﺑﺪ.‬
              ‫• ﻫﺪف ﯾﺎﻓﺘﻦ اﺣﺘﻤﺎل اﯾﻦﮐﻪ از ﻫﺮﺧﺎﻧﻪ ﺑﻪ ﻣﺮﺑﻊ اﻧﺘﻬﺎﯾﯽ ﺳﻤﺖ راﺳﺖ ﺑﺮﺳﯿﻢ‬
                ‫• اﯾﻦ اﺣﺘﻤﺎل ﺑﺮای ﻣﺮﺑﻊ ﺳﻤﺖ راﺳﺖ ﻣﺴﺎوی ١، و ﺑﺮای ﻣﺮﺑﻊ ﺳﻤﺖ ﭼﭗ‬
                                                        ‫ﻣﺴﺎوی ﺻﻔﺮ اﺳﺖ.‬
                           ‫• دو ﻧﻤﻮﻧﻪ از دﻧﺒﺎﻟﻪی ﻣﺸﺎﻫﺪه-ﻧﺘﯿﺠﻪ: 1‪ CDE‬و 0‪CDCBA‬‬


                                                                                ‫.‬      ‫.‬        ‫.‬       ‫.‬        ‫.‬        ‫.‬

‫۶۴ / ۶١‬   ‫۵ ﺧﺮداد ٨٨٣١‬                            ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬                        ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
‫ﻣﻌﺮﻓ‬     ‫ﻣﻘﺪّﻣﻪ‬
                                             ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬       ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬
                                     ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬       ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬



‫.‬                          ‫ﻣﺜﺎل ﻗﺪمﺑﺮداﺷﺘﻦ ﺗﺼﺎدﻓ )‪) (Random Walk‬اداﻣﻪ(‬




                                      ‫• ﺑﺮای ﭘﯿﺎدهﺳﺎزی از )‪ TD(λ‬ﺧﻄ اﺳﺘﻔﺎده ﺷﺪه؛ ﯾﻌﻨ‬
                                                                                           ‫• ‪Pt = wT xt‬‬
                                                                                           ‫• ‪∇w Pt = xt‬‬
                         ‫• ﺑﻪﺟﺎی ﺑﺮدارﻫﺎی ﻣﺸﺎﻫﺪه از ﺑﺮدارﻫﺎی ﭘﺎﯾﻪی ۵‪ R‬اﺳﺘﻔﺎده ﺷﺪه؛ ﯾﻌﻨ‬
                                                                          ‫• ‪xC = (٠, ٠, ١, ٠, ٠)T‬‬
                                                                          ‫• ‪xE = (٠, ٠, ٠, ٠, ١)T‬‬




                                                                                    ‫.‬        ‫.‬        ‫.‬       ‫.‬        ‫.‬        ‫.‬

‫۶۴ / ٧١‬   ‫۵ ﺧﺮداد ٨٨٣١‬                                ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬                          ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
‫ﻣﻌﺮﻓ‬       ‫ﻣﻘﺪّﻣﻪ‬
                                                  ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬         ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬
                                          ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬         ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬


                                                                                     ‫ﺗﺄﺛﯿﺮ ‪ λ‬ﺑﺮ دﻗّﺖ ﯾﺎدﮔﯿﺮی‬
‫.‬                                                                       ‫‪ PredictionRandomWalk.m‬را اﺟﺮا ﮐﻨﯿﺪ‬

                               ‫2.0‬


                              ‫81.0‬


                              ‫61.0‬


                              ‫41.0‬
                  ‫‪RMS Error‬‬




                              ‫21.0‬


                               ‫1.0‬


                              ‫80.0‬


                              ‫60.0‬


                              ‫40.0‬
                                     ‫0‬   ‫2.0‬              ‫4.0‬               ‫6.0‬                ‫8.0‬                ‫1‬
                                                                    ‫‪λ‬‬
                                                                                           ‫.‬         ‫.‬        ‫.‬       ‫.‬        ‫.‬        ‫.‬

‫۶۴ / ٨١‬   ‫۵ ﺧﺮداد ٨٨٣١‬                                     ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬                             ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
‫ﻣﻌﺮﻓ‬      ‫ﻣﻘﺪّﻣﻪ‬
                                                         ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬        ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬
                                                 ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬        ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬


                                                                                  ‫ﺗﺄﺛﯿﺮ ‪ α‬و ‪ λ‬ﺑﺮ دﻗّﺖ ﯾﺎدﮔﯿﺮی‬
‫.‬                                                         ‫‪ PredictionRandomWalkAlphaEffect.m‬را اﺟﺮا ﮐﻨﯿﺪ‬

                              ‫4.1‬
                                                                                                                       ‫0.0‬
                                                                                                                       ‫3.0‬
                                                                                                                       ‫8.0‬
                              ‫2.1‬
                                                                                                                       ‫0.1‬


                               ‫1‬
                  ‫‪RMS Error‬‬




                              ‫8.0‬


                              ‫6.0‬


                              ‫4.0‬


                              ‫2.0‬


                               ‫0‬
                                    ‫0‬   ‫50.0‬   ‫1.0‬     ‫51.0‬       ‫2.0‬      ‫52.0‬     ‫3.0‬     ‫53.0‬        ‫4.0‬
                                                                   ‫‪α‬‬
                                                                                                 ‫.‬        ‫.‬        ‫.‬         ‫.‬      ‫.‬        ‫.‬

‫۶۴ / ٩١‬   ‫۵ ﺧﺮداد ٨٨٣١‬                                            ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬                           ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
‫ﻣﻌﺮﻓ‬     ‫ﻣﻘﺪّﻣﻪ‬
                                       ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬       ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬
                               ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬       ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬


‫.‬                                                                   ‫ﻣﺜﺎل - ﻣﺤﯿﻂﻫﺎی ﻣﺎرﮐﻮف‬




          ‫• ﻣﺰﯾﺖ روشﻫﺎی ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ ﻧﺴﺒﺖ ﺑﻪ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت ﺗﻨﻬﺎ در ﺳﺮﻋﺖ‬
                                                                     ‫ﻧﯿﺴﺖ‬
                ‫• در ﺑﺮﺧ ﻣﻮﻗﻌﯿﺖﻫﺎ روشﻫﺎی ﺗﻔﺎﺿﻞ زﻣﺎﻧ ﺟﻮاب ﺻﺤﯿﺢﺗﺮی ﻧﺴﺒﺖ ﺑﻪ‬
                                     ‫روشﻫﺎی ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت اراﺋﻪ ﻣ دﻫﻨﺪ‬
                                                                    ‫• ﻣﺜﻼ در ﻣﺤﯿﻂﻫﺎی ﻣﺎرﮐﻮف‬
                                                                              ‫.‬      ‫.‬        ‫.‬       ‫.‬        ‫.‬        ‫.‬

‫۶۴ / ٠٢‬    ‫۵ ﺧﺮداد ٨٨٣١‬                         ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬                        ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
‫ﻣﻌﺮﻓ‬     ‫ﻣﻘﺪّﻣﻪ‬
                                    ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬         ‫اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬
                            ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬     ‫ﻣﺜﺎلﻫﺎ‬


‫.‬                                                                ‫ﻣﻘﺪّﻣﻪای ﺑﺮ ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬


                         ‫• زﯾﺮ ﺷﺎﺧﻪای از ﯾﺎدﮔﯿﺮی ﻣﺎﺷﯿﻦ، آﻏﺎز در ﻧﻈﺮﯾﻪی ﮐﻨﺘﺮل‬
                                                         ‫• ﯾﺎدﮔﯿﺮی از ﻃﺮﯾﻖ ﺗﻌﺎﻣﻞ ﺑﺎ ﻣﺤﯿﻂ‬
                                ‫• اﺟﺰای ﺗﺸ ﯿﻞ دﻫﻨﺪهی ﻣﺴﺌﻠﻪی ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ :‬
                                                                                 ‫ﻋﺎﻣﻞ‬                ‫•‬
                                                                                 ‫ﻣﺤﯿﻂ‬                ‫•‬
                                                                                 ‫ﮐﻨﺶ‬                 ‫•‬
                                                                 ‫ﭘﺎداش )ﺳﯿ ﻨﺎل ﺗﻘﻮﯾﺘ (‬               ‫•‬

          ‫• ﻫﺪف ﻋﺎﻣﻞ: در ﻫﺮ وﺿﻌﯿﺖ، ﻃﻮری رﻓﺘﺎر ﮐﻨﺪ ﮐﻪ ﻣﺠﻤﻮع ﭘﺎداشﻫﺎی ﻣﻮرد‬
                             ‫اﻧﺘﻈﺎر درﯾﺎﻓﺘ از ﻣﺤﯿﻂ، در دراز ﻣﺪّت ﺑﯿﺸﯿﻨﻪ ﺷﻮد‬


                                                                           ‫.‬         ‫.‬        ‫.‬       ‫.‬        ‫.‬        ‫.‬

‫۶۴ / ١٢‬   ‫۵ ﺧﺮداد ٨٨٣١‬                       ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬                           ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
‫ﻣﻌﺮﻓ‬     ‫ﻣﻘﺪّﻣﻪ‬
                                 ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬         ‫اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬
                         ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬     ‫ﻣﺜﺎلﻫﺎ‬


                                            ‫ﻣﻘﺪّﻣﻪای ﺑﺮ ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ )اداﻣﻪ(‬
‫.‬                                                                 ‫ﺗﻌﺎﻣﻞ ﻋﺎﻣﻞ ﺑﺎ ﻣﺤﯿﻂ در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬




                                                                        ‫.‬         ‫.‬        ‫.‬       ‫.‬        ‫.‬        ‫.‬

‫۶۴ / ٢٢‬   ‫۵ ﺧﺮداد ٨٨٣١‬                    ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬                           ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
‫ﻣﻌﺮﻓ‬     ‫ﻣﻘﺪّﻣﻪ‬
                                              ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬         ‫اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬
                                      ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬     ‫ﻣﺜﺎلﻫﺎ‬


‫.‬                                                    ‫ﻣﺪل ﺑﯿﺸﯿﻨﻪﮐﺮدن ﭘﺎداش در دراز ﻣﺪّت‬

           ‫.‬
                                                                              ‫.ﻣﺪل اﻓﻖ ﻧﺎﻣﺤﺪود ﺗﺨﻔﯿﻒ ﯾﺎﻓﺘﻪ‬
          ‫..‬
                                                                ‫ﻫﺪف ﺑﯿﺸﻨﻪ ﮐﺮدن اﻣﯿﺪ رﯾﺎﺿ زﯾﺮ اﺳﺖ:‬
                                          ‫∞‬
                                          ‫∑‬
                                     ‫(‪E‬‬          ‫) ‪γ t rt‬‬       ‫١<‪ ٠≤γ‬و‬
                                          ‫٠=‪t‬‬


           ‫.‬            ‫ﭘﺎداشﻫﺎی آﯾﻨﺪه، ﺑﺎ ﺿﺮﯾﺐ ﺗﺨﻔﯿﻒ ‪ γ‬ﺑﻪ ﻃﻮر ﻫﻨﺪﺳ ﺗﺨﻔﯿﻒ داده ﻣ ﺷﻮﻧﺪ‬
           ‫..‬                                                                      ‫.‬




                                                                                                                              ‫.‬
                  ‫• ﺿﺮﯾﺐ ‪ γ‬ﻣﻮﺟﺐ ﻣ ﺷﻮد ﮐﻪ ﭘﺎداش آﻧ ، وزن ﺑﯿﺸﺘﺮی ﻧﺴﺒﺖ ﺑﻪ ﭘﺎداشﻫﺎی‬
                ‫ﻣﻮرد اﻧﺘﻈﺎر در آﯾﻨﺪه داﺷﺘﻪ ﺑﺎﺷﺪ، و در ﻋﯿﻦ ﺣﺎل ﭘﺎداشﻫﺎی آﯾﻨﺪه ﻧﯿﺰ ﻧﺎدﯾﺪه‬
                                                                           ‫ﮔﺮﻓﺘﻪ ﻧﺸﻮﻧﺪ‬

                                                                                     ‫.‬         ‫.‬        ‫.‬       ‫.‬        ‫.‬        ‫.‬

‫۶۴ / ٣٢‬         ‫۵ ﺧﺮداد ٨٨٣١‬                           ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬                           ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
‫ﻣﻌﺮﻓ‬     ‫ﻣﻘﺪّﻣﻪ‬
                                         ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬         ‫اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬
                                 ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬     ‫ﻣﺜﺎلﻫﺎ‬


‫.‬                               ‫ﻣﺪل ﺑﯿﺸﯿﻨﻪﮐﺮدن ﭘﺎداش در دراز ﻣﺪّت )اداﻣﻪ(‬



          ‫• ﻫﺮﭼﻪ ‪ γ‬ﺑﻪ ١ ﻧﺰدﯾ ﺗﺮ ﺑﺎﺷﺪ، اﻟ ﻮرﯾﺘﻢ ﯾﺎدﮔﯿﺮی آﯾﻨﺪهﻧﮕﺮﺗﺮ ﻣ ﺷﻮد و ﻫﺮ ﭼﻪ ‪γ‬‬
                          ‫ﺑﻪ ﺻﻔﺮ ﻧﺰدﯾ ﺗﺮ ﺑﺎﺷﺪ اﻟ ﻮرﯾﺘﻢ ﯾﺎدﮔﯿﺮی ﺣﺮﯾﺺﺗﺮ ﻣ ﺷﻮد‬
              ‫• ﮐﺎرﺑﺮد دﯾ ﺮ ﺿﺮﯾﺐ ‪ ،γ‬ﮐﺮاندار ﮐﺮدن ﺳﺮی ﻓﻮق اﺳﺖ )ﮐﺎرﺑﺮد در اﺛﺒﺎت‬
                                                           ‫ﻗﻀﺎﯾﺎی ﻫﻤ ﺮاﯾﯽ(‬
                ‫ﺑﺎ ﺗﻌﺪاد‬   ‫• اﻧﺘﺨﺎب ١ = ‪ ،γ‬ﻏﯿﺮﻣﺠﺎز اﺳﺖ ﻣ ﺮ در ﺳﻨﺎرﯾﻮﻫﺎی اﭘﯿﺰودﯾ‬
                                                                  ‫ﻣﺮاﺣﻞ ﻣﺤﺪود‬




                                                                                ‫.‬         ‫.‬        ‫.‬       ‫.‬        ‫.‬        ‫.‬

‫۶۴ / ۴٢‬    ‫۵ ﺧﺮداد ٨٨٣١‬                           ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬                           ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
‫ﻣﻌﺮﻓ‬       ‫ﻣﻘﺪّﻣﻪ‬
                                         ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬           ‫اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬
                                 ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬       ‫ﻣﺜﺎلﻫﺎ‬


‫.‬                        ‫اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬
                     ‫• ﯾ ﻋﺎﻣﻞ در ﻫﺮ ﻟﺤﻈﻪی ‪ ،t‬زوج ﻣﺮﺗﺐ ) ‪ (xt , rt‬را درﯾﺎﻓﺖ ﻣ ﮐﻨﺪ‬
                                          ‫• ‪ xt‬ﺑﺮدار ﻣﺸﺎﻫﺪات ﻋﺎﻣﻞ در ﻟﺤﻈﻪی ‪ t‬اﺳﺖ‬
                                ‫• ‪ rt‬ﯾ ﻋﺪد ﺣﻘﯿﻘ ﻣﻌﺮف ﭘﺎداش ﻋﺎﻣﻞ در ﻟﺤﻈﻪی ‪t‬‬
           ‫• ﺑﺮدار ﻣﺸﺎﻫﺪات، ‪xt‬ﻣ ﺗﻮاﻧﺪ ﺻﺮﻓﺎً ﺣﺎﻟﺖ ﻣﺤﯿﻂ ﺑﺎﺷﺪ، ﯾﺎ ﻋﻼوه ﺑﺮ آن ﺷﺎﻣﻞ‬
                                             ‫ﮐﻨﺶ ﻋﺎﻣﻞ در ﻟﺤﻈﻪی ‪ t‬ﻧﯿﺰ ﺑﺎﺷﺪ:‬

                               ‫‪xt = st‬‬          ‫ﯾﺎ‬         ‫⟩ ‪xt = ⟨st , at‬‬

          ‫• ﻫﺪف: ﺑﺎ اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ ، ﺑﺎ درﯾﺎﻓﺖ دﻧﺒﺎﻟﻪﻫﺎی ) ‪،(xt , rt‬‬
           ‫ﺑﺮای . . . ,١ ,٠ = ‪ ،t‬در ﻫﺮ ﻟﺤﻈﻪی ‪ ،t‬ﭘﯿﺶﺑﯿﻨ ‪ Pt‬از ﮐﻤﯿﺖ زﯾﺮ را اﻧﺠﺎم‬
                                                                             ‫دﻫﯿﻢ:‬
                                                                               ‫∞‬
                                                                               ‫∑‬
                   ‫= . . . + ٣+‪Rt = rt+١ + γrt+٢ + γ ٢ rt‬‬                             ‫‪γ i−١ rt+i‬‬
                                                                               ‫١=‪i‬‬
                                                                                  ‫.‬         ‫.‬        ‫.‬       ‫.‬        ‫.‬        ‫.‬

‫۶۴ / ۵٢‬   ‫۵ ﺧﺮداد ٨٨٣١‬                            ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬                             ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
‫ﻣﻌﺮﻓ‬       ‫ﻣﻘﺪّﻣﻪ‬
                                         ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬           ‫اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬
                                 ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬       ‫ﻣﺜﺎلﻫﺎ‬


‫.‬                        ‫اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬
                     ‫• ﯾ ﻋﺎﻣﻞ در ﻫﺮ ﻟﺤﻈﻪی ‪ ،t‬زوج ﻣﺮﺗﺐ ) ‪ (xt , rt‬را درﯾﺎﻓﺖ ﻣ ﮐﻨﺪ‬
                                          ‫• ‪ xt‬ﺑﺮدار ﻣﺸﺎﻫﺪات ﻋﺎﻣﻞ در ﻟﺤﻈﻪی ‪ t‬اﺳﺖ‬
                                ‫• ‪ rt‬ﯾ ﻋﺪد ﺣﻘﯿﻘ ﻣﻌﺮف ﭘﺎداش ﻋﺎﻣﻞ در ﻟﺤﻈﻪی ‪t‬‬
           ‫• ﺑﺮدار ﻣﺸﺎﻫﺪات، ‪xt‬ﻣ ﺗﻮاﻧﺪ ﺻﺮﻓﺎً ﺣﺎﻟﺖ ﻣﺤﯿﻂ ﺑﺎﺷﺪ، ﯾﺎ ﻋﻼوه ﺑﺮ آن ﺷﺎﻣﻞ‬
                                             ‫ﮐﻨﺶ ﻋﺎﻣﻞ در ﻟﺤﻈﻪی ‪ t‬ﻧﯿﺰ ﺑﺎﺷﺪ:‬

                               ‫‪xt = st‬‬          ‫ﯾﺎ‬         ‫⟩ ‪xt = ⟨st , at‬‬

          ‫• ﻫﺪف: ﺑﺎ اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ ، ﺑﺎ درﯾﺎﻓﺖ دﻧﺒﺎﻟﻪﻫﺎی ) ‪،(xt , rt‬‬
           ‫ﺑﺮای . . . ,١ ,٠ = ‪ ،t‬در ﻫﺮ ﻟﺤﻈﻪی ‪ ،t‬ﭘﯿﺶﺑﯿﻨ ‪ Pt‬از ﮐﻤﯿﺖ زﯾﺮ را اﻧﺠﺎم‬
                                                                             ‫دﻫﯿﻢ:‬
                                                                               ‫∞‬
                                                                               ‫∑‬
                   ‫= . . . + ٣+‪Rt = rt+١ + γrt+٢ + γ ٢ rt‬‬                             ‫‪γ i−١ rt+i‬‬
                                                                               ‫١=‪i‬‬
                                                                                  ‫.‬         ‫.‬        ‫.‬       ‫.‬        ‫.‬        ‫.‬

‫۶۴ / ۵٢‬   ‫۵ ﺧﺮداد ٨٨٣١‬                            ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬                             ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
‫ﻣﻌﺮﻓ‬     ‫ﻣﻘﺪّﻣﻪ‬
                                             ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬         ‫اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬
                                     ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬     ‫ﻣﺜﺎلﻫﺎ‬


‫.‬           ‫اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ )اداﻣﻪ(‬



                          ‫• در روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ ، ﻣﻘﺎدﯾﺮ ﺑﺮدار وزنﻫﺎ ﯾﺎدﮔﺮﻓﺘﻪ ﻣ ﺷﻮﻧﺪ.‬
            ‫• در ﺻﻮرت اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ ﺧﻄ ، ﻃﻮل ﺑﺮدار وزنﻫﺎ ﺑﺮاﺑﺮ‬
                                                  ‫اﺳﺖ ﺑﺎ ﻃﻮل ﺑﺮدار ﻣﺸﺎﻫﺪات.‬
          ‫• در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ در ﺻﻮرﺗ ﮐﻪ ﺑﺮدار ﻣﺸﺎﻫﺪات ﺻﺮﻓﺎً ﺷﺎﻣﻞ وﺿﻌﯿﺖ ﻣﺤﯿﻂ‬
               ‫ﺑﺎﺷﺪ، ﺑﻪ ﺑﺮدار وزنﻫﺎ ﻣ ﮔﻮﯾﻨﺪ ﺗﺎﺑﻊ ارزش و آن را ﺑﺎ ‪ V‬ﻧﻤﺎﯾﺶ ﻣ دﻫﻨﺪ‬
          ‫• در ﺻﻮرﺗ ﮐﻪ ﺑﺮدار ﻣﺸﺎﻫﺪات ﻋﻼوه ﺑﺮ وﺿﻌﯿﺖ ﻣﺤﯿﻂ، ﺷﺎﻣﻞ ﮐﻨﺶ ﻧﯿﺰ ﺑﺎﺷﺪ،‬
                                                   ‫آن را ﺑﺎ ‪ Q‬ﻧﻤﺎﯾﺶ ﻣ دﻫﻨﺪ‬




                                                                                    ‫.‬         ‫.‬        ‫.‬       ‫.‬        ‫.‬        ‫.‬

‫۶۴ / ۶٢‬    ‫۵ ﺧﺮداد ٨٨٣١‬                               ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬                           ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
‫ﻣﻌﺮﻓ‬     ‫ﻣﻘﺪّﻣﻪ‬
                                       ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬         ‫اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬
                               ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬     ‫ﻣﺜﺎلﻫﺎ‬


‫.‬           ‫اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ )اداﻣﻪ(‬


           ‫ﻋﻀﻮ از ﻓﻀﺎی ﺣﺎﻻت‬        ‫• در ﻫﺮ ﻟﺤﻈﻪ ﻣﺤﯿﻂ دارای وﺿﻌﯿﺖ ‪ s‬اﺳﺖ ﮐﻪ ‪ s‬ﯾ‬
                                                                  ‫‪ S‬ﻣ ﺑﺎﺷﺪ‬
            ‫• ﺑﺎ ﻓﺮض ﮔﺴﺴﺘﻪ و ﻣﺤﺪود ﺑﻮدن ﻓﻀﺎی ﺣﺎﻻت، ﺑﻪازای ﻫﺮ ﺣﺎﻟﺖ در ﻓﻀﺎی‬
            ‫ﺣﺎﻻت، ﯾ دراﯾﻪ در ﺑﺮدار وزنﻫﺎ در ﻧﻈﺮ ﺑ ﯿﺮﯾﻢ. در اﯾﻦ ﺻﻮرت ﺑﺪﺳﺖ‬
                ‫آوردن ارزش ﻫﺮ ﺣﺎﻟﺖ ﺑﻪ ﺳﺎدﮔ ﺟﺴﺘﺠﻮ در ﯾ ﺟﺪول ﺧﻮاﻫﺪ ﺑﻮد.‬

                                        ‫)‪|V | = n(S‬‬

           ‫• ﺑﺮدار ﻣﺸﺎﻫﺪه را ﻃﻮری در ﻧﻈﺮ ﻣ ﮔﯿﺮﯾﻢ ﮐﻪ ﻓﻘﻂ ﻣﺸﺨّﺺ ﮐﻨﺪ، ﮐﺪام ﺣﺎﻟﺖ‬
          ‫در ﻓﻀﺎی ﺣﺎﻻت ﻣﺸﺎﻫﺪه ﺷﺪه اﺳﺖ، ﺑﻨﺎﺑﺮاﯾﻦ ﻫﺮ ﺑﺮدار ﻣﺸﺎﻫﺪه، ﯾ ﭘﺎﯾﻪ ﺑﺮای‬
                                                              ‫ﻓﻀﺎی )‪ Rn(S‬اﺳﺖ‬

                                                                              ‫.‬         ‫.‬        ‫.‬       ‫.‬        ‫.‬        ‫.‬

‫۶۴ / ٧٢‬    ‫۵ ﺧﺮداد ٨٨٣١‬                         ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬                           ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
‫ﻣﻌﺮﻓ‬     ‫ﻣﻘﺪّﻣﻪ‬
                                        ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬         ‫اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬
                                ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬     ‫ﻣﺜﺎلﻫﺎ‬




                                                                     ‫• ﺑﺎ اﺳﺘﻔﺎده از )0(‪ TD‬ﺧﻄ :‬

                           ‫‪∆Vt = α(Pt+١ − Pt )∇V Pt‬‬
                            ‫‪Pt = VT xt ⇒ ∇V Pt = xt‬‬

          ‫• اﮔﺮ وﺿﻌﯿﺖ ﻣﺤﯿﻂ در ﻟﺤﻈﻪی ‪ ،t‬ﻫﻤﺎن وﺿﻌﯿﺖ ﺷﻤﺎرهی ‪s‬ام ﺑﺎﺷﺪ در ﻓﻀﺎی‬
                   ‫ﺣﺎﻟﺖ ‪ ،S‬ﺗﻨﻬﺎ دراﯾﻪی ‪s‬ام ﺑﺮدار ‪ ،xt‬ﻣﺴﺎوی ﯾ اﺳﺖ. ﺑﻨﺎﺑﺮاﯾﻦ:‬

                          ‫) ‪Vt+١ (s) ← Vt (s) + α(Pt+١ − Pt‬‬

          ‫• ﮐﻪ در آن ﻣﻨﻈﻮر از )‪ ،V(s‬دراﯾﻪی ‪s‬ام ﺑﺮدار ‪ V‬اﺳﺖ؛ و ﻣﻨﻈﻮر از ‪ ،Vt‬ﻧﺴﺨﻪای‬
                                   ‫از ﺑﺮدار ‪ V‬اﺳﺖ ﮐﻪ در زﻣﺎن ‪ ،t‬در دﺳﺘﺮس ﺑﻮد.‬


                                                                               ‫.‬         ‫.‬        ‫.‬       ‫.‬        ‫.‬        ‫.‬

‫۶۴ / ٨٢‬    ‫۵ ﺧﺮداد ٨٨٣١‬                          ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬                           ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
‫ﻣﻌﺮﻓ‬     ‫ﻣﻘﺪّﻣﻪ‬
                                        ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬         ‫اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬
                                ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬     ‫ﻣﺜﺎلﻫﺎ‬




                              ‫• اﮔﺮ ٠ = ‪γ‬؛ آنﮔﺎه ١+‪ ،Pt+١ = rt‬و ﻫﻤﭽﻨﯿﻦ دارﯾﻢ:‬

                            ‫)‪Pt = Pt (xt ) = VT xt = V(s‬‬

          ‫• ﺗﺎﺑﻊ ﭘﯿﺶﺑﯿﻨ ﻫﻤﺎن ﺑﺮدار ارزشﻫﺎ اﺳﺖ، و ﺑﺎ ﯾﺎدﮔﯿﺮی آن ﺑﻪ ﻃﻮر ﺧﻮدﺑﻪﺧﻮد‬
                                                              ‫ﺗﺎﺑﻊ ﭘﯿﺶﺑﯿﻨ را ﻧﯿﺰ ﯾﺎد ﮔﺮﻓﺘﻪاﯾﻢ‬

                         ‫))‪Vt+١ (s) ← Vt (s) + α(rt+١ − Vt (s‬‬                                             ‫)٧(‬


                                                          ‫• ‪ s‬وﺿﻌﯿﺖ ﻣﺤﯿﻂ در ﻟﺤﻈﻪی ‪ t‬اﺳﺖ‬
            ‫• اﯾﻦ اﻟ ﻮرﯾﺘﻢ در ﻫﺮ ﻟﺤﻈﻪی ‪ ،t‬ﻣﻘﺎدﯾﺮ ﺑﺮدار ارزشﻫﺎ در ﮔﺎم زﻣﺎﻧ ﻗﺒﻠ را‬
                                                                   ‫ﺑﺮوز ﻣ ﮐﻨﺪ‬

                                                                               ‫.‬         ‫.‬        ‫.‬       ‫.‬        ‫.‬        ‫.‬

‫۶۴ / ٩٢‬   ‫۵ ﺧﺮداد ٨٨٣١‬                           ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬                           ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
‫ﻣﻌﺮﻓ‬     ‫ﻣﻘﺪّﻣﻪ‬
                                         ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬         ‫اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬
                                 ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬     ‫ﻣﺜﺎلﻫﺎ‬




                                                                                    ‫• اﮔﺮ ٠ ≠ ‪γ‬؛ آنﮔﺎه‬

                     ‫. . . + ٣+‪Pt+١ = Rt = rt+١ + γrt+٢ + γ ٢ rt‬‬
                                 ‫). . . + ٣+‪= rt+١ + γ (rt+٢ + γrt‬‬
                                 ‫١+‪= rt+١ + γRt‬‬

           ‫• اﮔﺮ وﺿﻌﯿﺖ ﺑﻌﺪ از ‪ s‬را ﺑﺎ ′‪ s‬ﻧﺸﺎن دﻫﯿﻢ، آنﮔﺎه ﻣ داﻧﯿﻢ ﮐﻪ ) ′‪ Vt (s‬ﺗﺨﻤﯿﻨ‬
                                                    ‫ﺑﺮای ١+‪ Rt‬اﺳﺖ در ﻟﺤﻈﻪی ‪t‬‬
                             ‫• ﺑﻨﺎﺑﺮاﯾﻦ ﻣ ﺗﻮاﻧﯿﻢ ‪ Rt‬را ﺑﺎ ) ′‪ rt+١ + γVt (s‬ﺗﺨﻤﯿﻦ ﺑﺰﻧﯿﻢ‬

                     ‫))‪Vt+١ (s) ← Vt (s) + α(rt+١ + γVt (s′ ) − Vt (s‬‬                                      ‫)٨(‬




                                                                                ‫.‬         ‫.‬        ‫.‬       ‫.‬        ‫.‬        ‫.‬

‫۶۴ / ٠٣‬   ‫۵ ﺧﺮداد ٨٨٣١‬                            ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬                           ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
‫ﻣﻌﺮﻓ‬     ‫ﻣﻘﺪّﻣﻪ‬
                                            ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬         ‫اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬
                                    ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬     ‫ﻣﺜﺎلﻫﺎ‬


‫.‬                                                                                  ‫آﺷﻨﺎﯾﯽ ﺑﺎ ﭼﻨﺪ ﺗﻌﺮﯾﻒ‬
           ‫.‬
                                                                                                          ‫.ﺳﯿﺎﺳﺖ ﻋﺎﻣﻞ‬
          ‫..‬
               ‫ﻧﮕﺎﺷﺘ ﮐﻪ ﻣﺸﺨّﺺ ﻣ ﮐﻨﺪ، ﻋﺎﻣﻞ در ﻫﺮ وﺿﻌﯿﺖ، ﻣﻤ ﻦ اﺳﺖ ﭼﻪ ﮐﻨﺸ را اﻧﺠﺎم‬
                                 ‫دﻫﺪ را ﺳﯿﺎﺳﺖ ١ ﻋﺎﻣﻞ ﻣ ﮔﻮﯾﻨﺪ، و آن را ﺑﺎ ‪ π‬ﻧﺸﺎن ﻣ دﻫﻨﺪ‬

           ‫‪. Policy‬‬
           ‫..‬                                                                    ‫.‬




                                                                                                                               ‫.‬
           ‫.‬
                                                             ‫.ﺳﯿﺎﺳﺖ اﭘﺴﯿﻠﻮن-ﺣﺮﯾﺼﺎﻧﻪ‬
          ‫..‬
           ‫ﺳﯿﺎﺳﺘ ﮐﻪ در آن ﻋﺎﻣﻞ ﺑﻪ اﺣﺘﻤﺎل ‪ ϵ‬ﮐﻨﺶ ﺗﺼﺎدﻓ را اﻧﺠﺎم ﻣ دﻫﺪ، و در ﺑﺎﻗ ﻣﻮاﻗﻊ‬
               ‫ﮐﻨﺸ را اﻧﺠﺎم ﻣ دﻫﺪ ﮐﻪ در ﺗﺎﺑﻊ ارزش ﺑﯿﺸﺘﺮﯾﻦ ارزش را ﺑﺨﻮد اﺧﺘﺼﺎص داده.‬
           ‫ﻫﺮﭼﻪ اﭘﺴﯿﻠﻮن ﺑﯿﺸﺘﺮ ﺑﺎﺷﺪ ﻋﺎﻣﻞ زﻣﺎن ﺑﯿﺸﺘﺮی را ﺻﺮف ﺗﺠﺮﺑﻪ ﮐﺮدن ﻣﺤﯿﻂ ﻧﺎﺷﻨﺎﺧﺘﻪ‬
                                                                 ‫اﻃﺮاف ﺧﻮد ﻣ ﮐﻨﺪ. ٢‬


           ‫‪. ϵ-greedy‬‬
           ‫..‬                                                                                                              ‫.‬




                                                                                                                               ‫.‬
                                                                                   ‫.‬         ‫.‬        ‫.‬       ‫.‬        ‫.‬        ‫.‬

‫۶۴ / ١٣‬        ‫۵ ﺧﺮداد ٨٨٣١‬                          ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬                           ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
‫ﻣﻌﺮﻓ‬     ‫ﻣﻘﺪّﻣﻪ‬
                                            ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬         ‫اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬
                                    ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬     ‫ﻣﺜﺎلﻫﺎ‬


‫.‬                                                                                  ‫آﺷﻨﺎﯾﯽ ﺑﺎ ﭼﻨﺪ ﺗﻌﺮﯾﻒ‬
           ‫.‬
                                                                                                          ‫.ﺳﯿﺎﺳﺖ ﻋﺎﻣﻞ‬
          ‫..‬
               ‫ﻧﮕﺎﺷﺘ ﮐﻪ ﻣﺸﺨّﺺ ﻣ ﮐﻨﺪ، ﻋﺎﻣﻞ در ﻫﺮ وﺿﻌﯿﺖ، ﻣﻤ ﻦ اﺳﺖ ﭼﻪ ﮐﻨﺸ را اﻧﺠﺎم‬
                                 ‫دﻫﺪ را ﺳﯿﺎﺳﺖ ١ ﻋﺎﻣﻞ ﻣ ﮔﻮﯾﻨﺪ، و آن را ﺑﺎ ‪ π‬ﻧﺸﺎن ﻣ دﻫﻨﺪ‬

           ‫‪. Policy‬‬
           ‫..‬                                                                    ‫.‬




                                                                                                                               ‫.‬
           ‫.‬
                                                             ‫.ﺳﯿﺎﺳﺖ اﭘﺴﯿﻠﻮن-ﺣﺮﯾﺼﺎﻧﻪ‬
          ‫..‬
           ‫ﺳﯿﺎﺳﺘ ﮐﻪ در آن ﻋﺎﻣﻞ ﺑﻪ اﺣﺘﻤﺎل ‪ ϵ‬ﮐﻨﺶ ﺗﺼﺎدﻓ را اﻧﺠﺎم ﻣ دﻫﺪ، و در ﺑﺎﻗ ﻣﻮاﻗﻊ‬
               ‫ﮐﻨﺸ را اﻧﺠﺎم ﻣ دﻫﺪ ﮐﻪ در ﺗﺎﺑﻊ ارزش ﺑﯿﺸﺘﺮﯾﻦ ارزش را ﺑﺨﻮد اﺧﺘﺼﺎص داده.‬
           ‫ﻫﺮﭼﻪ اﭘﺴﯿﻠﻮن ﺑﯿﺸﺘﺮ ﺑﺎﺷﺪ ﻋﺎﻣﻞ زﻣﺎن ﺑﯿﺸﺘﺮی را ﺻﺮف ﺗﺠﺮﺑﻪ ﮐﺮدن ﻣﺤﯿﻂ ﻧﺎﺷﻨﺎﺧﺘﻪ‬
                                                                 ‫اﻃﺮاف ﺧﻮد ﻣ ﮐﻨﺪ. ٢‬


           ‫‪. ϵ-greedy‬‬
           ‫..‬                                                                                                              ‫.‬




                                                                                                                               ‫.‬
                                                                                   ‫.‬         ‫.‬        ‫.‬       ‫.‬        ‫.‬        ‫.‬

‫۶۴ / ١٣‬        ‫۵ ﺧﺮداد ٨٨٣١‬                          ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬                           ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
Temporal Difference Methods (Persian)
Temporal Difference Methods (Persian)
Temporal Difference Methods (Persian)
Temporal Difference Methods (Persian)
Temporal Difference Methods (Persian)
Temporal Difference Methods (Persian)
Temporal Difference Methods (Persian)
Temporal Difference Methods (Persian)
Temporal Difference Methods (Persian)
Temporal Difference Methods (Persian)
Temporal Difference Methods (Persian)
Temporal Difference Methods (Persian)
Temporal Difference Methods (Persian)
Temporal Difference Methods (Persian)
Temporal Difference Methods (Persian)
Temporal Difference Methods (Persian)

Más contenido relacionado

La actualidad más candente

مسير بودجه ريزي عملياتي نوين
مسير بودجه ريزي عملياتي نوينمسير بودجه ريزي عملياتي نوين
مسير بودجه ريزي عملياتي نوينkeihany
 
Structure attribute computation of similarities between nodes of a graph wit...
Structure attribute computation of similarities  between nodes of a graph wit...Structure attribute computation of similarities  between nodes of a graph wit...
Structure attribute computation of similarities between nodes of a graph wit...khosravi82
 
نقشه راه استراتژیک فرهنگ ایمنی
نقشه راه استراتژیک فرهنگ ایمنی نقشه راه استراتژیک فرهنگ ایمنی
نقشه راه استراتژیک فرهنگ ایمنی ali seyedi zadeh
 
آینده و نوآوری الکترونیکی Innovation
 آینده و نوآوری الکترونیکی Innovation آینده و نوآوری الکترونیکی Innovation
آینده و نوآوری الکترونیکی InnovationFakhreddin Etemadi
 
BSC presentation (in persian)
BSC presentation (in persian)BSC presentation (in persian)
BSC presentation (in persian)Amir Maleki
 
تیم سازی و کار تیمی
تیم سازی و کار تیمیتیم سازی و کار تیمی
تیم سازی و کار تیمیKeivan Jafari
 
Documentation & document management-مدیریت مستندات
Documentation & document management-مدیریت مستنداتDocumentation & document management-مدیریت مستندات
Documentation & document management-مدیریت مستنداتKeivan Jafari
 
مدیریت ارتباط با مشتری (CRM) عفت مقیمی
مدیریت ارتباط  با مشتری (CRM) عفت مقیمیمدیریت ارتباط  با مشتری (CRM) عفت مقیمی
مدیریت ارتباط با مشتری (CRM) عفت مقیمیtarasad
 
Help poster
Help posterHelp poster
Help posterjavadst
 

La actualidad más candente (11)

مسير بودجه ريزي عملياتي نوين
مسير بودجه ريزي عملياتي نوينمسير بودجه ريزي عملياتي نوين
مسير بودجه ريزي عملياتي نوين
 
Structure attribute computation of similarities between nodes of a graph wit...
Structure attribute computation of similarities  between nodes of a graph wit...Structure attribute computation of similarities  between nodes of a graph wit...
Structure attribute computation of similarities between nodes of a graph wit...
 
نقشه راه استراتژیک فرهنگ ایمنی
نقشه راه استراتژیک فرهنگ ایمنی نقشه راه استراتژیک فرهنگ ایمنی
نقشه راه استراتژیک فرهنگ ایمنی
 
آینده و نوآوری الکترونیکی Innovation
 آینده و نوآوری الکترونیکی Innovation آینده و نوآوری الکترونیکی Innovation
آینده و نوآوری الکترونیکی Innovation
 
BSC presentation (in persian)
BSC presentation (in persian)BSC presentation (in persian)
BSC presentation (in persian)
 
تیم سازی و کار تیمی
تیم سازی و کار تیمیتیم سازی و کار تیمی
تیم سازی و کار تیمی
 
Documentation & document management-مدیریت مستندات
Documentation & document management-مدیریت مستنداتDocumentation & document management-مدیریت مستندات
Documentation & document management-مدیریت مستندات
 
مدیریت ارتباط با مشتری (CRM) عفت مقیمی
مدیریت ارتباط  با مشتری (CRM) عفت مقیمیمدیریت ارتباط  با مشتری (CRM) عفت مقیمی
مدیریت ارتباط با مشتری (CRM) عفت مقیمی
 
HSE_PLAN
HSE_PLANHSE_PLAN
HSE_PLAN
 
Culture of Impunity
Culture of Impunity Culture of Impunity
Culture of Impunity
 
Help poster
Help posterHelp poster
Help poster
 

Temporal Difference Methods (Persian)

  • 1. ‫ﻣﻌﺮﻓ‬ ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬ ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫.‬ ‫.‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫.‬ ‫..‬ ‫.‬ ‫.‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن‬ ‫داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫۶۴ / ١‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
  • 2. ‫ﻣﻌﺮﻓ‬ ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬ ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫.‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫روش ﯾﺎدﮔﯿﺮی اﺳﺖ‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ ﯾ‬ ‫ﺳﯿﺴﺘﻢ ﭘﻮﯾﺎ در دراز ﻣﺪّت‬ ‫• ﯾﺎدﮔﯿﺮی ﺑﺮای ﭘﯿﺶﺑﯿﻨ وﺿﻌﯿﺖ ﯾ‬ ‫• ﯾﺎدﮔﯿﺮی ﺑﺮای ﮐﻨﺘﺮل ⇐ ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫اﻧﻮاع روشﻫﺎی ﯾﺎدﮔﯿﺮی:‬ ‫ﺳﺮی ورودی و ﭘﺎﺳﺦ ﺻﺤﯿﺢ از ﻗﺒﻞ ﺗﻌﯿﯿﻦ‬ ‫• ﯾﺎدﮔﯿﺮی ﺑﺎﻧﻈﺎرت: ﻋﺎﻣﻞ ﺑﺎ ﯾ‬ ‫ﺷﺪه آﻣﻮزش ﻣ ﺑﯿﻨﺪ‬ ‫• ﯾﺎدﮔﯿﺮی ﺑﯽﻧﻈﺎرت: ﻋﺎﻣﻞ ﻫﯿﭻ ﺑﺎزﺧﻮردی درﯾﺎﻓﺖ ﻧﻤ ﮐﻨﺪ؛ ورودیﻫﺎ را‬ ‫ﺑﺼﻮرت ﺧﻮﺷﻪﻫﺎ، ﯾﺎ ﻃﺒﻘﻪﺑﻨﺪیﻫﺎ ﺑﺎزﺳﺎزی ﻣ ﮐﻨﺪ‬ ‫• ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ : ﯾﺎدﮔﯿﺮی از ﻃﺮﯾﻖ ﺗﻌﺎﻣﻞ ﺑﺎ ﻣﺤﯿﻂ، و ﺳﻌ و ﺧﻄﺎ ﺗﻮﺳﻂ‬ ‫ﺧﻮد ﻋﺎﻣﻞ‬ ‫ﯾﺎدﮔﯿﺮی ﺑﻪ روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ از ﻧﻮع ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ ﺑﻪﺣﺴﺎب ﻣ آﯾﺪ‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫۶۴ / ٢‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
  • 3. ‫ﻣﻌﺮﻓ‬ ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬ ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫.‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫روش ﯾﺎدﮔﯿﺮی اﺳﺖ‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ ﯾ‬ ‫ﺳﯿﺴﺘﻢ ﭘﻮﯾﺎ در دراز ﻣﺪّت‬ ‫• ﯾﺎدﮔﯿﺮی ﺑﺮای ﭘﯿﺶﺑﯿﻨ وﺿﻌﯿﺖ ﯾ‬ ‫• ﯾﺎدﮔﯿﺮی ﺑﺮای ﮐﻨﺘﺮل ⇐ ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫اﻧﻮاع روشﻫﺎی ﯾﺎدﮔﯿﺮی:‬ ‫ﺳﺮی ورودی و ﭘﺎﺳﺦ ﺻﺤﯿﺢ از ﻗﺒﻞ ﺗﻌﯿﯿﻦ‬ ‫• ﯾﺎدﮔﯿﺮی ﺑﺎﻧﻈﺎرت: ﻋﺎﻣﻞ ﺑﺎ ﯾ‬ ‫ﺷﺪه آﻣﻮزش ﻣ ﺑﯿﻨﺪ‬ ‫• ﯾﺎدﮔﯿﺮی ﺑﯽﻧﻈﺎرت: ﻋﺎﻣﻞ ﻫﯿﭻ ﺑﺎزﺧﻮردی درﯾﺎﻓﺖ ﻧﻤ ﮐﻨﺪ؛ ورودیﻫﺎ را‬ ‫ﺑﺼﻮرت ﺧﻮﺷﻪﻫﺎ، ﯾﺎ ﻃﺒﻘﻪﺑﻨﺪیﻫﺎ ﺑﺎزﺳﺎزی ﻣ ﮐﻨﺪ‬ ‫• ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ : ﯾﺎدﮔﯿﺮی از ﻃﺮﯾﻖ ﺗﻌﺎﻣﻞ ﺑﺎ ﻣﺤﯿﻂ، و ﺳﻌ و ﺧﻄﺎ ﺗﻮﺳﻂ‬ ‫ﺧﻮد ﻋﺎﻣﻞ‬ ‫ﯾﺎدﮔﯿﺮی ﺑﻪ روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ از ﻧﻮع ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ ﺑﻪﺣﺴﺎب ﻣ آﯾﺪ‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫۶۴ / ٢‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
  • 4. ‫ﻣﻌﺮﻓ‬ ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬ ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫.‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫روش ﯾﺎدﮔﯿﺮی اﺳﺖ‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ ﯾ‬ ‫ﺳﯿﺴﺘﻢ ﭘﻮﯾﺎ در دراز ﻣﺪّت‬ ‫• ﯾﺎدﮔﯿﺮی ﺑﺮای ﭘﯿﺶﺑﯿﻨ وﺿﻌﯿﺖ ﯾ‬ ‫• ﯾﺎدﮔﯿﺮی ﺑﺮای ﮐﻨﺘﺮل ⇐ ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫اﻧﻮاع روشﻫﺎی ﯾﺎدﮔﯿﺮی:‬ ‫ﺳﺮی ورودی و ﭘﺎﺳﺦ ﺻﺤﯿﺢ از ﻗﺒﻞ ﺗﻌﯿﯿﻦ‬ ‫• ﯾﺎدﮔﯿﺮی ﺑﺎﻧﻈﺎرت: ﻋﺎﻣﻞ ﺑﺎ ﯾ‬ ‫ﺷﺪه آﻣﻮزش ﻣ ﺑﯿﻨﺪ‬ ‫• ﯾﺎدﮔﯿﺮی ﺑﯽﻧﻈﺎرت: ﻋﺎﻣﻞ ﻫﯿﭻ ﺑﺎزﺧﻮردی درﯾﺎﻓﺖ ﻧﻤ ﮐﻨﺪ؛ ورودیﻫﺎ را‬ ‫ﺑﺼﻮرت ﺧﻮﺷﻪﻫﺎ، ﯾﺎ ﻃﺒﻘﻪﺑﻨﺪیﻫﺎ ﺑﺎزﺳﺎزی ﻣ ﮐﻨﺪ‬ ‫• ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ : ﯾﺎدﮔﯿﺮی از ﻃﺮﯾﻖ ﺗﻌﺎﻣﻞ ﺑﺎ ﻣﺤﯿﻂ، و ﺳﻌ و ﺧﻄﺎ ﺗﻮﺳﻂ‬ ‫ﺧﻮد ﻋﺎﻣﻞ‬ ‫ﯾﺎدﮔﯿﺮی ﺑﻪ روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ از ﻧﻮع ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ ﺑﻪﺣﺴﺎب ﻣ آﯾﺪ‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫۶۴ / ٢‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
  • 5. ‫ﻣﻌﺮﻓ‬ ‫ﻣﻘﺪّﻣﻪ‬ ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬ ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬ ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫.‬ ‫ﭘﯿﺶﺑﯿﻨ ﭼﻨﺪﻣﺮﺣﻠﻪای‬ ‫.‬ ‫.ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ ﭼﻨﺪ ﻣﺮﺣﻠﻪای‬ ‫..‬ ‫• ورودی: دﻧﺒﺎﻟﻪی ﻣﺸﺎﻫﺪات-ﻧﺘﯿﺠﻪ: ‪x١ , x٢ , . . . , xm , z‬‬ ‫• ﺧﺮوﺟ : ‪P١ , P٢ , . . . , Pm‬‬ ‫• ‪ xt‬ﺑﺮدار ﻣﺸﺎﻫﺪه در ﻣﺮﺣﻠﻪی ‪ t‬ﺑﺎ دراﯾﻪﻫﺎی ﺣﻘﯿﻘ )ﺑﺮداری از اﻧﺪازهﮔﯿﺮیﻫﺎ‬ ‫ﯾﺎ ﺧﺼﻮﺻﯿﺎت ﻣﺤﯿﻂ( اﺳﺖ‬ ‫اﺳ ﺎﻟﺮ ﺣﻘﯿﻘ و ﻧﺘﯿﺠﻪی دﻧﺒﺎﻟﻪی ﻣﺸﺎﻫﺪات اﺳﺖ‬ ‫• ‪z‬ﯾ‬ ‫• ‪ Pt‬ﭘﯿﺶﺑﯿﻨ ﻣﻘﺪار ‪ z‬ﮐﻪ در ﻣﺮﺣﻠﻪی ‪ t‬اﻧﺠﺎم ﺷﺪه، ‪ P‬ﺗﺎﺑﻌ از ‪ xt‬و ﺑﺮدار‬ ‫وزنﻫﺎ ‪) ،w‬ﺑﺮداری از ﭘﺎراﻣﺘﺮﻫﺎی ﺗﻐﯿﯿﺮ ﭘﺬﯾﺮ( اﺳﺖ و آن را ﺑﺎ )‪ P(xt , w‬ﻧﺸﺎن‬ ‫ﻣ دﻫﻨﺪ، ﺑﻪ ‪ P‬ﺗﺎﺑﻊ ﭘﯿﺶﺑﯿﻨ ﻣ ﮔﻮﯾﻨﺪ.‬ ‫.‬ ‫..‬ ‫.‬ ‫.‬ ‫.‬ ‫.ﻣﺜﺎل‬ ‫..‬ ‫ﭘﯿﺶﺑﯿﻨ اﯾﻦ ﮐﻪ آﯾﺎ روز ﺟﻤﻌﻪ ﺑﺎران ﻣ ﺑﺎرد ﯾﺎ ﺧﯿﺮ، از ﻃﺮﯾﻖ ﻣﺸﺎﻫﺪهی وﺿﻌﯿﺖ ﻫﻮای‬ ‫دوﺷﻨﺒﻪ، و اﻧﺠﺎم ﭘﯿﺶﺑﯿﻨ ﺑﺮای روزﻫﺎی ﻣﺘﻮاﻟ ﺗﺎ ﺟﻤﻌﻪ‬ ‫۵ ﺧﺮداد ٨٨٣١ .‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫۶۴ / ٣‬ ‫..‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫.‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬ ‫.‬
  • 6. ‫ﻣﻌﺮﻓ‬ ‫ﻣﻘﺪّﻣﻪ‬ ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬ ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬ ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫.‬ ‫ﭘﯿﺶﺑﯿﻨ ﭼﻨﺪﻣﺮﺣﻠﻪای‬ ‫.‬ ‫.ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ ﭼﻨﺪ ﻣﺮﺣﻠﻪای‬ ‫..‬ ‫• ورودی: دﻧﺒﺎﻟﻪی ﻣﺸﺎﻫﺪات-ﻧﺘﯿﺠﻪ: ‪x١ , x٢ , . . . , xm , z‬‬ ‫• ﺧﺮوﺟ : ‪P١ , P٢ , . . . , Pm‬‬ ‫• ‪ xt‬ﺑﺮدار ﻣﺸﺎﻫﺪه در ﻣﺮﺣﻠﻪی ‪ t‬ﺑﺎ دراﯾﻪﻫﺎی ﺣﻘﯿﻘ )ﺑﺮداری از اﻧﺪازهﮔﯿﺮیﻫﺎ‬ ‫ﯾﺎ ﺧﺼﻮﺻﯿﺎت ﻣﺤﯿﻂ( اﺳﺖ‬ ‫اﺳ ﺎﻟﺮ ﺣﻘﯿﻘ و ﻧﺘﯿﺠﻪی دﻧﺒﺎﻟﻪی ﻣﺸﺎﻫﺪات اﺳﺖ‬ ‫• ‪z‬ﯾ‬ ‫• ‪ Pt‬ﭘﯿﺶﺑﯿﻨ ﻣﻘﺪار ‪ z‬ﮐﻪ در ﻣﺮﺣﻠﻪی ‪ t‬اﻧﺠﺎم ﺷﺪه، ‪ P‬ﺗﺎﺑﻌ از ‪ xt‬و ﺑﺮدار‬ ‫وزنﻫﺎ ‪) ،w‬ﺑﺮداری از ﭘﺎراﻣﺘﺮﻫﺎی ﺗﻐﯿﯿﺮ ﭘﺬﯾﺮ( اﺳﺖ و آن را ﺑﺎ )‪ P(xt , w‬ﻧﺸﺎن‬ ‫ﻣ دﻫﻨﺪ، ﺑﻪ ‪ P‬ﺗﺎﺑﻊ ﭘﯿﺶﺑﯿﻨ ﻣ ﮔﻮﯾﻨﺪ.‬ ‫.‬ ‫..‬ ‫.‬ ‫.‬ ‫.‬ ‫.ﻣﺜﺎل‬ ‫..‬ ‫ﭘﯿﺶﺑﯿﻨ اﯾﻦ ﮐﻪ آﯾﺎ روز ﺟﻤﻌﻪ ﺑﺎران ﻣ ﺑﺎرد ﯾﺎ ﺧﯿﺮ، از ﻃﺮﯾﻖ ﻣﺸﺎﻫﺪهی وﺿﻌﯿﺖ ﻫﻮای‬ ‫دوﺷﻨﺒﻪ، و اﻧﺠﺎم ﭘﯿﺶﺑﯿﻨ ﺑﺮای روزﻫﺎی ﻣﺘﻮاﻟ ﺗﺎ ﺟﻤﻌﻪ‬ ‫۵ ﺧﺮداد ٨٨٣١ .‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫۶۴ / ٣‬ ‫..‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫.‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬ ‫.‬
  • 7. ‫ﻣﻌﺮﻓ‬ ‫ﻣﻘﺪّﻣﻪ‬ ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬ ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬ ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫.‬ ‫ﭘﯿﺶﺑﯿﻨ ﺗﮏﻣﺮﺣﻠﻪای‬ ‫.‬ ‫.ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ ﺗﮏ ﻣﺮﺣﻠﻪای‬ ‫..‬ ‫• ﭘﯿﺶﺑﯿﻨ ﭼﻨﺪﻣﺮﺣﻠﻪای ﺑﻪ ازای ١ = ‪m‬‬ ‫• دﯾ ﺮ در زﻣﺮهی ﻣﺴﺎﺋﻞ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ ﻗﺮار ﻧﻤ ﮔﯿﺮد‬ ‫• در دﺳﺘﻪی ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت ﻗﺮار ﻣ ﮔﯿﺮد )ﭼﻮن ﺑﻼﻓﺎﺻﻠﻪ ﭘﺲ از ﭘﯿﺶﺑﯿﻨ ،‬ ‫ﻧﺘﯿﺠﻪ ﻧﯿﺰ اراﺋﻪ ﻣ ﺷﻮد(‬ ‫.‬ ‫..‬ ‫.‬ ‫.‬ ‫.‬ ‫.ﻣﺜﺎل‬ ‫..‬ ‫ﭘﯿﺶﺑﯿﻨ اﯾﻦ ﮐﻪ آﯾﺎ روز ﺟﻤﻌﻪ ﺑﺎران ﻣ ﺑﺎرد ﯾﺎ ﺧﯿﺮ، از ﻃﺮﯾﻖ ﻣﺸﺎﻫﺪهی وﺿﻌﯿﺖ‬ ‫.‬ ‫ﻫﻮای ﭘﻨﺞﺷﻨﺒﻪ‬ ‫..‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫۶۴ / ۴‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
  • 8. ‫ﻣﻌﺮﻓ‬ ‫ﻣﻘﺪّﻣﻪ‬ ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬ ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬ ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫.‬ ‫ﭘﯿﺶﺑﯿﻨ ﺗﮏﻣﺮﺣﻠﻪای‬ ‫.‬ ‫.ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ ﺗﮏ ﻣﺮﺣﻠﻪای‬ ‫..‬ ‫• ﭘﯿﺶﺑﯿﻨ ﭼﻨﺪﻣﺮﺣﻠﻪای ﺑﻪ ازای ١ = ‪m‬‬ ‫• دﯾ ﺮ در زﻣﺮهی ﻣﺴﺎﺋﻞ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ ﻗﺮار ﻧﻤ ﮔﯿﺮد‬ ‫• در دﺳﺘﻪی ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت ﻗﺮار ﻣ ﮔﯿﺮد )ﭼﻮن ﺑﻼﻓﺎﺻﻠﻪ ﭘﺲ از ﭘﯿﺶﺑﯿﻨ ،‬ ‫ﻧﺘﯿﺠﻪ ﻧﯿﺰ اراﺋﻪ ﻣ ﺷﻮد(‬ ‫.‬ ‫..‬ ‫.‬ ‫.‬ ‫.‬ ‫.ﻣﺜﺎل‬ ‫..‬ ‫ﭘﯿﺶﺑﯿﻨ اﯾﻦ ﮐﻪ آﯾﺎ روز ﺟﻤﻌﻪ ﺑﺎران ﻣ ﺑﺎرد ﯾﺎ ﺧﯿﺮ، از ﻃﺮﯾﻖ ﻣﺸﺎﻫﺪهی وﺿﻌﯿﺖ‬ ‫.‬ ‫ﻫﻮای ﭘﻨﺞﺷﻨﺒﻪ‬ ‫..‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫۶۴ / ۴‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
  • 9. ‫ﻣﻌﺮﻓ‬ ‫ﻣﻘﺪّﻣﻪ‬ ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬ ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬ ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫.‬ ‫ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬ ‫• ﻣﻨﻈﻮر از ﯾﺎدﮔﯿﺮی، ﺗﻨﻈﯿﻢ ﻣﻘﺎدﯾﺮ ﺑﺮدار وزنﻫﺎ ‪ w‬اﺳﺖ، ﺑﻪﻃﻮرﯾ ﻪ ﺧﻄﺎی ﺗﺎﺑﻊ‬ ‫ﭘﯿﺶﺑﯿﻨ در ﻫﺮ ﻣﺮﺣﻠﻪ ﮐﻤﯿﻨﻪ ﺷﻮد.‬ ‫• ﺑﻪازای ﻫﺮﻣﺮﺣﻠﻪ ﻣ ﺗﻮان ﺗﻐﯿﯿﺮ در ﺑﺮدار وزنﻫﺎ ‪ ∆wt‬را در ﻧﻈﺮ ﮔﺮﻓﺖ‬ ‫∑‬ ‫‪m‬‬ ‫+‪w←w‬‬ ‫‪∆wt‬‬ ‫)١(‬ ‫١=‪t‬‬ ‫• در ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت ﺗﻤﺎم ﺗﻐﯿﯿﺮات در اﻧﺘﻬﺎی دﻧﺒﺎﻟﻪی ﻣﺸﺎﻫﺪات اﻋﻤﺎل‬ ‫ﻣ ﺷﻮد؛ ﻧﻪ در ﻫﺮ ﻣﺮﺣﻠﻪ‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫۶۴ / ۵‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
  • 10. ‫ﻣﻌﺮﻓ‬ ‫ﻣﻘﺪّﻣﻪ‬ ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬ ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬ ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫.‬ ‫ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت )اداﻣﻪ(‬ ‫• ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت ﺑﻪ ﻫﺮ دﻧﺒﺎﻟﻪی ﻣﺸﺎﻫﺪات-ﻧﺘﯿﺠﻪ، ﺑﻪ ﺻﻮرت دﻧﺒﺎﻟﻪای از‬ ‫زوجﻫﺎی ﻣﺸﺎﻫﺪه-ﻧﺘﯿﺠﻪ ﺑﺮﺧﻮرد ﻣ ﮐﻨﺪ‬ ‫)‪(x١ , z), (x٢ , z), . . . , (xm , z‬‬ ‫• ﺗﻐﯿﯿﺮات در ﺑﺮدار وزنﻫﺎ ﺑﻪازای ﻣﺸﺎﻫﺪه در ﻟﺤﻈﻪی ‪:t‬‬ ‫‪∆wt = α(z − Pt )∇w Pt‬‬ ‫)٢(‬ ‫• ‪ :α‬ﻧﺮخ ﯾﺎدﮔﯿﺮی‬ ‫• ‪ :∇w Pt‬ﺑﺮدار ﻣﺸﺘﻘّﺎت ﺟﺰﺋ ‪ ،P‬ﻧﺴﺒﺖ ﺑﻪ ‪w‬؛ ﻣﺸﺨﺺ ﮐﻨﻨﺪهی ﺟﻬﺘ ﮐﻪ در‬ ‫آن ﺗﻐﯿﯿﺮات در ‪ w‬ﺑﯿﺸﺘﺮﯾﻦ ﺗﺄﺛﯿﺮ را در ‪ P‬دارد.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫۶۴ / ۶‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
  • 11. ‫ﻣﻌﺮﻓ‬ ‫ﻣﻘﺪّﻣﻪ‬ ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬ ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬ ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت )اداﻣﻪ(‬ ‫.‬ ‫ﺣﺎﻟﺖ ﺧﺎص ﺧﻄ‬ ‫• ﺣﺎﻟﺖ ﺧﺎص: ‪ Pt‬ﺗﺎﺑﻊ ﺧﻄ از ‪ xt‬و ‪ w‬اﺳﺖ:‬ ‫∑‬ ‫= ‪Pt = wT xt‬‬ ‫)‪w(i)x(i‬‬ ‫‪i‬‬ ‫• ﺧﻮاﻫﯿﻢ داﺷﺖ: ‪∇w Pt = xt‬‬ ‫.‬ ‫.ﻗﺎﻧﻮن ‪ Widrow-Hoff‬ﺑﺮای ﺑﺮوزرﺳﺎﻧ وزنﻫﺎ - ﻗﺎﻧﻮن دﻟﺘﺎ‬ ‫..‬ ‫‪∆wt = α(z − wT xt )xt‬‬ ‫)٣(‬ ‫.‬ ‫..‬ ‫.‬ ‫.‬ ‫• ﻣﻘﺪار ‪ z‬در اﻧﺘﻬﺎی دﻧﺒﺎﻟﻪی ﻣﺸﺎﻫﺪات ﻣﺸﺨﺺ ﻣ ﺷﻮد، ﺑﻨﺎﺑﺮاﯾﻦ ﺗﻤﺎﻣ ‪ xt‬ﻫﺎ‬ ‫ﺑﺎﯾﺪ ذﺧﯿﺮه ﺷﻮﻧﺪ، و ﺗﻤﺎﻣ ﺑﺮوزرﺳﺎﻧ ﻫﺎ در اﻧﺘﻬﺎی دﻧﺒﺎﻟﻪ ﻣﺤﺎﺳﺒﻪ ﺷﻮﻧﺪ.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫۶۴ / ٧‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
  • 12. ‫ﻣﻌﺮﻓ‬ ‫ﻣﻘﺪّﻣﻪ‬ ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬ ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬ ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت )اداﻣﻪ(‬ ‫.‬ ‫ﺣﺎﻟﺖ ﺧﺎص ﺧﻄ‬ ‫• ﺣﺎﻟﺖ ﺧﺎص: ‪ Pt‬ﺗﺎﺑﻊ ﺧﻄ از ‪ xt‬و ‪ w‬اﺳﺖ:‬ ‫∑‬ ‫= ‪Pt = wT xt‬‬ ‫)‪w(i)x(i‬‬ ‫‪i‬‬ ‫• ﺧﻮاﻫﯿﻢ داﺷﺖ: ‪∇w Pt = xt‬‬ ‫.‬ ‫.ﻗﺎﻧﻮن ‪ Widrow-Hoff‬ﺑﺮای ﺑﺮوزرﺳﺎﻧ وزنﻫﺎ - ﻗﺎﻧﻮن دﻟﺘﺎ‬ ‫..‬ ‫‪∆wt = α(z − wT xt )xt‬‬ ‫)٣(‬ ‫.‬ ‫..‬ ‫.‬ ‫.‬ ‫• ﻣﻘﺪار ‪ z‬در اﻧﺘﻬﺎی دﻧﺒﺎﻟﻪی ﻣﺸﺎﻫﺪات ﻣﺸﺨﺺ ﻣ ﺷﻮد، ﺑﻨﺎﺑﺮاﯾﻦ ﺗﻤﺎﻣ ‪ xt‬ﻫﺎ‬ ‫ﺑﺎﯾﺪ ذﺧﯿﺮه ﺷﻮﻧﺪ، و ﺗﻤﺎﻣ ﺑﺮوزرﺳﺎﻧ ﻫﺎ در اﻧﺘﻬﺎی دﻧﺒﺎﻟﻪ ﻣﺤﺎﺳﺒﻪ ﺷﻮﻧﺪ.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫۶۴ / ٧‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
  • 13. ‫ﻣﻌﺮﻓ‬ ‫ﻣﻘﺪّﻣﻪ‬ ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬ ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬ ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت )اداﻣﻪ(‬ ‫.‬ ‫ﺣﺎﻟﺖ ﺧﺎص ﺧﻄ‬ ‫• ﺣﺎﻟﺖ ﺧﺎص: ‪ Pt‬ﺗﺎﺑﻊ ﺧﻄ از ‪ xt‬و ‪ w‬اﺳﺖ:‬ ‫∑‬ ‫= ‪Pt = wT xt‬‬ ‫)‪w(i)x(i‬‬ ‫‪i‬‬ ‫• ﺧﻮاﻫﯿﻢ داﺷﺖ: ‪∇w Pt = xt‬‬ ‫.‬ ‫.ﻗﺎﻧﻮن ‪ Widrow-Hoff‬ﺑﺮای ﺑﺮوزرﺳﺎﻧ وزنﻫﺎ - ﻗﺎﻧﻮن دﻟﺘﺎ‬ ‫..‬ ‫‪∆wt = α(z − wT xt )xt‬‬ ‫)٣(‬ ‫.‬ ‫..‬ ‫.‬ ‫.‬ ‫• ﻣﻘﺪار ‪ z‬در اﻧﺘﻬﺎی دﻧﺒﺎﻟﻪی ﻣﺸﺎﻫﺪات ﻣﺸﺨﺺ ﻣ ﺷﻮد، ﺑﻨﺎﺑﺮاﯾﻦ ﺗﻤﺎﻣ ‪ xt‬ﻫﺎ‬ ‫ﺑﺎﯾﺪ ذﺧﯿﺮه ﺷﻮﻧﺪ، و ﺗﻤﺎﻣ ﺑﺮوزرﺳﺎﻧ ﻫﺎ در اﻧﺘﻬﺎی دﻧﺒﺎﻟﻪ ﻣﺤﺎﺳﺒﻪ ﺷﻮﻧﺪ.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫۶۴ / ٧‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
  • 14. ‫ﻣﻌﺮﻓ‬ ‫ﻣﻘﺪّﻣﻪ‬ ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬ ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬ ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫.‬ ‫ﻣﺤﺎﺳﺒﻪی اﻓﺰاﯾﺸ‬ ‫• ﻧﻤﺎﯾﺶ ﺧﻄﺎی ‪ z − Pt‬ﺑﻪ ﺻﻮرت ﻣﺠﻤﻮع ﺗﻐﯿﯿﺮات در ﭘﯿﺶﺑﯿﻨ ﻫﺎی ﻣﺘﻮاﻟ :‬ ‫∑‬ ‫‪m‬‬ ‫ﺗﻌﺮﯾﻒ‬ ‫= ‪z − Pt‬‬ ‫‪ Pm+١ = z‬و ) ‪(Pk+١ − Pk‬‬ ‫‪k=t‬‬ ‫• ﺑﺎ ﺗﺮﮐﯿﺐ ﺑﺎ )١( و )٢(، رواﺑﻂ زﯾﺮ ﺑﺪﺳﺖ ﻣ آﯾﻨﺪ:‬ ‫∑‬ ‫‪m‬‬ ‫+‪w ← w‬‬ ‫‪α(z − Pt )∇w Pt‬‬ ‫١=‪t‬‬ ‫∑‬‫‪m‬‬ ‫∑‬ ‫‪m‬‬ ‫=‬ ‫+‪w‬‬ ‫‪α‬‬ ‫‪(Pk+١ − Pk )∇w Pt‬‬ ‫١=‪t‬‬ ‫‪k=t‬‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫۶۴ / ٨‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
  • 15. ‫ﻣﻌﺮﻓ‬ ‫ﻣﻘﺪّﻣﻪ‬ ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬ ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬ ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫.‬ ‫ﻣﺤﺎﺳﺒﻪی اﻓﺰاﯾﺸ‬ ‫• ﻧﻤﺎﯾﺶ ﺧﻄﺎی ‪ z − Pt‬ﺑﻪ ﺻﻮرت ﻣﺠﻤﻮع ﺗﻐﯿﯿﺮات در ﭘﯿﺶﺑﯿﻨ ﻫﺎی ﻣﺘﻮاﻟ :‬ ‫∑‬ ‫‪m‬‬ ‫ﺗﻌﺮﯾﻒ‬ ‫= ‪z − Pt‬‬ ‫‪ Pm+١ = z‬و ) ‪(Pk+١ − Pk‬‬ ‫‪k=t‬‬ ‫• ﺑﺎ ﺗﺮﮐﯿﺐ ﺑﺎ )١( و )٢(، رواﺑﻂ زﯾﺮ ﺑﺪﺳﺖ ﻣ آﯾﻨﺪ:‬ ‫∑‬ ‫‪m‬‬ ‫+‪w ← w‬‬ ‫‪α(z − Pt )∇w Pt‬‬ ‫١=‪t‬‬ ‫∑‬‫‪m‬‬ ‫∑‬ ‫‪m‬‬ ‫=‬ ‫+‪w‬‬ ‫‪α‬‬ ‫‪(Pk+١ − Pk )∇w Pt‬‬ ‫١=‪t‬‬ ‫‪k=t‬‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫۶۴ / ٨‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
  • 16. ‫ﻣﻌﺮﻓ‬ ‫ﻣﻘﺪّﻣﻪ‬ ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬ ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬ ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫.‬ ‫ﻣﺤﺎﺳﺒﻪی اﻓﺰاﯾﺸ )اداﻣﻪ(‬ ‫• ﺑﺎ ﺟﺎﺑﺠﺎﯾﯽ دو ﺟﻤﻊ و ﺗﺒﺪﯾﻞ ﺣﺪود‬ ‫∑ ∑‬ ‫‪m‬‬ ‫‪k‬‬ ‫+‪w ← w‬‬ ‫‪α‬‬ ‫‪(Pk+١ − Pk )∇w Pt‬‬ ‫١=‪k‬‬ ‫١=‪t‬‬ ‫∑‬ ‫‪m‬‬ ‫∑‬ ‫‪t‬‬ ‫=‬ ‫+‪w‬‬ ‫) ‪α(Pt+١ − Pt‬‬ ‫‪∇w Pk‬‬ ‫١=‪t‬‬ ‫١=‪k‬‬ ‫.‬ ‫.راﺑﻄﻪی ﺑﺮوز رﺳﺎﻧ اﻓﺰاﯾﺸ وزنﻫﺎ - ⑴‪TD‬‬ ‫..‬ ‫∑‬ ‫‪t‬‬ ‫) ‪∆wt = α(Pt+١ − Pt‬‬ ‫‪∇w Pk‬‬ ‫)۴(‬ ‫١=‪k‬‬ ‫.‬ ‫..‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫۶۴ / ٩‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
  • 17. ‫ﻣﻌﺮﻓ‬ ‫ﻣﻘﺪّﻣﻪ‬ ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬ ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬ ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫.‬ ‫ﻣﺤﺎﺳﺒﻪی اﻓﺰاﯾﺸ )اداﻣﻪ(‬ ‫• ﺑﺎ ﺟﺎﺑﺠﺎﯾﯽ دو ﺟﻤﻊ و ﺗﺒﺪﯾﻞ ﺣﺪود‬ ‫∑ ∑‬ ‫‪m‬‬ ‫‪k‬‬ ‫+‪w ← w‬‬ ‫‪α‬‬ ‫‪(Pk+١ − Pk )∇w Pt‬‬ ‫١=‪k‬‬ ‫١=‪t‬‬ ‫∑‬ ‫‪m‬‬ ‫∑‬ ‫‪t‬‬ ‫=‬ ‫+‪w‬‬ ‫) ‪α(Pt+١ − Pt‬‬ ‫‪∇w Pk‬‬ ‫١=‪t‬‬ ‫١=‪k‬‬ ‫.‬ ‫.راﺑﻄﻪی ﺑﺮوز رﺳﺎﻧ اﻓﺰاﯾﺸ وزنﻫﺎ - ⑴‪TD‬‬ ‫..‬ ‫∑‬ ‫‪t‬‬ ‫) ‪∆wt = α(Pt+١ − Pt‬‬ ‫‪∇w Pk‬‬ ‫)۴(‬ ‫١=‪k‬‬ ‫.‬ ‫..‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫۶۴ / ٩‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
  • 18. ‫ﻣﻌﺮﻓ‬ ‫ﻣﻘﺪّﻣﻪ‬ ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬ ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬ ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫.‬ ‫⑴‪TD‬‬ ‫• اﮔﺮ ﺑﯿﺸﺘﺮﯾﻦ ﻃﻮل دﻧﺒﺎﻟﻪی ﻣﺸﺎﻫﺪات ‪ M‬ﺑﺎﺷﺪ، آنﮔﺎه اﻟ ﻮرﯾﺘﻢ ⑴‪ TD‬ﻧﯿﺎز ﺑﻪ‬ ‫١‬ ‫‪ M‬ﺣﺎﻓﻈﻪ و ﺳﺮﻋﺖ ﭘﺮدازﺷ ﺮ ﻻزم ﺑﺮای ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت دارد.‬ ‫• اﮔﺮ ﺗﺎﺑﻊ ﭘﯿﺶﺑﯿﻨ را ﺗﺎﺑﻊ ﺧﻄ در ﻧﻈﺮ ﺑ ﯿﺮﯾﻢ‬ ‫.‬ ‫.راﺑﻄﻪی ﺑﺮوز رﺳﺎﻧ ⑴‪ TD‬ﺧﻄ‬ ‫..‬ ‫∑‬ ‫‪t‬‬ ‫) ‪∆wt = α(Pt+١ − Pt‬‬ ‫‪xk‬‬ ‫‪Pt = wT xt‬‬ ‫.‬ ‫١=‪k‬‬ ‫..‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫۶۴ / ٠١‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
  • 19. ‫ﻣﻌﺮﻓ‬ ‫ﻣﻘﺪّﻣﻪ‬ ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬ ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬ ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫.‬ ‫.اﻟ ﻮرﯾﺘﻢ ⑴‪ TD‬ﺧﻄ‬ ‫..‬ ‫‪: x١ , x٢ , . . . , xm , z‬ورودی‬ ‫دﻧﺒﺎﻟﻪی ﻣﺸﺎﻫﺪات-ﻧﺘﯿﺠﻪ ◃‬ ‫‪: w‬ﺧﺮوﺟ‬ ‫ﺑﺮدار وزنﻫﺎ ◃‬ ‫٠‪1: w ← w‬‬ ‫ﺑﺮدار وزنﻫﺎ را ﺑﺎ ﻣﻘﺎدﯾﺮ ﺗﺼﺎدﻓ ﻣﻘﺪاردﻫ اوﻟﯿﻪ ﮐﻦ ◃‬ ‫١‪2: Pt ← wT x‬‬ ‫١‪ x‬ﻣﺸﺎﻫﺪه ﺷﺪ ◃‬ ‫١‪3: St ← x‬‬ ‫‪ St‬ﻫﻤﺎن ﺟﻤﻊ ﮔﺮادﯾﺎنﻫﺎﺳﺖ ◃‬ ‫‪4: for all xt , t = ٢, . . . , m do‬‬ ‫ﺑﺮای ﻣﺸﺎﻫﺪات ٢‪ x‬ﺗﺎ ‪◃ xm‬‬ ‫:5‬ ‫‪Pt−١ ← Pt‬‬ ‫:6‬ ‫‪Pt ← wT xt‬‬ ‫:7‬ ‫ﻣﯿﺰان اﻓﺰاﯾﺶ ﺑﺮدار وزنﻫﺎ ﺑﺮای ﻣﺸﺎﻫﺪهی ﻗﺒﻠ ◃ ‪∆wt−١ ← α(Pt − Pt−١ )St‬‬ ‫:8‬ ‫‪St ← St + xt‬‬ ‫:9‬ ‫١−‪w ← w + ∆wt‬‬ ‫ﺑﺮوزرﺳﺎﻧ ﺑﺮدار وزنﻫﺎ ◃‬ ‫‪10: end for‬‬ ‫‪11: ∆wt−١ ← α(z − Pt )St‬‬ ‫١−‪. w ← w + ∆wt‬‬ ‫:21‬ ‫ﺑﺮوزرﺳﺎﻧ ﻧﻬﺎﯾﯽ ﺑﺮدار وزنﻫﺎ ◃‬ ‫..‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫۶۴ / ١١‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
  • 20. ‫ﻣﻌﺮﻓ‬ ‫ﻣﻘﺪّﻣﻪ‬ ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬ ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬ ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫.‬ ‫ﺧﺎﻧﻮادهی روشﻫﺎی ﯾﺎدﮔﯿﺮی )‪TD(λ‬‬ ‫• در ⑴‪ ،TD‬ﺑﻪ ازای ﻫﺮ ﻣﺸﺎﻫﺪه، ﺑﺮدار وزنﻫﺎ ﻃﻮری ﺗﻐﯿﯿﺮ ﻣ ﮐﻨﺪ، ﮐﻪ ﺗﻤﺎم‬ ‫ﭘﯿﺶﺑﯿﻨ ﻫﺎی ﮔﺬﺷﺘﻪ را ﺑﻪ ﯾ ﻣﯿﺰان ﺗﻐﯿﯿﺮ ﻣ دﻫﺪ‬ ‫• ﮐﻼس روشﻫﺎی )‪ ،TD(λ‬ﭘﯿﺶﺑﯿﻨ ﻫﺎی ﺟﺪﯾﺪﺗﺮ را ﺑﯿﺶﺗﺮ از ﭘﯿﺶﺑﯿﻨ ﻫﺎی‬ ‫ﮔﺬﺷﺘﻪ ﺗﻐﯿﯿﺮ ﻣ دﻫﺪ‬ ‫• ﺑﺎ وزندﻫ ﻧﻤﺎﯾﯽ ﺑﺎ ﺗﺄﺧّﺮ، ﺗﻐﯿﯿﺮ در ﭘﯿﺶﺑﯿﻨ ﻣﺸﺎﻫﺪاﺗ ﮐﻪ در ‪ k‬ﻣﺮﺣﻠﻪ ﭘﯿﺶ‬ ‫اﻧﺠﺎم ﺷﺪﻧﺪ ﻣﺘﻨﺎﺳﺐ اﺳﺖ ﺑﺎ ‪ λk‬ﺑﺮای ١ ≤ ‪٠ ≤ λ‬‬ ‫.‬ ‫.راﺑﻄﻪی ﺑﺮوزرﺳﺎﻧ وزنﻫﺎ )‪TD(λ‬‬ ‫..‬ ‫∑‬ ‫‪t‬‬ ‫) ‪∆wt = α(Pt+١ − Pt‬‬ ‫‪λt−k ∇w Pk‬‬ ‫)۵(‬ ‫١=‪k‬‬ ‫.‬ ‫..‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫۶۴ / ٢١‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
  • 21. ‫ﻣﻌﺮﻓ‬ ‫ﻣﻘﺪّﻣﻪ‬ ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬ ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬ ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫.‬ ‫ﺧﺎﻧﻮادهی روشﻫﺎی ﯾﺎدﮔﯿﺮی )‪TD(λ‬‬ ‫• در ⑴‪ ،TD‬ﺑﻪ ازای ﻫﺮ ﻣﺸﺎﻫﺪه، ﺑﺮدار وزنﻫﺎ ﻃﻮری ﺗﻐﯿﯿﺮ ﻣ ﮐﻨﺪ، ﮐﻪ ﺗﻤﺎم‬ ‫ﭘﯿﺶﺑﯿﻨ ﻫﺎی ﮔﺬﺷﺘﻪ را ﺑﻪ ﯾ ﻣﯿﺰان ﺗﻐﯿﯿﺮ ﻣ دﻫﺪ‬ ‫• ﮐﻼس روشﻫﺎی )‪ ،TD(λ‬ﭘﯿﺶﺑﯿﻨ ﻫﺎی ﺟﺪﯾﺪﺗﺮ را ﺑﯿﺶﺗﺮ از ﭘﯿﺶﺑﯿﻨ ﻫﺎی‬ ‫ﮔﺬﺷﺘﻪ ﺗﻐﯿﯿﺮ ﻣ دﻫﺪ‬ ‫• ﺑﺎ وزندﻫ ﻧﻤﺎﯾﯽ ﺑﺎ ﺗﺄﺧّﺮ، ﺗﻐﯿﯿﺮ در ﭘﯿﺶﺑﯿﻨ ﻣﺸﺎﻫﺪاﺗ ﮐﻪ در ‪ k‬ﻣﺮﺣﻠﻪ ﭘﯿﺶ‬ ‫اﻧﺠﺎم ﺷﺪﻧﺪ ﻣﺘﻨﺎﺳﺐ اﺳﺖ ﺑﺎ ‪ λk‬ﺑﺮای ١ ≤ ‪٠ ≤ λ‬‬ ‫.‬ ‫.راﺑﻄﻪی ﺑﺮوزرﺳﺎﻧ وزنﻫﺎ )‪TD(λ‬‬ ‫..‬ ‫∑‬ ‫‪t‬‬ ‫) ‪∆wt = α(Pt+١ − Pt‬‬ ‫‪λt−k ∇w Pk‬‬ ‫)۵(‬ ‫١=‪k‬‬ ‫.‬ ‫..‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫۶۴ / ٢١‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
  • 22. ‫ﻣﻌﺮﻓ‬ ‫ﻣﻘﺪّﻣﻪ‬ ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬ ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬ ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫.‬ ‫ﺧﺎﻧﻮادهی روشﻫﺎی ﯾﺎدﮔﯿﺮی )‪)TD(λ‬اداﻣﻪ(‬ ‫• ﻣﺰﯾﺖ وزندﻫ ﻧﻤﺎﯾﯽ در اﯾﻦ اﺳﺖ ﮐﻪ راﺑﻄﻪ را ﻣ ﺗﻮان ﺑﻪﺻﻮرت اﻓﺰاﯾﺸ‬ ‫ﻣﺤﺎﺳﺒﻪ ﮐﺮد‬ ‫• ﻣﺜﻼ اﮔﺮ ﻣﻘﺪار ﺟﻤﻊ در )۵( را ﺑﺮای ﻣﺮﺣﻠﻪی ‪ ،t‬ﺑﺎ ‪ st‬ﻧﻤﺎﯾﺶ دﻫﯿﻢ، در اﯾﻦ‬ ‫ﺻﻮرت ﻣﻘﺪار ١+‪ st‬را ﻣ ﺗﻮان ﺑﻪ ﺻﻮرت اﻓﺰاﯾﺸ ﻣﺤﺎﺳﺒﻪ ﮐﺮد‬ ‫∑‬ ‫١+‪t‬‬ ‫= ١+‪st‬‬ ‫‪λt+١−k ∇w Pk‬‬ ‫١=‪k‬‬ ‫∑‬ ‫‪t‬‬ ‫+ ١+‪= ∇w Pt‬‬ ‫‪λt+١−k ∇w Pk‬‬ ‫١=‪k‬‬ ‫‪= ∇w Pt+١ + λ st‬‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫۶۴ / ٣١‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
  • 23. ‫ﻣﻌﺮﻓ‬ ‫ﻣﻘﺪّﻣﻪ‬ ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬ ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬ ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫.‬ ‫ﺧﺎﻧﻮادهی روشﻫﺎی ﯾﺎدﮔﯿﺮی )‪)TD(λ‬اداﻣﻪ(‬ ‫• ﺑﻪ ازای ١ < ‪ ،λ‬ﺧﺎﻧﻮادهی روشﻫﺎی ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ ، ﺑﺮدار وزنﻫﺎ را ﺑﻪ‬ ‫ﺷ ﻠ ﮐﺎﻣﻼ ﻣﺘﻤﺎﯾﺰ ﺑﺎ ﺗﻤﺎﻣ روشﻫﺎی ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت ﺗﻐﯿﯿﺮ ﻣ دﻫﺪ‬ ‫• ﺑﻪ ازای ٠ = ‪ ،λ‬اﯾﻦ ﻣﻄﻠﺐ ﻣﺸﻬﻮدﺗﺮ اﺳﺖ. در )0(‪ ،TD‬ﻣﯿﺰان اﻓﺰاﯾﺶ در‬ ‫٠٠(‬ ‫ﺑﺮدار وزنﻫﺎ ﻣﺘﻨﺎﺳﺐ اﺳﺖ ﺑﺎ ﺗﺄﺛﯿﺮ آن در آﺧﺮﯾﻦ ﭘﯿﺶﺑﯿﻨ )ﺑﺎ ﻓﺮض ١ =‬ ‫.‬ ‫.روش ﺑﺮوز رﺳﺎﻧ وزنﻫﺎ )0(‪TD‬‬ ‫..‬ ‫‪∆wt = α(Pt+١ − Pt )∇w Pt‬‬ ‫)۶(‬ ‫.‬ ‫..‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫۶۴ / ۴١‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
  • 24. ‫ﻣﻌﺮﻓ‬ ‫ﻣﻘﺪّﻣﻪ‬ ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬ ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬ ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫.‬ ‫.اﻟ ﻮرﻳﺘﻢ )‪TD(λ‬‬ ‫..‬ ‫‪: x١ , x٢ , . . . , xm , z‬ورودی‬ ‫دﻧﺒﺎﻟﻪی ﻣﺸﺎﻫﺪات-ﻧﺘﯿﺠﻪ ◃‬ ‫‪: w‬ﺧﺮوﺟ‬ ‫ﺑﺮدار وزنﻫﺎ ◃‬ ‫٠‪1: w ← w‬‬ ‫ﺑﺮدار وزنﻫﺎ را ﺑﺎ ﻣﻘﺎدﯾﺮ دﻟﺨﻮاه ﻣﻘﺪاردﻫ اوﻟﯿﻪ ﮐﻦ ◃‬ ‫) ١‪2: Pt ← P(w, x‬‬ ‫١‪ x‬ﻣﺸﺎﻫﺪه ﺷﺪ ◃‬ ‫‪3: S ← ∇w Pt‬‬ ‫‪ S‬ﻫﻤﺎن ﺟﻤﻊ وزندار ﮔﺮادﯾﺎنﻫﺎﺳﺖ ◃‬ ‫‪4: for all xt , t = ٢, . . . , m do‬‬ ‫ﺑﺮای ﻣﺸﺎﻫﺪات ٢‪ x‬ﺗﺎ ‪◃ xm‬‬ ‫:5‬ ‫‪Pt−١ ← Pt‬‬ ‫:6‬ ‫) ‪Pt ← P(w, xt‬‬ ‫:7‬ ‫ﻣﯿﺰان اﻓﺰاﯾﺶ ﺑﺮدار وزنﻫﺎ ﺑﺮای ﻣﺸﺎﻫﺪهی ﻗﺒﻠ ◃ ‪∆wt−١ ← α(Pt − Pt−١ )S‬‬ ‫:8‬ ‫‪S ← ∇w Pt + λS‬‬ ‫:9‬ ‫١−‪w ← w + ∆wt‬‬ ‫ﺑﺮوزرﺳﺎﻧ ﺑﺮدار وزنﻫﺎ ◃‬ ‫‪10: end for‬‬ ‫‪11: ∆wt−١ ← α(z − Pt )S‬‬ ‫١−‪. w ← w + ∆wt‬‬ ‫:21‬ ‫ﺑﺮوزرﺳﺎﻧ ﻧﻬﺎﯾﯽ ﺑﺮدار وزنﻫﺎ ◃‬ ‫..‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫۶۴ / ۵١‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
  • 25. ‫ﻣﻌﺮﻓ‬ ‫ﻣﻘﺪّﻣﻪ‬ ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬ ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬ ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫.‬ ‫ﻣﺜﺎل ﻗﺪمﺑﺮداﺷﺘﻦ ﺗﺼﺎدﻓ )‪(Random Walk‬‬ ‫• ﺗﻤﺎﻣ اﭘﯿﺰودﻫﺎ از ﺧﺎﻧﻪی ﻣﺮﮐﺰ، ‪ ،C‬ﺷﺮوع ﻣ ﺷﻮﻧﺪ. ﺑﺎ اﺣﺘﻤﺎلﻫﺎی ﺑﺮاﺑﺮ‬ ‫ﺣﺮﮐﺖ ﺑﻪ ﺳﻤﺖ راﺳﺖ، ﯾﺎ ﭼﭗ اﻧﺠﺎم ﻣ ﺷﻮد. ﺑﺎ رﺳﯿﺪن ﺑﻪ ﻫﺮﯾ از‬ ‫ﺧﺎﻧﻪﻫﺎﯾﯽ ﮐﻪ ﺑﺎ ﻣﺮﺑﻊ ﻧﻤﺎﯾﺶ داده ﺷﺪهاﻧﺪ اﭘﯿﺰود ﭘﺎﯾﺎن ﻣ ﯾﺎﺑﺪ.‬ ‫• ﻫﺪف ﯾﺎﻓﺘﻦ اﺣﺘﻤﺎل اﯾﻦﮐﻪ از ﻫﺮﺧﺎﻧﻪ ﺑﻪ ﻣﺮﺑﻊ اﻧﺘﻬﺎﯾﯽ ﺳﻤﺖ راﺳﺖ ﺑﺮﺳﯿﻢ‬ ‫• اﯾﻦ اﺣﺘﻤﺎل ﺑﺮای ﻣﺮﺑﻊ ﺳﻤﺖ راﺳﺖ ﻣﺴﺎوی ١، و ﺑﺮای ﻣﺮﺑﻊ ﺳﻤﺖ ﭼﭗ‬ ‫ﻣﺴﺎوی ﺻﻔﺮ اﺳﺖ.‬ ‫• دو ﻧﻤﻮﻧﻪ از دﻧﺒﺎﻟﻪی ﻣﺸﺎﻫﺪه-ﻧﺘﯿﺠﻪ: 1‪ CDE‬و 0‪CDCBA‬‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫۶۴ / ۶١‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
  • 26. ‫ﻣﻌﺮﻓ‬ ‫ﻣﻘﺪّﻣﻪ‬ ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬ ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬ ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫.‬ ‫ﻣﺜﺎل ﻗﺪمﺑﺮداﺷﺘﻦ ﺗﺼﺎدﻓ )‪) (Random Walk‬اداﻣﻪ(‬ ‫• ﺑﺮای ﭘﯿﺎدهﺳﺎزی از )‪ TD(λ‬ﺧﻄ اﺳﺘﻔﺎده ﺷﺪه؛ ﯾﻌﻨ‬ ‫• ‪Pt = wT xt‬‬ ‫• ‪∇w Pt = xt‬‬ ‫• ﺑﻪﺟﺎی ﺑﺮدارﻫﺎی ﻣﺸﺎﻫﺪه از ﺑﺮدارﻫﺎی ﭘﺎﯾﻪی ۵‪ R‬اﺳﺘﻔﺎده ﺷﺪه؛ ﯾﻌﻨ‬ ‫• ‪xC = (٠, ٠, ١, ٠, ٠)T‬‬ ‫• ‪xE = (٠, ٠, ٠, ٠, ١)T‬‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫۶۴ / ٧١‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
  • 27. ‫ﻣﻌﺮﻓ‬ ‫ﻣﻘﺪّﻣﻪ‬ ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬ ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬ ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺗﺄﺛﯿﺮ ‪ λ‬ﺑﺮ دﻗّﺖ ﯾﺎدﮔﯿﺮی‬ ‫.‬ ‫‪ PredictionRandomWalk.m‬را اﺟﺮا ﮐﻨﯿﺪ‬ ‫2.0‬ ‫81.0‬ ‫61.0‬ ‫41.0‬ ‫‪RMS Error‬‬ ‫21.0‬ ‫1.0‬ ‫80.0‬ ‫60.0‬ ‫40.0‬ ‫0‬ ‫2.0‬ ‫4.0‬ ‫6.0‬ ‫8.0‬ ‫1‬ ‫‪λ‬‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫۶۴ / ٨١‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
  • 28. ‫ﻣﻌﺮﻓ‬ ‫ﻣﻘﺪّﻣﻪ‬ ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬ ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬ ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺗﺄﺛﯿﺮ ‪ α‬و ‪ λ‬ﺑﺮ دﻗّﺖ ﯾﺎدﮔﯿﺮی‬ ‫.‬ ‫‪ PredictionRandomWalkAlphaEffect.m‬را اﺟﺮا ﮐﻨﯿﺪ‬ ‫4.1‬ ‫0.0‬ ‫3.0‬ ‫8.0‬ ‫2.1‬ ‫0.1‬ ‫1‬ ‫‪RMS Error‬‬ ‫8.0‬ ‫6.0‬ ‫4.0‬ ‫2.0‬ ‫0‬ ‫0‬ ‫50.0‬ ‫1.0‬ ‫51.0‬ ‫2.0‬ ‫52.0‬ ‫3.0‬ ‫53.0‬ ‫4.0‬ ‫‪α‬‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫۶۴ / ٩١‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
  • 29. ‫ﻣﻌﺮﻓ‬ ‫ﻣﻘﺪّﻣﻪ‬ ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬ ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬ ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫.‬ ‫ﻣﺜﺎل - ﻣﺤﯿﻂﻫﺎی ﻣﺎرﮐﻮف‬ ‫• ﻣﺰﯾﺖ روشﻫﺎی ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ ﻧﺴﺒﺖ ﺑﻪ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت ﺗﻨﻬﺎ در ﺳﺮﻋﺖ‬ ‫ﻧﯿﺴﺖ‬ ‫• در ﺑﺮﺧ ﻣﻮﻗﻌﯿﺖﻫﺎ روشﻫﺎی ﺗﻔﺎﺿﻞ زﻣﺎﻧ ﺟﻮاب ﺻﺤﯿﺢﺗﺮی ﻧﺴﺒﺖ ﺑﻪ‬ ‫روشﻫﺎی ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت اراﺋﻪ ﻣ دﻫﻨﺪ‬ ‫• ﻣﺜﻼ در ﻣﺤﯿﻂﻫﺎی ﻣﺎرﮐﻮف‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫۶۴ / ٠٢‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
  • 30. ‫ﻣﻌﺮﻓ‬ ‫ﻣﻘﺪّﻣﻪ‬ ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬ ‫اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫ﻣﺜﺎلﻫﺎ‬ ‫.‬ ‫ﻣﻘﺪّﻣﻪای ﺑﺮ ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫• زﯾﺮ ﺷﺎﺧﻪای از ﯾﺎدﮔﯿﺮی ﻣﺎﺷﯿﻦ، آﻏﺎز در ﻧﻈﺮﯾﻪی ﮐﻨﺘﺮل‬ ‫• ﯾﺎدﮔﯿﺮی از ﻃﺮﯾﻖ ﺗﻌﺎﻣﻞ ﺑﺎ ﻣﺤﯿﻂ‬ ‫• اﺟﺰای ﺗﺸ ﯿﻞ دﻫﻨﺪهی ﻣﺴﺌﻠﻪی ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ :‬ ‫ﻋﺎﻣﻞ‬ ‫•‬ ‫ﻣﺤﯿﻂ‬ ‫•‬ ‫ﮐﻨﺶ‬ ‫•‬ ‫ﭘﺎداش )ﺳﯿ ﻨﺎل ﺗﻘﻮﯾﺘ (‬ ‫•‬ ‫• ﻫﺪف ﻋﺎﻣﻞ: در ﻫﺮ وﺿﻌﯿﺖ، ﻃﻮری رﻓﺘﺎر ﮐﻨﺪ ﮐﻪ ﻣﺠﻤﻮع ﭘﺎداشﻫﺎی ﻣﻮرد‬ ‫اﻧﺘﻈﺎر درﯾﺎﻓﺘ از ﻣﺤﯿﻂ، در دراز ﻣﺪّت ﺑﯿﺸﯿﻨﻪ ﺷﻮد‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫۶۴ / ١٢‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
  • 31. ‫ﻣﻌﺮﻓ‬ ‫ﻣﻘﺪّﻣﻪ‬ ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬ ‫اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫ﻣﺜﺎلﻫﺎ‬ ‫ﻣﻘﺪّﻣﻪای ﺑﺮ ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ )اداﻣﻪ(‬ ‫.‬ ‫ﺗﻌﺎﻣﻞ ﻋﺎﻣﻞ ﺑﺎ ﻣﺤﯿﻂ در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫۶۴ / ٢٢‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
  • 32. ‫ﻣﻌﺮﻓ‬ ‫ﻣﻘﺪّﻣﻪ‬ ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬ ‫اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫ﻣﺜﺎلﻫﺎ‬ ‫.‬ ‫ﻣﺪل ﺑﯿﺸﯿﻨﻪﮐﺮدن ﭘﺎداش در دراز ﻣﺪّت‬ ‫.‬ ‫.ﻣﺪل اﻓﻖ ﻧﺎﻣﺤﺪود ﺗﺨﻔﯿﻒ ﯾﺎﻓﺘﻪ‬ ‫..‬ ‫ﻫﺪف ﺑﯿﺸﻨﻪ ﮐﺮدن اﻣﯿﺪ رﯾﺎﺿ زﯾﺮ اﺳﺖ:‬ ‫∞‬ ‫∑‬ ‫(‪E‬‬ ‫) ‪γ t rt‬‬ ‫١<‪ ٠≤γ‬و‬ ‫٠=‪t‬‬ ‫.‬ ‫ﭘﺎداشﻫﺎی آﯾﻨﺪه، ﺑﺎ ﺿﺮﯾﺐ ﺗﺨﻔﯿﻒ ‪ γ‬ﺑﻪ ﻃﻮر ﻫﻨﺪﺳ ﺗﺨﻔﯿﻒ داده ﻣ ﺷﻮﻧﺪ‬ ‫..‬ ‫.‬ ‫.‬ ‫• ﺿﺮﯾﺐ ‪ γ‬ﻣﻮﺟﺐ ﻣ ﺷﻮد ﮐﻪ ﭘﺎداش آﻧ ، وزن ﺑﯿﺸﺘﺮی ﻧﺴﺒﺖ ﺑﻪ ﭘﺎداشﻫﺎی‬ ‫ﻣﻮرد اﻧﺘﻈﺎر در آﯾﻨﺪه داﺷﺘﻪ ﺑﺎﺷﺪ، و در ﻋﯿﻦ ﺣﺎل ﭘﺎداشﻫﺎی آﯾﻨﺪه ﻧﯿﺰ ﻧﺎدﯾﺪه‬ ‫ﮔﺮﻓﺘﻪ ﻧﺸﻮﻧﺪ‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫۶۴ / ٣٢‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
  • 33. ‫ﻣﻌﺮﻓ‬ ‫ﻣﻘﺪّﻣﻪ‬ ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬ ‫اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫ﻣﺜﺎلﻫﺎ‬ ‫.‬ ‫ﻣﺪل ﺑﯿﺸﯿﻨﻪﮐﺮدن ﭘﺎداش در دراز ﻣﺪّت )اداﻣﻪ(‬ ‫• ﻫﺮﭼﻪ ‪ γ‬ﺑﻪ ١ ﻧﺰدﯾ ﺗﺮ ﺑﺎﺷﺪ، اﻟ ﻮرﯾﺘﻢ ﯾﺎدﮔﯿﺮی آﯾﻨﺪهﻧﮕﺮﺗﺮ ﻣ ﺷﻮد و ﻫﺮ ﭼﻪ ‪γ‬‬ ‫ﺑﻪ ﺻﻔﺮ ﻧﺰدﯾ ﺗﺮ ﺑﺎﺷﺪ اﻟ ﻮرﯾﺘﻢ ﯾﺎدﮔﯿﺮی ﺣﺮﯾﺺﺗﺮ ﻣ ﺷﻮد‬ ‫• ﮐﺎرﺑﺮد دﯾ ﺮ ﺿﺮﯾﺐ ‪ ،γ‬ﮐﺮاندار ﮐﺮدن ﺳﺮی ﻓﻮق اﺳﺖ )ﮐﺎرﺑﺮد در اﺛﺒﺎت‬ ‫ﻗﻀﺎﯾﺎی ﻫﻤ ﺮاﯾﯽ(‬ ‫ﺑﺎ ﺗﻌﺪاد‬ ‫• اﻧﺘﺨﺎب ١ = ‪ ،γ‬ﻏﯿﺮﻣﺠﺎز اﺳﺖ ﻣ ﺮ در ﺳﻨﺎرﯾﻮﻫﺎی اﭘﯿﺰودﯾ‬ ‫ﻣﺮاﺣﻞ ﻣﺤﺪود‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫۶۴ / ۴٢‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
  • 34. ‫ﻣﻌﺮﻓ‬ ‫ﻣﻘﺪّﻣﻪ‬ ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬ ‫اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫ﻣﺜﺎلﻫﺎ‬ ‫.‬ ‫اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫• ﯾ ﻋﺎﻣﻞ در ﻫﺮ ﻟﺤﻈﻪی ‪ ،t‬زوج ﻣﺮﺗﺐ ) ‪ (xt , rt‬را درﯾﺎﻓﺖ ﻣ ﮐﻨﺪ‬ ‫• ‪ xt‬ﺑﺮدار ﻣﺸﺎﻫﺪات ﻋﺎﻣﻞ در ﻟﺤﻈﻪی ‪ t‬اﺳﺖ‬ ‫• ‪ rt‬ﯾ ﻋﺪد ﺣﻘﯿﻘ ﻣﻌﺮف ﭘﺎداش ﻋﺎﻣﻞ در ﻟﺤﻈﻪی ‪t‬‬ ‫• ﺑﺮدار ﻣﺸﺎﻫﺪات، ‪xt‬ﻣ ﺗﻮاﻧﺪ ﺻﺮﻓﺎً ﺣﺎﻟﺖ ﻣﺤﯿﻂ ﺑﺎﺷﺪ، ﯾﺎ ﻋﻼوه ﺑﺮ آن ﺷﺎﻣﻞ‬ ‫ﮐﻨﺶ ﻋﺎﻣﻞ در ﻟﺤﻈﻪی ‪ t‬ﻧﯿﺰ ﺑﺎﺷﺪ:‬ ‫‪xt = st‬‬ ‫ﯾﺎ‬ ‫⟩ ‪xt = ⟨st , at‬‬ ‫• ﻫﺪف: ﺑﺎ اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ ، ﺑﺎ درﯾﺎﻓﺖ دﻧﺒﺎﻟﻪﻫﺎی ) ‪،(xt , rt‬‬ ‫ﺑﺮای . . . ,١ ,٠ = ‪ ،t‬در ﻫﺮ ﻟﺤﻈﻪی ‪ ،t‬ﭘﯿﺶﺑﯿﻨ ‪ Pt‬از ﮐﻤﯿﺖ زﯾﺮ را اﻧﺠﺎم‬ ‫دﻫﯿﻢ:‬ ‫∞‬ ‫∑‬ ‫= . . . + ٣+‪Rt = rt+١ + γrt+٢ + γ ٢ rt‬‬ ‫‪γ i−١ rt+i‬‬ ‫١=‪i‬‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫۶۴ / ۵٢‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
  • 35. ‫ﻣﻌﺮﻓ‬ ‫ﻣﻘﺪّﻣﻪ‬ ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬ ‫اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫ﻣﺜﺎلﻫﺎ‬ ‫.‬ ‫اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫• ﯾ ﻋﺎﻣﻞ در ﻫﺮ ﻟﺤﻈﻪی ‪ ،t‬زوج ﻣﺮﺗﺐ ) ‪ (xt , rt‬را درﯾﺎﻓﺖ ﻣ ﮐﻨﺪ‬ ‫• ‪ xt‬ﺑﺮدار ﻣﺸﺎﻫﺪات ﻋﺎﻣﻞ در ﻟﺤﻈﻪی ‪ t‬اﺳﺖ‬ ‫• ‪ rt‬ﯾ ﻋﺪد ﺣﻘﯿﻘ ﻣﻌﺮف ﭘﺎداش ﻋﺎﻣﻞ در ﻟﺤﻈﻪی ‪t‬‬ ‫• ﺑﺮدار ﻣﺸﺎﻫﺪات، ‪xt‬ﻣ ﺗﻮاﻧﺪ ﺻﺮﻓﺎً ﺣﺎﻟﺖ ﻣﺤﯿﻂ ﺑﺎﺷﺪ، ﯾﺎ ﻋﻼوه ﺑﺮ آن ﺷﺎﻣﻞ‬ ‫ﮐﻨﺶ ﻋﺎﻣﻞ در ﻟﺤﻈﻪی ‪ t‬ﻧﯿﺰ ﺑﺎﺷﺪ:‬ ‫‪xt = st‬‬ ‫ﯾﺎ‬ ‫⟩ ‪xt = ⟨st , at‬‬ ‫• ﻫﺪف: ﺑﺎ اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ ، ﺑﺎ درﯾﺎﻓﺖ دﻧﺒﺎﻟﻪﻫﺎی ) ‪،(xt , rt‬‬ ‫ﺑﺮای . . . ,١ ,٠ = ‪ ،t‬در ﻫﺮ ﻟﺤﻈﻪی ‪ ،t‬ﭘﯿﺶﺑﯿﻨ ‪ Pt‬از ﮐﻤﯿﺖ زﯾﺮ را اﻧﺠﺎم‬ ‫دﻫﯿﻢ:‬ ‫∞‬ ‫∑‬ ‫= . . . + ٣+‪Rt = rt+١ + γrt+٢ + γ ٢ rt‬‬ ‫‪γ i−١ rt+i‬‬ ‫١=‪i‬‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫۶۴ / ۵٢‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
  • 36. ‫ﻣﻌﺮﻓ‬ ‫ﻣﻘﺪّﻣﻪ‬ ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬ ‫اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫ﻣﺜﺎلﻫﺎ‬ ‫.‬ ‫اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ )اداﻣﻪ(‬ ‫• در روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ ، ﻣﻘﺎدﯾﺮ ﺑﺮدار وزنﻫﺎ ﯾﺎدﮔﺮﻓﺘﻪ ﻣ ﺷﻮﻧﺪ.‬ ‫• در ﺻﻮرت اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ ﺧﻄ ، ﻃﻮل ﺑﺮدار وزنﻫﺎ ﺑﺮاﺑﺮ‬ ‫اﺳﺖ ﺑﺎ ﻃﻮل ﺑﺮدار ﻣﺸﺎﻫﺪات.‬ ‫• در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ در ﺻﻮرﺗ ﮐﻪ ﺑﺮدار ﻣﺸﺎﻫﺪات ﺻﺮﻓﺎً ﺷﺎﻣﻞ وﺿﻌﯿﺖ ﻣﺤﯿﻂ‬ ‫ﺑﺎﺷﺪ، ﺑﻪ ﺑﺮدار وزنﻫﺎ ﻣ ﮔﻮﯾﻨﺪ ﺗﺎﺑﻊ ارزش و آن را ﺑﺎ ‪ V‬ﻧﻤﺎﯾﺶ ﻣ دﻫﻨﺪ‬ ‫• در ﺻﻮرﺗ ﮐﻪ ﺑﺮدار ﻣﺸﺎﻫﺪات ﻋﻼوه ﺑﺮ وﺿﻌﯿﺖ ﻣﺤﯿﻂ، ﺷﺎﻣﻞ ﮐﻨﺶ ﻧﯿﺰ ﺑﺎﺷﺪ،‬ ‫آن را ﺑﺎ ‪ Q‬ﻧﻤﺎﯾﺶ ﻣ دﻫﻨﺪ‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫۶۴ / ۶٢‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
  • 37. ‫ﻣﻌﺮﻓ‬ ‫ﻣﻘﺪّﻣﻪ‬ ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬ ‫اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫ﻣﺜﺎلﻫﺎ‬ ‫.‬ ‫اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ )اداﻣﻪ(‬ ‫ﻋﻀﻮ از ﻓﻀﺎی ﺣﺎﻻت‬ ‫• در ﻫﺮ ﻟﺤﻈﻪ ﻣﺤﯿﻂ دارای وﺿﻌﯿﺖ ‪ s‬اﺳﺖ ﮐﻪ ‪ s‬ﯾ‬ ‫‪ S‬ﻣ ﺑﺎﺷﺪ‬ ‫• ﺑﺎ ﻓﺮض ﮔﺴﺴﺘﻪ و ﻣﺤﺪود ﺑﻮدن ﻓﻀﺎی ﺣﺎﻻت، ﺑﻪازای ﻫﺮ ﺣﺎﻟﺖ در ﻓﻀﺎی‬ ‫ﺣﺎﻻت، ﯾ دراﯾﻪ در ﺑﺮدار وزنﻫﺎ در ﻧﻈﺮ ﺑ ﯿﺮﯾﻢ. در اﯾﻦ ﺻﻮرت ﺑﺪﺳﺖ‬ ‫آوردن ارزش ﻫﺮ ﺣﺎﻟﺖ ﺑﻪ ﺳﺎدﮔ ﺟﺴﺘﺠﻮ در ﯾ ﺟﺪول ﺧﻮاﻫﺪ ﺑﻮد.‬ ‫)‪|V | = n(S‬‬ ‫• ﺑﺮدار ﻣﺸﺎﻫﺪه را ﻃﻮری در ﻧﻈﺮ ﻣ ﮔﯿﺮﯾﻢ ﮐﻪ ﻓﻘﻂ ﻣﺸﺨّﺺ ﮐﻨﺪ، ﮐﺪام ﺣﺎﻟﺖ‬ ‫در ﻓﻀﺎی ﺣﺎﻻت ﻣﺸﺎﻫﺪه ﺷﺪه اﺳﺖ، ﺑﻨﺎﺑﺮاﯾﻦ ﻫﺮ ﺑﺮدار ﻣﺸﺎﻫﺪه، ﯾ ﭘﺎﯾﻪ ﺑﺮای‬ ‫ﻓﻀﺎی )‪ Rn(S‬اﺳﺖ‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫۶۴ / ٧٢‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
  • 38. ‫ﻣﻌﺮﻓ‬ ‫ﻣﻘﺪّﻣﻪ‬ ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬ ‫اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫ﻣﺜﺎلﻫﺎ‬ ‫• ﺑﺎ اﺳﺘﻔﺎده از )0(‪ TD‬ﺧﻄ :‬ ‫‪∆Vt = α(Pt+١ − Pt )∇V Pt‬‬ ‫‪Pt = VT xt ⇒ ∇V Pt = xt‬‬ ‫• اﮔﺮ وﺿﻌﯿﺖ ﻣﺤﯿﻂ در ﻟﺤﻈﻪی ‪ ،t‬ﻫﻤﺎن وﺿﻌﯿﺖ ﺷﻤﺎرهی ‪s‬ام ﺑﺎﺷﺪ در ﻓﻀﺎی‬ ‫ﺣﺎﻟﺖ ‪ ،S‬ﺗﻨﻬﺎ دراﯾﻪی ‪s‬ام ﺑﺮدار ‪ ،xt‬ﻣﺴﺎوی ﯾ اﺳﺖ. ﺑﻨﺎﺑﺮاﯾﻦ:‬ ‫) ‪Vt+١ (s) ← Vt (s) + α(Pt+١ − Pt‬‬ ‫• ﮐﻪ در آن ﻣﻨﻈﻮر از )‪ ،V(s‬دراﯾﻪی ‪s‬ام ﺑﺮدار ‪ V‬اﺳﺖ؛ و ﻣﻨﻈﻮر از ‪ ،Vt‬ﻧﺴﺨﻪای‬ ‫از ﺑﺮدار ‪ V‬اﺳﺖ ﮐﻪ در زﻣﺎن ‪ ،t‬در دﺳﺘﺮس ﺑﻮد.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫۶۴ / ٨٢‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
  • 39. ‫ﻣﻌﺮﻓ‬ ‫ﻣﻘﺪّﻣﻪ‬ ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬ ‫اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫ﻣﺜﺎلﻫﺎ‬ ‫• اﮔﺮ ٠ = ‪γ‬؛ آنﮔﺎه ١+‪ ،Pt+١ = rt‬و ﻫﻤﭽﻨﯿﻦ دارﯾﻢ:‬ ‫)‪Pt = Pt (xt ) = VT xt = V(s‬‬ ‫• ﺗﺎﺑﻊ ﭘﯿﺶﺑﯿﻨ ﻫﻤﺎن ﺑﺮدار ارزشﻫﺎ اﺳﺖ، و ﺑﺎ ﯾﺎدﮔﯿﺮی آن ﺑﻪ ﻃﻮر ﺧﻮدﺑﻪﺧﻮد‬ ‫ﺗﺎﺑﻊ ﭘﯿﺶﺑﯿﻨ را ﻧﯿﺰ ﯾﺎد ﮔﺮﻓﺘﻪاﯾﻢ‬ ‫))‪Vt+١ (s) ← Vt (s) + α(rt+١ − Vt (s‬‬ ‫)٧(‬ ‫• ‪ s‬وﺿﻌﯿﺖ ﻣﺤﯿﻂ در ﻟﺤﻈﻪی ‪ t‬اﺳﺖ‬ ‫• اﯾﻦ اﻟ ﻮرﯾﺘﻢ در ﻫﺮ ﻟﺤﻈﻪی ‪ ،t‬ﻣﻘﺎدﯾﺮ ﺑﺮدار ارزشﻫﺎ در ﮔﺎم زﻣﺎﻧ ﻗﺒﻠ را‬ ‫ﺑﺮوز ﻣ ﮐﻨﺪ‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫۶۴ / ٩٢‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
  • 40. ‫ﻣﻌﺮﻓ‬ ‫ﻣﻘﺪّﻣﻪ‬ ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬ ‫اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫ﻣﺜﺎلﻫﺎ‬ ‫• اﮔﺮ ٠ ≠ ‪γ‬؛ آنﮔﺎه‬ ‫. . . + ٣+‪Pt+١ = Rt = rt+١ + γrt+٢ + γ ٢ rt‬‬ ‫). . . + ٣+‪= rt+١ + γ (rt+٢ + γrt‬‬ ‫١+‪= rt+١ + γRt‬‬ ‫• اﮔﺮ وﺿﻌﯿﺖ ﺑﻌﺪ از ‪ s‬را ﺑﺎ ′‪ s‬ﻧﺸﺎن دﻫﯿﻢ، آنﮔﺎه ﻣ داﻧﯿﻢ ﮐﻪ ) ′‪ Vt (s‬ﺗﺨﻤﯿﻨ‬ ‫ﺑﺮای ١+‪ Rt‬اﺳﺖ در ﻟﺤﻈﻪی ‪t‬‬ ‫• ﺑﻨﺎﺑﺮاﯾﻦ ﻣ ﺗﻮاﻧﯿﻢ ‪ Rt‬را ﺑﺎ ) ′‪ rt+١ + γVt (s‬ﺗﺨﻤﯿﻦ ﺑﺰﻧﯿﻢ‬ ‫))‪Vt+١ (s) ← Vt (s) + α(rt+١ + γVt (s′ ) − Vt (s‬‬ ‫)٨(‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫۶۴ / ٠٣‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
  • 41. ‫ﻣﻌﺮﻓ‬ ‫ﻣﻘﺪّﻣﻪ‬ ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬ ‫اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫ﻣﺜﺎلﻫﺎ‬ ‫.‬ ‫آﺷﻨﺎﯾﯽ ﺑﺎ ﭼﻨﺪ ﺗﻌﺮﯾﻒ‬ ‫.‬ ‫.ﺳﯿﺎﺳﺖ ﻋﺎﻣﻞ‬ ‫..‬ ‫ﻧﮕﺎﺷﺘ ﮐﻪ ﻣﺸﺨّﺺ ﻣ ﮐﻨﺪ، ﻋﺎﻣﻞ در ﻫﺮ وﺿﻌﯿﺖ، ﻣﻤ ﻦ اﺳﺖ ﭼﻪ ﮐﻨﺸ را اﻧﺠﺎم‬ ‫دﻫﺪ را ﺳﯿﺎﺳﺖ ١ ﻋﺎﻣﻞ ﻣ ﮔﻮﯾﻨﺪ، و آن را ﺑﺎ ‪ π‬ﻧﺸﺎن ﻣ دﻫﻨﺪ‬ ‫‪. Policy‬‬ ‫..‬ ‫.‬ ‫.‬ ‫.‬ ‫.ﺳﯿﺎﺳﺖ اﭘﺴﯿﻠﻮن-ﺣﺮﯾﺼﺎﻧﻪ‬ ‫..‬ ‫ﺳﯿﺎﺳﺘ ﮐﻪ در آن ﻋﺎﻣﻞ ﺑﻪ اﺣﺘﻤﺎل ‪ ϵ‬ﮐﻨﺶ ﺗﺼﺎدﻓ را اﻧﺠﺎم ﻣ دﻫﺪ، و در ﺑﺎﻗ ﻣﻮاﻗﻊ‬ ‫ﮐﻨﺸ را اﻧﺠﺎم ﻣ دﻫﺪ ﮐﻪ در ﺗﺎﺑﻊ ارزش ﺑﯿﺸﺘﺮﯾﻦ ارزش را ﺑﺨﻮد اﺧﺘﺼﺎص داده.‬ ‫ﻫﺮﭼﻪ اﭘﺴﯿﻠﻮن ﺑﯿﺸﺘﺮ ﺑﺎﺷﺪ ﻋﺎﻣﻞ زﻣﺎن ﺑﯿﺸﺘﺮی را ﺻﺮف ﺗﺠﺮﺑﻪ ﮐﺮدن ﻣﺤﯿﻂ ﻧﺎﺷﻨﺎﺧﺘﻪ‬ ‫اﻃﺮاف ﺧﻮد ﻣ ﮐﻨﺪ. ٢‬ ‫‪. ϵ-greedy‬‬ ‫..‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫۶۴ / ١٣‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬
  • 42. ‫ﻣﻌﺮﻓ‬ ‫ﻣﻘﺪّﻣﻪ‬ ‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬ ‫اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫ﻣﺜﺎلﻫﺎ‬ ‫.‬ ‫آﺷﻨﺎﯾﯽ ﺑﺎ ﭼﻨﺪ ﺗﻌﺮﯾﻒ‬ ‫.‬ ‫.ﺳﯿﺎﺳﺖ ﻋﺎﻣﻞ‬ ‫..‬ ‫ﻧﮕﺎﺷﺘ ﮐﻪ ﻣﺸﺨّﺺ ﻣ ﮐﻨﺪ، ﻋﺎﻣﻞ در ﻫﺮ وﺿﻌﯿﺖ، ﻣﻤ ﻦ اﺳﺖ ﭼﻪ ﮐﻨﺸ را اﻧﺠﺎم‬ ‫دﻫﺪ را ﺳﯿﺎﺳﺖ ١ ﻋﺎﻣﻞ ﻣ ﮔﻮﯾﻨﺪ، و آن را ﺑﺎ ‪ π‬ﻧﺸﺎن ﻣ دﻫﻨﺪ‬ ‫‪. Policy‬‬ ‫..‬ ‫.‬ ‫.‬ ‫.‬ ‫.ﺳﯿﺎﺳﺖ اﭘﺴﯿﻠﻮن-ﺣﺮﯾﺼﺎﻧﻪ‬ ‫..‬ ‫ﺳﯿﺎﺳﺘ ﮐﻪ در آن ﻋﺎﻣﻞ ﺑﻪ اﺣﺘﻤﺎل ‪ ϵ‬ﮐﻨﺶ ﺗﺼﺎدﻓ را اﻧﺠﺎم ﻣ دﻫﺪ، و در ﺑﺎﻗ ﻣﻮاﻗﻊ‬ ‫ﮐﻨﺸ را اﻧﺠﺎم ﻣ دﻫﺪ ﮐﻪ در ﺗﺎﺑﻊ ارزش ﺑﯿﺸﺘﺮﯾﻦ ارزش را ﺑﺨﻮد اﺧﺘﺼﺎص داده.‬ ‫ﻫﺮﭼﻪ اﭘﺴﯿﻠﻮن ﺑﯿﺸﺘﺮ ﺑﺎﺷﺪ ﻋﺎﻣﻞ زﻣﺎن ﺑﯿﺸﺘﺮی را ﺻﺮف ﺗﺠﺮﺑﻪ ﮐﺮدن ﻣﺤﯿﻂ ﻧﺎﺷﻨﺎﺧﺘﻪ‬ ‫اﻃﺮاف ﺧﻮد ﻣ ﮐﻨﺪ. ٢‬ ‫‪. ϵ-greedy‬‬ ‫..‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫۶۴ / ١٣‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬