Temporal Difference Methods (Persian)

‫ﻣﻌﺮﻓ‬
‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬
‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬

‫.‬
‫.‬
‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬
‫.‬
‫..‬ ‫.‬

‫.‬
‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن‬

‫داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ‬

‫۵ ﺧﺮداد ٨٨٣١‬

‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬

‫۶۴ / ١‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬

‫ﻣﻌﺮﻓ‬
‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬
‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬

‫.‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬

‫روش ﯾﺎدﮔﯿﺮی اﺳﺖ‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ ﯾ‬
‫ﺳﯿﺴﺘﻢ ﭘﻮﯾﺎ در دراز ﻣﺪّت‬ ‫• ﯾﺎدﮔﯿﺮی ﺑﺮای ﭘﯿﺶﺑﯿﻨ وﺿﻌﯿﺖ ﯾ‬
‫• ﯾﺎدﮔﯿﺮی ﺑﺮای ﮐﻨﺘﺮل ⇐ ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬
‫اﻧﻮاع روشﻫﺎی ﯾﺎدﮔﯿﺮی:‬
‫ﺳﺮی ورودی و ﭘﺎﺳﺦ ﺻﺤﯿﺢ از ﻗﺒﻞ ﺗﻌﯿﯿﻦ‬ ‫• ﯾﺎدﮔﯿﺮی ﺑﺎﻧﻈﺎرت: ﻋﺎﻣﻞ ﺑﺎ ﯾ‬
‫ﺷﺪه آﻣﻮزش ﻣ ﺑﯿﻨﺪ‬
‫• ﯾﺎدﮔﯿﺮی ﺑﯽﻧﻈﺎرت: ﻋﺎﻣﻞ ﻫﯿﭻ ﺑﺎزﺧﻮردی درﯾﺎﻓﺖ ﻧﻤ ﮐﻨﺪ؛ ورودیﻫﺎ را‬
‫ﺑﺼﻮرت ﺧﻮﺷﻪﻫﺎ، ﯾﺎ ﻃﺒﻘﻪﺑﻨﺪیﻫﺎ ﺑﺎزﺳﺎزی ﻣ ﮐﻨﺪ‬
‫• ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ : ﯾﺎدﮔﯿﺮی از ﻃﺮﯾﻖ ﺗﻌﺎﻣﻞ ﺑﺎ ﻣﺤﯿﻂ، و ﺳﻌ و ﺧﻄﺎ ﺗﻮﺳﻂ‬
‫ﺧﻮد ﻋﺎﻣﻞ‬
‫ﯾﺎدﮔﯿﺮی ﺑﻪ روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ از ﻧﻮع ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ ﺑﻪﺣﺴﺎب ﻣ آﯾﺪ‬
‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬

‫۶۴ / ٢‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬

‫ﻣﻌﺮﻓ‬ ‫ﻣﻘﺪّﻣﻪ‬
‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬ ‫رﻫﯿﺎﻓﺖ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬
‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫رﻫﯿﺎﻓﺖ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬

‫.‬ ‫ﭘﯿﺶﺑﯿﻨ ﭼﻨﺪﻣﺮﺣﻠﻪای‬
‫.‬
‫.ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ ﭼﻨﺪ ﻣﺮﺣﻠﻪای‬
‫..‬
‫• ورودی: دﻧﺒﺎﻟﻪی ﻣﺸﺎﻫﺪات-ﻧﺘﯿﺠﻪ: ‪x١ , x٢ , . . . , xm , z‬‬
‫• ﺧﺮوﺟ : ‪P١ , P٢ , . . . , Pm‬‬
‫• ‪ xt‬ﺑﺮدار ﻣﺸﺎﻫﺪه در ﻣﺮﺣﻠﻪی ‪ t‬ﺑﺎ دراﯾﻪﻫﺎی ﺣﻘﯿﻘ )ﺑﺮداری از اﻧﺪازهﮔﯿﺮیﻫﺎ‬
‫ﯾﺎ ﺧﺼﻮﺻﯿﺎت ﻣﺤﯿﻂ( اﺳﺖ‬
‫اﺳ ﺎﻟﺮ ﺣﻘﯿﻘ و ﻧﺘﯿﺠﻪی دﻧﺒﺎﻟﻪی ﻣﺸﺎﻫﺪات اﺳﺖ‬ ‫• ‪z‬ﯾ‬
‫• ‪ Pt‬ﭘﯿﺶﺑﯿﻨ ﻣﻘﺪار ‪ z‬ﮐﻪ در ﻣﺮﺣﻠﻪی ‪ t‬اﻧﺠﺎم ﺷﺪه، ‪ P‬ﺗﺎﺑﻌ از ‪ xt‬و ﺑﺮدار‬
‫وزنﻫﺎ ‪) ،w‬ﺑﺮداری از ﭘﺎراﻣﺘﺮﻫﺎی ﺗﻐﯿﯿﺮ ﭘﺬﯾﺮ( اﺳﺖ و آن را ﺑﺎ )‪ P(xt , w‬ﻧﺸﺎن‬
‫ﻣ دﻫﻨﺪ، ﺑﻪ ‪ P‬ﺗﺎﺑﻊ ﭘﯿﺶﺑﯿﻨ ﻣ ﮔﻮﯾﻨﺪ.‬
‫.‬
‫..‬ ‫.‬

‫.‬
‫.‬
‫.ﻣﺜﺎل‬
‫..‬
‫ﭘﯿﺶﺑﯿﻨ اﯾﻦ ﮐﻪ آﯾﺎ روز ﺟﻤﻌﻪ ﺑﺎران ﻣ ﺑﺎرد ﯾﺎ ﺧﯿﺮ، از ﻃﺮﯾﻖ ﻣﺸﺎﻫﺪهی وﺿﻌﯿﺖ ﻫﻮای‬
‫دوﺷﻨﺒﻪ، و اﻧﺠﺎم ﭘﯿﺶﺑﯿﻨ ﺑﺮای روزﻫﺎی ﻣﺘﻮاﻟ ﺗﺎ ﺟﻤﻌﻪ‬
‫۵ ﺧﺮداد ٨٨٣١ .‬
‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬

‫۶۴ / ٣‬ ‫..‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫.‬
‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬

‫.‬


‫.‬ ‫ﭘﯿﺶﺑﯿﻨ ﺗﮏﻣﺮﺣﻠﻪای‬

‫.‬
‫.ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ ﺗﮏ ﻣﺮﺣﻠﻪای‬
‫..‬
‫• ﭘﯿﺶﺑﯿﻨ ﭼﻨﺪﻣﺮﺣﻠﻪای ﺑﻪ ازای ١ = ‪m‬‬
‫• دﯾ ﺮ در زﻣﺮهی ﻣﺴﺎﺋﻞ ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ ﻗﺮار ﻧﻤ ﮔﯿﺮد‬
‫• در دﺳﺘﻪی ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت ﻗﺮار ﻣ ﮔﯿﺮد )ﭼﻮن ﺑﻼﻓﺎﺻﻠﻪ ﭘﺲ از ﭘﯿﺶﺑﯿﻨ ،‬
‫ﻧﺘﯿﺠﻪ ﻧﯿﺰ اراﺋﻪ ﻣ ﺷﻮد(‬
‫.‬
‫..‬ ‫.‬

‫.‬
‫.‬
‫.ﻣﺜﺎل‬
‫..‬
‫ﭘﯿﺶﺑﯿﻨ اﯾﻦ ﮐﻪ آﯾﺎ روز ﺟﻤﻌﻪ ﺑﺎران ﻣ ﺑﺎرد ﯾﺎ ﺧﯿﺮ، از ﻃﺮﯾﻖ ﻣﺸﺎﻫﺪهی وﺿﻌﯿﺖ‬
‫.‬ ‫ﻫﻮای ﭘﻨﺞﺷﻨﺒﻪ‬
‫..‬ ‫.‬

‫.‬
‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬

‫۶۴ / ۴‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬


‫.‬ ‫ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت‬

‫• ﻣﻨﻈﻮر از ﯾﺎدﮔﯿﺮی، ﺗﻨﻈﯿﻢ ﻣﻘﺎدﯾﺮ ﺑﺮدار وزنﻫﺎ ‪ w‬اﺳﺖ، ﺑﻪﻃﻮرﯾ ﻪ ﺧﻄﺎی ﺗﺎﺑﻊ‬
‫ﭘﯿﺶﺑﯿﻨ در ﻫﺮ ﻣﺮﺣﻠﻪ ﮐﻤﯿﻨﻪ ﺷﻮد.‬
‫• ﺑﻪازای ﻫﺮﻣﺮﺣﻠﻪ ﻣ ﺗﻮان ﺗﻐﯿﯿﺮ در ﺑﺮدار وزنﻫﺎ ‪ ∆wt‬را در ﻧﻈﺮ ﮔﺮﻓﺖ‬

‫∑‬
‫‪m‬‬
‫+‪w←w‬‬ ‫‪∆wt‬‬ ‫)١(‬
‫١=‪t‬‬

‫• در ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت ﺗﻤﺎم ﺗﻐﯿﯿﺮات در اﻧﺘﻬﺎی دﻧﺒﺎﻟﻪی ﻣﺸﺎﻫﺪات اﻋﻤﺎل‬
‫ﻣ ﺷﻮد؛ ﻧﻪ در ﻫﺮ ﻣﺮﺣﻠﻪ‬

‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬

‫۶۴ / ۵‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬


‫.‬ ‫ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت )اداﻣﻪ(‬

‫• ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت ﺑﻪ ﻫﺮ دﻧﺒﺎﻟﻪی ﻣﺸﺎﻫﺪات-ﻧﺘﯿﺠﻪ، ﺑﻪ ﺻﻮرت دﻧﺒﺎﻟﻪای از‬
‫زوجﻫﺎی ﻣﺸﺎﻫﺪه-ﻧﺘﯿﺠﻪ ﺑﺮﺧﻮرد ﻣ ﮐﻨﺪ‬

‫)‪(x١ , z), (x٢ , z), . . . , (xm , z‬‬

‫• ﺗﻐﯿﯿﺮات در ﺑﺮدار وزنﻫﺎ ﺑﻪازای ﻣﺸﺎﻫﺪه در ﻟﺤﻈﻪی ‪:t‬‬

‫‪∆wt = α(z − Pt )∇w Pt‬‬ ‫)٢(‬

‫• ‪ :α‬ﻧﺮخ ﯾﺎدﮔﯿﺮی‬
‫• ‪ :∇w Pt‬ﺑﺮدار ﻣﺸﺘﻘّﺎت ﺟﺰﺋ ‪ ،P‬ﻧﺴﺒﺖ ﺑﻪ ‪w‬؛ ﻣﺸﺨﺺ ﮐﻨﻨﺪهی ﺟﻬﺘ ﮐﻪ در‬
‫آن ﺗﻐﯿﯿﺮات در ‪ w‬ﺑﯿﺸﺘﺮﯾﻦ ﺗﺄﺛﯿﺮ را در ‪ P‬دارد.‬
‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬

‫۶۴ / ۶‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬


‫ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت )اداﻣﻪ(‬
‫.‬ ‫ﺣﺎﻟﺖ ﺧﺎص ﺧﻄ‬

‫• ﺣﺎﻟﺖ ﺧﺎص: ‪ Pt‬ﺗﺎﺑﻊ ﺧﻄ از ‪ xt‬و ‪ w‬اﺳﺖ:‬
‫∑‬
‫= ‪Pt = wT xt‬‬ ‫)‪w(i)x(i‬‬
‫‪i‬‬
‫• ﺧﻮاﻫﯿﻢ داﺷﺖ: ‪∇w Pt = xt‬‬
‫.‬
‫.ﻗﺎﻧﻮن ‪ Widrow-Hoﬀ‬ﺑﺮای ﺑﺮوزرﺳﺎﻧ وزنﻫﺎ - ﻗﺎﻧﻮن دﻟﺘﺎ‬
‫..‬

‫‪∆wt = α(z − wT xt )xt‬‬ ‫)٣(‬

‫.‬
‫..‬ ‫.‬

‫.‬
‫• ﻣﻘﺪار ‪ z‬در اﻧﺘﻬﺎی دﻧﺒﺎﻟﻪی ﻣﺸﺎﻫﺪات ﻣﺸﺨﺺ ﻣ ﺷﻮد، ﺑﻨﺎﺑﺮاﯾﻦ ﺗﻤﺎﻣ ‪ xt‬ﻫﺎ‬
‫ﺑﺎﯾﺪ ذﺧﯿﺮه ﺷﻮﻧﺪ، و ﺗﻤﺎﻣ ﺑﺮوزرﺳﺎﻧ ﻫﺎ در اﻧﺘﻬﺎی دﻧﺒﺎﻟﻪ ﻣﺤﺎﺳﺒﻪ ﺷﻮﻧﺪ.‬
‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬

‫۶۴ / ٧‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬


‫.‬ ‫ﻣﺤﺎﺳﺒﻪی اﻓﺰاﯾﺸ‬

‫• ﻧﻤﺎﯾﺶ ﺧﻄﺎی ‪ z − Pt‬ﺑﻪ ﺻﻮرت ﻣﺠﻤﻮع ﺗﻐﯿﯿﺮات در ﭘﯿﺶﺑﯿﻨ ﻫﺎی ﻣﺘﻮاﻟ :‬

‫∑‬
‫‪m‬‬
‫ﺗﻌﺮﯾﻒ‬
‫= ‪z − Pt‬‬ ‫‪ Pm+١ = z‬و ) ‪(Pk+١ − Pk‬‬
‫‪k=t‬‬

‫• ﺑﺎ ﺗﺮﮐﯿﺐ ﺑﺎ )١( و )٢(، رواﺑﻂ زﯾﺮ ﺑﺪﺳﺖ ﻣ آﯾﻨﺪ:‬

‫∑‬
‫‪m‬‬
‫+‪w ← w‬‬ ‫‪α(z − Pt )∇w Pt‬‬
‫١=‪t‬‬
‫∑‬‫‪m‬‬ ‫∑‬
‫‪m‬‬
‫=‬ ‫+‪w‬‬ ‫‪α‬‬ ‫‪(Pk+١ − Pk )∇w Pt‬‬
‫١=‪t‬‬ ‫‪k=t‬‬

‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬

‫۶۴ / ٨‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬


‫.‬ ‫ﻣﺤﺎﺳﺒﻪی اﻓﺰاﯾﺸ )اداﻣﻪ(‬
‫• ﺑﺎ ﺟﺎﺑﺠﺎﯾﯽ دو ﺟﻤﻊ و ﺗﺒﺪﯾﻞ ﺣﺪود‬

‫∑ ∑‬
‫‪m‬‬ ‫‪k‬‬
‫+‪w ← w‬‬ ‫‪α‬‬ ‫‪(Pk+١ − Pk )∇w Pt‬‬
‫١=‪k‬‬ ‫١=‪t‬‬
‫∑‬
‫‪m‬‬ ‫∑‬
‫‪t‬‬
‫=‬ ‫+‪w‬‬ ‫) ‪α(Pt+١ − Pt‬‬ ‫‪∇w Pk‬‬
‫١=‪t‬‬ ‫١=‪k‬‬

‫.‬
‫.راﺑﻄﻪی ﺑﺮوز رﺳﺎﻧ اﻓﺰاﯾﺸ وزنﻫﺎ - ⑴‪TD‬‬
‫..‬

‫∑‬
‫‪t‬‬
‫) ‪∆wt = α(Pt+١ − Pt‬‬ ‫‪∇w Pk‬‬ ‫)۴(‬
‫١=‪k‬‬
‫.‬
‫..‬ ‫.‬

‫.‬
‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬

‫۶۴ / ٩‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬


‫.‬ ‫⑴‪TD‬‬

‫• اﮔﺮ ﺑﯿﺸﺘﺮﯾﻦ ﻃﻮل دﻧﺒﺎﻟﻪی ﻣﺸﺎﻫﺪات ‪ M‬ﺑﺎﺷﺪ، آنﮔﺎه اﻟ ﻮرﯾﺘﻢ ⑴‪ TD‬ﻧﯿﺎز ﺑﻪ‬
‫١‬
‫‪ M‬ﺣﺎﻓﻈﻪ و ﺳﺮﻋﺖ ﭘﺮدازﺷ ﺮ ﻻزم ﺑﺮای ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت دارد.‬
‫• اﮔﺮ ﺗﺎﺑﻊ ﭘﯿﺶﺑﯿﻨ را ﺗﺎﺑﻊ ﺧﻄ در ﻧﻈﺮ ﺑ ﯿﺮﯾﻢ‬

‫.‬
‫.راﺑﻄﻪی ﺑﺮوز رﺳﺎﻧ ⑴‪ TD‬ﺧﻄ‬
‫..‬

‫∑‬
‫‪t‬‬
‫) ‪∆wt = α(Pt+١ − Pt‬‬ ‫‪xk‬‬ ‫‪Pt = wT xt‬‬
‫.‬ ‫١=‪k‬‬
‫..‬ ‫.‬

‫.‬
‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬

‫۶۴ / ٠١‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬


‫.‬
‫.اﻟ ﻮرﯾﺘﻢ ⑴‪ TD‬ﺧﻄ‬
‫..‬
‫‪: x١ , x٢ , . . . , xm , z‬ورودی‬ ‫دﻧﺒﺎﻟﻪی ﻣﺸﺎﻫﺪات-ﻧﺘﯿﺠﻪ ◃‬
‫‪: w‬ﺧﺮوﺟ‬ ‫ﺑﺮدار وزنﻫﺎ ◃‬
‫٠‪1: w ← w‬‬ ‫ﺑﺮدار وزنﻫﺎ را ﺑﺎ ﻣﻘﺎدﯾﺮ ﺗﺼﺎدﻓ ﻣﻘﺪاردﻫ اوﻟﯿﻪ ﮐﻦ ◃‬
‫١‪2: Pt ← wT x‬‬ ‫١‪ x‬ﻣﺸﺎﻫﺪه ﺷﺪ ◃‬
‫١‪3: St ← x‬‬ ‫‪ St‬ﻫﻤﺎن ﺟﻤﻊ ﮔﺮادﯾﺎنﻫﺎﺳﺖ ◃‬
‫‪4: for all xt , t = ٢, . . . , m do‬‬ ‫ﺑﺮای ﻣﺸﺎﻫﺪات ٢‪ x‬ﺗﺎ ‪◃ xm‬‬
‫:5‬ ‫‪Pt−١ ← Pt‬‬
‫:6‬ ‫‪Pt ← wT xt‬‬
‫:7‬ ‫ﻣﯿﺰان اﻓﺰاﯾﺶ ﺑﺮدار وزنﻫﺎ ﺑﺮای ﻣﺸﺎﻫﺪهی ﻗﺒﻠ ◃ ‪∆wt−١ ← α(Pt − Pt−١ )St‬‬
‫:8‬ ‫‪St ← St + xt‬‬
‫:9‬ ‫١−‪w ← w + ∆wt‬‬ ‫ﺑﺮوزرﺳﺎﻧ ﺑﺮدار وزنﻫﺎ ◃‬
‫‪10: end for‬‬
‫‪11: ∆wt−١ ← α(z − Pt )St‬‬
‫١−‪. w ← w + ∆wt‬‬
‫:21‬ ‫ﺑﺮوزرﺳﺎﻧ ﻧﻬﺎﯾﯽ ﺑﺮدار وزنﻫﺎ ◃‬
‫..‬ ‫.‬

‫.‬
‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬

‫۶۴ / ١١‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬


‫.‬ ‫ﺧﺎﻧﻮادهی روشﻫﺎی ﯾﺎدﮔﯿﺮی )‪TD(λ‬‬

‫• در ⑴‪ ،TD‬ﺑﻪ ازای ﻫﺮ ﻣﺸﺎﻫﺪه، ﺑﺮدار وزنﻫﺎ ﻃﻮری ﺗﻐﯿﯿﺮ ﻣ ﮐﻨﺪ، ﮐﻪ ﺗﻤﺎم‬
‫ﭘﯿﺶﺑﯿﻨ ﻫﺎی ﮔﺬﺷﺘﻪ را ﺑﻪ ﯾ ﻣﯿﺰان ﺗﻐﯿﯿﺮ ﻣ دﻫﺪ‬
‫• ﮐﻼس روشﻫﺎی )‪ ،TD(λ‬ﭘﯿﺶﺑﯿﻨ ﻫﺎی ﺟﺪﯾﺪﺗﺮ را ﺑﯿﺶﺗﺮ از ﭘﯿﺶﺑﯿﻨ ﻫﺎی‬
‫ﮔﺬﺷﺘﻪ ﺗﻐﯿﯿﺮ ﻣ دﻫﺪ‬
‫• ﺑﺎ وزندﻫ ﻧﻤﺎﯾﯽ ﺑﺎ ﺗﺄﺧّﺮ، ﺗﻐﯿﯿﺮ در ﭘﯿﺶﺑﯿﻨ ﻣﺸﺎﻫﺪاﺗ ﮐﻪ در ‪ k‬ﻣﺮﺣﻠﻪ ﭘﯿﺶ‬
‫اﻧﺠﺎم ﺷﺪﻧﺪ ﻣﺘﻨﺎﺳﺐ اﺳﺖ ﺑﺎ ‪ λk‬ﺑﺮای ١ ≤ ‪٠ ≤ λ‬‬

‫.‬
‫.راﺑﻄﻪی ﺑﺮوزرﺳﺎﻧ وزنﻫﺎ )‪TD(λ‬‬
‫..‬

‫∑‬
‫‪t‬‬
‫) ‪∆wt = α(Pt+١ − Pt‬‬ ‫‪λt−k ∇w Pk‬‬ ‫)۵(‬
‫١=‪k‬‬
‫.‬
‫..‬ ‫.‬

‫.‬
‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬

‫۶۴ / ٢١‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬


‫.‬ ‫ﺧﺎﻧﻮادهی روشﻫﺎی ﯾﺎدﮔﯿﺮی )‪)TD(λ‬اداﻣﻪ(‬

‫• ﻣﺰﯾﺖ وزندﻫ ﻧﻤﺎﯾﯽ در اﯾﻦ اﺳﺖ ﮐﻪ راﺑﻄﻪ را ﻣ ﺗﻮان ﺑﻪﺻﻮرت اﻓﺰاﯾﺸ‬
‫ﻣﺤﺎﺳﺒﻪ ﮐﺮد‬
‫• ﻣﺜﻼ اﮔﺮ ﻣﻘﺪار ﺟﻤﻊ در )۵( را ﺑﺮای ﻣﺮﺣﻠﻪی ‪ ،t‬ﺑﺎ ‪ st‬ﻧﻤﺎﯾﺶ دﻫﯿﻢ، در اﯾﻦ‬
‫ﺻﻮرت ﻣﻘﺪار ١+‪ st‬را ﻣ ﺗﻮان ﺑﻪ ﺻﻮرت اﻓﺰاﯾﺸ ﻣﺤﺎﺳﺒﻪ ﮐﺮد‬

‫∑‬
‫١+‪t‬‬
‫= ١+‪st‬‬ ‫‪λt+١−k ∇w Pk‬‬
‫١=‪k‬‬
‫∑‬
‫‪t‬‬
‫+ ١+‪= ∇w Pt‬‬ ‫‪λt+١−k ∇w Pk‬‬
‫١=‪k‬‬
‫‪= ∇w Pt+١ + λ st‬‬

‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬

‫۶۴ / ٣١‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬


‫.‬ ‫ﺧﺎﻧﻮادهی روشﻫﺎی ﯾﺎدﮔﯿﺮی )‪)TD(λ‬اداﻣﻪ(‬

‫• ﺑﻪ ازای ١ < ‪ ،λ‬ﺧﺎﻧﻮادهی روشﻫﺎی ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ ، ﺑﺮدار وزنﻫﺎ را ﺑﻪ‬
‫ﺷ ﻠ ﮐﺎﻣﻼ ﻣﺘﻤﺎﯾﺰ ﺑﺎ ﺗﻤﺎﻣ روشﻫﺎی ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت ﺗﻐﯿﯿﺮ ﻣ دﻫﺪ‬
‫• ﺑﻪ ازای ٠ = ‪ ،λ‬اﯾﻦ ﻣﻄﻠﺐ ﻣﺸﻬﻮدﺗﺮ اﺳﺖ. در )0(‪ ،TD‬ﻣﯿﺰان اﻓﺰاﯾﺶ در‬
‫٠٠(‬ ‫ﺑﺮدار وزنﻫﺎ ﻣﺘﻨﺎﺳﺐ اﺳﺖ ﺑﺎ ﺗﺄﺛﯿﺮ آن در آﺧﺮﯾﻦ ﭘﯿﺶﺑﯿﻨ )ﺑﺎ ﻓﺮض ١ =‬
‫.‬
‫.روش ﺑﺮوز رﺳﺎﻧ وزنﻫﺎ )0(‪TD‬‬
‫..‬

‫‪∆wt = α(Pt+١ − Pt )∇w Pt‬‬ ‫)۶(‬

‫.‬
‫..‬ ‫.‬

‫.‬
‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬

‫۶۴ / ۴١‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬


‫.‬
‫.اﻟ ﻮرﻳﺘﻢ )‪TD(λ‬‬
‫..‬
‫‪: x١ , x٢ , . . . , xm , z‬ورودی‬ ‫دﻧﺒﺎﻟﻪی ﻣﺸﺎﻫﺪات-ﻧﺘﯿﺠﻪ ◃‬
‫‪: w‬ﺧﺮوﺟ‬ ‫ﺑﺮدار وزنﻫﺎ ◃‬
‫٠‪1: w ← w‬‬ ‫ﺑﺮدار وزنﻫﺎ را ﺑﺎ ﻣﻘﺎدﯾﺮ دﻟﺨﻮاه ﻣﻘﺪاردﻫ اوﻟﯿﻪ ﮐﻦ ◃‬
‫) ١‪2: Pt ← P(w, x‬‬ ‫١‪ x‬ﻣﺸﺎﻫﺪه ﺷﺪ ◃‬
‫‪3: S ← ∇w Pt‬‬ ‫‪ S‬ﻫﻤﺎن ﺟﻤﻊ وزندار ﮔﺮادﯾﺎنﻫﺎﺳﺖ ◃‬
‫‪4: for all xt , t = ٢, . . . , m do‬‬ ‫ﺑﺮای ﻣﺸﺎﻫﺪات ٢‪ x‬ﺗﺎ ‪◃ xm‬‬
‫:5‬ ‫‪Pt−١ ← Pt‬‬
‫:6‬ ‫) ‪Pt ← P(w, xt‬‬
‫:7‬ ‫ﻣﯿﺰان اﻓﺰاﯾﺶ ﺑﺮدار وزنﻫﺎ ﺑﺮای ﻣﺸﺎﻫﺪهی ﻗﺒﻠ ◃ ‪∆wt−١ ← α(Pt − Pt−١ )S‬‬
‫:8‬ ‫‪S ← ∇w Pt + λS‬‬
‫:9‬ ‫١−‪w ← w + ∆wt‬‬ ‫ﺑﺮوزرﺳﺎﻧ ﺑﺮدار وزنﻫﺎ ◃‬
‫‪10: end for‬‬
‫‪11: ∆wt−١ ← α(z − Pt )S‬‬
‫١−‪. w ← w + ∆wt‬‬
‫:21‬ ‫ﺑﺮوزرﺳﺎﻧ ﻧﻬﺎﯾﯽ ﺑﺮدار وزنﻫﺎ ◃‬
‫..‬ ‫.‬

‫.‬
‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬

‫۶۴ / ۵١‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬


‫.‬ ‫ﻣﺜﺎل ﻗﺪمﺑﺮداﺷﺘﻦ ﺗﺼﺎدﻓ )‪(Random Walk‬‬

‫• ﺗﻤﺎﻣ اﭘﯿﺰودﻫﺎ از ﺧﺎﻧﻪی ﻣﺮﮐﺰ، ‪ ،C‬ﺷﺮوع ﻣ ﺷﻮﻧﺪ. ﺑﺎ اﺣﺘﻤﺎلﻫﺎی ﺑﺮاﺑﺮ‬
‫ﺣﺮﮐﺖ ﺑﻪ ﺳﻤﺖ راﺳﺖ، ﯾﺎ ﭼﭗ اﻧﺠﺎم ﻣ ﺷﻮد. ﺑﺎ رﺳﯿﺪن ﺑﻪ ﻫﺮﯾ از‬
‫ﺧﺎﻧﻪﻫﺎﯾﯽ ﮐﻪ ﺑﺎ ﻣﺮﺑﻊ ﻧﻤﺎﯾﺶ داده ﺷﺪهاﻧﺪ اﭘﯿﺰود ﭘﺎﯾﺎن ﻣ ﯾﺎﺑﺪ.‬
‫• ﻫﺪف ﯾﺎﻓﺘﻦ اﺣﺘﻤﺎل اﯾﻦﮐﻪ از ﻫﺮﺧﺎﻧﻪ ﺑﻪ ﻣﺮﺑﻊ اﻧﺘﻬﺎﯾﯽ ﺳﻤﺖ راﺳﺖ ﺑﺮﺳﯿﻢ‬
‫• اﯾﻦ اﺣﺘﻤﺎل ﺑﺮای ﻣﺮﺑﻊ ﺳﻤﺖ راﺳﺖ ﻣﺴﺎوی ١، و ﺑﺮای ﻣﺮﺑﻊ ﺳﻤﺖ ﭼﭗ‬
‫ﻣﺴﺎوی ﺻﻔﺮ اﺳﺖ.‬
‫• دو ﻧﻤﻮﻧﻪ از دﻧﺒﺎﻟﻪی ﻣﺸﺎﻫﺪه-ﻧﺘﯿﺠﻪ: 1‪ CDE‬و 0‪CDCBA‬‬

‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬

‫۶۴ / ۶١‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬


‫.‬ ‫ﻣﺜﺎل ﻗﺪمﺑﺮداﺷﺘﻦ ﺗﺼﺎدﻓ )‪) (Random Walk‬اداﻣﻪ(‬

‫• ﺑﺮای ﭘﯿﺎدهﺳﺎزی از )‪ TD(λ‬ﺧﻄ اﺳﺘﻔﺎده ﺷﺪه؛ ﯾﻌﻨ‬
‫• ‪Pt = wT xt‬‬
‫• ‪∇w Pt = xt‬‬
‫• ﺑﻪﺟﺎی ﺑﺮدارﻫﺎی ﻣﺸﺎﻫﺪه از ﺑﺮدارﻫﺎی ﭘﺎﯾﻪی ۵‪ R‬اﺳﺘﻔﺎده ﺷﺪه؛ ﯾﻌﻨ‬
‫• ‪xC = (٠, ٠, ١, ٠, ٠)T‬‬
‫• ‪xE = (٠, ٠, ٠, ٠, ١)T‬‬

‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬

‫۶۴ / ٧١‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬


‫ﺗﺄﺛﯿﺮ ‪ λ‬ﺑﺮ دﻗّﺖ ﯾﺎدﮔﯿﺮی‬
‫.‬ ‫‪ PredictionRandomWalk.m‬را اﺟﺮا ﮐﻨﯿﺪ‬

‫2.0‬

‫81.0‬

‫61.0‬

‫41.0‬
‫‪RMS Error‬‬

‫21.0‬

‫1.0‬

‫80.0‬

‫60.0‬

‫40.0‬
‫0‬ ‫2.0‬ ‫4.0‬ ‫6.0‬ ‫8.0‬ ‫1‬
‫‪λ‬‬
‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬

‫۶۴ / ٨١‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬


‫ﺗﺄﺛﯿﺮ ‪ α‬و ‪ λ‬ﺑﺮ دﻗّﺖ ﯾﺎدﮔﯿﺮی‬
‫.‬ ‫‪ PredictionRandomWalkAlphaEﬀect.m‬را اﺟﺮا ﮐﻨﯿﺪ‬

‫4.1‬
‫0.0‬
‫3.0‬
‫8.0‬
‫2.1‬
‫0.1‬

‫1‬
‫‪RMS Error‬‬

‫8.0‬

‫6.0‬

‫4.0‬

‫2.0‬

‫0‬
‫0‬ ‫50.0‬ ‫1.0‬ ‫51.0‬ ‫2.0‬ ‫52.0‬ ‫3.0‬ ‫53.0‬ ‫4.0‬
‫‪α‬‬
‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬

‫۶۴ / ٩١‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬


‫.‬ ‫ﻣﺜﺎل - ﻣﺤﯿﻂﻫﺎی ﻣﺎرﮐﻮف‬

‫• ﻣﺰﯾﺖ روشﻫﺎی ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ ﻧﺴﺒﺖ ﺑﻪ ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت ﺗﻨﻬﺎ در ﺳﺮﻋﺖ‬
‫ﻧﯿﺴﺖ‬
‫• در ﺑﺮﺧ ﻣﻮﻗﻌﯿﺖﻫﺎ روشﻫﺎی ﺗﻔﺎﺿﻞ زﻣﺎﻧ ﺟﻮاب ﺻﺤﯿﺢﺗﺮی ﻧﺴﺒﺖ ﺑﻪ‬
‫روشﻫﺎی ﯾﺎدﮔﯿﺮی ﺑﺎ ﻧﻈﺎرت اراﺋﻪ ﻣ دﻫﻨﺪ‬
‫• ﻣﺜﻼ در ﻣﺤﯿﻂﻫﺎی ﻣﺎرﮐﻮف‬
‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬

‫۶۴ / ٠٢‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬

‫ﻣﺴﺌﻠﻪی ﭘﯿﺶﺑﯿﻨ‬ ‫اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬
‫ﮐﺎرﺑﺮد در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬ ‫ﻣﺜﺎلﻫﺎ‬

‫.‬ ‫ﻣﻘﺪّﻣﻪای ﺑﺮ ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬

‫• زﯾﺮ ﺷﺎﺧﻪای از ﯾﺎدﮔﯿﺮی ﻣﺎﺷﯿﻦ، آﻏﺎز در ﻧﻈﺮﯾﻪی ﮐﻨﺘﺮل‬
‫• ﯾﺎدﮔﯿﺮی از ﻃﺮﯾﻖ ﺗﻌﺎﻣﻞ ﺑﺎ ﻣﺤﯿﻂ‬
‫• اﺟﺰای ﺗﺸ ﯿﻞ دﻫﻨﺪهی ﻣﺴﺌﻠﻪی ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ :‬
‫ﻋﺎﻣﻞ‬ ‫•‬
‫ﻣﺤﯿﻂ‬ ‫•‬
‫ﮐﻨﺶ‬ ‫•‬
‫ﭘﺎداش )ﺳﯿ ﻨﺎل ﺗﻘﻮﯾﺘ (‬ ‫•‬

‫• ﻫﺪف ﻋﺎﻣﻞ: در ﻫﺮ وﺿﻌﯿﺖ، ﻃﻮری رﻓﺘﺎر ﮐﻨﺪ ﮐﻪ ﻣﺠﻤﻮع ﭘﺎداشﻫﺎی ﻣﻮرد‬
‫اﻧﺘﻈﺎر درﯾﺎﻓﺘ از ﻣﺤﯿﻂ، در دراز ﻣﺪّت ﺑﯿﺸﯿﻨﻪ ﺷﻮد‬

‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬

‫۶۴ / ١٢‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬


‫ﻣﻘﺪّﻣﻪای ﺑﺮ ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ )اداﻣﻪ(‬
‫.‬ ‫ﺗﻌﺎﻣﻞ ﻋﺎﻣﻞ ﺑﺎ ﻣﺤﯿﻂ در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬

‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬

‫۶۴ / ٢٢‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬


‫.‬ ‫ﻣﺪل ﺑﯿﺸﯿﻨﻪﮐﺮدن ﭘﺎداش در دراز ﻣﺪّت‬

‫.‬
‫.ﻣﺪل اﻓﻖ ﻧﺎﻣﺤﺪود ﺗﺨﻔﯿﻒ ﯾﺎﻓﺘﻪ‬
‫..‬
‫ﻫﺪف ﺑﯿﺸﻨﻪ ﮐﺮدن اﻣﯿﺪ رﯾﺎﺿ زﯾﺮ اﺳﺖ:‬
‫∞‬
‫∑‬
‫(‪E‬‬ ‫) ‪γ t rt‬‬ ‫١<‪ ٠≤γ‬و‬
‫٠=‪t‬‬

‫.‬ ‫ﭘﺎداشﻫﺎی آﯾﻨﺪه، ﺑﺎ ﺿﺮﯾﺐ ﺗﺨﻔﯿﻒ ‪ γ‬ﺑﻪ ﻃﻮر ﻫﻨﺪﺳ ﺗﺨﻔﯿﻒ داده ﻣ ﺷﻮﻧﺪ‬
‫..‬ ‫.‬

‫.‬
‫• ﺿﺮﯾﺐ ‪ γ‬ﻣﻮﺟﺐ ﻣ ﺷﻮد ﮐﻪ ﭘﺎداش آﻧ ، وزن ﺑﯿﺸﺘﺮی ﻧﺴﺒﺖ ﺑﻪ ﭘﺎداشﻫﺎی‬
‫ﻣﻮرد اﻧﺘﻈﺎر در آﯾﻨﺪه داﺷﺘﻪ ﺑﺎﺷﺪ، و در ﻋﯿﻦ ﺣﺎل ﭘﺎداشﻫﺎی آﯾﻨﺪه ﻧﯿﺰ ﻧﺎدﯾﺪه‬
‫ﮔﺮﻓﺘﻪ ﻧﺸﻮﻧﺪ‬

‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬

‫۶۴ / ٣٢‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬


‫.‬ ‫ﻣﺪل ﺑﯿﺸﯿﻨﻪﮐﺮدن ﭘﺎداش در دراز ﻣﺪّت )اداﻣﻪ(‬

‫• ﻫﺮﭼﻪ ‪ γ‬ﺑﻪ ١ ﻧﺰدﯾ ﺗﺮ ﺑﺎﺷﺪ، اﻟ ﻮرﯾﺘﻢ ﯾﺎدﮔﯿﺮی آﯾﻨﺪهﻧﮕﺮﺗﺮ ﻣ ﺷﻮد و ﻫﺮ ﭼﻪ ‪γ‬‬
‫ﺑﻪ ﺻﻔﺮ ﻧﺰدﯾ ﺗﺮ ﺑﺎﺷﺪ اﻟ ﻮرﯾﺘﻢ ﯾﺎدﮔﯿﺮی ﺣﺮﯾﺺﺗﺮ ﻣ ﺷﻮد‬
‫• ﮐﺎرﺑﺮد دﯾ ﺮ ﺿﺮﯾﺐ ‪ ،γ‬ﮐﺮاندار ﮐﺮدن ﺳﺮی ﻓﻮق اﺳﺖ )ﮐﺎرﺑﺮد در اﺛﺒﺎت‬
‫ﻗﻀﺎﯾﺎی ﻫﻤ ﺮاﯾﯽ(‬
‫ﺑﺎ ﺗﻌﺪاد‬ ‫• اﻧﺘﺨﺎب ١ = ‪ ،γ‬ﻏﯿﺮﻣﺠﺎز اﺳﺖ ﻣ ﺮ در ﺳﻨﺎرﯾﻮﻫﺎی اﭘﯿﺰودﯾ‬
‫ﻣﺮاﺣﻞ ﻣﺤﺪود‬

‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬

‫۶۴ / ۴٢‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬


‫.‬ ‫اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ‬
‫• ﯾ ﻋﺎﻣﻞ در ﻫﺮ ﻟﺤﻈﻪی ‪ ،t‬زوج ﻣﺮﺗﺐ ) ‪ (xt , rt‬را درﯾﺎﻓﺖ ﻣ ﮐﻨﺪ‬
‫• ‪ xt‬ﺑﺮدار ﻣﺸﺎﻫﺪات ﻋﺎﻣﻞ در ﻟﺤﻈﻪی ‪ t‬اﺳﺖ‬
‫• ‪ rt‬ﯾ ﻋﺪد ﺣﻘﯿﻘ ﻣﻌﺮف ﭘﺎداش ﻋﺎﻣﻞ در ﻟﺤﻈﻪی ‪t‬‬
‫• ﺑﺮدار ﻣﺸﺎﻫﺪات، ‪xt‬ﻣ ﺗﻮاﻧﺪ ﺻﺮﻓﺎً ﺣﺎﻟﺖ ﻣﺤﯿﻂ ﺑﺎﺷﺪ، ﯾﺎ ﻋﻼوه ﺑﺮ آن ﺷﺎﻣﻞ‬
‫ﮐﻨﺶ ﻋﺎﻣﻞ در ﻟﺤﻈﻪی ‪ t‬ﻧﯿﺰ ﺑﺎﺷﺪ:‬

‫‪xt = st‬‬ ‫ﯾﺎ‬ ‫⟩ ‪xt = ⟨st , at‬‬

‫• ﻫﺪف: ﺑﺎ اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ ، ﺑﺎ درﯾﺎﻓﺖ دﻧﺒﺎﻟﻪﻫﺎی ) ‪،(xt , rt‬‬
‫ﺑﺮای . . . ,١ ,٠ = ‪ ،t‬در ﻫﺮ ﻟﺤﻈﻪی ‪ ،t‬ﭘﯿﺶﺑﯿﻨ ‪ Pt‬از ﮐﻤﯿﺖ زﯾﺮ را اﻧﺠﺎم‬
‫دﻫﯿﻢ:‬
‫∞‬
‫∑‬
‫= . . . + ٣+‪Rt = rt+١ + γrt+٢ + γ ٢ rt‬‬ ‫‪γ i−١ rt+i‬‬
‫١=‪i‬‬
‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬

‫۶۴ / ۵٢‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬


‫.‬ ‫اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ )اداﻣﻪ(‬

‫• در روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ ، ﻣﻘﺎدﯾﺮ ﺑﺮدار وزنﻫﺎ ﯾﺎدﮔﺮﻓﺘﻪ ﻣ ﺷﻮﻧﺪ.‬
‫• در ﺻﻮرت اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ ﺧﻄ ، ﻃﻮل ﺑﺮدار وزنﻫﺎ ﺑﺮاﺑﺮ‬
‫اﺳﺖ ﺑﺎ ﻃﻮل ﺑﺮدار ﻣﺸﺎﻫﺪات.‬
‫• در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ در ﺻﻮرﺗ ﮐﻪ ﺑﺮدار ﻣﺸﺎﻫﺪات ﺻﺮﻓﺎً ﺷﺎﻣﻞ وﺿﻌﯿﺖ ﻣﺤﯿﻂ‬
‫ﺑﺎﺷﺪ، ﺑﻪ ﺑﺮدار وزنﻫﺎ ﻣ ﮔﻮﯾﻨﺪ ﺗﺎﺑﻊ ارزش و آن را ﺑﺎ ‪ V‬ﻧﻤﺎﯾﺶ ﻣ دﻫﻨﺪ‬
‫• در ﺻﻮرﺗ ﮐﻪ ﺑﺮدار ﻣﺸﺎﻫﺪات ﻋﻼوه ﺑﺮ وﺿﻌﯿﺖ ﻣﺤﯿﻂ، ﺷﺎﻣﻞ ﮐﻨﺶ ﻧﯿﺰ ﺑﺎﺷﺪ،‬
‫آن را ﺑﺎ ‪ Q‬ﻧﻤﺎﯾﺶ ﻣ دﻫﻨﺪ‬

‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬

‫۶۴ / ۶٢‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬


‫.‬ ‫اﺳﺘﻔﺎده از روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ در ﯾﺎدﮔﯿﺮی ﺗﻘﻮﯾﺘ )اداﻣﻪ(‬

‫ﻋﻀﻮ از ﻓﻀﺎی ﺣﺎﻻت‬ ‫• در ﻫﺮ ﻟﺤﻈﻪ ﻣﺤﯿﻂ دارای وﺿﻌﯿﺖ ‪ s‬اﺳﺖ ﮐﻪ ‪ s‬ﯾ‬
‫‪ S‬ﻣ ﺑﺎﺷﺪ‬
‫• ﺑﺎ ﻓﺮض ﮔﺴﺴﺘﻪ و ﻣﺤﺪود ﺑﻮدن ﻓﻀﺎی ﺣﺎﻻت، ﺑﻪازای ﻫﺮ ﺣﺎﻟﺖ در ﻓﻀﺎی‬
‫ﺣﺎﻻت، ﯾ دراﯾﻪ در ﺑﺮدار وزنﻫﺎ در ﻧﻈﺮ ﺑ ﯿﺮﯾﻢ. در اﯾﻦ ﺻﻮرت ﺑﺪﺳﺖ‬
‫آوردن ارزش ﻫﺮ ﺣﺎﻟﺖ ﺑﻪ ﺳﺎدﮔ ﺟﺴﺘﺠﻮ در ﯾ ﺟﺪول ﺧﻮاﻫﺪ ﺑﻮد.‬

‫)‪|V | = n(S‬‬

‫• ﺑﺮدار ﻣﺸﺎﻫﺪه را ﻃﻮری در ﻧﻈﺮ ﻣ ﮔﯿﺮﯾﻢ ﮐﻪ ﻓﻘﻂ ﻣﺸﺨّﺺ ﮐﻨﺪ، ﮐﺪام ﺣﺎﻟﺖ‬
‫در ﻓﻀﺎی ﺣﺎﻻت ﻣﺸﺎﻫﺪه ﺷﺪه اﺳﺖ، ﺑﻨﺎﺑﺮاﯾﻦ ﻫﺮ ﺑﺮدار ﻣﺸﺎﻫﺪه، ﯾ ﭘﺎﯾﻪ ﺑﺮای‬
‫ﻓﻀﺎی )‪ Rn(S‬اﺳﺖ‬

‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬

‫۶۴ / ٧٢‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬


‫• ﺑﺎ اﺳﺘﻔﺎده از )0(‪ TD‬ﺧﻄ :‬

‫‪∆Vt = α(Pt+١ − Pt )∇V Pt‬‬
‫‪Pt = VT xt ⇒ ∇V Pt = xt‬‬

‫• اﮔﺮ وﺿﻌﯿﺖ ﻣﺤﯿﻂ در ﻟﺤﻈﻪی ‪ ،t‬ﻫﻤﺎن وﺿﻌﯿﺖ ﺷﻤﺎرهی ‪s‬ام ﺑﺎﺷﺪ در ﻓﻀﺎی‬
‫ﺣﺎﻟﺖ ‪ ،S‬ﺗﻨﻬﺎ دراﯾﻪی ‪s‬ام ﺑﺮدار ‪ ،xt‬ﻣﺴﺎوی ﯾ اﺳﺖ. ﺑﻨﺎﺑﺮاﯾﻦ:‬

‫) ‪Vt+١ (s) ← Vt (s) + α(Pt+١ − Pt‬‬

‫• ﮐﻪ در آن ﻣﻨﻈﻮر از )‪ ،V(s‬دراﯾﻪی ‪s‬ام ﺑﺮدار ‪ V‬اﺳﺖ؛ و ﻣﻨﻈﻮر از ‪ ،Vt‬ﻧﺴﺨﻪای‬
‫از ﺑﺮدار ‪ V‬اﺳﺖ ﮐﻪ در زﻣﺎن ‪ ،t‬در دﺳﺘﺮس ﺑﻮد.‬

‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬

‫۶۴ / ٨٢‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬


‫• اﮔﺮ ٠ = ‪γ‬؛ آنﮔﺎه ١+‪ ،Pt+١ = rt‬و ﻫﻤﭽﻨﯿﻦ دارﯾﻢ:‬

‫)‪Pt = Pt (xt ) = VT xt = V(s‬‬

‫• ﺗﺎﺑﻊ ﭘﯿﺶﺑﯿﻨ ﻫﻤﺎن ﺑﺮدار ارزشﻫﺎ اﺳﺖ، و ﺑﺎ ﯾﺎدﮔﯿﺮی آن ﺑﻪ ﻃﻮر ﺧﻮدﺑﻪﺧﻮد‬
‫ﺗﺎﺑﻊ ﭘﯿﺶﺑﯿﻨ را ﻧﯿﺰ ﯾﺎد ﮔﺮﻓﺘﻪاﯾﻢ‬

‫))‪Vt+١ (s) ← Vt (s) + α(rt+١ − Vt (s‬‬ ‫)٧(‬

‫• ‪ s‬وﺿﻌﯿﺖ ﻣﺤﯿﻂ در ﻟﺤﻈﻪی ‪ t‬اﺳﺖ‬
‫• اﯾﻦ اﻟ ﻮرﯾﺘﻢ در ﻫﺮ ﻟﺤﻈﻪی ‪ ،t‬ﻣﻘﺎدﯾﺮ ﺑﺮدار ارزشﻫﺎ در ﮔﺎم زﻣﺎﻧ ﻗﺒﻠ را‬
‫ﺑﺮوز ﻣ ﮐﻨﺪ‬

‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬

‫۶۴ / ٩٢‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬


‫• اﮔﺮ ٠ ≠ ‪γ‬؛ آنﮔﺎه‬

‫. . . + ٣+‪Pt+١ = Rt = rt+١ + γrt+٢ + γ ٢ rt‬‬
‫). . . + ٣+‪= rt+١ + γ (rt+٢ + γrt‬‬
‫١+‪= rt+١ + γRt‬‬

‫• اﮔﺮ وﺿﻌﯿﺖ ﺑﻌﺪ از ‪ s‬را ﺑﺎ ′‪ s‬ﻧﺸﺎن دﻫﯿﻢ، آنﮔﺎه ﻣ داﻧﯿﻢ ﮐﻪ ) ′‪ Vt (s‬ﺗﺨﻤﯿﻨ‬
‫ﺑﺮای ١+‪ Rt‬اﺳﺖ در ﻟﺤﻈﻪی ‪t‬‬
‫• ﺑﻨﺎﺑﺮاﯾﻦ ﻣ ﺗﻮاﻧﯿﻢ ‪ Rt‬را ﺑﺎ ) ′‪ rt+١ + γVt (s‬ﺗﺨﻤﯿﻦ ﺑﺰﻧﯿﻢ‬

‫))‪Vt+١ (s) ← Vt (s) + α(rt+١ + γVt (s′ ) − Vt (s‬‬ ‫)٨(‬

‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬

‫۶۴ / ٠٣‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬


‫.‬ ‫آﺷﻨﺎﯾﯽ ﺑﺎ ﭼﻨﺪ ﺗﻌﺮﯾﻒ‬
‫.‬
‫.ﺳﯿﺎﺳﺖ ﻋﺎﻣﻞ‬
‫..‬
‫ﻧﮕﺎﺷﺘ ﮐﻪ ﻣﺸﺨّﺺ ﻣ ﮐﻨﺪ، ﻋﺎﻣﻞ در ﻫﺮ وﺿﻌﯿﺖ، ﻣﻤ ﻦ اﺳﺖ ﭼﻪ ﮐﻨﺸ را اﻧﺠﺎم‬
‫دﻫﺪ را ﺳﯿﺎﺳﺖ ١ ﻋﺎﻣﻞ ﻣ ﮔﻮﯾﻨﺪ، و آن را ﺑﺎ ‪ π‬ﻧﺸﺎن ﻣ دﻫﻨﺪ‬

‫‪. Policy‬‬
‫..‬ ‫.‬

‫.‬
‫.‬
‫.ﺳﯿﺎﺳﺖ اﭘﺴﯿﻠﻮن-ﺣﺮﯾﺼﺎﻧﻪ‬
‫..‬
‫ﺳﯿﺎﺳﺘ ﮐﻪ در آن ﻋﺎﻣﻞ ﺑﻪ اﺣﺘﻤﺎل ‪ ϵ‬ﮐﻨﺶ ﺗﺼﺎدﻓ را اﻧﺠﺎم ﻣ دﻫﺪ، و در ﺑﺎﻗ ﻣﻮاﻗﻊ‬
‫ﮐﻨﺸ را اﻧﺠﺎم ﻣ دﻫﺪ ﮐﻪ در ﺗﺎﺑﻊ ارزش ﺑﯿﺸﺘﺮﯾﻦ ارزش را ﺑﺨﻮد اﺧﺘﺼﺎص داده.‬
‫ﻫﺮﭼﻪ اﭘﺴﯿﻠﻮن ﺑﯿﺸﺘﺮ ﺑﺎﺷﺪ ﻋﺎﻣﻞ زﻣﺎن ﺑﯿﺸﺘﺮی را ﺻﺮف ﺗﺠﺮﺑﻪ ﮐﺮدن ﻣﺤﯿﻂ ﻧﺎﺷﻨﺎﺧﺘﻪ‬
‫اﻃﺮاف ﺧﻮد ﻣ ﮐﻨﺪ. ٢‬

‫‪. ϵ-greedy‬‬
‫..‬ ‫.‬

‫.‬
‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬ ‫.‬

‫۶۴ / ١٣‬ ‫۵ ﺧﺮداد ٨٨٣١‬ ‫روش ﺗﻔﺎﺿﻞﻫﺎی زﻣﺎﻧ‬ ‫ﺳﯿﺪ ﺳﯿﻨﺎ اﯾﺮواﻧﯿﺎن )داﻧﺸ ﺎه ﺻﻨﻌﺘ ﺷﺮﯾﻒ(‬

Temporal Difference Methods (Persian)

Temporal Difference Methods (Persian)

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (11)

Temporal Difference Methods (Persian)