Publicidad
Jack rental-car-problem
Jack rental-car-problem
Jack rental-car-problem
Jack rental-car-problem
Publicidad
Jack rental-car-problem
Jack rental-car-problem
Próximo SlideShare
چگونه مردان را جذب کنیم؟چگونه مردان را جذب کنیم؟
Cargando en ... 3
1 de 6
Publicidad

Más contenido relacionado

Publicidad

Jack rental-car-problem

  1. ‫سشی‬ ‫توشیي‬‫هاضیي‬ ‫یادگیشی‬ ‫سَم‬ 1 ------------‫خذا‬ ‫ًام‬ ِ‫ت‬--------- 1-‫دیٌاهیکی‬ ‫هذل‬ ‫ضاهل‬ ،‫هحیظ‬ ‫دیٌاهیکی‬ ‫هذل‬a ss P '‫حالت‬ ‫اص‬ ‫اًتمال‬ ‫احتوال‬ ‫یا‬s‫حالت‬ ِ‫ت‬s’‫عول‬ ‫اًتخاب‬ ‫تحت‬a،ٍa ss R '‫یا‬ ‫حالت‬ ‫اص‬ ‫اًتمال‬ ‫تحت‬ ُ‫ضذ‬ ‫دسیافت‬ ‫پاداش‬sِ‫ت‬s’‫عول‬ ‫اًتخاب‬ ‫تحت‬a.‫تاضذ‬ ‫هی‬‫ایي‬ ‫آٍسدى‬ ‫دست‬ ِ‫ت‬ ‫تشای‬ ‫تَاتع‬‫ّش‬ ‫اصای‬ ِ‫ت‬ ،state-action‫تاتع‬rental_car‫تعذاد‬ ِ‫ت‬1111‫اص‬ ‫عثاستی‬ ِ‫ت‬ ٍ ‫است‬ ُ‫ضذ‬ ‫اجشا‬ ِ‫هشتث‬ ٍ ‫است‬ ُ‫ضذ‬ ‫تشداسی‬ ًَِ‫ًو‬ ‫هحیظ‬sample‫دیگش‬ ‫حالت‬ ‫ّش‬ ِ‫ت‬ ‫حالت‬ ‫ّش‬ ‫اص‬ ‫اًتمال‬ ‫احتوال‬ .‫است‬ ُ‫ضذ‬ ِ‫گشفت‬ ‫اص‬ ‫اًتمال‬ ‫تاسّای‬ ‫تعذاد‬ ِ‫هحاسث‬ ‫تا‬sِ‫ت‬s’‫عول‬ ‫تحت‬a‫تعذاد‬ ‫کل‬ ‫تش‬ ‫تمسین‬sample‫پاداش‬ ‫همذاس‬ ٍ ،‫ّا‬ ‫اص‬ ‫اًتمال‬sِ‫ت‬s’‫عول‬ ‫تحت‬a‫اص‬ ‫اًتمال‬ ‫دس‬ ُ‫ضذ‬ ‫دسیافت‬ ‫ّای‬ ‫پاداش‬ ‫اص‬ ‫گیشی‬ ‫هیاًگیي‬ ‫تا‬sِ‫ت‬s’‫دست‬ ِ‫ت‬ .‫است‬ ُ‫آهذ‬ ‫صادلی‬ ‫صّشا‬ :‫خاًَادگی‬ ‫ًام‬ ٍ ‫ًام‬ :ُ‫چکیذ‬‫الگَسیتن‬ ٍ‫د‬ ‫توشیي‬ ‫ایي‬ ‫دس‬Policy IterationٍValue Iterationِ‫هسال‬ ‫سٍی‬ Jack’s rental car problem‫اص‬ ‫ّشیک‬ ‫سٍی‬ ‫گاها‬ ‫همذاس‬ ‫تاثیش‬ ٍ ‫اًذ‬ ُ‫ضذ‬ ِ‫همایس‬ ‫ّن‬ ‫تا‬ .‫است‬ ُ‫ضذ‬ ‫تشسسی‬ ‫ّا‬ ‫الگَسیتن‬
  2. ‫سشی‬ ‫توشیي‬‫هاضیي‬ ‫یادگیشی‬ ‫سَم‬ 2 2-‫الگَسیتن‬ ٍ‫د‬ ‫ی‬ ِ‫همایس‬Policy Iteration(PI)ٍValue Iteration(VI) ‫الگَسیتن‬Policy Iteration(PI)ِ‫هشحل‬ ٍ‫د‬ ‫ضاهل‬Policy EvaluationٍPolicy Improvement ِ‫هشحل‬ ‫دس‬ ‫اتتذا‬ .‫تاضذ‬ ‫هی‬Policy Evaluation‫فشهَل‬ ‫اص‬ ُ‫استفاد‬ ‫تا‬ ‫ّا‬ ‫حالت‬ ‫ی‬ ِ‫ّو‬ ‫همادیش‬Bellman ِ‫هشحل‬ ‫دس‬ ،‫سپس‬ ‫ضَد؛‬ ‫هی‬ ِ‫هحاسث‬Policy Improvement‫جَاب‬ ٌِ‫تیطی‬ ِ‫ت‬ ‫هٌجش‬ ِ‫ک‬ ‫ّایی‬ ‫سیاست‬ ‫ّا‬ ‫سیاست‬ ‫کشدى‬ ‫تٌْگام‬ ‫سٍش‬ .‫ضًَذ‬ ‫هی‬ ‫لثلی‬ ‫سیاست‬ ‫جایگضیي‬ ٍ ‫ضًَذ‬ ‫هی‬ ‫پیذا‬ ‫ضًَذ‬ ‫هی‬ ‫حالت‬ ‫ّش‬ ‫تشای‬ ‫کاهل‬greedy‫ت‬ ‫همذاس‬ ِ‫ت‬ ‫هٌجش‬ ِ‫ک‬ ‫ّایی‬ ‫عول‬ ِ‫کلی‬ ‫سیاست‬ ‫همذاس‬ ِ‫ک‬ ‫هعٌی‬ ‫ایي‬ ِ‫ت‬ ‫ضَد‬ ‫هی‬ ‫اًجام‬ٌِ‫یطی‬ ‫صفش‬ ‫ضًَذ‬ ‫ًوی‬ ‫حالت‬ ‫ّش‬ ‫تشای‬‫ضَد‬ ‫هی‬ ِ‫گزاضت‬ِ‫داضت‬ ‫ٍجَد‬ ‫ّا‬ ‫سیاست‬ ‫ساصی‬ ‫تٌْگام‬ ‫اهکاى‬ ِ‫ک‬ ‫صهاًی‬ ‫تا‬ . ‫تاضذ‬‫تاضذ‬ ‫هتفاٍت‬ ‫لثلی‬ ‫سیاست‬ ‫تا‬ ‫جذیذ‬ ‫سیاست‬ ٍ‫تکشاس‬ ‫ّا‬ ‫سیاست‬ ‫ساصی‬ ‫تْثَد‬ ٍ ‫سیاست‬ ‫اسصیاتی‬ ‫هشاحل‬ ، ‫الگَسیتن‬ ‫دس‬ .‫ضًَذ‬ ‫هی‬Value Iteration(VI)‫یک‬ ِ‫ت‬ ِ‫هشحل‬ ٍ‫د‬ ‫ایي‬ ‫اًجام‬ِ‫ت‬ .‫است‬ ِ‫یافت‬ ‫کاّص‬ ِ‫هشحل‬ ‫همادیش‬ ‫تواهی‬ ‫دٍس‬ ‫یک‬ ِ‫آًک‬ ‫جای‬ ِ‫ت‬ ،‫عثاستی‬‫ّا‬ ‫حالت‬‫صفش‬ ‫سا‬ ٌِ‫تْی‬ ‫غیش‬ ‫ّای‬ ‫سیاست‬ ‫سپس‬ ٍ ‫ضًَذ‬ ِ‫هحاسث‬ ‫تٌْگام‬ ،‫کٌذ‬ ‫هی‬ ‫تَلیذ‬ ‫سا‬ ‫همذاس‬ ٌِ‫تیطی‬ ِ‫ک‬ ‫سیاستی‬ ِ‫ت‬ ِ‫تَج‬ ‫تا‬ ‫تٌْا‬ ،‫حالت‬ ‫ّش‬ ‫همادیش‬ ِ‫هشحل‬ ‫یک‬ ‫دس‬ ،‫ًوَد‬ ‫الگَسیتن‬ ،‫کلی‬ ‫عَس‬ ِ‫ت‬ .‫ضَد‬ ‫هی‬Value Iteration‫تا‬ ‫سا‬ ‫آى‬ ‫تْثَدساصی‬ ٍ ‫سیاست‬ ‫اسصیاتی‬ ‫هَثشی‬ ‫ضکل‬ ِ‫ت‬ ‫است‬ ُ‫کشد‬ ‫تشکیة‬ ‫ّن‬‫کاسایی‬ ‫ًظش‬ ‫ایي‬ ‫اص‬ ٍ ‫است‬ ُ‫کشد‬ ‫کوتش‬ ‫سا‬ ‫ّا‬ ِ‫حلم‬ ٍ ‫هحاسثات‬ ‫همذاس‬ ‫تشتیة‬ ‫ایي‬ ِ‫ت‬ ٍ ‫داسد‬ ‫تاالتشی‬‫الگَسیتن‬ ‫تش‬ ‫سشیع‬ ‫ّوگشایی‬ ‫تاعث‬ ،‫کاس‬ ‫ایي‬ .VIِ‫ت‬ ‫ًسثت‬PI‫ایي‬ ‫ّشدٍی‬ ‫ٍلی‬ .‫است‬ ُ‫ضذ‬ َ‫ج‬ ‫یک‬ ِ‫ت‬ ‫ّا‬ ‫الگَسیتن‬.‫ضًَذ‬ ‫هی‬ ‫ّوگشا‬ ٌِ‫تْی‬ ‫سیاست‬ ‫یا‬ ‫اب‬ 3-‫گاها‬ ‫همذاس‬ ‫تاثیش‬ ‫ّش‬ ‫اصای‬ ِ‫ت‬ ِ‫ک‬ ‫است‬ ُ‫ضذ‬ ‫اثثات‬1‫دٍستیي‬ ‫همذاس‬ ‫گاها‬ ،‫ٍالع‬ ‫دس‬ ‫است؛‬ ‫تضویي‬ ‫ّا‬ ‫الگَسیتن‬ ‫ایي‬ ‫ّوگشایی‬ ‫اّویت‬ ‫تعذی‬ ‫ّای‬ ‫حالت‬ ‫ّای‬ ‫اسصش‬ ِ‫ت‬ ‫عاهل‬ ،‫تاضذ‬ ‫تش‬ ‫تضسگ‬ ‫گاها‬ ِ‫چ‬ ‫ّش‬ .‫کٌذ‬ ‫هی‬ ‫هطخص‬ ‫سا‬ ‫ّا‬ ‫عاهل‬ ‫تَدى‬ ‫است‬ ‫تیي‬ ‫ًضدیک‬ ‫عاهل‬ ‫یک‬ ‫هعشف‬ ،‫گاها‬ ‫تَدى‬ ‫کن‬ ِ‫دسحالیک‬ .‫است‬ ‫تیطتش‬ ‫آى‬ ‫ًگشی‬ ُ‫آیٌذ‬ ٍ ‫دّذ‬ ‫هی‬ ‫تیطتشی‬ ‫پاداش‬ ِ‫ت‬ ِ‫ک‬‫هی‬ ‫افضایص‬ ‫سا‬ ‫ّوگشایی‬ ‫صهاى‬ ‫هذت‬ ‫گاها‬ ‫همذاس‬ ‫تَدى‬ ‫تاال‬ .‫دّذ‬ ‫هی‬ ‫تیطتشی‬ ‫اّویت‬ ‫ای‬ ِ‫لحظ‬ ‫دًثال‬ ِ‫ت‬ ‫عاهل‬ ٍ ‫است‬ ‫تش‬ ‫تلٌذ‬ ‫عاهل‬ ‫دیذ‬ ‫افك‬ ،‫تاضذ‬ ‫تش‬ ‫تضسگ‬ ‫گاها‬ ِ‫ّشچ‬ ِ‫ک‬ ‫است‬ ‫ایي‬ ‫اتفاق‬ ‫ایي‬ ‫دلیل‬ .‫دّذ‬ ‫اًتخاب‬state-action‫اه‬ .‫ضَد‬ ‫هی‬ ‫هذت‬ ‫تلٌذ‬ ‫دس‬ ‫آى‬ ‫اسصش‬ ‫سفتي‬ ‫تاال‬ ِ‫ت‬ ‫هٌجش‬ ِ‫ک‬ ‫است‬ ‫ّایی‬‫همذاس‬ ‫اگش‬ ‫ا‬ ‫فمظ‬ ‫عاهل‬ ،‫تاضذ‬ ‫کن‬ ‫گاها‬state-action‫دس‬ ‫تاالتشی‬ ‫پاداش‬ ‫دسیافت‬ ِ‫ت‬ ‫هٌجش‬ ِ‫ک‬ ‫کٌذ‬ ‫هی‬ ‫اًتخاب‬ ‫سا‬ ‫ّایی‬ ‫هی‬ ‫اًجام‬ ‫ًشهی‬ ِ‫ت‬ ِ‫هسال‬ ‫فضای‬ ‫دس‬ ‫حشکت‬ ،‫گاها‬ ‫همذاس‬ ‫تَدى‬ ‫پاییي‬ ‫تا‬ ،‫دیگش‬ ‫تعثیشی‬ ِ‫ت‬ .‫ضًَذ‬ ‫هی‬ ِ‫لحظ‬ ‫ّواى‬ ‫همذاس‬ ‫تَدى‬ ‫تاال‬ ‫اها‬ ،‫ضًَذ‬ ‫هی‬ ‫تشسسی‬ ‫ّا‬ ‫جَاب‬ ‫تواهی‬ ٍ ‫ضَد‬ٍ ‫ضَد‬ ‫هی‬ ِ‫هسال‬ ‫فضای‬ ‫دس‬ ‫جْص‬ ‫تاعث‬ ‫گاها‬
  3. ‫سشی‬ ‫توشیي‬‫هاضیي‬ ‫یادگیشی‬ ‫سَم‬ 3 ‫تشای‬ ِ‫دسًتیج‬exploreٍ ‫است‬ ‫تضسگ‬ ‫ّا‬ ‫گام‬ ‫چَى‬ ‫ضَد‬ ‫هی‬ ‫ًیاص‬ ‫تیطتشی‬ ‫صهاى‬ ِ‫هسال‬ ‫فضای‬ ‫تواهی‬ ‫کشدى‬ .‫ضَد‬ ‫پشش‬ ‫ّا‬ ‫جَاب‬ ‫اص‬ ‫تسیاسی‬ ‫سٍی‬ ‫اص‬ ‫است‬ ‫هوکي‬ 4-‫ساصی‬ ِ‫ضثی‬ ‫ًتایج‬ ‫دس‬‫جذٍل‬1‫هختلف‬ ‫ّای‬ ‫سٍش‬ ‫تشای‬ ٌِ‫تْی‬ ‫سیاست‬ ِ‫ت‬ ‫سسیذى‬ ‫تشای‬ ‫الصم‬ ‫صهاى‬ ‫هذت‬.‫است‬ ُ‫ضذ‬ ِ‫همایس‬ ‫ّن‬ ‫تا‬ ‫الگَسیتن‬ ِ‫ت‬ ‫هشتَط‬ ‫اجشا‬ ‫صهاى‬ ‫کوتشیي‬VI‫تشاتش‬ ‫گاهای‬ ‫همذاس‬ ‫تا‬1.6.‫است‬‫اص‬ ٍ ‫ضذ‬ ُ‫داد‬ ‫تَضیح‬ ‫لثال‬ ِ‫ک‬ ‫عَس‬ ‫ّواى‬ ‫الگَسیتن‬ ،‫است‬ ‫هطخص‬ ‫ًیض‬ ُ‫آهذ‬ ‫دست‬ ِ‫ت‬ ‫ًتایج‬ ‫سٍی‬VIِ‫هشحل‬ ٍ‫د‬ ِ‫آًک‬ ‫دلیل‬ ِ‫ت‬ ،‫داسد‬ ‫تاالتشی‬ ‫ّوگشایی‬ ‫سشعت‬ ‫الگَسیتن‬ ‫دس‬ ُ‫ضذ‬ ‫اًجام‬ ‫ی‬PI‫اها‬ ‫ضًَذ؛‬ ‫هی‬ ‫اًجام‬ ِ‫هشحل‬ ‫یک‬ ‫دس‬‫الگَسیتن‬ ‫دس‬VI‫تعذاد‬iteration‫ّا‬‫ی‬ ‫خاسجی‬‫کل‬ ‫ّواى‬ ‫ٍالع‬ ‫دس‬ ِ‫(ک‬iteration)‫است‬ ‫الگَسیتن‬ ‫ایي‬ ‫دس‬ ‫ّا‬‫الگَسیتن‬ ‫اص‬ ‫تیطتش‬PIِ‫آًک‬ ‫دلیل‬ ِ‫ت‬ ‫است؛‬ ‫الگَسیتن‬ ‫تشای‬PI‫یک‬ ‫عٌَاى‬ ِ‫ت‬ ِ‫هشحل‬ ٍ‫د‬ ‫ّش‬ ‫اجشای‬ ‫کاهل‬ ‫دٍس‬ ‫یک‬iteration‫خاسجی‬ِ‫ک‬ ‫است‬ ُ‫ضذ‬ ‫حساب‬ ‫ّش‬ ‫دس‬ ‫ّا‬ ‫حالت‬ ‫همذاس‬ ‫ضذى‬ ‫پایذاس‬ ‫تشای‬ ‫تیطتشی‬ ‫ّای‬ ِ‫حلم‬ ‫تعذاد‬ ‫ضاهل‬ ‫خَد‬iteration‫تاضذ‬ ‫هی‬‫عَس‬ ‫ّواى‬ ٍ ‫الگَسیتن‬ ‫تشای‬ ‫ّا‬ ِ‫حلم‬ ‫کل‬ ‫تعذاد‬ ‫است‬ ‫هعلَم‬ ‫ًتایج‬ ‫سٍی‬ ‫اص‬ ِ‫ک‬PI‫اص‬ ‫تیطتش‬ ‫تسیاس‬VI‫است‬.‫الگَسیتن‬ ‫کلی‬ ‫عَس‬ ِ‫ت‬ VI.‫است‬ ُ‫ًوَد‬ ‫جَیی‬ ِ‫صشف‬ ‫ّوگشایی‬ ‫صهاى‬ ‫دس‬ ‫ّا‬ ‫حالت‬ ‫همادیش‬ ِ‫هحاسث‬ ‫کشدى‬ ُ‫یکثاس‬ ‫تا‬ ‫جذٍل‬1‫الگَسیتن‬ ٍ‫د‬ ‫دس‬ ‫اجشا‬ ‫هذت‬ ِ‫همایس‬PIٍVI Value Iteration 9.0 Value Iteration 6.0 Policy Iteration 9.0 Policy Iteration 6.0 4.15631.031313.59383.3750Run Time (s) 942343# External Iteration --26143# Total Iteration ‫دس‬ ‫ّا‬ ‫حالت‬ ‫همذاس‬ ُ‫ّوشا‬ ِ‫ت‬ ،‫تاضذ‬ ‫هی‬ ‫حالت‬ ‫ّش‬ ‫دس‬ ُ‫ضذ‬ ‫اًتخاب‬ ‫ّای‬ ‫عول‬ ‫ضاهل‬ ِ‫ک‬ ٌِ‫تْی‬ ‫ًْایی‬ ‫سیاست‬ ‫اصای‬ ِ‫ت‬ ٌِ‫تْی‬ ‫ًْایی‬ ‫سیاست‬6.0ٍ9.0‫دسضکل‬ ‫تشتیة‬ ِ‫ت‬1‫ضکل‬ ٍ2.‫است‬ ُ‫ضذ‬ ُ‫داد‬ ‫ًطاى‬‫دس‬ ‫ّای‬ ‫لسوت‬bٍe‫است‬ ُ‫ضذ‬ ‫تیاى‬ ُ‫ضذ‬ ‫اًتخاب‬ ‫عول‬ ِ‫تَسیل‬ ‫ّا‬ ‫حالت‬ ‫اص‬ ‫یک‬ ‫ّش‬ ‫دس‬ ُ‫ضذ‬ ‫اًتخاب‬ ‫سیاست‬ٍ‫ّش‬ ‫عول‬‫ّای‬ ‫عول‬ ٍ ‫است‬ ُ‫ضذ‬ ُ‫داد‬ ‫ًطاى‬ ‫هتفاٍت‬ ‫سًگ‬ ‫یک‬ ‫تا‬-5+ ‫تا‬5ِ‫ت‬‫ّای‬ ُ‫ضواس‬1‫تا‬11.‫اًذ‬ ُ‫ضذ‬ ‫هتٌاظش‬ ‫اص‬ ‫ّا‬ ‫حالت‬ ‫ٍضعیت‬ ‫ّوچٌیي‬(1,1)‫تا‬(21,21)‫ّای‬ ‫حالت‬ ‫تا‬ ‫است‬ ‫هتٌاظش‬ ِ‫ک‬ ‫است‬ ُ‫کشد‬ ‫تغییش‬(0,0)‫تا‬ (20,20).‫الگَسیتن‬ ٍ‫د‬ ‫ّش‬ ‫ضَد‬ ‫هی‬ ِ‫هالحظ‬ ِ‫ک‬ ‫عَس‬ ‫ّواى‬PIٍVIِ‫ت‬ ‫تشاتش‬ ‫گاهای‬ ‫همذاس‬ ‫اصای‬ ِ‫ت‬‫ّای‬ ‫سیاست‬ ‫یکساًی‬ ‫کاهال‬ُ‫ضذ‬ ‫ّوگشا‬‫اًذ‬‫ٍلی‬ ،‫الگَسیتن‬ ٍ‫د‬ ‫تشای‬ ‫ّا‬ ‫حالت‬ ‫همذاس‬‫تشاتش‬ ‫گاهای‬ ‫همذاس‬ ‫اصای‬ ِ‫ت‬‫تسیاس‬ ‫حذ‬ ‫دس‬ ‫داسًذ‬ ‫اختالف‬ ‫ّن‬ ‫تا‬ ‫ّضاسم‬ ُ‫د‬ ‫جضیی‬.ُ‫ضذ‬ ‫رکش‬ ‫هتفاٍت‬ ‫گاهای‬ ٍ‫د‬ ‫اصای‬ ِ‫ت‬ ٌِ‫تْی‬ ‫ًْایی‬ ‫سیاست‬‫است‬ ِ‫هطات‬ ‫تسیاس‬
  4. ‫سشی‬ ‫توشیي‬‫هاضیي‬ ‫یادگیشی‬ ‫سَم‬ 4 ‫حذٍد‬ ‫چیضی‬ ‫دس‬ ‫فمظ‬ ٍ11-15.‫داسًذ‬ ‫فشق‬ ‫تاّن‬ ‫عول‬‫گاهای‬ ‫همذاس‬ ِ‫گشچ‬1.0‫همذاس‬ ِ‫ت‬ ‫هٌجش‬‫تشای‬ ‫تیطتشی‬ ِ‫ت‬ ‫الگَسیتن‬ ٍ‫د‬ ‫تشای‬ ٌِ‫تْی‬ ‫ًْایی‬ ‫سیاست‬ ‫اها‬ ،‫است‬ ُ‫ضذ‬ ‫ّا‬ ‫حالت‬‫اصای‬.‫تاضذ‬ ‫هی‬ ‫هساٍی‬ ‫تشاتش‬ ‫گاهای‬ ‫یک‬ 5-‫ًتی‬‫گیشی‬ ِ‫ج‬ ‫الگَسیتن‬ ٍ‫د‬PIٍVI‫اها‬ ‫ضًَذ‬ ‫هی‬ ‫ّوگشا‬ ‫سیاست‬ ‫یک‬ ِ‫ت‬ ،‫هساٍی‬ ِ‫اٍلی‬ ‫ضشایظ‬ ٍ ‫تشاتش‬ ‫گاهای‬ ‫همذاسّای‬ ‫اصای‬ ِ‫ت‬ ‫الگَسیتن‬ ‫ّوگشایی‬ ‫سشعت‬VI‫الگَسیتن‬ ‫جذای‬ ‫ی‬ ِ‫هشحل‬ ٍ‫د‬ ِ‫آًک‬ ‫دلیل‬ ِ‫ت‬ ‫است‬ ‫تاالتش‬PI‫الگَسیتن‬ ‫دس‬VI‫یک‬ ِ‫ت‬ .‫است‬ ِ‫یافت‬ ‫تملیل‬ ِ‫هشحل‬‫الگَسیتن‬ ‫هضایای‬VIِ‫ت‬ ‫ًسثت‬PI‫ّوگشایی‬ ٍ ‫کوتش‬ ‫ّای‬ ِ‫حلم‬ ‫تعذاد‬ ،‫کوتش‬ ِ‫هحاسث‬ .‫تاضذ‬ ‫هی‬ ‫تش‬ ‫سشیع‬‫گاهای‬ ‫ّش‬ ‫اصای‬ ِ‫ت‬ ‫اها‬ ‫سٍد‬ ‫هی‬ ‫تاالتش‬ َ‫جستج‬ ‫صهاى‬ ‫تاضذ‬ ‫تش‬ ‫تضسگ‬ ‫گاها‬ ‫همذاس‬ ِ‫چ‬ ‫ّش‬ ‫ّوچٌیي‬ ‫اص‬ ‫کوتش‬1.‫ضذ‬ ‫خَاّذ‬ ‫ّوگشا‬ ٌِ‫تْی‬ ‫جَاب‬ ‫یک‬ ِ‫ت‬ ‫حتوا‬ ‫الگَسیتن‬ ،
  5. ‫سشی‬ ‫توشیي‬‫هاضیي‬ ‫یادگیشی‬ ‫سَم‬ 5 b) Actions selected at each statea) State-value function for final optimal policy Policy Iteration e) Actions selected at each stated) State-value function for final optimal policy Value Iteration Results of applying Gamma=0.6 ‫شکل‬2
  6. ‫سشی‬ ‫توشیي‬‫هاضیي‬ ‫یادگیشی‬ ‫سَم‬ 6 b) Actions selected at each stateb) State-value function for final optimal policy Policy Iteration e) Actions selected at each stated) State-value function for final optimal policy Value Iteration Results of applying Gamma=0.9 ‫شکل‬3
Publicidad