Lecture notes

Reinforcement Learning in Partially Observable Environments Michael L. Littman

Temporal Difference Learning (1) Q learning: reduce discrepancy between successive Q estimates One step time difference: Why not two steps? Or n ? Blend all of these:

Temporal Difference Learning (2) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Equivalent expression:

non-Markov Examples ,[object Object]

Markov Decision Processes ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Partially Observable MDPs ,[object Object],[object Object],[object Object]

State Approaches to POMDPs ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Learning a POMDP ,[object Object],[object Object],[object Object],state occupation probabilities POMDP model E: Forward-backward M: Fractional counting

EM Pitfalls ,[object Object],[object Object],[object Object],[object Object]

Information State ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Plan with Information States ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Predictions as State ,[object Object],[object Object],[object Object],up blue left red up not blue left not red up blue left not red predict: up blue ? left red ? up not blue left red

Experience as State ,[object Object],[object Object],[object Object],[object Object]

Classification Dialog (Keim & Littman 99) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Incremental Pruning Output ,[object Object],S T S R S M

Wrap Up ,[object Object],[object Object],[object Object],[object Object],[object Object]

Lecture notes

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (12)

Similar a Lecture notes

Similar a Lecture notes (20)

Más de butest

Más de butest (20)

Lecture notes