Más contenido relacionado
La actualidad más candente (20)
報酬設計と逆強化学習
- 26. 3626 /
1. Maximum Entropy IRL [Ziebart et al., 2008]
- Guided Cost Learning[Finn et al., 2016]
- GAIL [Ho et al., 2016]
- AIRL [Fu et al., 2018]
2. Bayesian IRL [Ramachandran et al., 2007]
- BNFIRL [Choi et al., 2013]
3. IRL in Linearly solvable MDP [Dvijotham et al., 2010]
- LogReg IRL [Uchibe, 2018]
逆強化学習(IRL)
- 27. 3627 /
1. エキスパート方策の模倣
- ロボットアームの制御[Finn et al., 2016]
- 自動運転 [Sharifzadeh et al., 2017]
2. 動物や人の行動の解析
- 線虫の行動解析[Yamaguchi et al., 2018]
- 歩行者の行動解析 [Kitani et al., 2012]
- SNSユーザーのトピック変化解析 [Yang et al., 2018]
逆強化学習問題を解くモチベーション
- 34. 3634 /
デモンストレーションで探索範囲を誘導
DQN From Demonstration [Hester et al., 2017]
Q-filter [Nair et al., 2017]
自ら集めた報酬が高いサンプルを
デモンストレーションとして使用
Self-Imitation Learning [Oh et al., 2018]
デモンストレーションを用いる強化学習
- 35. 3635 /
デモンストレーションで探索範囲を誘導
DQN From Demonstration [Hester et al., 2017]
Q-filter [Nair et al., 2017]
自ら集めた報酬が高いサンプルを
デモンストレーションとして使用
Self-Imitation Learning [Oh et al., 2018]
報酬設計が容易なスパースな報酬でも方策が学習可能に
デモンストレーションを用いる強化学習
Notas del editor
- 本発表の目次です.
はじめに,強化学習を簡単にご紹介し,強化学習における報酬設計問題を取り上げます.
その後に,報酬設計の試行錯誤を回避する方法として,
逆強化学習とデモンストレーションを用いる強化学習を取り上げます.
- 強化学習は,マルコフ決定過程における最適方策を学習します.
- 最適方策とは,方策の下で得られる報酬の期待値が最大の方策を指します.
- 強化学習は,報酬に対する最適方策を学習をするため,設計者自身が解けない問題を解くことができます.
そのような例として,AlphaGoなどがあります.強化学習によって,設計者よりも囲碁が強いエージェントを作ることができます.
強化学習では,設計者よりも優れた方策を学習できる点が,教師あり学習との大きな違いです.
- 強化学習の報酬は人が設計します.
その報酬は,設計者がエージェントに解かせたい問題を反映している必要があります.
解かせたい問題を正しく反映する報酬は簡単に設計できるのでしょうか.
- よくある報酬設計の例として,
目標とする状態に正の報酬,それ以外の状態に0や負の報酬を与える方法があります.
先ほどの囲碁の例でいうと,勝利で正の報酬,それ以外で0の報酬といった感じです.
確かに,これなら簡単に定義できそうです.
- しかし,このようにスパースな報酬では,状態空間が大きい場合に,最適方策の獲得が困難である場合が多いです.
なぜなら,強化学習は,報酬が得られる状態を訪れなければ,学習が進まないからです.
- では,目標状態以外にも報酬を割り振ったらいいんじゃないか.
学習が進むんじゃないかと考える訳です.
そうすれば,報酬が得られる状態を訪れやすくなって,学習が進みやすくなりそうですよね.
- 果たして,目標状態以外にも報酬を与えた問題は,本当に意図した問題なのでしょうか.
強化学習は報酬の期待値が最大となる方策を学習をします.
報酬の設計を誤ると,本来意図した問題と異なる問題を解かせることになってしまいます.
ここでは,動画で,そのような例をお見せします.
- LiveSlide Site
https://www.youtube.com/watch?time_continue=46&v=tlOIHko8ySg
- 報酬の設計によって,意図しない方策が学習されることがお分かり頂けたと思います.
よし,今回の反省を生かして,報酬の設計を変えてみよう.となりそうですが.
ここではまず,解きたい問題を,二つの指標で分類してみます.
-
ここではまず,解きたい問題を,二つの指標で分類してみます.
- 一つ目の指標を設計者が解ける問題か,解けない問題かで分類します.
言い換えれば,人が既にこなせるタスクを機械学習で自動化したいのか,人がこなせないタスクを機械学習にやらせたいのかです.
例えば,自動運転なら,人は運転できますから,設計者が解ける問題ですし,
私が,AlphaGoをトレーニングする場合は,囲碁は弱いんで,後者です.
- 次に,報酬設計の難易度で問題を分類します.
人が,解けても,報酬設計が難しい問題があります.先ほどのボートレースのゲームや自動運転がこれに当たります.
これらの問題をどのように解くべきでしょうか.
5:30
NNのハイパーパラメータ調整,
囲碁,
車の運転
- 上側は,報酬が設計できる問題ですので,強化学習を適用するのが良さそうです.
では下側はどうでしょうか.
右下の設計者が解けず,報酬設計困難な場合は,お手上げです.
報酬を試行錯誤で設計するしかありません.
設計者が解けて,報酬設計が困難な場合はどうでしょうか.
- 設計者が解けるというのは,自動車の運転みたいにデモンストレーションができる訳です.
報酬を人が設計する代わりに,
デモンストレーションを生成する方策が最適方策となる報酬を推定する方法が考えられます.
これが逆強化学習です.
- 一旦強化学習から整理すると,
強化学習は,環境のモデルと,報酬を所与として,
- 報酬の期待値が最大の最適方策を学習します.
- 一方,逆強化学習は,環境のモデルと,エキスパートの方策や軌跡などのデータから報酬を推定します.
- ここで,軌跡とは,状態と行動の系列,意思決定系列を指します.
- 逆強化学習で推定した報酬に対する最適方策はエキスパート方策と一致するため,エキスパート方策 pi_Eが模倣できます.
- 逆強化学習の基本的な流れを示します.
まず報酬を初期化して,推定報酬に対して強化学習をし,最適方策を求める.
最適方策とエキスパート方策を比較し,比較の結果に基づいて報酬を更新します.
これを繰り返します.
7:00
- こちらが
- ここで,逆強化学習を解くモチベーションをご紹介します.
一つは,エキスパート方策の模倣です.
もう一つは,行動解析で,報酬自体が関心であることもあります.
- ここまでで,ご説明した通り,逆強化学習は,デモンストレーション,いわば教師データが用意できる場合の手法です.
- 当然,教師あり学習でいいのではないかという疑問が出ると思います.
- ここで,逆強化学習と教師あり学習を比較した表です.
逆強化学習は,シミュレータ等の試行錯誤が可能な環境を必要としますが,
教師データ数が少なくて良く,確率的な状態遷移に強いことが挙げられます.
また,エキスパートの報酬が推定できていれば,状態遷移確率が異なる環境における,エキスパートの方策を学習できます.
- ここまで,対象問題を4つに分類し,強化学習,逆強化学習,教師あり学習の三つの機械学習手法を取り上げました.
そして,報酬設計が容易な時には,報酬を用いて方策を学習し,
報酬設計が困難だが,設計者が解ける問題では,デモンストレーションから方策を学習する方が良い.
そうすることで報酬設計の試行錯誤を回避することができます.
- それぞれの問題で使える入力を表に示しています.
- 左上の設計者が解けて,報酬設計が容易な場合には,デモンストレーションが使えることがお分かり頂けると思います.
- 近年,デモンストレーションと強化学習を組み合わせる方法が提案されています.
デモンストレーションを用いて探索範囲を誘導することによって
- 近年,デモンストレーションと強化学習を組み合わせる方法が提案されています.
デモンストレーションを用いて
- 設計者が持つ知識を報酬に反映するほかない.
報酬設計を試行錯誤する前に,
ほかの方法で,自分が持つ問題に対する知識を反映できないか考えるのが良いと思います.
そして,
- このような報酬が推定されたとします.
- LiveSlide Site
https://www.youtube.com/watch?v=Ej-Jb_y25Pc