報酬設計と逆強化学習

報酬設計と逆強化学習
千葉大学大学院荒井研究室修士2年
中田勇介
2018/6/23 現在の強化学習に何が足りないのか？

362 /
中田勇介
専門
強化学習，逆強化学習
経歴
千葉大学大学院都市環境システムコース
千葉大学都市環境システム学科
明石高専建築学科
Github: https://github.com/uidilr
chainer/chainerrl, openai/gymに，ほんの少し貢献
自己紹介

363 /
1. 強化学習における報酬設計問題
2. 逆強化学習
3. デモンストレーションを用いる強化学習
4. まとめ
目次

364 /
マルコフ決定過程における最適方策を学習
最適方策
強化学習(RL)
・・・

365 /
マルコフ決定過程における最適方策を学習
最適方策
強化学習(RL)
・・・

366 /
強化学習(RL)
報酬の期待値が最大の方策を学習
設計者自身が解けない問題を強化学習で解ける
例: 囲碁の素人がAlphaGoをトレーニング

367 /
強化学習(RL)
人が設計

368 /
強化学習(RL)
報酬の例
R(s) = 1 s = 目標状態
0 otherwise
人が設計

369 /
強化学習(RL)
報酬に対する最適方策を学習
報酬の例
0 otherwise
疎（スパース）な報酬の下での学習は困難
人が設計

3610 /
強化学習(RL)
報酬の例
0 otherwise
→目標状態以外にも報酬を与える？
人が設計

3611 /
強化学習(RL)
報酬の例
0 otherwise
→目標状態以外にも報酬を与える？
→意図しない方策が最適になる場合も
人が設計

3613 /
強化学習(RL)
意図しない方策の学習を防ぐために報酬設計を試行錯誤

3614 /
強化学習(RL)
→報酬設計を試行錯誤する前に，問題を整理

3615 /
強化学習(RL)
設計者が解ける設計者が解けない

3616 /
強化学習(RL)
報酬設計容易
報酬設計困難

3617 /
強化学習(RL)
報酬設計容易強化学習強化学習
報酬設計困難 -

3618 /
設計者が解ける（デモンストレーションできる）
→方策や軌跡から報酬を推定すれば良い
強化学習(RL)
報酬設計困難逆強化学習 -

3619 /
強化学習(RL)
環境のモデル
報酬

3620 /
強化学習(RL)
環境のモデル
方策報酬

3621 /
逆強化学習(IRL)
環境のモデル
方策, 軌跡

3622 /
報酬
環境のモデル
方策, 軌跡

3623 /
報酬
環境のモデル
方策, 軌跡
・・・

3624 /
環境のモデル
方策報酬

3625 /
報酬更新
強化学習
エキスパート
と比較

3626 /
1. Maximum Entropy IRL [Ziebart et al., 2008]
- Guided Cost Learning[Finn et al., 2016]
- GAIL [Ho et al., 2016]
- AIRL [Fu et al., 2018]
2. Bayesian IRL [Ramachandran et al., 2007]
- BNFIRL [Choi et al., 2013]
3. IRL in Linearly solvable MDP [Dvijotham et al., 2010]
- LogReg IRL [Uchibe, 2018]

3627 /
1. エキスパート方策の模倣
- ロボットアームの制御[Finn et al., 2016]
- 自動運転 [Sharifzadeh et al., 2017]
2. 動物や人の行動の解析
- 線虫の行動解析[Yamaguchi et al., 2018]
- 歩行者の行動解析 [Kitani et al., 2012]
- SNSユーザーのトピック変化解析 [Yang et al., 2018]
逆強化学習問題を解くモチベーション

3628 /
逆強化学習と教師あり学習
報酬設計困難逆強化学習 -

3629 /
報酬設計困難
逆強化学習
教師あり学習
-

3630 /
逆強化学習教師あり学習
所与教師データ
シミュレータ
教師データ
出力方策，報酬方策
メリット教師データ数: 少
確率的な状態遷移に強い
報酬の転移可能
シミュレータ不要
デメリットシミュレータ必要教師データ数: 多

3631 /
対象問題の分類と解法
報酬設計困難
逆強化学習
教師あり学習
-

3632 /
対象問題の分類と入力
報酬設計容易報酬報酬
報酬設計困難デモンストレーション -

3633 /
対象問題の分類と入力
報酬設計容易
報酬
デモンストレーション
報酬
報酬設計困難デモンストレーション -

3634 /
デモンストレーションで探索範囲を誘導
DQN From Demonstration [Hester et al., 2017]
Q-filter [Nair et al., 2017]
自ら集めた報酬が高いサンプルを
デモンストレーションとして使用
Self-Imitation Learning [Oh et al., 2018]
デモンストレーションを用いる強化学習

3635 /
デモンストレーションで探索範囲を誘導
DQN From Demonstration [Hester et al., 2017]
Q-filter [Nair et al., 2017]
自ら集めた報酬が高いサンプルを
デモンストレーションとして使用
Self-Imitation Learning [Oh et al., 2018]
報酬設計が容易なスパースな報酬でも方策が学習可能に
デモンストレーションを用いる強化学習

3636 /
報酬設計は，意図通りの問題を設定する方法としては脆弱
→疎な報酬では学習が困難
→複雑な報酬では，意図しない方策が最適方策に
複雑な報酬を設計せずに方策を学習する方法が必要
→逆強化学習
→デモンストレーションを用いる強化学習
まとめ

3637 /
報酬設計は，意図通りの問題を設定する方法としては脆弱
→スパースな報酬では学習が困難
→複雑な報酬では，意図しない方策が最適方策に
複雑な報酬を設計せずに方策を学習する方法が必要
→逆強化学習
→デモンストレーションを用いる強化学習
設計者の知識を報酬以外の形で問題に反映する方法が必要
まとめ

3639 /
初期状態
目標状態

3640 /
逆強化学習
- 教師データ数が少なくても学習
- 確率的な状態遷移に強い
初期状態
目標状態
報酬

3641 /
逆強化学習
初期状態
目標状態
報酬

3642 /
逆強化学習
初期状態
目標状態
報酬

3643 /
教師あり学習
初期状態
目標状態

3644 /
教師あり学習
強化学習
最大エントロピー

報酬設計と逆強化学習

報酬設計と逆強化学習

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

報酬設計と逆強化学習

Notas del editor