SlideShare una empresa de Scribd logo
1 de 32
近年の逆強化学習の動向
~MaxEnt IRLとその発展系を中心に~
中田勇介(M1)
千葉大学大学院 融合理工学府
荒井研究室
2017/9/05 RLアーキテクチャ勉強会
発表の内容
はじめに
2
逆強化学習ににおける三つの課題を扱う.
1. エキスパートが訪れていない状態の報酬を推定
• 報酬の関数近似
2. 解の曖昧さへの対処(凸最適化問題として定式化)
• 最大エントロピーの原理による定式化(Maximum Entropy IRL)
• 相対エントロピー最小化による定式化(Relative Entropy IRL)
3. 試行錯誤の削減
• 重要サンプリングで報酬の更新式に含まれる分配関数を推定
発表の構成
はじめに
3
1. IRLによる報酬関数の推定
• 線形関数の推定
• 非線形関数の推定
2. 最大エントロピーの原理による解の曖昧さへの対処
• Maximum Entropy IRL(線形関数)
• Maximum Entropy Deep IRL(非線形関数)
3. 重要サンプリングによる分配関数Z(θ)の推定
• Relative Entropy IRL(線形関数,相対エントロピー最小化)
• Guided Cost Learning(非線形関数,Maximum Entropy)
マルコフ決定過程
1. IRLによる報酬関数の推定
4
マルコフ決定過程
状態集合
行動集合
遷移確率
割引率
報酬関数
逆強化学習(IRL)
1. IRLによる報酬関数の推定
5
目的
 エキスパートの意思決定系列を所与として
エキスパートの方策が最適方策となる報酬rを推定
Input
Output
 Expert’s reward
報酬以外の環境の情報
エキスパートの意思決定系列(軌跡)
エキスパートの報酬関数
ある報酬の元で最適なエージェント
報酬関数の推定
1. IRLによる報酬関数の推定
6
1. 全状態でのエキスパートの情報が得られないことも.
2. 一部の状態の情報を元に全状態の報酬を推定したい.
3. 報酬を関数近似し全状態での報酬を推定.
報酬関数の推定
1. IRLによる報酬関数の推定
7
 𝑘個の特徴量を持つ特徴ベクトル 𝜙 = 𝜙1, … , 𝜙 𝑘
⊤
𝜙: 𝑆 → ℝ 𝑘 状態空間を𝑘次元実数空間に写像
特徴量は速度や座標など状態を表す情報
特徴ベクトルが近い状態は報酬も近いと仮定
報酬r を特徴ベクトルとパラメータの関数で表す.
Function Limit
Linear Nonlinear ×
BNP-FIRL
Only Piecewise
constant functions
GPIRL
Computational
complexity
Neural Net
報酬関数の例
1. IRLによる報酬関数の推定
8
推定した報酬が満たすべき条件(線形)
1. IRLによる報酬関数の推定
9
ある軌跡で得られる報酬
ある方策で得られる報酬の期待値
 特徴期待ベクトル が等しい方策は報酬の期待値も等しい
推定した報酬が満たすべき条件(線形)
1. IRLによる報酬関数の推定
10
最適方策が エキスパートの方策 となる報酬を推定
 推定した報酬の元での最適方策は次の条件を満たす.
• と の報酬の期待値が一致
• と の特徴期待ベクトルが一致
上式を満たす軌跡の分布になる報酬を見つければ良い.
しかし,上式満たす軌跡の分布は複数存在する.(報酬も複数)
どのような軌跡の分布が良いだろうか?
最大エントロピーの原理の考え方
2. 最大エントロピーの原理による解の曖昧さへの対処
11
条件を満たす確率分布が複数存在するが一つを選びたい.
確率分布が満たす条件を知っている.
確率分布については,それが満たす条件しか知らない.
条件以外の情報をできるだけ含まない確率分布を選ぶ!
エントロピーが最大
Maximum Entropy IRL
2. 最大エントロピーの原理による解の曖昧さへの対処
12
条件1:特徴期待値が一致
条件2, 3 :Pは確率
条件4 : 軌跡は離散
エントロピー最大化
意味 数式
Maximum Entropy IRL
2. 最大エントロピーの原理による解の曖昧さへの対処
13
ラグランジュの未定乗数法で解くと次式が得られる.
軌跡が得られる確率は報酬の大きさに指数比例
この式に基づき に対して尤度最大化
Maximum Entropy IRL
2. 最大エントロピーの原理による解の曖昧さへの対処
14
対数尤度を勾配法で最大化
エキスパートと比較して
特徴期待値:小 → 重み:大きく更新
特徴期待値:大 → 重み:小さく更新
勾配の意味
Maximum Entropy IRL
2. 最大エントロピーの原理による解の曖昧さへの対処
15
勾配の計算方法
: から計算
: を更新するごとにDP or RLを行い計算
Deep Maximum Entropy IRL
2. 最大エントロピーの原理による解の曖昧さへの対処
16
対数尤度を勾配法で最大化
エキスパートと比較して
状態を訪れる頻度:小 → 重み:報酬を大きく更新
状態を訪れる頻度:大 → 重み:報酬を小さく更新
勾配の意味
エキスパートが状態を訪れる頻度 θの元で状態を訪れる頻度
Deep Maximum Entropy IRL
2. 最大エントロピーの原理による解の曖昧さへの対処
17
勾配の計算方法
: から計算
: を更新するごとにDP or RLを行い計算
Deep Maximum Entropy IRL
2. 最大エントロピーの原理による解の曖昧さへの対処
18
勾配の計算方法
: から計算
: を更新するごとにDP or RLを行い計算
めちゃくちゃ大変!!!!!!
Relative Entropy IRL
3. 重要サンプリングによる分配関数の推定
19
DPやRLが必要なのは下の二つを計算したいから.
θに対する最適方策を使わずに上式を求めたい
最適方策が必要なければ試行錯誤が格段に減る!!
少し異なる問題設定を考える.
エキスパートの軌跡の分布
との相対エントロピーを最小化
Relative Entropy IRL
3. 重要サンプリングによる分配関数の推定
20
条件1:特徴期待値が一致
条件2, 3 :Pは確率
条件4 : 軌跡は離散
意味 数式
※簡単のためMaxEntに合わせて条件1を改変
Relative Entropy IRL
3. 重要サンプリングによる分配関数の推定
21
ラグランジュの未定乗数法で解くと次式が得られる.
軌跡が得られる確率: に指数比例, に比例
この式に基づき に対して尤度最大化
Relative Entropy IRL
3. 重要サンプリングによる分配関数の推定
22
Relative Entropy IRL
Maximum Entropy IRL
Relative Entropy IRL
3. 重要サンプリングによる分配関数の推定
23
Zさえ近似できれば計算できる.
※Q(ζ)が求まるかはここでは考えない
重要サンプリングを用いれば上式も求まる.
Relative Entropy IRL
3. 重要サンプリングによる分配関数の推定
24
重要サンプリングを使う
※ここでの はエキスパートの軌跡を元にした結合確率
Relative Entropy IRL
3. 重要サンプリングによる分配関数の推定
25
ある軌跡が得られる確率 = 初期状態分布×方策×状態遷移確率×方策...
H : 軌跡のステップ数
Relative Entropy IRL
3. 重要サンプリングによる分配関数の推定
26
同じ環境で試行錯誤している→状態遷移確率が同じなので打ち消しあう
Zが求まる!!!
・軌跡をサンプリングする方策はランダム方策でも良い.
・報酬を更新する毎に最適方策を求める必要もない.
・状態遷移確率が分からなくても良い(モデルフリー)
Relative Entropy IRL
3. 重要サンプリングによる分配関数の推定
27
Guided Cost Learning
3. 重要サンプリングによる分配関数の推定
28
Maximum Entropy IRLの問題設定でZを近似
Relative Entropy IRLでは状態遷移確率が消えた
Maximum Entropy IRLでは状態遷移確率が消えない
状態遷移確率を近似してP(ζ)を求める
Guided Cost Learning
3. 重要サンプリングによる分配関数の推定
29
近似した状態遷移確率の元で最適な軌跡を生成
 Guided Policy Searchを用いる
軌跡の分布が次式を満たすため近似精度が良い
サンプル数が少なくて済む.
Guided Cost Learning
3. 重要サンプリングによる分配関数の推定
30
少ないサンプル数で高い成功率
その他のIRL
31
IOC with Linearly-Solvable MDPs [Dvijotham 10]
 モデルフリー,線形可解MDP
Deep IRL by Logistic Regression [Uchibe 16]
 モデルフリー,線形可解MDP,非線形報酬関数
Generative Adversarial Imitation Learning [Ho 16]
 モデルフリー,模倣学習,MaxEnt IRLと同じ方策
 End-to-End Differentiable Adversarial Imitation Learning
[Baram 17]
 状態遷移確率を学習し分散を減らすGAIL
1. 2. 3. 4. 5.
32

Más contenido relacionado

La actualidad más candente

強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心Shota Imai
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜Jun Okumura
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)RyuichiKanoh
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
 
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化gree_tech
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門tmtm otm
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)Kota Matsui
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)Takuma Yagi
 
ベイズ最適化
ベイズ最適化ベイズ最適化
ベイズ最適化MatsuiRyo
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)Shota Imai
 
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習Deep Learning JP
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 
【解説】 一般逆行列
【解説】 一般逆行列【解説】 一般逆行列
【解説】 一般逆行列Kenjiro Sugimoto
 
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)Yusuke Nakata
 
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Preferred Networks
 
[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展Deep Learning JP
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence ModelingDeep Learning JP
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類Shintaro Fukushima
 

La actualidad más candente (20)

強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
 
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
 
ベイズ最適化
ベイズ最適化ベイズ最適化
ベイズ最適化
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
 
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
【解説】 一般逆行列
【解説】 一般逆行列【解説】 一般逆行列
【解説】 一般逆行列
 
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
 
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
 
[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
 

Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について

Notas del editor

  1. 質問