強化学習その5

強化学習その5
部分観測モンテカルロ計画法
(部分観測マルコフ決定過程2)
2017-08-07 @ 機械学習勉強会
サイボウズ・ラボ西尾泰和
過去の資料: https://github.com/nishio/reinforcement_learning

このスライドの目的
大規模なデータを占有してない企業にとって
強化学習の考え方が有用なので
基礎からきちんと理解したい。
そのために機械学習勉強会の何回かに分けて
強化学習の話を連載する。
2

参考文献
2016年10月に左の本が出た。
これを読んでいく。
右下の本が長らくバイブル
だったが2000年(原著1998年)
発行。
3
http://amzn.to/2josIJ1
http://amzn.to/2jCnYQg言及する時 [こ] と呼ぶことにする(著者多いので)

今後の予定
第4回(前回): 1章5節部分観測マルコフ決定過程
第5回: 1章5節部分観測マルコフ決定過程であま
り触れられていないモデルフリーのPOMCP
4

今後の予定
第6回
2.1 統計学習の観点から見たTD学習
2.1.1 強化学習と教師付き学習の学習則
2.1.2~3 関数近似を(する/しない)価値関数推定
(ここまで28ページ)
第7回
2.1.4 セミパラメトリック統計学習に基づく定式
化(10ページ)
2.2 理論性能解析とベイズ
(理論薄めでやる。13ページ)
5

今後の予定
第8回 2.3 逆強化学習
第9回 2.4 経験強化型学習
2.5 群強化学習(飛ばします)
第10回 2.6 リスク考慮型強化学習
2.7 複利型強化学習(飛ばします)
第11回
3 強化学習の工学応用
3.3 対話処理における強化学習
6

今後の予定
第12回 3.5 自然言語処理における逆強化学習と模
倣学習
第13回 3.7 深層学習を用いたQ関数の学習
第14回 4 知能のモデルとしての強化学習
7

前回のおさらい
部分観測マルコフ決定過程について学んだ。
2状態の小さい例について実験した。
8

部分観測マルコフ決定過程(POMDP)
普通のマルコフ過程と違って
状態の一部が観測不可能
そこで「きっとこうに違いない」という
「信念状態」を導入して新たなMDP
(belief MDP)を構築する
9

元のMDPがD次元ならbelief MDPの信念状態bは
𝑏 ∈ ℝ 𝐷
になって大変
幸いbelief MDP上の価値関数Vは区分線形で下に
凸なので、D次元ベクトルの集合で効率的に表現
できる
しかし厳密に計算するとベクトルの数が指数的
オーダーで増える。そこで定数個のベクトルで近
似するのがPoint Based Value Iteration
この両者を実装して2状態3行動で実験した。
10

PBVIの問題点
1. 状態遷移確率を人間が記述して与える
2. (どこまでの状態数でできるか実験してないが)
大規模な問題を解くことが困難(かも)
11

POMCP
“Monte-Carlo Planning in Large POMDPs”*
状態遷移確率を人間が陽に与えるのではなく
ブラックボックスのシミュレータを与えて
繰り返し実験によって確率を計算していく
12
* David Silver and Joel Veness(2010)

POMCPの仕組み
• 信念状態の推定にパーティクルフィルタ
(またの名を逐次的モンテカルロ)を使う
• 価値関数の表現にモンテカルロ木探索を使う
13

具体例を先に出そう
今までの勉強会では数式を追ってから実験をする
流れだったが、今回の件に関しては先に具体例を
紹介して具体的に考えて行った方が良さそう。
14

ガイスター
15
• 2人対戦型ゲーム、盤面は6x6
• 各プレイヤーは赤のコマ4つ
青のコマ4つを持つ。上下左右に動く
• 対戦プレイヤーのコマの色は
そのコマを取るまでわからない

ガイスターの勝利条件
下記3つのいずれかの条件を満たす
• 相手の青コマをすべて取る
• 自分の赤コマをすべて取られる
• 自分の青コマがゴールから脱出する
16
初期配置

部分観測性
“対戦プレイヤーのコマの色は
そのコマを取るまでわからない”
なので、初期状態で相手の8つのコマのうち
どの4つが赤であるのか
8C4 = 70通りの可能性がある
17
注: 2^8 = 256通りと考えると、コマが取られて色が確定したことによる
他のコマの信念の更新が表現できなくなる

Tiny版
人間が問題を理解しやすくするために
4x4盤面に赤と青が1コマずつのバージョンを考
える
この場合、勝利条件は
• 相手の青コマを取る
• 自分の赤コマを取られる
• 自分の青コマがゴールから脱出する
となる
18

人間が考えてみる
Q1: 自分の手番であるコマを進めると、相手のコ
マに接触し、次の手番で相手にそのコマを取られ
る恐れがある。進めるか？
19

A1: そのコマが青である場合、取られると敗北。
そのコマが赤である場合、取られると勝利。
取られずに継続した場合の盤面評価に大きな差が
ないなら、赤の場合は進むべき、青の場合は進ま
ないべき。
20

Q2: (A1をふまえて)
相手のコマが進んで自分のコマに接触した。
取るべき？
21

A2: A1をふまえると、取られる位置に進んできた
そのコマは赤であるので、取ると敗北。取っては
いけない。
22

最初に青のコマと赤のコマ、
どちらを動かすべき？
23

A3: A2をふまえると相手はコマを取らないので
取られることを恐れずに青でゴールまでの最短経
路を進むべき
24

取るべき？
25

A4: A3をふまえると相手は青コマを、取られると
思わずに進めてくるので、もちろん取るべき。
26

矛盾
Q2=Q4:
取るべき？
A2: A1をふまえると、取られる位置に進んできた
そのコマは赤であるので、取ると敗北。取っては
いけない。
A4: A3をふまえると相手は青コマを、取られると
思わずに進めてくるので、もちろん取るべき。
→矛盾！
27

何がいけなかったか？
質問に対してTrue or Falseの二値論理で答えよう
としている。
True100%もFalse100%も最適解ではなく、
確率的に混合されたものが最適。
28

おさらい：方策(policy)
方策 𝜋 𝑎, 𝑠 = 𝑃 𝑎 𝑠
方策はある状態で取る手の確率分布。
最適な方策を見つけるのが強化学習。
29

信念状態の更新
• 接触してきたから赤の可能性が高いだろう
• 最初に動いたコマだから青の可能性が高いだ
ろう
• など、観測を元に信念状態を更新する
30

パーティクルフィルタ
相手がコマを接触させてきた！これは赤か？青
か？
隠れ状態には70通りの可能性がある。まずこの
70通りの「パーティクル」の集合を考える
ここから1個サンプリングする。隠れ状態がその
状態だと仮定してシミュレータに次の一手を打た
せる。その次の一手が、実際に観測された相手の
手に一致するものを残す。
これを十分な回数繰り返す。
31

実験に必要なもの
• シミュレータ
• 外から「今の状態はこれだとせよ」と指定できる
ものでなければならない
• 行動を選択して返す
• つまり𝑃(𝑎|𝑠)
• agentはsを直接観測できない＝ガイスターのプレ
イヤーは相手の色を観測できない
• 見せていい情報だけ選んでagentに渡す
32

agentの実装
ようは方策をどうするか
手軽なベースラインは
「ランダムにプレイする」だが
今回のケースでそれをやると
「行動を見ても色の推定に役立たない」
という結果になってしまってイマイチ
33

モンテカルロ
各手ごとに10回ランダムに終局までプレイしそ
の勝率が最も高かった手を返す
実装したが、1対戦に4分掛かる(改善の余地あり)
34

素朴な実装
青コマで最短経路でゴールを目指すFastest
人間でもわかる「これ青だろうな」
35
.vvvv.
..vvv.
v.....
......
.xoox.
.xoo.x
1: 44.30%
2: 38.99%
3: 44.30%
4: 24.67%
8: 42.71%
9: 64.19%
10: 40.85%
12: 100.00%

しばらく進んで
進んできたコマを取った直後、相手の動きを見て
青のコマが全部わかったと判断(間違い)
36
.vvvv.
..v.v.
...v..
...o..
x.oox.
.xo..x
2: 100.00%
10: 100.00%
15: 100.00%
.vvvv.
..v.v.
...v..
...o..
x.oox.
.xo..x
これが正解
現状の実装では観測結果と信念が矛盾した時には信念を全部廃棄してやり直し

対戦勝率
FastestはRandomに対しては強い
{‘WIN’: 979, ‘LOSE’: 21}: 勝率98%
Randomにたまに取られることがあっても
無策なRandomよりはだいぶマシだから。
一方FastestとPOMCPだと
{‘LOSE’: 95, ‘WIN’: 5}: 勝率5%
Fastestは行動から色がバレバレだから。
37
後者の実験に24分掛かる

詳しい実験の前に
詳しい実験に進む前にPOMCPの中身を解説
38

POMCP要素解説
パーティクルフィルタ(逐次モンテカルロ)と
モンテカルロ木探索の組み合わせ、と説明したが
実装上は不可分に合体している。
モンテカルロ木探索は部分観測では実行できない
ので、まず信念から状態をサンプリング、その状
態を仮定して探索する。
39

モンテカルロ木探索
強化学習の言葉でいえば2つの方策の組み合わせ
で探索して、行動価値関数Q(s, a)を推定する手法
2つの方策:
・Tree Policy
・Rollout Policy
40

Rollout Policy
現在の状態がTreeに含まれていない時に使う方策
具体的には：着手可能手からランダムに手を選ぶ
41
Rollout Policyで手を決め、盤面を更新、新しいs’をシミュレータに渡して
対戦相手の手a’を得る、盤面を更新、新しいs’’に対してRPで手を決め…

注意点
• 今実装しているエージェント(A1)がRollout
Policyを使っていることと、シミュレータの中
のエージェント(A2)がどういうポリシーで動く
かとは無関係
42
そもそも、たまたまシミュレータ
も僕が実装しているからA1とA2を
混同しそうになるだけであって、
シミュレータはブラックボックス
で他からgivenでもよい。その場合
中に何が入っているかは知りえな
いし、POMCPはそれを知らなくて
もよいアルゴリズム。
モンテカルロ木探索の解説で「互
いにランダムに行動して終局まで
プレイ」と言われることがあるが、
これはたまたま両方のエージェン
トがランダムに手を選ぶ方策なだ
けで、必要条件ではない。

注意点
• モンテカルロ木探索はよく「ランダムに手を
選んで終局までプレイ、勝率で評価」と説明
されるが、これは強化学習の言葉でいえば
時間幅T→∞での報酬を収益とすること。
• これは必要条件ではない。
• POMCPの論文では収益の定義として
割引報酬和を使っている。
• また割り引いた結果が十分小さくなるところ
で打ち切るため、実質的に「木の深さに上限
を設けている」という形になる。
43

Tree Policy
現在の状態がTreeに含まれているときに使う方策
Treeの各ノードは
・各actionことの収益の平均 V(h, a)
・各actionの選択回数 N(h, a)
・信念 B(h)
を持っている。
原始的なgreedy方策:「Vが最大になるaを選ぶ」
よく使われるUCB1は選択回数が少ない選択肢を
高めに評価することで利用と探索のトレードオフ
44

注意点
「現在の状態が～」と説明してたけど、
ツリーのノードは状態ではなく
履歴(history)に対応づいている。
Q: stateに対応付けてはダメなのか？
A: 隠れ状態は観測できないのでエージェントが
どのノードを選んだらいいかがわからない
Q: じゃあ今の観測可能状態に対応付けたら？
A: 観測可能な盤面状況が同じでも過去に通った
経路によって信念が異なるからダメ
45

履歴
履歴は以下のような型
• 初期状態: empty
• もしくは以下の組み合わせ
• 直前までの履歴 h
• 自分が取った行動 a
• その結果得られた観測 o
a, o, a, o, …という不定長の列になる
46

ツリーはこんな形(圧縮)
hの時、hはツリーに含まれているので
Tree Policyがつかわれる。
手a0を選び行動した結果、o2を観測したとする
(h, a0, o2)はツリーにないのでノードを生成し、
Rollout Policyで続きを実行する。
48

実験結果
想定するエージェントA2がFastestのまま、
対戦相手エージェントA0を
0.1の確率でランダムに行動するFastestP(0.1)
→{'LOSE': 98, 'WIN': 2}
50

確率を変えて実験
Fastest→ {‘LOSE’: 95, ‘WIN’: 5}
FastestP(0.1)→ {'LOSE': 98, 'WIN': 2}
FastestP(0.3)→ {‘LOSE’: 95, ‘WIN’: 5}
Random→ {'LOSE': 88, 'WIN': 12}
ランダム戦略とFastest戦略のどんな比率での混合
に対してもPOMCPは9割以上の勝率
51

速度が問題
A2がFastest系のままでは、人間がA0をする時に
「赤コマで青コマのようにゴールを目指す」とい
う自明な攻略法が存在して面白くない。
せめてA2をモンテカルロにしたいが速度が問題
52

遅い理由
以前、本来見てはいけない対戦相手の情報を見て
しまうバグを入れたことがあり、それを警戒する
あまり「Gameオブジェクトはsideを引数として
取ってViewオブジェクトを返し、エージェント
はViewオブジェクトだけを見る」という設計に
している。
この結果、毎回インスタンス作成コストがかかる
53

遅い理由2
Treeの実装が手抜きで、ハッシュに(h, a, o)を
キーとしてツッコんでいる。
Treeを真面目にツリーで実装しようと思ったら
a(具体的には動かすコマとその動く向き)や
o(具体的には盤面状況)を整数にマップする必要
があるが面倒だったので(h, a, o)のタプルにして
Pythonにハッシュ値を計算させている。
どう考えてもメモリの無駄遣い。
54

遅い理由3
昨日の夜に気付いたので実験する暇がなかったの
だが
「各手ごとに10回ランダムに終局までプレイ」
ってガイスターの問題設定だと終局までに手数が
かなり多くなるのではないか？
割引報酬和タイプにしたらよいのでは…。
傍証: POMCP対Fastestは100対戦24分だがPOMCP
対Randomは100対戦49分。
55

まとめ
• Point Based Value Iterationは状態遷移確率を与
える必要がある
• そこでブラックボックスシミュレータを使う
部分観測モンテカルロ計画法(POMCP)を実装
• ガイスターに適用して、ある確率で青コマで
のゴールを目指すような相手に対しては隠れ
状態を推定して9割近い勝率を出した
• もっと人間にとって自明でない思考ルーチン
で実験をしたい
56

参考文献
David Silver and Joel Veness
"Monte-Carlo planning in large POMDPs."
Advances in neural information processing
systems. 2010.
57

強化学習その5

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Más de nishio

Más de nishio (20)

Último

Último (20)

強化学習その5