Más contenido relacionado
La actualidad más candente (20)
Similar a 深層強化学習の self-playで、複雑な行動を機械に学習させたい! (15)
深層強化学習の self-playで、複雑な行動を機械に学習させたい!
- 14. 14
教師あり学習 vs 強化学習
強化学習
= “リアルガチな無人島”
• 教師がいない。
• 一人で行動し、その行動の結果から学習する。
• 正解がわからない中で、”正しそう”な「方針」
を学ぶ。効率的な学習をしないと死んでしま
う。。
- 34. 34
本実験の準備で、自分のやったこと
• 1 agentで学習するアルゴリズム (PPO)
• https://github.com/openai/baselines
• ゲーム環境(run-to-goal-ants-v0)
• https://github.com/openai/multiagent-competition
1. このゲームを学習するには、2 agentsでPPO
を用いて相互に学習する必要がある。
→ 上記コードを用いて作成 (TensorFlow)
2. ゲーム環境を論文に合わせるよう修正
既存のものを使用
やったこと
- 35. 35
3. 論文通りのパラメータで学習すると、全然終わらな
いので、学習パラメータを変更。
論文 本実験
model MLP MLP
n_hidden_layer 2 2
n_hidden_unit 128 64
learning rate 1E-03 1E-03
ε_PPO 0.2 0.2
γ 0.995 0.995
λ_GAE 0.95 0.95
n_batch 409600 (~4e+5) 49152 (~5e+4)
n_mini_batch 5120 1024
n_epoch / iter 6 10
α_annealing 0 @ 500 iters 0 @ 300 iters
論文: 1 iter (改善) ~ 9分 → 1000 itersで~6日
→ 1 iterで収集するデータ量を~1/8に変更
→ 1000 iters ~ 1日弱
- 51. 51
iter = 940
• Final model
• 確実にゴールする学習をしている。
• iter=500との差は殆ど見えない
(iter=500で、ほぼ学習が収束しているよ
うだ)。
実験1: 結果 (iter=940)
- 56. 56
実験2:結果(iter = 970)
• 学習した戦略は、基本的には
• 相手に体当たりをする。
• 相手が怯んだら、そのすきにゴールに走る
• しかし明らかに相手を倒す事に”固執”したよ
うな行動も見られる。
• これは、ただ単に自分がゴールに向かうよ
り、相手を倒した方が勝てる事を学んだ、と
も考えられる。
- 72. 72
実験5: 最新モデル vs 過去モデル
前頁の図より、
実験3と同様、Agent0はほぼ勝てない。
< 500 itersまでは、勝率~15%を保っている
が、それ以降、下がり、最終的には3%程度に
収束。
→ 実験5の条件でも、Agent0が勝つのは難し
いようだ。