35. 3535
COMA for AlphaStar
本論文の実験ではStarCraft(初代.SC2ではない)をベンチマークとして使用
SC2を深層強化学習で操作する場合,ゲーム操作のニューラルネットは一つ
(一つのNNが全てのユニットを操作)
AlphaStarのマルチエージェント学習というのは,ゲーム内でなく,ゲーム外の
AlphaStar League内での話(のはず)
COMAの実験では,ゲーム内の複数ユニットを複数NNで操作しているため,
AlphaStarで同じ設定の利用はできないはず
COMAの実験設定 ALphaStar
36. 3636
マルチエージェント学習
紹介手法/論文
FTW(For The Win) agent
論文:Human-level performance in first-person multiplayer games with population-based deep
reinforcement learning
PSRO(Policy-Space Response Oracles)&DCH(Deep Cognitive
Hierarchies)
論文:A Unified Game-Theoretic Approach to Multiagent Reinforcement Learning
Nash Distribution
論文:Re-evaluating Evaluation
先ほどまでのNNアーキテクチャや方策学習アルゴリズムと違い,あくまで「参考にしている」
くらいの言及なので,論文のアルゴリズムをそのまま使用しているかは微妙
37. 3737複数エージェントのゲームで自己の方策と
集団に対する学習の二重強化学習
Human-level performance in first-person multiplayer games with
population-based deep reinforcement learning [Jaderberg+]
論文概要
一人称視点で,複数の敵エージェント,味方エージェントが存在する
チーム対戦ゲームにおける方策学習手法
学習過程を,エージェント個別の方策学習(エージェント自身の報酬和を
最大化)する内ループと,エージェント個別の方策の元でチーム勝率を
あげるためのハイパラ学習を行う外ループに分ける.この学習を行う
エージェントをFTW(For The Win)エージェントと呼ぶ
学習環境としてQuake III ArenaのCTF(Capture the Flag)という環境を使う
が,環境自体はあまり重要ではなく,学習手法の概念が重要
5月31日,本論文がサイエンス誌に掲載
https://science.sciencemag.org/content/364/6443/859
42. 4242
PBT(Population-Based Training)
Population Based Training of Neural Networks [Jaderberg+](2017)
深層(強化)学習における,ハイパーパラメータ最適化の論文
それぞれ別のハイパラを設定したエージェントの学習プロセスを並
列に走らせ,学習途中の評価結果から良いハイパラを採用し別
エージェントにも移す,ハイパラに摂動,ハイパラの再サンプルを
繰り返す
著者は,今ここで紹介してる論文Human-level~と同じJaderberg