Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

Rainbow

2.151 visualizaciones

Publicado el

NN論文を肴に酒を飲む会#5

Publicado en: Datos y análisis
  • Sé el primero en comentar

Rainbow

  1. 1. Rainbow:Combining Improvements in Deep Reinforcement Learning NN論⽂を肴に酒を飲む会#5 22 Slides arXiv:1710.02298
  2. 2.  もくじ 2 •  ⾃⼰紹介 •  紹介論⽂概要 •  論⽂紹介 – 背景 – DQN概要 – Rainbowに使⽤されている各⼿法の概要 – 実験結果 •  まとめ
  3. 3.  ⾃⼰紹介 3 •  名前 –  吉永 尊洸(@tekenuko) •  職業 –  データサイエンティスト(仮) •  素粒⼦論→データ分析コンサル→事業会社 •  ブログ –  http://tekenuko.hatenablog.com •  趣味 –  リアル脱出ゲーム
  4. 4.  紹介論⽂概要 4 •  著者 –  Hessel et al. (DeepMindの⼈たち) •  AAAI 2018 •  概要 –  DQNまわりの発展を詰め込んだモデルを提案 •  Double DQN, Prioritized replay, Dueling networks, Multi-step learning, Distributed RL, Noisy Nets –  2017/10時点でState of the Artを達成 –  各⼿法の寄与を実験的に評価 •  Prioritized replay, Multi-step learningが重要そう •  選定理由 –  パフォーマンスの図にグッときた
  5. 5.  背景 5 •  強化学習が近年多くの成功をおさめている –  きっかけは、Deep-Q Network(DQN) –  Atari2600といったレトロゲームでは、⼈間に 近い性能を獲得 –  DQNをきっかけに、多くの拡張が提案され、 State of the Art(SoTA)の更新が続いている
  6. 6. •  エージェントが環境と相互作⽤しながら、 より良い⾏動の仕⽅を学ぶ •  累積の報酬を最⼤化するように、⾏動の 指針(⽅策)を最適化する  強化学習 6 ⾏動 状態 報酬 状態 報酬エージェント 環境 割引率(0~1)
  7. 7.  Q-learning 7 •  ⾏動の価値をあらわす関数(⾏動価値関数) を更新することで、最適⽅策に近づける •  最適⾏動価値関数と最適⽅策 •  更新則
  8. 8.  DQN概要 8 •  ⾏動価値関数をDNNで近似( )し、 教師ありのように学習をおこなう ゲーム画⾯ (状態) 畳み込みニューラルネットワーク(CNN) …
  9. 9.  DQNの⼯夫 9 •  CNNを利⽤(ゲーム画⾯を⼊⼒)、ゲーム間 で⼊⼒・中間層を共有 –  パラメータを減らし過学習を緩和 •  Target network –  ⽬的関数の収束を安定化させるために、⼀定期間 パラメータを固定 •  Experience replay –  ⼊⼒間の相関による学習の偏りを緩和するために、 直近の体験から⼀様乱数でサンプリングして学習 Target的な部分
  10. 10.  DQN以降の発展 10 •  DQN(Mnih+ 2015)以降、様々な拡張が提案 –  Double DQN(Hasselt+ 2016) –  Prioritized replay(Schaul+ 2015) –  Dueling network(Wang+ 2016) –  Multi-step learning(Sutton 1998, アイデアは前からあった) –  Distributed RL(Bellemare+ 2017) –  Noisy Nets(Fortunaro+ 2017) •  Rainbowでは上記の⼿法を合体
  11. 11.  Double DQN 11 •  最適⾏動の決定と評価するQ関数を分ける •  ⾏動の過⼤評価を防ぐ働きがある –  関数近似の近似誤差がある状態でmaxをとると、過⼤ 評価される⾏動があるかもしれない パラメータ  を持つqで⾏動の決定と評価をおこなう ⾏動の決定はパラメータ  を持つqでおこなう 評価はパラメータ  をもつqでおこなう
  12. 12.  Prioritized replay(優先度付き体験再⽣) 12 •  学習の余地の⼤きいデータを優先的にサンプル –  学習の余地の⼤きさ=TD誤差の⼤きさ •  Atari2600の41/49ゲームでDQNより性能向上 –  experience replayで実現した偏りの⼩さい学習を壊 してしまうことになるが、そのほうが良いこともある
  13. 13. •  Q関数を状態で決まる部分と⾏動も含めて決まる 部分に分けて学習する  Dueling networks 13 DQN Dueling 出⼒はQ 状態に関する価値 状態に対する⾏動の相対的な価値(アドバンテージ)
  14. 14.  Multi-step learning 14 •  ⽬的関数をnステップ先の量で置き換える –  nステップ先の報酬 –  nステップ先のQを推定 •  適切にnを選ぶと学習が速くなる(らしい)
  15. 15.  Distributional RL 15 •  報酬の期待値の代わりに報酬の分布を推定 –  通常のDQNは、累積報酬の期待値を推定 –  潜在的な要因によって報酬分布に差がある場合は、期 待値だけ⾒ていると状況を正しく反映できないかも •  報酬をN個の値をもつ離散分布と考え、⾏動ごと にN個の値を出⼒するように拡張 –  DQNの出⼒層を(N×⾏動数)次元に変更 •  分布の推定は、Kulback-Leibler divergenceの 最⼩化問題に帰着させる
  16. 16.  Noisy Nets 16 •  ネットワークの重みにノイズを付与して、探索の 効果を⼊れる –  例:全結合層 •  学習時に通常⾏われるε-greedy⽅策などの代わり (DQN) N(0,1) 要素積 学習パラメータ N(0,1)学習パラメータ
  17. 17.  Rainbow 17 •  前述の⼿法を合体 –  報酬の分布の推定をおこなう •  ⽬的関数はKulback-Leibler divergence –  ⽬的関数でnステップ先の量を利⽤ –  ⾏動選択と評価の関数を分ける –  ネットワーク構造はDueling network –  Noisy Netsでランダム性を持たせる –  学習の際のサンプリングは、学習の余地の⼤きいもの を優先的に選択 •  Kulback-Leibler divergenceの⼤きさで評価 •  Atari2600でパフォーマンスを評価
  18. 18.  実験結果1 18 •  単体の⼿法を圧倒 –  パフォーマンスも良いし、学習も早い(+図がネタ的) provements in Deep Reinforcement Learning Hado van Hasselt DeepMind Tom Schaul DeepMind Georg Ostrovski DeepMind Bilal Piot DeepMind Mohammad Azar DeepMind David Silver DeepMind made sev- hm. How- mplemen- examines lly studies combina- Atari 2600 nal perfor- tion study verall per- ment learn- g problems thm (DQN; arning with replay en- many Atari エキスパート(⼈間) 1秒=60フレーム 2億フレームだと40⽇くらい学習
  19. 19.  実験結果2 各⼿法の重要度 19 •  Rainbowから要素を⼀つずつ抜いて影響度を⽐較 –  Prioritized replay, Multi-step learning(あと次点で Distributed RL)が影響度⼤
  20. 20.  まとめ 20 •  Rainbowという、近年のDQNの発展を詰め込 んだモデルを提案 –  Double DQN, Prioritized replay, Dueling networks, Multi-step learning, Distributed RL, Noisy Nets •  2017/10時点でState of the Artを達成 •  各⼿法の寄与を実験的に評価 –  Prioritized replay, Multi-step learningが重要そう
  21. 21.  その後の発展 Ape-X 21 •  もうSoTAじゃないかも… –  下記の論⽂で、Ape-Xというものが提案 •  Distributed Prioritized Experimental Replay –  Hogan et al. (DeepMindの⼈たち) –  ICLR 2018(Poster) –  Double DQN, Prioritized replay, Dueling networks, Multi-step learning –  複数のActorを⽤意し、経験を共有メモリに貯め、 貯めた情報を⽤いてLearnerが学習 •  Actorを分散させることで、Prioritized replayを効率化
  22. 22.  その後の発展 Ape-X 22 •  既存⼿法よりも良い –  Raibowよりも良い –  注意 •  Ape-X:1GPU+360CPU •  他:1GPU •  さらに並列化して⾼速化する 仕組みの提案が偉いのかも •  発展についていくのも⼤変 –  だけど… Under review as a conference paper at ICLR 2018 0 50 100 150 200 250 300 Training Time (Hours) 50% 100% 150% 200% 250% 300% 350% 400% 450% Human-normalizedScore (MedianOver57Games) Ape-X DQN (20hrs) Ape-X DQN (70hrs) Ape-X DQN (120hrs) DQN Rainbow Prioritized DQN C51 Gorila EpisodeReturn (Mean) EpisodeReturn 1 1 EpisodeReturn (Mean) Figure 2: Left: Atari results aggregated across 57 ga training curves for selected games, against baselines.

×