18. 実験結果1 18
• 単体の⼿法を圧倒
– パフォーマンスも良いし、学習も早い(+図がネタ的)
provements in Deep Reinforcement Learning
Hado van Hasselt
DeepMind
Tom Schaul
DeepMind
Georg Ostrovski
DeepMind
Bilal Piot
DeepMind
Mohammad Azar
DeepMind
David Silver
DeepMind
made sev-
hm. How-
mplemen-
examines
lly studies
combina-
Atari 2600
nal perfor-
tion study
verall per-
ment learn-
g problems
thm (DQN;
arning with
replay en-
many Atari
エキスパート(⼈間)
1秒=60フレーム
2億フレームだと40⽇くらい学習