48. ImageNetの学習で最近注目な手法
Goyal, P et al. (2017). Accurate, Large Minibatch SGD: Training
ImageNet in 1 Hour.
– http://arxiv.org/abs/1706.02677
Smith, S. L. et al. (2017). Don’t Decay the Learning Rate, Increase the
Batch Size.
– https://arxiv.org/abs/1711.00489
48
49. Goyal, P et al. (2017). Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour.
以下の手法により、精度を落とさずにバッチサイズを大きくすることに成功し、
256GPUを使って1時間でImageNetの学習を完了
学習率のLinear Scaling Rule
– バッチサイズを𝑘倍したら、それに合わせて学習率𝜂を𝑘倍する
Gradual warmup
– 学習のスタートは学習率を𝜂に設定し、各イテレーション毎に徐々に大きくし、
5epochのところで学習率を𝑘𝜂になるように調整
49
50. Smith, S. L. et al. (2017). Don’t Decay the Learning Rate, Increase the Batch Size.
良く使われるDecaying learning rateの代わりに、バッチサイズを大きくする
50