Más contenido relacionado La actualidad más candente (20) Lookahead Optimizer: k steps forward, 1 step back1. Lookahead Optimizer:
k steps forward, 1 step back
08/02
神戸瑞樹
https://arxiv.org/pdf/1907.08610.pdf
Michael R. Zhang James Lucas Geoffrey Hinton
Jimmy Ba
Department of Computer Science,
University of Toronto, Vector Institute
{michael, jlucas, hinton,jba}@cs.toronto.edu
4. Lookahead
• slow weights φ とfast weights θ をもつ
• fast weightsをk回更新した後,これを基にslow
weightsを更新
• fast weightsは通常のoptimizerで更新される
• φt = φt-1 + α(θt,k + φt-1)
4
6. Slow weights
• slow weightsの軌跡は各inner loopの最終的な
fast weightsのEMAで特徴づけられる
• 最初の方のfast weightsが混じってるのが分散
を減らすのに役立つ
6
7. fast weights
• inner loop内では最適化手法をそのまま適用
• A:optimizer, L:loss, d:mini-batch
• 新しいループを始めるときに、optimizerの内部状態
(e.g. momentum)を保持、補完、リセットする選択
肢が存在
• どれでも通常の最適化より性能が向上する
• 以後の実験では全て保持
7
16. WMT 2014 English-to-German dataset
• transformer based model
• single TPU node
• inner loopのロバスト性が高い
• learning rate {0.02, 0.04, 0.06}の
いずれも似た結果に
16
19. Inner loop and outer loop evaluation
• 65エポック目における1ステップごとのtest accuracyの推移
• fast weightsはパフォーマンスを下げている
• inner loop(通常の最適化)の方が大きい分散であることを反映
• outer loopで分散を小さくして,精度も保っている
19