論文概要
画像分類タスクにおいて,CNNには一般的に画像の切り出しやリサイズなどのデータ拡張(data augmentation)が使用されており,精度向上に大きく寄与している.一方で訓練時とテスト時でデータ拡張の方法は異なっていることが多く,入力と出力の分布が同じであるという前提のもとでうまくはたらくCNNには悪影響があると考えられる.
本論文では入力時と比べて出力時の画像にうつる物体サイズが小さくなることを簡略化した例で解析的に示している.また,テスト画像サイズを変えたときのプーリング層への入力値分布が大きく変化することを指摘している.
これらの問題点を,テスト画像サイズを入力サイズより大きくし,テスト画像のサイズ変更によるプーリングへの影響を最終層のテスト画像解像度でのファインチューニングにより吸収することで解決した.
主にImageNet画像に対して実験をおこない,上記の低解像度訓練→高解像度テストによる精度向上が確認された(ImageNetのSOTAをtop-1で1%更新).この手法の利用により学習の高速化も可能になり,種々の画像関連タスクに有用であるといえる.