2019 08 20_dl

Fixing the train-test resolution discrepancy
調和系工学研究室ディープラーニングゼミ
北海道大学大学院情報科学研究院情報理工学部門
複合情報工学分野調和系工学研究室学研究室
幡本昂平
2019年8月20日

1論文概要
• Author: Hugo Touvron, Andrea Vedaldi, Matthijs Douze,
Hervé Jégou (Facebook AI Research)
• arxiv プレプリント
• URL: https://arxiv.org/abs/1906.06423
• 概要
• 訓練時・テスト時の入力画像の補正をする
• ソースコード
• https://github.com/facebookresearch/FixRes

2イントロ
各種CVタスクで用いられるCNN系のモデルでは
訓練データとテストデータの分布が一致している必要がある
実際には，前処理が訓練時とテスト時で異なっていることがよくある
例) 画像認識におけるクロッピング
訓練データを増やすため
ランダムにクロップしてリサイズ
訓練時
テスト時画像中心付近を切り取る(center crop)
• 訓練時とテスト時の前処理の違いが与える悪影響に対処
• 訓練時はテスト時よりも低解像度の画像で学習するべきであることもわかった
• 学習時間の短縮やGPUメモリの節約にも寄与
本論文では

3領域選択とスケールに関する分析
入力画像から矩形領域(RoC)を選択する処理は重要であり，よく使われる
単純な処理ではあるが，少々問題がある
1. リサイズ処理により画像内の物体の見かけのサイズが変化する
• 切り取られた領域はリサイズされるなどしてCNNが読めるようになる
2. (可変入力サイズのネットワークなどで)入力サイズの違いが
ネットワーク内部出力の統計的性質に影響を及ぼす
以降のスライドでは
入力画像: 変換前のオリジナル画像
RoC: 入力画像中の矩形領域
クロップ: スケーリングされたRoC画像とする

4物体の見かけサイズと実際のサイズの関係
三次元空間を二次元画像に写すカメラのモデルを考える
𝑅
𝑍
𝑓
𝑟
カメラからの距離がZの𝑅 × 𝑅の正方形の物体を写すとき，画像サイズを𝑟 × 𝑟とすると
𝑟 =
𝑓𝑅
𝑍 となる
したがって，見かけのサイズ𝑟 = 𝑓 ∙ 𝑟1と表すことができる
𝑓(焦点距離)は変数だが，カメラの画角𝜃𝑓𝑜𝑣はおおよそ[40°, 60°]なので，
イメージサイズを𝐻 × 𝑊とすると次のように表せる
𝑓 = 𝑘 𝐻𝑊 (𝑘−1
= 2 tan(𝜃𝑓𝑜𝑣/2))

5前処理による見かけサイズへの影響
典型的なaugmentation手法としてRandomResizedCrop(PyTorch)を考える
RandomResizedCropの処理
画像をランダムにスケーリング・アスペクト比の変更を行って
クロップし，リサイズする
スケールパラメータ: 𝜎，アスペクト比: 𝛼
RoCのサイズを𝐻 𝑅𝑜𝐶 × 𝑊𝑅𝑜𝐶リサイズ後の画像サイズを𝐾𝑡𝑟𝑎𝑖𝑛 × 𝐾𝑡𝑟𝑎𝑖𝑛とする
簡単のため，元画像が正方形，アスペクト比の変更がないとすると
スケーリングファクター𝑠は
訓練時の見かけサイズ
𝐻 𝑅𝑜𝐶
𝑊𝑅𝑜𝐶
𝐾𝑡𝑟𝑎𝑖𝑛
𝐾𝑡𝑟𝑎𝑖𝑛
となる
物体の見かけサイズは

6前処理による見かけサイズへの影響
テスト時の見かけサイズ
テスト時は一般的にリサイズ→CenterCropが行われる
𝐾𝑡𝑒𝑠𝑡
𝑖𝑚𝑎𝑔𝑒
𝐻
𝑊
元画像が正方形(𝐻 = 𝑊)だとすると，スケールファクタ𝑠は
𝑠 =
𝐻𝑊
となる
したがってテスト時の物体の見かけサイズは
となる

7訓練時とテスト時の見かけサイズの比較
𝑟𝑡𝑟𝑎𝑖𝑛 =
𝑘𝐾𝑡𝑟𝑎𝑖𝑛
𝜎
⋅ 𝑟1 𝑟𝑡𝑒𝑠𝑡 = 𝐾𝑡𝑒𝑠𝑡
⋅ 𝑟1 より，見かけサイズの比は
AlexNetでは𝐾𝑡𝑒𝑠𝑡
/𝐾𝑡𝑟𝑎𝑖𝑛は1.15程度である
一方，サンプリングのスケールを決める𝜎は 𝜎−, 𝜎+ = [0.28, 1]
訓練の時より物体の大きさが1/3程度になることもある
標準的な前処理のパラメータでは
テスト画像では訓練画像に比べて物体が小さく映る

8スケールと活性化に関する分析
入力画像のクロップサイズの変更はプーリング層に大きな影響を与える
ResNet-50においてテスト画像解像度を
変えたときの，平均プーリング出力
の累積分布関数
• convやReLUなどは入力サイズに
よって受容野サイズは変わらない
ので影響なし
• FCの前のプーリングは入力サイズ
によって変わる
出力値(FC層への入力)分布が変わる
入力解像度224がデフォルト値
• テスト解像度𝐾𝑡𝑒𝑠𝑡 = 64のとき
• 2 × 2のプーリング
• 出力がスパースに(0の割合0.5%→29.8%)
• 2以上の出力も増える(1.2%→11.9%)
• テスト解像度𝐾𝑡𝑟𝑎𝑖𝑛 = 448のときは逆にスパース性弱・値の存在範囲も狭い
テスト画像解像度を変えると，訓練時のFC層への入力値になかった値が出る

9テストのクロップサイズがaccuracyに与える影響
テスト画像クロップサイズを大きくすると精度が向上する
テスト解像度を変えたときのResNet-50のImageNetに対するaccuracy
訓練解像度に関わらず
一般的に成立

10提案手法
• 見かけサイズのキャリブレーション
• キャリブレーションによって発生する入力サイズ変化への対応
大きく2つの変更を加える
見かけサイズのキャリブレーション
上式より，テスト画像の元サイズを大きくすればよい
クロップサイズ𝐾𝑡𝑒𝑠𝑡がそのままだと，画像の小さい領域に
注目することになるので比を等しく保つように𝐾𝑡𝑒𝑠𝑡も大きくする

11提案手法
キャリブレーションによって発生する入力サイズ変化への対応
2通り方法が考えられる
• パラメトリックな方法
• ファインチューニング
ファインチューニングクロップ解像度の変化は事実上ドメインの変化
入力解像度をテスト時のものにした訓練画像でファインチューニング
最後の層(BNとFC)だけに適用
プーリング層出力が訓練時の出力分布に近づいている
このままだと𝐾𝑡𝑒𝑠𝑡 > 𝐾𝑡𝑟𝑎𝑖𝑛となり，前述のプーリングに関する問題が発生

12実験設定
使用データセット
ImageNet-2012 benchmark
validationセットのaccuracy
使用アーキテクチャ
• ResNet-50
• PNASNet-5-Large(大きいがパラメータは少なめ)
• ResNeXt-101 32x48d(大きくてパラメータも多い)
訓練設定: 省略使用機器: Tesla V100 *8, 80CPUコア
ファインチューニングに用いたdata augmentation
• ResNet-50の訓練とファインチューニング
test DA: リサイズ→center crop
test DA2: リサイズ→centor crop→horizontal shift, horizontal flip, color jittering
train DA: horizontal flip, random resized crop, color jittering
基本的にはtest DAを用いる

13実験結果
ResNet-50の性能向上
fine-tuneベースライン
• 𝐾𝑡𝑟𝑎𝑖𝑛 = 224で訓練した基本ResNetでも最高精度(79%)を達成
• より高解像度のテスト画像で最大のaccuracyがでるように
補正により高解像度テスト画像の効果が向上
• 複数解像度でのテスト結果を組み合わせるとさらに精度が上がる
訓練解像度128，テスト解像度256,192でaccuracyが78%に
77.1%

14実験結果
大きなネットワーク構造に対する適用結果
ファインチューニングする対象を広げたほうが性能がよかった
解像度を480にすると同解像度でのテストに比べ1%精度向上
PNASNet-5-Large
ResNeXt-101 32x48d
こちらでも解像度320で1%向上

15実験結果
スピードとaccuracyのトレードオフ
1GPUで実行したように正規化
解像度128で訓練し解像度224でfinetuneすると118.8h→124.1h Acc=77.1
解像度224で訓練し解像度224テストすると133.9h Acc=77.0
低解像度で訓練し高解像度でfinetuneしてテストすると高速(精度もあがる)
テスト解像度384だと2.3倍高速

16Ablation study
識別器をファインチューニングするだけでも高解像度テストでよい精度
訓練とテストの解像度の差が大きくなってくるとbach-normの
ファインチューニングの重要度増

17State of the art との比較
state of the artをtop-1で1%，top-5で0.4%更新

18転移学習
1. ImageNetで学習済みの重みでネットワークを初期化
2. 特定解像度で数エポック学習
3. BNとFCを高解像度でファインチューニング
他データセット・モデルでの結果
ベースラインは超えている
高解像度であるほどうまくいく傾向
転移学習でも有効なのかについて実験
手順

19まとめ
• 訓練時とテスト時のスケール変更の違いが画像やプーリング出力に
与える影響を分析
• 解像度の調整と軽いパラメータ調整でaccuracyをかなり上げることが可能
• 訓練時とテスト時で同解像度の画像を用いると非効率

2019 08 20_dl

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Más de harmonylab

Más de harmonylab (20)

Último

Último (8)

2019 08 20_dl