SlideShare a Scribd company logo
1 of 21
Download to read offline
ConvNetの歴史とResNet亜種、
ベストプラクティス	
Yusuke Uchida@DeNA
はじめに	
•  ⽬的:ConvNetのデファクトであるResNetを理解
–  ResNetに⾄るまでの歴史Overview
–  ResNetの亜種
–  ResNetのベストプラクティス
LeNet-5 [Lecun+’98]	
conv	5x5,	6	 conv	2x2	
stride=(2,	2)	
conv	5x5,	16	 conv	2x2	
stride=(2,	2)	
Feature	map	
毎	
•  convにパディングなし、subsamplingが2x2のconv	
•  入力の全channelと結合していないconvがある
AlexNet [Krizhevsky+’12]	
conv	11x11,	48	
stride=(4,	4)	
max-pool	3x3	
stride=(2,	2)	
•  conv	11x11と大きいフィルタを利用	
•  overlapping	pooling	
•  dropoutの利用	
•  acBvaBonにReLUを利用	
•  Local	Response	NormalizaBonの利用(BNでオワコン化)
VGGNet [Simonyan+’14]	
112x112	
56x56	
28x28	
14x14	
•  全て3x3のconv、2x2のmaxpooling、より深く	
•  半分にダウンサンプリングしてフィルタ数を2倍にする
ResNet [He+’15]	
•  背景
–  深すぎるネットワークは学習が難しい
–  過学習ではなく訓練誤差すら⼩さくならない
–  直感的には、浅いネットワークに層を追加すれば訓練誤差は下がり
そう

(⼊⼒をそのまま出⼒するような層を追加すれば少なくとも訓練誤
差は上がらない)
–  勾配消失でもない(適切な初期化やBNをしても発⽣)
–  直接⽬的関数H(x)を学習するのではなく、その残差F(x)=H(x)-xを

学習するネットワークを提案
ResNet [He+’15]	
基本形(実は単純)	
???	
conv	3x3,	64	
conv	3x3,	128	
conv	3x3,	256	
conv	3x3,	512	
global	average	pooling	
FC	
x	N1	
x	N2	
x	N3	
x	N4	
56x56	
28x28	
14x14	
7x7	
画像サイズ	
•  Residual	unitを重ねていくだけ	
•  Batch	normalizaBon	
•  画像サイズを半分+フィルタ数を倍に	
•  最後はglobal	average	pooling	
Building	block	/	
Residual	unit
Identity mapping: zero-padding vs. projection	
conv	3x3,	64	
conv	3x3,	128	
conv	3x3,	256	
conv	3x3,	512	
global	average	pooling	
FC	
x	N1	
x	N2	
x	N3	
x	N4	
56x56	
28x28	
14x14	
7x7	
画像サイズ	
conv	3x3,	128	
conv	3x3,	128,	/2	
64-d	
128-d	
x	
zero-padding	
64-d	
0	x	
64-d	
conv	3x3,	128	
conv	3x3,	64,	/2	
64-d	
128-d	
x	
projecBon	
conv	1x1,	128,	/2	
•  入出力の次元が違うResidual	unitでは	
idenBty	mappingとしてzero-paddingもしくは	
projecBonを利用	
•  パラメータ数が増加しないzero-paddingが	
よく利用される	
•  どちらのケースでもsubsample	(/2)	を行う	
/2	
56x56	
28x28	 28x28	
56x56	
28x28	 28x28
Residual Networks Behave Like Ensembles of Relatively
Shallow Networks [Veit+’16](参考)	
•  VGG:認識精度がほぼランダムな認識と同じ程度まで低下	
•  ResNet:ほとんど影響なし	
•  精度が多少低下しているのはダウンサンプリングを行っている	
residual	unitを削除した場合	
•  ショートカットの存在により、ResNetが浅いネットワークの	
アンサンブル学習を行っているという解釈	
VGGとResNetでそれぞれランダムに1つだけレイヤを削除した場合の認識精度
Residual Networks Behave Like Ensembles of Relatively
Shallow Networks [Veit+’16](参考)
Wide ResNet [Zagoruyko+’16]	
conv	3x3,	64xK	
conv	3x3,	128xK	
conv	3x3,	256xK	
conv	3x3,	512xK	
global	average	pooling	
FC	
x	N1	
x	N2	
x	N3	
x	N4	
56x56	
28x28	
14x14	
7x7	
画像サイズ	
•  フィルタ数をK倍したResNet	
•  深いネットワークより(相対的に)浅くWideなネットワークのほうが	
パラメータ数は増加するが高精度+高速に学習できる	
•  Residual	unitの中にdropoutを入れることを提案
PyramidNet [Han+’16]	
•  ResNetはランダムに層を削除しても精度がほとんど低下しない	
•  ダウンサンプリング層(フィルタ数を2倍にしているところ)は唯一精度が低下	
•  この層への依存が強く、アンサンブル学習としては望ましくない	
→全てのresidual	unitで少しずつフィルタ数を増加させる	
•  増加のさせ方として、単調増加させるaddiBve	PyramidNetと	
指数的に増加させるmulBplicaBve	PyramidNetを提案	
→addiBveのほうが高精度	
•  Residualと相関の低い特徴をちょっとずつ抽出しているイメージ?
PyramidNet [Han+’16]	
•  Zero-paddingを行っているresidual	unitは上記(b)のように	
チャネルが増えないresidual	unit(左)と、通常のconv(右)の	
組み合わせとみなすことができる
Deep Networks with Stochastic Depth [Huang+’16]	
•  ResNetは非常にdeepであることが学習を難しくしている	
→訓練時は「期待値で見たときの深さ」を浅くしてあげよう	
•  バッチ毎にresidual	unitをランダムにdropする	
•  Drop確率は出力に近いほど高くなるように線形に増加させる	
→期待値で見たときのネットワークの深さが小さくなる	
•  テスト時にはdropせずに、各層のdrop率で出力をスケーリング	
•  通常のResNetと比較して、学習が早く、高精度
PyramidSepDrop [Yamada+’16]	
•  PyramidDrop:PyramidNetにstochasBc	depthを適用したもの	
•  PyramidSepDrop:PyramidDropにおいて、入力xと	
zero-paddingに対応するチャネルに独立にstochasBc	depthを適用	
•  PyramidSepDrop	>	PyramidNet	>	PyramidDrop	
•  前述のPyramidNetにおけるresidual	unitと通常のconvの	
組み合わせという観点ではSepDropのほうが自然に見える	
•  CIFAR-10/100でSOTA
個⼈的なベストプラクティス	
•  ネットワーク:Wide Residual Networkがお⼿軽
•  Residual unit:pre-act
–  BN-ReLU-Conv-BN-ReLU-Conv
•  初期化:He+(MSRA)
–  Delving Deep into Rectifiers: Surpassing Human-Level
Performance on ImageNet Classification
•  最適化:SGD+NesterovのMomentum+学習率⼿動
スケジューリング(ロスがサチるEpochで1/5に)
闇	
IdenBty	Mappings	in	Deep	Residual	Networks
闇	
Deep	Pyramidal	Residual	Networks
闇	
Wide	Residual	Networks
闇	
Aggregated	Residual	TransformaBons	for	Deep	Neural	Networks	
ResNetの亜種でも…Fractal	Net、Dense	Net、Highway	networks、
PolyNet、Residual	Networks	of	Residual	Networks…
参考資料	
•  元ネタ
–  http://qiita.com/yu4u/items/4a35b47d5cab8463a4cb
•  ⾊々なChainer実装
–  http://qiita.com/aiskoaskosd/items/59c49f2e2a6d76d62798
•  より広範な資料
–  http://slazebni.cs.illinois.edu/spring17/lec04_advanced_cnn.pdf

More Related Content

What's hot

What's hot (20)

Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
 
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向
 
12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
 
[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説
 
ResNetの仕組み
ResNetの仕組みResNetの仕組み
ResNetの仕組み
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 

More from Yusuke Uchida

More from Yusuke Uchida (20)

You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
 
SIGNATE オフロードコンペ 精度認識部門 3rd Place Solution
SIGNATE オフロードコンペ 精度認識部門 3rd Place SolutionSIGNATE オフロードコンペ 精度認識部門 3rd Place Solution
SIGNATE オフロードコンペ 精度認識部門 3rd Place Solution
 
SIGNATE 鰹節コンペ2nd Place Solution
SIGNATE 鰹節コンペ2nd Place SolutionSIGNATE 鰹節コンペ2nd Place Solution
SIGNATE 鰹節コンペ2nd Place Solution
 
DRIVE CHARTを支えるAI技術
DRIVE CHARTを支えるAI技術DRIVE CHARTを支えるAI技術
DRIVE CHARTを支えるAI技術
 
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
 
画像認識と深層学習
画像認識と深層学習画像認識と深層学習
画像認識と深層学習
 
Semi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learningSemi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learning
 
Deep Fakes Detection
Deep Fakes DetectionDeep Fakes Detection
Deep Fakes Detection
 
モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
 
Humpback whale identification challenge反省会
Humpback whale identification challenge反省会Humpback whale identification challenge反省会
Humpback whale identification challenge反省会
 
DeNAにおける先端AI技術活用のチャレンジ
DeNAにおける先端AI技術活用のチャレンジDeNAにおける先端AI技術活用のチャレンジ
DeNAにおける先端AI技術活用のチャレンジ
 
コンピュータビジョン技術の実応用とビジネス
コンピュータビジョン技術の実応用とビジネスコンピュータビジョン技術の実応用とビジネス
コンピュータビジョン技術の実応用とビジネス
 
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
 
深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用
深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用
深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用
 
PRMU研究会の今後のあり方について(NLP分野での取り組み紹介)
PRMU研究会の今後のあり方について(NLP分野での取り組み紹介)PRMU研究会の今後のあり方について(NLP分野での取り組み紹介)
PRMU研究会の今後のあり方について(NLP分野での取り組み紹介)
 
最近のSingle Shot系の物体検出のアーキテクチャまとめ
最近のSingle Shot系の物体検出のアーキテクチャまとめ最近のSingle Shot系の物体検出のアーキテクチャまとめ
最近のSingle Shot系の物体検出のアーキテクチャまとめ
 
Embedding Watermarks into Deep Neural Networks
Embedding Watermarks into Deep Neural NetworksEmbedding Watermarks into Deep Neural Networks
Embedding Watermarks into Deep Neural Networks
 
"Scale Aware Face Detection"と"Finding Tiny Faces" (CVPR'17) の解説
"Scale Aware Face Detection"と"Finding Tiny Faces" (CVPR'17) の解説"Scale Aware Face Detection"と"Finding Tiny Faces" (CVPR'17) の解説
"Scale Aware Face Detection"と"Finding Tiny Faces" (CVPR'17) の解説
 
Overcoming Catastrophic Forgetting in Neural Networks読んだ
Overcoming Catastrophic Forgetting in Neural Networks読んだOvercoming Catastrophic Forgetting in Neural Networks読んだ
Overcoming Catastrophic Forgetting in Neural Networks読んだ
 

Recently uploaded

Recently uploaded (10)

Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 

ConvNetの歴史とResNet亜種、ベストプラクティス