Más contenido relacionado
La actualidad más candente (6)
Similar a [DL Hacks]OCNet: Object Context Networkfor Scene Parsing (20)
Más de Deep Learning JP (20)
[DL Hacks]OCNet: Object Context Networkfor Scene Parsing
- 2. 書誌情報
• 論文名
• OCNet: Object Context Network for Scene Parsing
• 著者
• Yuhui Yuan(Microsoft Research)
• Jingdong Wang (Microsoft Research)
• arXiv
• https://arxiv.org/abs/1809.00916
• 本スライド中の図は特に注釈がなければこの論文のもの
- 5. UNet型
• いわいるEncoder-Decoder型
• Encoderは解像度を落としながら特徴マップの出力
• 1辺が元画像の1/16か1/32程度まで
• Decoderは解像度をあげながらピクセル単位の情報を復元
• スキップコネクションよってEncoderで失われた細かい情報も復元できる
• EncoderはResNetなどがよく使われる
• ImageNetで訓練済みだと精度があがる[2]
• DecoderはTransposeConvが一般的だが、
DilatedConvを使うなどバリエーション多数
[1] DeepLabV3+: https://arxiv.org/abs/1802.02611
[2] TernausNet: https://arxiv.org/abs/1801.05746 [1]より引用
- 6. PSPNet型
• Encoderは解像度を落としながら特徴マップを出力
• 1辺が元画像の1/8程度まで
• Spatial Pyramid Poolingで異なるサイズのプーリングを行い
さまざまなコンテキストを考慮した特徴を捉えることができる
• 最後に元画像のサイズまでアップサンプリング
• SPPのプーリング部分はAveragePoolingだが、
DilatedConvに置き換えるとDeepLabに使われるASPPに
[1] DeepLabV3+: https://arxiv.org/abs/1802.02611 [1]より引用
- 8. Object Context Pooling
• OCPはSAGANで使われる2DのSelf Attention機構のようなもの
• 同じカテゴリに属するピクセルの特徴量を集約したいというのがモチベーション
• OCPは次の2ステージから構成される
• Object Context Estimation
• Object Context Aggregation
- 9. OCP – Object Context Estimation
• あるピクセルに対して同じラベルに属しているピクセルを探す機構
• 下図の十字で示してるピクセルを入力とすると
このピクセルは車のラベルを持つため画像中の車の領域が強く反応する
• この操作は画像をflattenしてから行うので、入力がH×Wの大きさの場合
出力されるコンテキストマップは(H×W)×(H×W)の大きさになる
- 10. OCP – Object Context Aggregation
• コンテキストマップで重み付けして特徴量を集積
• 強く反応したピクセル位置の特徴量を集めるイメージ
• (H×W)× (H×W) -> (H×W)×Cの特徴マップが求まる
• あとはreshapeしてH×Wの形に戻せばOCPが完了