Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

Multi stream convolutional neural network

264 visualizaciones

Publicado el

ICCV2019読み会@京都の資料

Publicado en: Datos y análisis
  • Inicia sesión para ver los comentarios

  • Sé el primero en recomendar esto

Multi stream convolutional neural network

  1. 1. ICCV 2019読み会@京都 Multi Stream Convolutional Neural Network @ ICCV 2019 Kyoto December 16, 2019 株式会社エクサウィザーズ 藤井亮宏
  2. 2. 自己紹介 名前 : 藤井亮宏(アキヒロ) ExaWizardsにおける仕事内容 • Machine Learning Engineer • 画像分類 • 物体検知 • 時系列解析 • 異常検知 • ML系のイベント主催 • CVPR, AAAI等の重要国際会議 • GAN等の⽣成モデルに絞った勉強会 @AkiraTOSEI @akihiro_f ML関係のことを週1投稿 (祝 🎂8回連続成功) 論⽂の⼀⾔紹介とか
  3. 3. Summary このスライドでは、「ドメイン知識を用いてネットワーク構造の工夫をした手 法(と藤井が勝手に思っている) 」@ICCV2019を紹介します。 1. SlowFast Networks for Video Recognition 変化が激しい部分とあまり変化しない部分を分けて処理する(@動 画) 2. Drop an Octave: Reducing Spatial Redundancy in Convolutional Neural Networks with Octave Convolution 変化が激しい部分とあまり変化しない部分を分けて処理する(@画 像)
  4. 4. DLで良いモデルを作るには? 特徴量抽出とモデル構築両方を工夫する必要がある。 時系列Tableデータ 特徴量抽出の⼯夫 (特徴量エンジニアリング) モデル構造の選択 • 特徴量C(=特徴量A/特徴量B) を追加 • 全特徴量の平均を新たな特 徴量として追加 etc… • 線形回帰 • GBDT • LSTM • Transformer Encoder • Conv1D etc… 重要な情報をモデルに⼊れ 込めるようにする 重要な情報を読み取れるモ デルを選択する
  5. 5. 特徴量エンジニアリング 動画像における特徴量付加の例 https://papers.nips.cc/paper/5353-two-stream-convolutional-networks-for-action- recognition-in-videos.pdf Optical Flowを使って、 動きの情報を付加する 位置情報を付与する https://arxiv.org/abs/1807.03247
  6. 6. 特徴量を上手くとるために モデル構造工夫の例 https://arxiv.org/pdf/1802.03268.pdf https://arxiv.org/pdf/1805.08318.pdf 画像全体を参照できる Self-Attentionを使う 最適なネットワーク構 造を探索する
  7. 7. Two stream Convolutional Neural Network 今日紹介するのは、『(ドメイン知識による)情報の付加』を『ネットワークの 工夫』で処理する手法を紹介する 動画⾏動検知で、動きの 速い部分と遅い部分を分 けて処理した⽅がよい ドメイン知識 ネットワーク構造へ の反映 画像において、帯域的な 特徴(低周波成分)と局所的 な特徴(⾼周波成分)を分け て処理した⽅がよい
  8. 8. 1つ目の論文 SlowFast Networks for Video Recognition 著者: Christoph Feichtenhofer, Haoqi Fan, Jitendra Malik, Kaiming He 研究機関: Facebook AI Research (FAIR) 概要: 動画を⾼周波成分(⾼FPS)と低周波 成分(低FPS) にわけて処理する⼿法 を提案。Optical Flowを使⽤しない ためEnd-to-Endで学習可能で、 Kinetics-400(動画の⾏動検知)で State-of-the-art
  9. 9. Key Insight “時間変化するもの”と”時間変化しにくいもの”があるので、それを分けて処理 すると精度があがるのでは? `rm –r *`コマンドを間違えて実⾏したときの表情変化 時間変化するもの • ⽬/⼝等の顔のパーツ • 顔⾊ 時間変化しないもの • ⼈物⾃体の特徴 • 服の⾊ • 髪型 時間⽅向の畳み込み 時間⽅向の畳み込み ⾏動の例
  10. 10. Method ResNet50における実装例 • Slow/Fastで時系列⽅向の Frame数は8倍異なる • 処理時間を合わせるため、 Fastの⽅はチャネル数を 1/8にしている
  11. 11. Results ImageNetで事前学習したり、Optical Flowを使ったモデルよりもよい精度
  12. 12. Results SlowFastを使うと、時系列的なサンプリング密度を高めたものより、高速で高 精度なネットワークが構築できる (Input fame数 x stride)
  13. 13. 2つ目の論文 Drop an Octave: Reducing Spatial Redundancy in Convolutional Neural Networks with Octave Convolution 著者: Yunpeng Chen, Haoqi Fan , Bing Xu , Zhicheng Yan , Yannis Kalantidis, Marcus Rohrbach, Shuicheng Yan , Jiashi Feng 研究機関: Facebook AI, National University of Singapore, Yitu Technology 概要: 画像の⾼周波成分と低周波成分を わけて処理する⼿法を提案。同じ パラメータ数でも⾼速かつ⾼精度 になる。
  14. 14. Key Insight 画像は高周波成分と低周波成分に分解可能。 1. それぞれで処理したら精度上がるのでは? 2. 低周波成分は空間的に畳み込みの回数減らしてもいいのでは? High FrequencyLow Frequency ぼやけた画像 エッジ画像 異なる⼤きさの画像を同じKernel sizeで処理することで、明⽰的に処理を分けられる 適⽤範囲が狭い=⾼周波成分を処理 適⽤範囲が広い=低周波成分を処理 ⾼周波の 処理 低周波の 処理
  15. 15. Method 高周波・低周波成分に分けて処理をする 縮⼩した画像 元画像 Octave Convの概念図 Octave ConvのKernel • 素のConvとカーネルの形を合わせている= 通常のConvの代替としてそのまま使える • αで⾼周波・低周波のパラメータ⽐率を調整
  16. 16. Results Image Netにおける結果
  17. 17. Results 動画における行動検知の結果
  18. 18. Summary このスライドでは、「ドメイン知識を用いてネットワーク構造の工夫をした手 法(と藤井が勝手に思っている) 」@ICCV2019を紹介します。 1. SlowFast Networks for Video Recognition 変化が激しい部分とあまり変化しない部分を分けて処理する(@動 画) 2. Drop an Octave: Reducing Spatial Redundancy in Convolutional Neural Networks with Octave Convolution 変化が激しい部分とあまり変化しない部分を分けて処理する(@画 像)

×