SSD: Single Shot MultiBox Detector (ECCV2016)

Takanori Ogata
Takanori OgataLoonshot Technologies
SSD: Single Shot MultiBox Detector
(ECCV2016)
@conta_
緒方 貴紀 (@conta_)
CRO@ABEJA, Inc.
Computer Visionとか、Machine Learning
の研究開発をやっています
Self Introduction
2
3
一般物体検出の論文
• 検出速度のアルゴリズム(YOLO)より高速で、Faster R-CNNと同等の高精度
なを実現するState of the artなアルゴリズムの提案
• 比較的低解像度でも高精度に検出できる
• 階層的なFeature mapと利用することで様々なスケールに対応
• アスペクト比ごとに識別器を作ることで、高い精度の検出率を達成
• シンプルなネットワーク設計によりEnd-to-Endで学習できる
SSD: Single Shot MultiBox Detector
4
画像から定められたクラスの物体を検出&識別するタスク
Object Detection
5
Shaoqing Ren, Kaiming He, Ross Girshick, & Jian Sun. “Faster R-CNN: Towards Real-Time
Object Detection with Region Proposal Networks”. NIPS 2015.
• R-CNN (Regions with CNN features) (CVPR 2014) [1]
• SPPnet (ECCV 2014) [2]
• Fast R-CNN (ICCV 2015) [3]
• Faster R-CNN (NIPS 2015) [4]
• YOLO(You Only Look Once) (CVPR 2016) [5]
Related Works
6
• R-CNN (Regions with CNN features) (CVPR 2014) [1]
• SPPnet (ECCV 2014) [2]
• Fast R-CNN (ICCV 2015) [3]
• Faster R-CNN (NIPS 2015) [4]
• YOLO(You Only Look Once) (CVPR 2016) [5]
Related Works
7
深いぃ歴史!
• R-CNN (Regions with CNN features) (CVPR 2014) [1]
• SPPnet (ECCV 2014) [2]
• Fast R-CNN (ICCV 2015) [3]
• Faster R-CNN (NIPS 2015) [4]
• YOLO(You Only Look Once) (CVPR 2016) [5]
Overview
8
• Selective Searchを用いて、画像から物体候補(Region proposals)を探す(2000個程度)
• 物体候補の領域画像を全て一定の大きさにリサイズしてCNNにかけてfeaturesを取り出す
• 取り出したFeaturesを使って複数のSVMによって学習しカテゴリ識別、Regressionによって
Bounding Box(物体を囲う正確な位置)を推定
R-CNN
9
■欠点
• 学習を各目的ごとに別々に学習する必要がある(Fine-tune/SVM/Bounding Box Regression)
• 実行時間がすごく遅い(GPUを使って10-45 [s/image])
R-CNN
10
• R-CNN (Regions with CNN features) (CVPR 2014) [1]
• SPPnet (ECCV 2014) [2]
• Fast R-CNN (ICCV 2015) [3]
• Faster R-CNN (NIPS 2015) [4]
• YOLO(You Only Look Once) (CVPR 2016) [5]
Overview
11
• RoI pooling layerというシンプルな幅可変Pooling
• Classification/Bounding Box Regressionを同時に学習させるためのMulti-task lossに
よって1回で学習させる
• オンラインで教師データを生成する工夫の提案
VGG16を用いたR-CNNより9倍の学習速度、213倍の識別速度
Fast R-CNN
12
■欠点
• Region Proposalの部分はDeepじゃない(Selective Search)
Fast R-CNN
13
• R-CNN (Regions with CNN features) (CVPR 2014) [1]
• SPPnet (ECCV 2014) [2]
• Fast R-CNN (ICCV 2015) [3]
• Faster R-CNN (NIPS 2015) [4]
• YOLO(You Only Look Once) (CVPR 2016) [5]
Overview
14
• Region Proposal Network (RPN)という物体候補領域を推定してくれるネットワーク
• + RoI Poolingにクラス推定を行うことでEnd to Endで学習できるアーキテクチャを提案
既存手法(Selective Search)よりも物体候補が高精度化
GPU上で5fpsの実行速度を達成、識別精度もFast-RCNNより高精度化
Faster R-CNN
15
■欠点
• ネットワークが複雑、意外と実装大変(所感)
• まだまだReal-Timeには程遠い
Faster R-CNN
16
• R-CNN (Regions with CNN features) (CVPR 2014) [1]
• SPPnet (ECCV 2014) [2]
• Fast R-CNN (ICCV 2015) [3]
• Faster R-CNN (NIPS 2015) [4]
• YOLO(You Only Look Once) (CVPR 2016) [5]
Overview
17
• 予め画像全体をグリッド分割、各領域ごとに物体のクラスとBounding Boxを求める
• シンプルなCNNのアーキテクチャ
R-CNNに識別精度は少し劣るが45-155FPSの検出速度を達成
YOLO(You Only Look Once)
18
■欠点
• グリッド内に大量のオブジェクトが映ってしまうような場合に弱い
• 分割されたグリッドサイズは固定かつ、グリッド内で識別できるクラスは1つで、
• 検出できる物体の数は2つという制約を設けている(実験の設定では)
YOLO(You Only Look Once)
19
20
シンプルなネットワークを用いた物体検出アルゴリズム(YOLOに近い)
• 学習時にObject Proposalを直接学習
• Proposal Generationが不要
• Fast/Faster R-CNNのようなFeature Resamplingのステージが不要
• 全ての演算を1つのネットワークで実現
SSD
21
シンプルなネットワークを用いた物体検出アルゴリズム(YOLOに近い)
• 学習時にObject Proposalを直接学習
• Proposal Generationが不要
• Fast/Faster R-CNNのようなFeature Resamplingのステージが不要
• 全ての演算を1つのネットワークで実現
SSD
22
VOC2007のデータセットにおいて、
300×300の入力画像サイズで74.3% mAP at 59 FPSを達成(Nvidia Titan Xを利用)
512×512の画像サイズにおいては、76.8% mAPを達成(Faster R-CNNは73.2% mAP)
• Multi-scale feature maps for detection
• Convolutional predictors for detection
• Default boxes and aspect ratios
Model
23
• Multi-scale feature maps for detection
• Convolutional predictors for detection
• Default boxes and aspect ratios
Model
24
ベースネットワークの最後に
FeatureMapを追加
=> 出力サイズをゴリゴリ減らしてマ
ルチスケールに対応
• Multi-scale feature maps for detection
• Convolutional predictors for detection
• Default boxes and aspect ratios
Model
25
3x3の小さなフィルタを掛け、
物体クラスのスコアと、物体位置の
オフセットを出力
• Convolutional predictors for detection
3x3の小さなフィルタを掛け、物体クラスのスコアと物体位置のオフセット(x, y ,
w, h)を出力
出力の一つ一つのセルが
・物体クラス
・物体位置
を表すイメージ
Model
26
• Multi-scale feature maps for detection
• Convolutional predictors for detection
• Default boxes and aspect ratios
Model
27
• Default boxes and aspect ratios
異なるアスペクト比に対応するために、アスペクト比ごとに出力を分ける
k個のアス比の異なるボックス、c個の物体クラスと、4つのオフセットを出力する
場合、1つセルのサイズは(c+4)kになる
feature mapがm*nとすると、
最終的な出力マップは、(c+4)kmnになる
Model
28
ロス関数は
物体の位置ずれである、localization loss (loc) と
物体のクラスである、confidence loss (conf)を組み合わせたもの
各画像で出てきた全ての出力に対して、(1)式を計算する
(Nはマッチしたボックスの数、重みαは実験では1.0)
Training Objective
29
localization loss (loc)は、Faster R-CNNと同様の Smooth L1 loss
Training Objective
30
confidence loss (conf)は、Softmax Loss
マルチスケールな出力をするために、各Feature Mapに役割を与える
Choosing scales and aspect ratios for default boxes
31
Feature Mapのみなさん
m個のFeatureMapを使う場合、
各FeatureMapは下記のスケールを持つ大きさのオブジェクトを
検出する役割を持つ
Choosing scales and aspect ratios for default boxes
32
(Sminは0.2、Smaxは0.9)
アスペクト比が1の場合においては、下記の異なるスケールのBoxを計算
アスペクト比は、
 ar ∈ {1, 2, 3, 1/2, 1/3}
において、下記の式でDefault Boxの大きさを計算
Choosing scales and aspect ratios for default boxes
33
1つのFeatureMapに対して、合計6個のアスペクト比のBoxを作る
*ただし幾つかのFeatureMapは除く(4個)
大量にBounding Boxをサジェストされるので、
学習時にNegativeが大量に発生
confidence lossを降順にソートして、上位からピックアップ
NegativeとPositiveの比率が3:1になるように調整
Hard negative mining
34
下記3つの方法からランダムにとる
• 画像全体を利用
• Jaccard Overlapが{0.1, 0.3, 0.5, 0.7, 0.9} のパッチをサンプリング
• パッチをランダムサンプリング
パッチサイズはオリジナルの[0.1, 1]、aspect ratioは[1/2, 2]
もし、Cropしたサンプル内にGround Truthの領域が入っていたら、その領域はすべて含む
(その後)サンプリングした後に、各サンプルをリサイズして0.5の確率でFlip
Data augmentation
35
■Base Network
- ILSVRC CLS-LOC datasetでPretrainされたVGG16をベースにする
- fc6とfc7をConvolution Layerに変更
- pool5を 2×2−s2 -> 3×3−s1
- a trous algorithmを利用
- Dropoutなし
- fc8 Layerは削除
Experimental Results
36
SSD300 is already better than Faster R-CNN by 1.1%
SSD512 is 3.6% better.
PASCAL VOC 2007
37
- Data augmentationは重要
- Default boxは多い方がいい
- Atrous is faster
- 使わない場合は精度はほぼ同じで20%遅い
Model analysis
38
- Multiple output layers at different resolutions is better
- SSDのメジャーコントリビューション
- conv7だけだと一番精度が低い
- ROI Poolingを使わないので"collapsing bins problem"は起きない
Model analysis
39
SSD512 achieves 80.0% mAP, which is 4.1% higher than Faster R-CNN.
PASCAL VOC2012
40
Results
41
Inference time
42
Faster R-CNNとYOLOより高精度
Fast YOLOは155 FPSだけど、SSDより22% mAP精度が低い
• 検出速度のアルゴリズム(YOLO)より高速で、Faster R-CNNと同等の高精度
なを実現するState of the artなアルゴリズムの提案
• 比較的低解像度(300x300px)でも高精度に検出できる
• 階層的なFeature mapと利用することで様々なスケールに対応
• アスペクト比ごとに識別器を作ることで、高い精度の検出率を達成
• シンプルなネットワーク設計によりEnd-to-Endで学習できる
まとめ
43
Join Us!
https://www.wantedly.com/companies/abeja
• [1] Girshick, Ross, et al. "Rich feature hierarchies for accurate object detection and semantic
segmentation." Proceedings of the IEEE conference on computer vision and pattern recognition. 2014.
• [2] He, Kaiming, et al. "Spatial pyramid pooling in deep convolutional networks for visual recognition."
European Conference on Computer Vision. Springer International Publishing, 2014.
• [3] Girshick, Ross. "Fast r-cnn." Proceedings of the IEEE International Conference on Computer Vision. 2015.
• [4] Ren, Shaoqing, et al. "Faster R-CNN: Towards real-time object detection with region proposal networks."
Advances in neural information processing systems. 2015.
• [5] Redmon, Joseph, et al. "You only look once: Unified, real-time object detection." arXiv preprint arXiv:
1506.02640 (2015).
• [6] Liu, Wei, et al. "SSD: Single Shot MultiBox Detector." arXiv preprint arXiv:1512.02325 (2015).
• [7] Uijlings, Jasper RR, et al. "Selective search for object recognition." International journal of computer
vision 104.2 (2013): 154-171.
Appendix
45
1 de 45

Recomendados

モデル高速化百選 por
モデル高速化百選モデル高速化百選
モデル高速化百選Yusuke Uchida
24.8K vistas64 diapositivas
【チュートリアル】コンピュータビジョンによる動画認識 por
【チュートリアル】コンピュータビジョンによる動画認識【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識Hirokatsu Kataoka
12.5K vistas96 diapositivas
Action Recognitionの歴史と最新動向 por
Action Recognitionの歴史と最新動向Action Recognitionの歴史と最新動向
Action Recognitionの歴史と最新動向Ohnishi Katsunori
8.7K vistas40 diapositivas
モデルアーキテクチャ観点からのDeep Neural Network高速化 por
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化Yusuke Uchida
38.7K vistas62 diapositivas
3D CNNによる人物行動認識の動向 por
3D CNNによる人物行動認識の動向3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向Kensho Hara
24.1K vistas23 diapositivas
物体検出の歴史(R-CNNからSSD・YOLOまで) por
物体検出の歴史(R-CNNからSSD・YOLOまで)物体検出の歴史(R-CNNからSSD・YOLOまで)
物体検出の歴史(R-CNNからSSD・YOLOまで)HironoriKanazawa
1.6K vistas53 diapositivas

Más contenido relacionado

La actualidad más candente

[DL輪読会]ドメイン転移と不変表現に関するサーベイ por
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイDeep Learning JP
6.9K vistas54 diapositivas
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料 por
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
16K vistas38 diapositivas
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~ por
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~SSII
10.6K vistas38 diapositivas
画像キャプションと動作認識の最前線 〜データセットに注目して〜(第17回ステアラボ人工知能セミナー) por
画像キャプションと動作認識の最前線 〜データセットに注目して〜(第17回ステアラボ人工知能セミナー)画像キャプションと動作認識の最前線 〜データセットに注目して〜(第17回ステアラボ人工知能セミナー)
画像キャプションと動作認識の最前線 〜データセットに注目して〜(第17回ステアラボ人工知能セミナー)STAIR Lab, Chiba Institute of Technology
8.1K vistas58 diapositivas
畳み込みニューラルネットワークの高精度化と高速化 por
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化Yusuke Uchida
64.5K vistas133 diapositivas
R-CNNの原理とここ数年の流れ por
R-CNNの原理とここ数年の流れR-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れKazuki Motohashi
100.1K vistas62 diapositivas

La actualidad más candente(20)

[DL輪読会]ドメイン転移と不変表現に関するサーベイ por Deep Learning JP
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
Deep Learning JP6.9K vistas
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料 por Yusuke Uchida
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida16K vistas
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~ por SSII
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII10.6K vistas
画像キャプションと動作認識の最前線 〜データセットに注目して〜(第17回ステアラボ人工知能セミナー) por STAIR Lab, Chiba Institute of Technology
画像キャプションと動作認識の最前線 〜データセットに注目して〜(第17回ステアラボ人工知能セミナー)画像キャプションと動作認識の最前線 〜データセットに注目して〜(第17回ステアラボ人工知能セミナー)
画像キャプションと動作認識の最前線 〜データセットに注目して〜(第17回ステアラボ人工知能セミナー)
畳み込みニューラルネットワークの高精度化と高速化 por Yusuke Uchida
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida64.5K vistas
R-CNNの原理とここ数年の流れ por Kazuki Motohashi
R-CNNの原理とここ数年の流れR-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れ
Kazuki Motohashi100.1K vistas
ResNetの仕組み por Kota Nagasato
ResNetの仕組みResNetの仕組み
ResNetの仕組み
Kota Nagasato60.3K vistas
論文紹介: Fast R-CNN&Faster R-CNN por Takashi Abe
論文紹介: Fast R-CNN&Faster R-CNN論文紹介: Fast R-CNN&Faster R-CNN
論文紹介: Fast R-CNN&Faster R-CNN
Takashi Abe100.4K vistas
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra... por Deep Learning JP
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
Deep Learning JP8.9K vistas
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing por Deep Learning JP
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP3K vistas
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows por Deep Learning JP
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
Deep Learning JP3.7K vistas
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs por Deep Learning JP
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
Deep Learning JP1.5K vistas
画像認識と深層学習 por Yusuke Uchida
画像認識と深層学習画像認識と深層学習
画像認識と深層学習
Yusuke Uchida17.5K vistas
semantic segmentation サーベイ por yohei okawa
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイ
yohei okawa4.8K vistas
ICCV 2019 論文紹介 (26 papers) por Hideki Okada
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)
Hideki Okada2.9K vistas
[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S... por Deep Learning JP
[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...
[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...
Deep Learning JP3.8K vistas
【メタサーベイ】Vision and Language のトップ研究室/研究者 por cvpaper. challenge
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
cvpaper. challenge1.8K vistas
最近のDeep Learning (NLP) 界隈におけるAttention事情 por Yuta Kikuchi
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi72.3K vistas
Triplet Loss 徹底解説 por tancoro
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説
tancoro11.5K vistas
[DL輪読会]Focal Loss for Dense Object Detection por Deep Learning JP
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
Deep Learning JP14.3K vistas

Destacado

最近のSingle Shot系の物体検出のアーキテクチャまとめ por
最近のSingle Shot系の物体検出のアーキテクチャまとめ最近のSingle Shot系の物体検出のアーキテクチャまとめ
最近のSingle Shot系の物体検出のアーキテクチャまとめYusuke Uchida
40.1K vistas25 diapositivas
PRMU研究会の今後のあり方について(NLP分野での取り組み紹介) por
PRMU研究会の今後のあり方について(NLP分野での取り組み紹介)PRMU研究会の今後のあり方について(NLP分野での取り組み紹介)
PRMU研究会の今後のあり方について(NLP分野での取り組み紹介)Yusuke Uchida
2.8K vistas16 diapositivas
Poincare embeddings for Learning Hierarchical Representations por
Poincare embeddings for Learning Hierarchical RepresentationsPoincare embeddings for Learning Hierarchical Representations
Poincare embeddings for Learning Hierarchical RepresentationsTatsuya Shirakawa
41.5K vistas29 diapositivas
1018: ディープラーニング最新技術情報~cuDNN 3、DIGITS 2、CUDA 7.5のご紹介~ por
1018: ディープラーニング最新技術情報~cuDNN 3、DIGITS 2、CUDA 7.5のご紹介~1018: ディープラーニング最新技術情報~cuDNN 3、DIGITS 2、CUDA 7.5のご紹介~
1018: ディープラーニング最新技術情報~cuDNN 3、DIGITS 2、CUDA 7.5のご紹介~NVIDIA Japan
7.7K vistas24 diapositivas
[DL輪読会]YOLO9000: Better, Faster, Stronger por
[DL輪読会]YOLO9000: Better, Faster, Stronger[DL輪読会]YOLO9000: Better, Faster, Stronger
[DL輪読会]YOLO9000: Better, Faster, StrongerDeep Learning JP
201.9K vistas28 diapositivas
SSD: Single Shot MultiBox Detector (UPC Reading Group) por
SSD: Single Shot MultiBox Detector (UPC Reading Group)SSD: Single Shot MultiBox Detector (UPC Reading Group)
SSD: Single Shot MultiBox Detector (UPC Reading Group)Universitat Politècnica de Catalunya
25.6K vistas54 diapositivas

Destacado(20)

最近のSingle Shot系の物体検出のアーキテクチャまとめ por Yusuke Uchida
最近のSingle Shot系の物体検出のアーキテクチャまとめ最近のSingle Shot系の物体検出のアーキテクチャまとめ
最近のSingle Shot系の物体検出のアーキテクチャまとめ
Yusuke Uchida40.1K vistas
PRMU研究会の今後のあり方について(NLP分野での取り組み紹介) por Yusuke Uchida
PRMU研究会の今後のあり方について(NLP分野での取り組み紹介)PRMU研究会の今後のあり方について(NLP分野での取り組み紹介)
PRMU研究会の今後のあり方について(NLP分野での取り組み紹介)
Yusuke Uchida2.8K vistas
Poincare embeddings for Learning Hierarchical Representations por Tatsuya Shirakawa
Poincare embeddings for Learning Hierarchical RepresentationsPoincare embeddings for Learning Hierarchical Representations
Poincare embeddings for Learning Hierarchical Representations
Tatsuya Shirakawa41.5K vistas
1018: ディープラーニング最新技術情報~cuDNN 3、DIGITS 2、CUDA 7.5のご紹介~ por NVIDIA Japan
1018: ディープラーニング最新技術情報~cuDNN 3、DIGITS 2、CUDA 7.5のご紹介~1018: ディープラーニング最新技術情報~cuDNN 3、DIGITS 2、CUDA 7.5のご紹介~
1018: ディープラーニング最新技術情報~cuDNN 3、DIGITS 2、CUDA 7.5のご紹介~
NVIDIA Japan7.7K vistas
[DL輪読会]YOLO9000: Better, Faster, Stronger por Deep Learning JP
[DL輪読会]YOLO9000: Better, Faster, Stronger[DL輪読会]YOLO9000: Better, Faster, Stronger
[DL輪読会]YOLO9000: Better, Faster, Stronger
Deep Learning JP201.9K vistas
画像認識モデルを作るための鉄板レシピ por Takahiro Kubo
画像認識モデルを作るための鉄板レシピ画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピ
Takahiro Kubo115.2K vistas
Windows Azure Platform 運用設計 V1.1 por junichi anno
Windows Azure Platform 運用設計 V1.1Windows Azure Platform 運用設計 V1.1
Windows Azure Platform 運用設計 V1.1
junichi anno3.1K vistas
Deep Learningライブラリ 色々つかってみた感想まとめ por Takanori Ogata
Deep Learningライブラリ 色々つかってみた感想まとめDeep Learningライブラリ 色々つかってみた感想まとめ
Deep Learningライブラリ 色々つかってみた感想まとめ
Takanori Ogata3.6K vistas
[CVPR読み会]BING:Binarized normed gradients for objectness estimation at 300fps por Takuya Minagawa
[CVPR読み会]BING:Binarized normed gradients for objectness estimation at 300fps[CVPR読み会]BING:Binarized normed gradients for objectness estimation at 300fps
[CVPR読み会]BING:Binarized normed gradients for objectness estimation at 300fps
Takuya Minagawa10.9K vistas
Open ai universe starter-agent触ってみた por Nakanishi Tetsuhiro
Open ai universe starter-agent触ってみたOpen ai universe starter-agent触ってみた
Open ai universe starter-agent触ってみた
Nakanishi Tetsuhiro20.6K vistas
Single Shot Multibox Detector por NamHyuk Ahn
Single Shot Multibox DetectorSingle Shot Multibox Detector
Single Shot Multibox Detector
NamHyuk Ahn6.1K vistas
[PR12] You Only Look Once (YOLO): Unified Real-Time Object Detection por Taegyun Jeon
[PR12] You Only Look Once (YOLO): Unified Real-Time Object Detection[PR12] You Only Look Once (YOLO): Unified Real-Time Object Detection
[PR12] You Only Look Once (YOLO): Unified Real-Time Object Detection
Taegyun Jeon39.2K vistas
カメラ位置姿勢とビュー行列 por Shohei Mori
カメラ位置姿勢とビュー行列カメラ位置姿勢とビュー行列
カメラ位置姿勢とビュー行列
Shohei Mori3.6K vistas
論文読み会 Data Augmentation for Low-Resource Neural Machine Translation por Kanji Takahashi
論文読み会 Data Augmentation for Low-Resource Neural Machine Translation論文読み会 Data Augmentation for Low-Resource Neural Machine Translation
論文読み会 Data Augmentation for Low-Resource Neural Machine Translation
Kanji Takahashi1.7K vistas
Kerasで可視化いろいろ por Masakazu Muraoka
Kerasで可視化いろいろKerasで可視化いろいろ
Kerasで可視化いろいろ
Masakazu Muraoka17.4K vistas
Locally Optimized Product Quantization for Approximate Nearest Neighbor Searc... por Gou Koutaki
Locally Optimized Product Quantization for Approximate Nearest Neighbor Searc...Locally Optimized Product Quantization for Approximate Nearest Neighbor Searc...
Locally Optimized Product Quantization for Approximate Nearest Neighbor Searc...
Gou Koutaki2.3K vistas
[論文解説]Unsupervised monocular depth estimation with Left-Right Consistency por Ryutaro Yamauchi
[論文解説]Unsupervised monocular depth estimation with Left-Right Consistency[論文解説]Unsupervised monocular depth estimation with Left-Right Consistency
[論文解説]Unsupervised monocular depth estimation with Left-Right Consistency
Ryutaro Yamauchi4.1K vistas
#6 PyData Warsaw: Deep learning for image segmentation por Matthew Opala
#6 PyData Warsaw: Deep learning for image segmentation#6 PyData Warsaw: Deep learning for image segmentation
#6 PyData Warsaw: Deep learning for image segmentation
Matthew Opala3.2K vistas

Similar a SSD: Single Shot MultiBox Detector (ECCV2016)

物体検出の歴史まとめ(1) 20180417 por
物体検出の歴史まとめ(1) 20180417物体検出の歴史まとめ(1) 20180417
物体検出の歴史まとめ(1) 20180417Masakazu Shinoda
2.2K vistas81 diapositivas
20180427 arXivtimes 勉強会: Cascade R-CNN: Delving into High Quality Object Det... por
20180427 arXivtimes 勉強会:  Cascade R-CNN: Delving into High Quality Object Det...20180427 arXivtimes 勉強会:  Cascade R-CNN: Delving into High Quality Object Det...
20180427 arXivtimes 勉強会: Cascade R-CNN: Delving into High Quality Object Det...grafi_tt
1.8K vistas8 diapositivas
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介 por
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介Hiroki Nakahara
6.5K vistas59 diapositivas
Sprint17 por
Sprint17Sprint17
Sprint17KazutoshiArimoto
39 vistas6 diapositivas
ファントム異常を排除する高速なトランザクション処理向けインデックス por
ファントム異常を排除する高速なトランザクション処理向けインデックスファントム異常を排除する高速なトランザクション処理向けインデックス
ファントム異常を排除する高速なトランザクション処理向けインデックスSho Nakazono
90 vistas45 diapositivas

Similar a SSD: Single Shot MultiBox Detector (ECCV2016)(20)

物体検出の歴史まとめ(1) 20180417 por Masakazu Shinoda
物体検出の歴史まとめ(1) 20180417物体検出の歴史まとめ(1) 20180417
物体検出の歴史まとめ(1) 20180417
Masakazu Shinoda2.2K vistas
20180427 arXivtimes 勉強会: Cascade R-CNN: Delving into High Quality Object Det... por grafi_tt
20180427 arXivtimes 勉強会:  Cascade R-CNN: Delving into High Quality Object Det...20180427 arXivtimes 勉強会:  Cascade R-CNN: Delving into High Quality Object Det...
20180427 arXivtimes 勉強会: Cascade R-CNN: Delving into High Quality Object Det...
grafi_tt1.8K vistas
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介 por Hiroki Nakahara
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
Hiroki Nakahara6.5K vistas
ファントム異常を排除する高速なトランザクション処理向けインデックス por Sho Nakazono
ファントム異常を排除する高速なトランザクション処理向けインデックスファントム異常を排除する高速なトランザクション処理向けインデックス
ファントム異常を排除する高速なトランザクション処理向けインデックス
Sho Nakazono90 vistas
2018 07 02_dense_pose por harmonylab
2018 07 02_dense_pose2018 07 02_dense_pose
2018 07 02_dense_pose
harmonylab6.5K vistas
CVPR 2011 ImageNet Challenge 文献紹介 por Narihira Takuya
CVPR 2011 ImageNet Challenge 文献紹介CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介
Narihira Takuya1.5K vistas
Faster SRv6 D-plane with XDP por Ryoga Saito
Faster SRv6 D-plane with XDPFaster SRv6 D-plane with XDP
Faster SRv6 D-plane with XDP
Ryoga Saito130 vistas
Muramatsu Bachelor Thesis por pflab
Muramatsu Bachelor ThesisMuramatsu Bachelor Thesis
Muramatsu Bachelor Thesis
pflab2.6K vistas
2値化CNN on FPGAでGPUとガチンコバトル(公開版) por Hiroki Nakahara
2値化CNN on FPGAでGPUとガチンコバトル(公開版)2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
Hiroki Nakahara39.5K vistas
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection por Deep Learning JP
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
Deep Learning JP7K vistas
0から理解するニューラルネットアーキテクチャサーチ(NAS) por MasanoriSuganuma
0から理解するニューラルネットアーキテクチャサーチ(NAS)0から理解するニューラルネットアーキテクチャサーチ(NAS)
0から理解するニューラルネットアーキテクチャサーチ(NAS)
MasanoriSuganuma3.7K vistas
Online moving camera_background_subtraction por Daichi Suzuo
Online moving camera_background_subtractionOnline moving camera_background_subtraction
Online moving camera_background_subtraction
Daichi Suzuo2.8K vistas
AGA_CVPR2017 por nonane
AGA_CVPR2017AGA_CVPR2017
AGA_CVPR2017
nonane625 vistas

Más de Takanori Ogata

20210108 Tread: Circuits por
20210108 Tread: Circuits20210108 Tread: Circuits
20210108 Tread: CircuitsTakanori Ogata
971 vistas149 diapositivas
20200704 Deep Snake for Real-Time Instance Segmentation por
20200704 Deep Snake for Real-Time Instance Segmentation 20200704 Deep Snake for Real-Time Instance Segmentation
20200704 Deep Snake for Real-Time Instance Segmentation Takanori Ogata
1.1K vistas31 diapositivas
CVPR2019読み会@関東CV por
CVPR2019読み会@関東CVCVPR2019読み会@関東CV
CVPR2019読み会@関東CVTakanori Ogata
2.5K vistas58 diapositivas
190412 Annotation Survey@関東CV勉強会 por
190412 Annotation Survey@関東CV勉強会190412 Annotation Survey@関東CV勉強会
190412 Annotation Survey@関東CV勉強会Takanori Ogata
4.6K vistas85 diapositivas
190410 ML@LOFT por
190410 ML@LOFT190410 ML@LOFT
190410 ML@LOFTTakanori Ogata
4.5K vistas36 diapositivas
180204 Attention-aware Deep Reinforcement Learning for Video Face Recognition por
180204 Attention-aware Deep Reinforcement Learning for Video Face Recognition180204 Attention-aware Deep Reinforcement Learning for Video Face Recognition
180204 Attention-aware Deep Reinforcement Learning for Video Face RecognitionTakanori Ogata
2.2K vistas32 diapositivas

Más de Takanori Ogata(14)

20200704 Deep Snake for Real-Time Instance Segmentation por Takanori Ogata
20200704 Deep Snake for Real-Time Instance Segmentation 20200704 Deep Snake for Real-Time Instance Segmentation
20200704 Deep Snake for Real-Time Instance Segmentation
Takanori Ogata1.1K vistas
CVPR2019読み会@関東CV por Takanori Ogata
CVPR2019読み会@関東CVCVPR2019読み会@関東CV
CVPR2019読み会@関東CV
Takanori Ogata2.5K vistas
190412 Annotation Survey@関東CV勉強会 por Takanori Ogata
190412 Annotation Survey@関東CV勉強会190412 Annotation Survey@関東CV勉強会
190412 Annotation Survey@関東CV勉強会
Takanori Ogata4.6K vistas
180204 Attention-aware Deep Reinforcement Learning for Video Face Recognition por Takanori Ogata
180204 Attention-aware Deep Reinforcement Learning for Video Face Recognition180204 Attention-aware Deep Reinforcement Learning for Video Face Recognition
180204 Attention-aware Deep Reinforcement Learning for Video Face Recognition
Takanori Ogata2.2K vistas
Unsupervised learning of object landmarks by factorized spatial embeddings por Takanori Ogata
Unsupervised learning of object landmarks by factorized spatial embeddingsUnsupervised learning of object landmarks by factorized spatial embeddings
Unsupervised learning of object landmarks by factorized spatial embeddings
Takanori Ogata1.2K vistas
Annotating object instances with a polygon rnn por Takanori Ogata
Annotating object instances with a polygon rnnAnnotating object instances with a polygon rnn
Annotating object instances with a polygon rnn
Takanori Ogata29.3K vistas
Training object class detectors with click supervision por Takanori Ogata
Training object class detectors with click supervisionTraining object class detectors with click supervision
Training object class detectors with click supervision
Takanori Ogata28.4K vistas
160924 Deep Learning Tuningathon por Takanori Ogata
160924 Deep Learning Tuningathon160924 Deep Learning Tuningathon
160924 Deep Learning Tuningathon
Takanori Ogata9.3K vistas
Convolutional Pose Machines por Takanori Ogata
Convolutional Pose MachinesConvolutional Pose Machines
Convolutional Pose Machines
Takanori Ogata4.5K vistas
10分でわかる主成分分析(PCA) por Takanori Ogata
10分でわかる主成分分析(PCA)10分でわかる主成分分析(PCA)
10分でわかる主成分分析(PCA)
Takanori Ogata120.7K vistas

Último

Windows 11 information that can be used at the development site por
Windows 11 information that can be used at the development siteWindows 11 information that can be used at the development site
Windows 11 information that can be used at the development siteAtomu Hidaka
90 vistas41 diapositivas
SSH応用編_20231129.pdf por
SSH応用編_20231129.pdfSSH応用編_20231129.pdf
SSH応用編_20231129.pdficebreaker4
405 vistas13 diapositivas
定例会スライド_キャチs 公開用.pdf por
定例会スライド_キャチs 公開用.pdf定例会スライド_キャチs 公開用.pdf
定例会スライド_キャチs 公開用.pdfKeio Robotics Association
135 vistas64 diapositivas
The Things Stack説明資料 by The Things Industries por
The Things Stack説明資料 by The Things IndustriesThe Things Stack説明資料 by The Things Industries
The Things Stack説明資料 by The Things IndustriesCRI Japan, Inc.
78 vistas29 diapositivas
Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向 por
Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向
Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向Hitachi, Ltd. OSS Solution Center.
101 vistas26 diapositivas
SNMPセキュリティ超入門 por
SNMPセキュリティ超入門SNMPセキュリティ超入門
SNMPセキュリティ超入門mkoda
479 vistas15 diapositivas

Último(12)

Windows 11 information that can be used at the development site por Atomu Hidaka
Windows 11 information that can be used at the development siteWindows 11 information that can be used at the development site
Windows 11 information that can be used at the development site
Atomu Hidaka90 vistas
SSH応用編_20231129.pdf por icebreaker4
SSH応用編_20231129.pdfSSH応用編_20231129.pdf
SSH応用編_20231129.pdf
icebreaker4405 vistas
The Things Stack説明資料 by The Things Industries por CRI Japan, Inc.
The Things Stack説明資料 by The Things IndustriesThe Things Stack説明資料 by The Things Industries
The Things Stack説明資料 by The Things Industries
CRI Japan, Inc.78 vistas
SNMPセキュリティ超入門 por mkoda
SNMPセキュリティ超入門SNMPセキュリティ超入門
SNMPセキュリティ超入門
mkoda479 vistas
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」 por PC Cluster Consortium
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20... por NTT DATA Technology & Innovation
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」 por PC Cluster Consortium
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料) por NTT DATA Technology & Innovation
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
光コラボは契約してはいけない por Takuya Matsunaga
光コラボは契約してはいけない光コラボは契約してはいけない
光コラボは契約してはいけない
Takuya Matsunaga27 vistas

SSD: Single Shot MultiBox Detector (ECCV2016)