SlideShare una empresa de Scribd logo
1 de 29
DEEP LEARNING JP
[DL Seminar]
YOLOv4: Optimal Speed and Accuracy of Object
Detection
KoichiroTamura ACES, Inc.
https://deeplearning.jp
• Alexey Bochkovskiy, Chien-Yao Wang, Hong-Yuan Mark Liao
– Submitted to arXiv on 2020/4
– https://arxiv.org/abs/2004.10934v1
• GitHub
– https://github.com/AlexeyAB/darknet
– ALexeyAB氏のdarknetがYOLOv3からupload
• Object DetectionのスタンダートであったYOLOv3をupdate
– 高FPSを保ちながら、EfficientDetに匹敵するほどの精度を実現
2
Overview
1. Object Detection周りの研究の体系整理
– 【問】そもそも何を持って良いモデル/アーキテクチャとするか
– 【問】研究・手法は、どのように位置付けられるか
2. YOLOv4を社会実装インパクトは?
– 【問】YOLOv3やEfficientDetとの差分はどれだけインパクトがあるか?
3
今回のサーベイの目的
Introduction
本稿の貢献は以下の通り
1. 誰もが手軽な計算リソースで学習することができる、高速で正確なObject Detectionモデルを提案
2. 最先端のBag-of-FreebiesとBag-of-Specialsが学習時に与える影響を検証
3. CBNやPAN、SAMなどの最新のメソッドを効率化し、Single GPUでの学習に適用できるようにした
– なお、YOLOv4は、low computationを目的にした研究・モデルではない
5
Introduction
Related Works
• 高精度
– ミスが看過されないタスクへの適用(測量など)や、後続のタスクにObject Detectionの精度が依存する場合(trackingなど)
• 高速
– 推論時間が速い: 速度が重視されるタスクへの適用(自動運転・軍事など)や、後続のタスクの処理時間のボトルネックになる場合
– 訓練時間が速い: 計算資源が乏しい場合や、大量の実験を繰り返す必要がある場合
• 軽量
– モデルパラメタが少ない, FLOPs数が少ない, モデルファイルサイズが少ない
– モバイルやエッジでも動かしたい場合、CPUや省メモリ・電力で動かしたい場合
7
【参考】「優れた」Object Detectionとは?
• Model/Architecture
– backbone
– neck
– head
• 学習時のテクニック
– Data Augmentation
– データ不均衡問題への対策
– 目的関数
• 推論時のテクニック・追加モジュール
– 受容野の拡張・強化
– Attention module
– Feature integration
– 活性化関数
– Post process
8
Object Detectionの体系整理
• Model/Architecture
– backbone
– neck
– head
• 学習時のテクニック
– Data Augmentation
– データ不均衡問題への対策
– 目的関数
• 推論時のテクニック・追加モジュール
– 受容野の拡張・強化
– Attention module
– Feature integration
– 活性化関数
– Post process
9
Object Detectionの体系整理
• backbone
– GPU: VGG, ResNet, ResNeXt, DenseNet
– CPU: SqueezeNet, MobileNet, ShuffleNet
• neck
– Additional blocks: SPP, ASPP, RFB, SAM
– Path-aggregation blocks: Pyramid Network(FPN), Path Aggregation Network(PAN), BiFPN, NAS-FPN
• Top-down  Bottom-upのアーキテクチャ
• head
– Two-stage: R-CNN系列
– One-stage:
• Anchor-based(NMS必要): YOLO, SSD, RetinaNet
• Anchor-free(NMS不必要): CenterNet, CornerNet, FCOS
– 参考: [DL輪読会]Objects as Points, https://www.slideshare.net/DeepLearningJP2016/dlobjects-as-points
10
Object detection models
11
Object detection models
• Model/Architecture
– backbone
– neck
– head
• 学習時のテクニック
– Data Augmentation
– データ不均衡問題への対策
– 目的関数
• 推論時のテクニック・追加モジュール
– 受容野の拡張・強化
– Attention module
– Feature integration
– 活性化関数
– Post process
12
Object Detectionの体系整理
• 学習時のテクニック・手法
– Data Augmentation
• 画像情報に対するデータ拡張
– Photometric distortion(明るさ、コントラスト、色相、彩度、ノイズ), geometric distortion(スケーリング、クロップ、反転、回転)
• オクルージョン
– 画像レベル
» Random erase, cutout: 画像内の矩形領域を塗りつぶす
» hide-and-seek, grid mask: 複数の矩形領域を選択し、塗りつぶす
– 特徴量マップレベル
» DropOut, DropConect, DropBlock
• 組み合わせ
– MIxUp: 2枚の画像を用いて重ね合わせ
– CutMix: トリミングした画像を他の画像の矩形領域に被せる
– Style transfer GAN
13
Bag of freebies
• 学習時のテクニック・手法
– データセットの偏りに対する手法
• ラベルクラス間のデータ量不均衡問題
– two-stage modelの場合: hard negative example mining, online hard example mining
– one-stage modelの場合: focal loss
• ラベルクラス間の関連性の不均衡問題
– label smoothing, 蒸留
14
Bag of freebies
• 学習時のテクニック・手法
– 目的関数
• MSE誤差
– Bboxの{x_center, y_center, w, h} or {x1, y1, x2, y2}に対する2乗誤差
• IoU誤差
– MSE誤差では、Bboxの4点が独立変数として扱われる
– スケール不変の表現であるため、スケールに応じて損失が大きくなると言う問題を解決できる
– 最近はIoU誤差を用いる研究が進んでいる
– GIoU, DIoU, CIoU
15
Bag of freebies
• Model/Architecture
– backbone
– neck
– head
• 学習時のテクニック
– Data Augmentation
– データ不均衡問題への対策
– 目的関数
• 推論時のテクニック・追加モジュール
– 受容野の拡張・強化
– Attention module
– Feature integration
– 活性化関数
– Post process
16
Object Detectionの体系整理
• 推論時のテクニック・手法
– 受容野の強化
• SPP ASPP, PFB Module
– Max-pooling演算
– YOLOv3ではkernel size = 𝑘 ∈ {1,5,9,13}, ストライド 1 のmax-poolingの出力を連結して出力するようにした
– わずかな計算量の増加で高い精度を実現
– Attention Module
• Squeeze and Excitation(SE)
– チャネル方向のアテンション
– 精度向上をわずかな計算量増加で行うことができるが、GPUの場合は10%ほどの推論時間増加が見られるので注意
– 上述した理由から、CPU計算(ex: モバイル)向き
• Spatial Attention Module(SAM)
– 空間方向のアテンション
– 0.1%の計算量の増加で、ImageNet でのClassificationにおいてtop1の精度を0.5%上昇
– GPUでの推論速度にも影響を与えない
17
Bag of specials
• 推論時のテクニック・手法
– Feature integration
• SFAM, ASFF, BiFPN
– Skip-connection, hyper-column
– 低レイヤーの特徴空間と高レイヤーの特徴空間を統合する
– マルチスケールに連結された特徴量マップを重み付けして統合して推論する手法(SFAM)など
– 活性化関数
• ReLUに代表される様々な活性化関数
– ReLUの登場によって勾配消失問題が大幅に改善
– ReLU6, hard-swish: 量子化ネットワークに特化した活性化関数
– 後処理
• NMS
– Anchor-freeなモデルはNMSの必要性がないと言う点で優れている
18
Bag of specials
Proposed Method
基本的には、YOLOv3のアーキテクチャの改良です
20
Methodology
21
参考: YOLOv3のアーキテクチャ
引用: A Closer Look at YOLOv3, https://www.blog.dmprof.com/post/a-closer-look-at-yolov3
• Backbone
– CSPDarknet
• CSPResNetXt50, CSPDarknet53, EfficientNet B3の選択肢
– Image Classification のタスク(ILSVR2012(ImageNet))では、 CSPResNetXt50が優れていたが、Object Detectionのタスク(MS COCO)では、
CSPDarknet53が最も優れていた
» Object DetectionとImage Classificationのtask性質が異なる。小さな物体を複数検出・識別する必要性がある
• [CVPR2019, workshop]CSPNet: A new backbone that can enhance learning capability of CNN.
22
Methodology
• Neck
– SPP(Spatial pyramid pooling)をCSPDarknet53に追加
• [15.04] Spatial pyramid pooling in deep convolutional networks for visual recognition.
– YOLOv3のFPNの代わりにPANetを採用
• 3つの異なるbackbone levelsからのaggregationで、FPN(Feature Pyramid Network)を用いる代わりにPANの構造を利用
– [CVPR2018]Path Aggregation Network for Instance Segmentation
– YOLOv4では、さらにPANの構造に以下の改良(?)を加えている
23
Methodology
• Head
– YOLOv3のHeadを採用
• Anchor-basedな手法
• Bag of Freebies(BoF, 学習時の手法)
– Backbone: CutMix, Mosaic data augmentation, DropBlock regularization, class label smoothing
– Detector(head): CIoU-loss, CmBN, DropBlock regularization, Mosaic data augmentation, self-adversarial training, Eliminate grid
sensitivity, Using multiple anchors for a single ground truth, Cosine annealing scheduler, optimal hyperparameters, random training
shape
• Bag of Specials(BoS, 推論時のテクニック・追加モジュール)
– Backbone: Mish activation, Cross-stage partial connection, Multi input weighted residual connection
– Detector(head): Mish activation, SPP-block(improved, 前述), SAM-block(improved), Pan path-aggregation block, DIoU-NMS
24
Methodology
Experiments
• Image Classification(ImageNet)と、Object Detection(MS COCO)でそれぞれ実験
– とにかくそれぞれのテクニック・手法を(ある程度の仮説を立てながらも)総当たりで実験し、良いものを採用するた
めの実験を行う
– 結果として、先述したProposed methodにたどり着いた
– 以下の軸で実験
1. Influence of different features on Classifier training
2. Influence of different features on Detector training
3. Influence of different backbones and pretrained weightings on Detector training
4. Influence of different mini-batch size on Detector training
5. GPU architecture
1. Maxwell
2. Pascal
3. Volta
26
Experiments
27
Results
高速(高FPS)のアルゴリズムの中で、最も精度が良い
Conclusion
1. Object Detection周りの研究の体系整理
– 【問】そもそも何を持って良いモデル/アーキテクチャとするか
– 【答】正確さ・速さ・軽量さの3点でモデル・アーキテクチャを評価し、実用において何を重視するか、また論文は
何を主張しているかを気にする必要がある
– 【問】研究・手法は、どのように位置付けられるか
– 【答】Model/architecture、学習時のテクニック、推論時/追加モジュールの大きく3つに整理され、それぞれのタス
ク・目的もブレイクダウンして手法を整理すると良い。YOLOv3=>YOLOv4への改善については、メタ的には広義の
のアーキテクチャ・手法の探索とチューニングをひたすらに行なっている印象も抱く
2. YOLOv4を社会実装インパクトは?
– 【問】YOLOv3やEfficientDetとの差分はどれだけインパクトがあるか?
– 【答】YOLOv3よりも正確で、EfficientDetよりも速い。Totalで最もバランスの良いアルゴリズムになっている。実
課題を解く上で30fpsを超える処理が要求されることは多くはないため、物体認識それ自身を目的にしたタスクでの
実装価値は高くないが、Object Detectionを前処理として行うタスク(trackingなど)については、Object Detectionの
処理時間がボトルネックにならないことの価値は大きい
29
サーベイの目的と考察・結論

Más contenido relacionado

La actualidad más candente

モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化Yusuke Uchida
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門Takuji Tahara
 
画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量takaya imai
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View SynthesisDeep Learning JP
 
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some PreliminaryDeep Learning JP
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge
 
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -MPRG_Chubu_University
 
Tensor コアを使った PyTorch の高速化
Tensor コアを使った PyTorch の高速化Tensor コアを使った PyTorch の高速化
Tensor コアを使った PyTorch の高速化Yusuke Fujimoto
 
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2Preferred Networks
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイyohei okawa
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報Deep Learning JP
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景Deep Learning JP
 
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~SSII
 
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたいTakuji Tahara
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
 
局所特徴量と統計学習手法による物体検出
局所特徴量と統計学習手法による物体検出局所特徴量と統計学習手法による物体検出
局所特徴量と統計学習手法による物体検出MPRG_Chubu_University
 
Sift特徴量について
Sift特徴量についてSift特徴量について
Sift特徴量についてla_flance
 
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII
 

La actualidad más candente (20)

モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
 
画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -
 
Tensor コアを使った PyTorch の高速化
Tensor コアを使った PyTorch の高速化Tensor コアを使った PyTorch の高速化
Tensor コアを使った PyTorch の高速化
 
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイ
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景
 
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
 
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
 
局所特徴量と統計学習手法による物体検出
局所特徴量と統計学習手法による物体検出局所特徴量と統計学習手法による物体検出
局所特徴量と統計学習手法による物体検出
 
Sift特徴量について
Sift特徴量についてSift特徴量について
Sift特徴量について
 
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
 

Similar a [DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object Detection

[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
[DL輪読会]EfficientDet: Scalable and Efficient Object DetectionDeep Learning JP
 
[DL輪読会]LightTrack: A Generic Framework for Online Top-Down Human Pose Tracking
[DL輪読会]LightTrack: A Generic Framework for Online Top-Down Human Pose Tracking[DL輪読会]LightTrack: A Generic Framework for Online Top-Down Human Pose Tracking
[DL輪読会]LightTrack: A Generic Framework for Online Top-Down Human Pose TrackingDeep Learning JP
 
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...Deep Learning JP
 
Top-K Off-Policy Correction for a REINFORCE Recommender System
Top-K Off-Policy Correction for a REINFORCE Recommender SystemTop-K Off-Policy Correction for a REINFORCE Recommender System
Top-K Off-Policy Correction for a REINFORCE Recommender Systemharmonylab
 
[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...
[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...
[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...Deep Learning JP
 
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習Hori Tasuku
 
Optuna on Kubeflow Pipeline 分散ハイパラチューニング
Optuna on Kubeflow Pipeline 分散ハイパラチューニングOptuna on Kubeflow Pipeline 分散ハイパラチューニング
Optuna on Kubeflow Pipeline 分散ハイパラチューニングTakashi Suzuki
 
増加するコアを使い切れ!!
増加するコアを使い切れ!!増加するコアを使い切れ!!
増加するコアを使い切れ!!guestc06e54
 
【CVPR 2019】Learning spatio temporal representation with local and global diff...
【CVPR 2019】Learning spatio temporal representation with local and global diff...【CVPR 2019】Learning spatio temporal representation with local and global diff...
【CVPR 2019】Learning spatio temporal representation with local and global diff...cvpaper. challenge
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Satoshi Kato
 
第1回 配信講義 計算科学技術特論A (2021)
第1回 配信講義 計算科学技術特論A (2021)第1回 配信講義 計算科学技術特論A (2021)
第1回 配信講義 計算科学技術特論A (2021)RCCSRENKEI
 
Development and Experiment of Deep Learning with Caffe and maf
Development and Experiment of Deep Learning with Caffe and mafDevelopment and Experiment of Deep Learning with Caffe and maf
Development and Experiment of Deep Learning with Caffe and mafKenta Oono
 
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields [DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields Deep Learning JP
 
[db analytics showcase Sapporo 2017] A15: Pythonでの分散処理再入門 by 株式会社HPCソリューションズ ...
[db analytics showcase Sapporo 2017] A15: Pythonでの分散処理再入門 by 株式会社HPCソリューションズ ...[db analytics showcase Sapporo 2017] A15: Pythonでの分散処理再入門 by 株式会社HPCソリューションズ ...
[db analytics showcase Sapporo 2017] A15: Pythonでの分散処理再入門 by 株式会社HPCソリューションズ ...Insight Technology, Inc.
 
Sigir2013 勉強会資料
Sigir2013 勉強会資料Sigir2013 勉強会資料
Sigir2013 勉強会資料Mitsuo Yamamoto
 
アドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニングアドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニングYosuke Mizutani
 
第64回情報科学談話会(滝沢 寛之 准教授)
第64回情報科学談話会(滝沢 寛之 准教授) 第64回情報科学談話会(滝沢 寛之 准教授)
第64回情報科学談話会(滝沢 寛之 准教授) gsis gsis
 
TwitterとWikiを使った自動情報提示システム
TwitterとWikiを使った自動情報提示システムTwitterとWikiを使った自動情報提示システム
TwitterとWikiを使った自動情報提示システムTakashi Yamanoue
 

Similar a [DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object Detection (20)

[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
 
[DL輪読会]LightTrack: A Generic Framework for Online Top-Down Human Pose Tracking
[DL輪読会]LightTrack: A Generic Framework for Online Top-Down Human Pose Tracking[DL輪読会]LightTrack: A Generic Framework for Online Top-Down Human Pose Tracking
[DL輪読会]LightTrack: A Generic Framework for Online Top-Down Human Pose Tracking
 
第4回全脳アーキテクチャハッカソン説明会
第4回全脳アーキテクチャハッカソン説明会第4回全脳アーキテクチャハッカソン説明会
第4回全脳アーキテクチャハッカソン説明会
 
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
 
Top-K Off-Policy Correction for a REINFORCE Recommender System
Top-K Off-Policy Correction for a REINFORCE Recommender SystemTop-K Off-Policy Correction for a REINFORCE Recommender System
Top-K Off-Policy Correction for a REINFORCE Recommender System
 
[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...
[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...
[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...
 
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習
 
Optuna on Kubeflow Pipeline 分散ハイパラチューニング
Optuna on Kubeflow Pipeline 分散ハイパラチューニングOptuna on Kubeflow Pipeline 分散ハイパラチューニング
Optuna on Kubeflow Pipeline 分散ハイパラチューニング
 
増加するコアを使い切れ!!
増加するコアを使い切れ!!増加するコアを使い切れ!!
増加するコアを使い切れ!!
 
【CVPR 2019】Learning spatio temporal representation with local and global diff...
【CVPR 2019】Learning spatio temporal representation with local and global diff...【CVPR 2019】Learning spatio temporal representation with local and global diff...
【CVPR 2019】Learning spatio temporal representation with local and global diff...
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
 
第1回 配信講義 計算科学技術特論A (2021)
第1回 配信講義 計算科学技術特論A (2021)第1回 配信講義 計算科学技術特論A (2021)
第1回 配信講義 計算科学技術特論A (2021)
 
Development and Experiment of Deep Learning with Caffe and maf
Development and Experiment of Deep Learning with Caffe and mafDevelopment and Experiment of Deep Learning with Caffe and maf
Development and Experiment of Deep Learning with Caffe and maf
 
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields [DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
 
Mt basic as-os_on_danbot
Mt basic as-os_on_danbotMt basic as-os_on_danbot
Mt basic as-os_on_danbot
 
[db analytics showcase Sapporo 2017] A15: Pythonでの分散処理再入門 by 株式会社HPCソリューションズ ...
[db analytics showcase Sapporo 2017] A15: Pythonでの分散処理再入門 by 株式会社HPCソリューションズ ...[db analytics showcase Sapporo 2017] A15: Pythonでの分散処理再入門 by 株式会社HPCソリューションズ ...
[db analytics showcase Sapporo 2017] A15: Pythonでの分散処理再入門 by 株式会社HPCソリューションズ ...
 
Sigir2013 勉強会資料
Sigir2013 勉強会資料Sigir2013 勉強会資料
Sigir2013 勉強会資料
 
アドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニングアドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニング
 
第64回情報科学談話会(滝沢 寛之 准教授)
第64回情報科学談話会(滝沢 寛之 准教授) 第64回情報科学談話会(滝沢 寛之 准教授)
第64回情報科学談話会(滝沢 寛之 准教授)
 
TwitterとWikiを使った自動情報提示システム
TwitterとWikiを使った自動情報提示システムTwitterとWikiを使った自動情報提示システム
TwitterとWikiを使った自動情報提示システム
 

Más de Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

Más de Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Último

知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Hiroshi Tomioka
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 

Último (11)

知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 

[DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object Detection

  • 1. DEEP LEARNING JP [DL Seminar] YOLOv4: Optimal Speed and Accuracy of Object Detection KoichiroTamura ACES, Inc. https://deeplearning.jp
  • 2. • Alexey Bochkovskiy, Chien-Yao Wang, Hong-Yuan Mark Liao – Submitted to arXiv on 2020/4 – https://arxiv.org/abs/2004.10934v1 • GitHub – https://github.com/AlexeyAB/darknet – ALexeyAB氏のdarknetがYOLOv3からupload • Object DetectionのスタンダートであったYOLOv3をupdate – 高FPSを保ちながら、EfficientDetに匹敵するほどの精度を実現 2 Overview
  • 3. 1. Object Detection周りの研究の体系整理 – 【問】そもそも何を持って良いモデル/アーキテクチャとするか – 【問】研究・手法は、どのように位置付けられるか 2. YOLOv4を社会実装インパクトは? – 【問】YOLOv3やEfficientDetとの差分はどれだけインパクトがあるか? 3 今回のサーベイの目的
  • 5. 本稿の貢献は以下の通り 1. 誰もが手軽な計算リソースで学習することができる、高速で正確なObject Detectionモデルを提案 2. 最先端のBag-of-FreebiesとBag-of-Specialsが学習時に与える影響を検証 3. CBNやPAN、SAMなどの最新のメソッドを効率化し、Single GPUでの学習に適用できるようにした – なお、YOLOv4は、low computationを目的にした研究・モデルではない 5 Introduction
  • 7. • 高精度 – ミスが看過されないタスクへの適用(測量など)や、後続のタスクにObject Detectionの精度が依存する場合(trackingなど) • 高速 – 推論時間が速い: 速度が重視されるタスクへの適用(自動運転・軍事など)や、後続のタスクの処理時間のボトルネックになる場合 – 訓練時間が速い: 計算資源が乏しい場合や、大量の実験を繰り返す必要がある場合 • 軽量 – モデルパラメタが少ない, FLOPs数が少ない, モデルファイルサイズが少ない – モバイルやエッジでも動かしたい場合、CPUや省メモリ・電力で動かしたい場合 7 【参考】「優れた」Object Detectionとは?
  • 8. • Model/Architecture – backbone – neck – head • 学習時のテクニック – Data Augmentation – データ不均衡問題への対策 – 目的関数 • 推論時のテクニック・追加モジュール – 受容野の拡張・強化 – Attention module – Feature integration – 活性化関数 – Post process 8 Object Detectionの体系整理
  • 9. • Model/Architecture – backbone – neck – head • 学習時のテクニック – Data Augmentation – データ不均衡問題への対策 – 目的関数 • 推論時のテクニック・追加モジュール – 受容野の拡張・強化 – Attention module – Feature integration – 活性化関数 – Post process 9 Object Detectionの体系整理
  • 10. • backbone – GPU: VGG, ResNet, ResNeXt, DenseNet – CPU: SqueezeNet, MobileNet, ShuffleNet • neck – Additional blocks: SPP, ASPP, RFB, SAM – Path-aggregation blocks: Pyramid Network(FPN), Path Aggregation Network(PAN), BiFPN, NAS-FPN • Top-down  Bottom-upのアーキテクチャ • head – Two-stage: R-CNN系列 – One-stage: • Anchor-based(NMS必要): YOLO, SSD, RetinaNet • Anchor-free(NMS不必要): CenterNet, CornerNet, FCOS – 参考: [DL輪読会]Objects as Points, https://www.slideshare.net/DeepLearningJP2016/dlobjects-as-points 10 Object detection models
  • 12. • Model/Architecture – backbone – neck – head • 学習時のテクニック – Data Augmentation – データ不均衡問題への対策 – 目的関数 • 推論時のテクニック・追加モジュール – 受容野の拡張・強化 – Attention module – Feature integration – 活性化関数 – Post process 12 Object Detectionの体系整理
  • 13. • 学習時のテクニック・手法 – Data Augmentation • 画像情報に対するデータ拡張 – Photometric distortion(明るさ、コントラスト、色相、彩度、ノイズ), geometric distortion(スケーリング、クロップ、反転、回転) • オクルージョン – 画像レベル » Random erase, cutout: 画像内の矩形領域を塗りつぶす » hide-and-seek, grid mask: 複数の矩形領域を選択し、塗りつぶす – 特徴量マップレベル » DropOut, DropConect, DropBlock • 組み合わせ – MIxUp: 2枚の画像を用いて重ね合わせ – CutMix: トリミングした画像を他の画像の矩形領域に被せる – Style transfer GAN 13 Bag of freebies
  • 14. • 学習時のテクニック・手法 – データセットの偏りに対する手法 • ラベルクラス間のデータ量不均衡問題 – two-stage modelの場合: hard negative example mining, online hard example mining – one-stage modelの場合: focal loss • ラベルクラス間の関連性の不均衡問題 – label smoothing, 蒸留 14 Bag of freebies
  • 15. • 学習時のテクニック・手法 – 目的関数 • MSE誤差 – Bboxの{x_center, y_center, w, h} or {x1, y1, x2, y2}に対する2乗誤差 • IoU誤差 – MSE誤差では、Bboxの4点が独立変数として扱われる – スケール不変の表現であるため、スケールに応じて損失が大きくなると言う問題を解決できる – 最近はIoU誤差を用いる研究が進んでいる – GIoU, DIoU, CIoU 15 Bag of freebies
  • 16. • Model/Architecture – backbone – neck – head • 学習時のテクニック – Data Augmentation – データ不均衡問題への対策 – 目的関数 • 推論時のテクニック・追加モジュール – 受容野の拡張・強化 – Attention module – Feature integration – 活性化関数 – Post process 16 Object Detectionの体系整理
  • 17. • 推論時のテクニック・手法 – 受容野の強化 • SPP ASPP, PFB Module – Max-pooling演算 – YOLOv3ではkernel size = 𝑘 ∈ {1,5,9,13}, ストライド 1 のmax-poolingの出力を連結して出力するようにした – わずかな計算量の増加で高い精度を実現 – Attention Module • Squeeze and Excitation(SE) – チャネル方向のアテンション – 精度向上をわずかな計算量増加で行うことができるが、GPUの場合は10%ほどの推論時間増加が見られるので注意 – 上述した理由から、CPU計算(ex: モバイル)向き • Spatial Attention Module(SAM) – 空間方向のアテンション – 0.1%の計算量の増加で、ImageNet でのClassificationにおいてtop1の精度を0.5%上昇 – GPUでの推論速度にも影響を与えない 17 Bag of specials
  • 18. • 推論時のテクニック・手法 – Feature integration • SFAM, ASFF, BiFPN – Skip-connection, hyper-column – 低レイヤーの特徴空間と高レイヤーの特徴空間を統合する – マルチスケールに連結された特徴量マップを重み付けして統合して推論する手法(SFAM)など – 活性化関数 • ReLUに代表される様々な活性化関数 – ReLUの登場によって勾配消失問題が大幅に改善 – ReLU6, hard-swish: 量子化ネットワークに特化した活性化関数 – 後処理 • NMS – Anchor-freeなモデルはNMSの必要性がないと言う点で優れている 18 Bag of specials
  • 21. 21 参考: YOLOv3のアーキテクチャ 引用: A Closer Look at YOLOv3, https://www.blog.dmprof.com/post/a-closer-look-at-yolov3
  • 22. • Backbone – CSPDarknet • CSPResNetXt50, CSPDarknet53, EfficientNet B3の選択肢 – Image Classification のタスク(ILSVR2012(ImageNet))では、 CSPResNetXt50が優れていたが、Object Detectionのタスク(MS COCO)では、 CSPDarknet53が最も優れていた » Object DetectionとImage Classificationのtask性質が異なる。小さな物体を複数検出・識別する必要性がある • [CVPR2019, workshop]CSPNet: A new backbone that can enhance learning capability of CNN. 22 Methodology
  • 23. • Neck – SPP(Spatial pyramid pooling)をCSPDarknet53に追加 • [15.04] Spatial pyramid pooling in deep convolutional networks for visual recognition. – YOLOv3のFPNの代わりにPANetを採用 • 3つの異なるbackbone levelsからのaggregationで、FPN(Feature Pyramid Network)を用いる代わりにPANの構造を利用 – [CVPR2018]Path Aggregation Network for Instance Segmentation – YOLOv4では、さらにPANの構造に以下の改良(?)を加えている 23 Methodology
  • 24. • Head – YOLOv3のHeadを採用 • Anchor-basedな手法 • Bag of Freebies(BoF, 学習時の手法) – Backbone: CutMix, Mosaic data augmentation, DropBlock regularization, class label smoothing – Detector(head): CIoU-loss, CmBN, DropBlock regularization, Mosaic data augmentation, self-adversarial training, Eliminate grid sensitivity, Using multiple anchors for a single ground truth, Cosine annealing scheduler, optimal hyperparameters, random training shape • Bag of Specials(BoS, 推論時のテクニック・追加モジュール) – Backbone: Mish activation, Cross-stage partial connection, Multi input weighted residual connection – Detector(head): Mish activation, SPP-block(improved, 前述), SAM-block(improved), Pan path-aggregation block, DIoU-NMS 24 Methodology
  • 26. • Image Classification(ImageNet)と、Object Detection(MS COCO)でそれぞれ実験 – とにかくそれぞれのテクニック・手法を(ある程度の仮説を立てながらも)総当たりで実験し、良いものを採用するた めの実験を行う – 結果として、先述したProposed methodにたどり着いた – 以下の軸で実験 1. Influence of different features on Classifier training 2. Influence of different features on Detector training 3. Influence of different backbones and pretrained weightings on Detector training 4. Influence of different mini-batch size on Detector training 5. GPU architecture 1. Maxwell 2. Pascal 3. Volta 26 Experiments
  • 29. 1. Object Detection周りの研究の体系整理 – 【問】そもそも何を持って良いモデル/アーキテクチャとするか – 【答】正確さ・速さ・軽量さの3点でモデル・アーキテクチャを評価し、実用において何を重視するか、また論文は 何を主張しているかを気にする必要がある – 【問】研究・手法は、どのように位置付けられるか – 【答】Model/architecture、学習時のテクニック、推論時/追加モジュールの大きく3つに整理され、それぞれのタス ク・目的もブレイクダウンして手法を整理すると良い。YOLOv3=>YOLOv4への改善については、メタ的には広義の のアーキテクチャ・手法の探索とチューニングをひたすらに行なっている印象も抱く 2. YOLOv4を社会実装インパクトは? – 【問】YOLOv3やEfficientDetとの差分はどれだけインパクトがあるか? – 【答】YOLOv3よりも正確で、EfficientDetよりも速い。Totalで最もバランスの良いアルゴリズムになっている。実 課題を解く上で30fpsを超える処理が要求されることは多くはないため、物体認識それ自身を目的にしたタスクでの 実装価値は高くないが、Object Detectionを前処理として行うタスク(trackingなど)については、Object Detectionの 処理時間がボトルネックにならないことの価値は大きい 29 サーベイの目的と考察・結論