SlideShare una empresa de Scribd logo
1 de 29
Descargar para leer sin conexión
3D物体検出の
理論と取り組み
第33回 Machine Learning 15minutes!
自己紹介
● Tier4 技術本部
○ 関谷 英爾
● 経歴
○ DeNA 2014/04 ~ 2018/03
■ 分析基盤 (Hadoop, Vertica)
■ 機械学習 (レコメンド, 強化学習, 組合せ最適化)
○ Tier IV 2018/03~
■ データ基盤・機械学習基盤
@eratostennis
今日のお話
● 3D物体検出の理論について丁寧な説明はしません
● 動向と自動運転での付き合い方について説明します
概要
● 自動運転のコンポーネント
● 3Dの物体検出手法の紹介
● ラベリングツール
● 今後の開発
自動運転OSS Autoware
Retrieved from https://github.com/CPFL/Autoware
自動運転OSS Autoware
Retrieved from https://github.com/CPFL/Autoware
自動運転に組み込まれているDeep Learning
● 検出タスク (2D Bounding Box)
○ Yolov3
● 検出タスク (3D Bounding Box)
○ VoxelNet
● 分類タスク (信号色認識)
○ DenseNet
● etc.
自動運転に組み込まれているDeep Learning
● 検出タスク (2D Bounding Box)
○ Yolov3, etc.
● 検出タスク (3D Bounding Box)
○ VoxelNet, etc.
● 分類タスク (信号色認識)
○ DenseNet
● etc.
3Dの物体検出の特徴
● 点群データの特徴
○ 3D, Sparse
3Dの物体検出
● サンプリング
● 地面除去
● Clipping
● Clustering
○ Euclidean Cluster
クラスタリング手法
● とりあえず前処理はほぼか
けずにDeep Learningに食わ
せる
○ MV3D
○ VoxelNet
○ PointPillars
Deep Learningによる手法
3Dの物体検出
● サンプリング
● 地面除去
● Clipping
● Clustering
○ Euclidean Cluster
クラスタリング手法
● とりあえず前処理はほぼか
けずにDeep Learningに食わ
せる
○ MV3D
○ VoxelNet
○ PointPillars
Deep Learningによる手法
Euclidean Cluster
単純に距離の近いものを同一クラスタとみなす
EuclideanClusterで障害物検出と十分な計算量削減が可能
ただし、Semantic情報があれば、さらにトラッキング精度なども上がってくる
ちゃんと物体単位で検出したい
3Dの物体検出
● サンプリング
● 地面除去
● Clipping
● Clustering
○ Euclidean Cluster
クラスタリング手法
● とりあえず前処理はほぼか
けずにDeep Learningに食わ
せる
○ MV3D
○ VoxelNet
○ PointPillars
Deep Learningによる手法
3D物体検出の精度評価
Bird’s Eye View (BEV)
3D Bounding Box
The KITTI Vision Benchmark Suite. Retrieved from http://www.cvlibs.net/datasets/kitti/eval_object.php?obj_benchmark=bev
The KITTI Vision Benchmark Suite. Retrieved from http://www.cvlibs.net/datasets/kitti/eval_object.php?obj_benchmark=3d
MV3D
● 特徴
○ 画像とPCDをFusion
○ PCDは2D Convで扱えるようBirdViewとFrontViewに変換
Xiaozhi Chen, Huimin Ma, Ji Wan, Bo Li, Tian Xia. 2017.
Multi-View 3D Object Detection Network for Autonomous Driving
arXiv:1611.07759.
Retrieved from https://arxiv.org/abs/1611.07759
MV3D
● 精度
○ 当時のSOTAを達成
● 課題
○ 処理が重く律速となる
30 Hz
10 Hz
VoxelNet
● 特徴
○ 3D 物体検出初のEnd-to-end学習
○ Convolution Middle Layersは3D CNNで遅い (4.4Hz)
Yin Zhou, Oncel Tuzel. 2017.
VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection.
arXiv:1711.06396.
Retrieved from https://arxiv.org/abs/1711.06396
PointPillars
● 特徴
○ 3D CNNを使わずに高速化 (62Hz)
○ Single Shot Detectorによる位置の回帰とクラス分類
Alex H. Lang, Sourabh Vora, Holger Caesar, Lubing Zhou, Jiong Yang, Oscar Beijbom. 2018.
PointPillars: Fast Encoders for Object Detection from Point Clouds
arXiv:1812.05784.
Retrieved from https://arxiv.org/abs/1812.05784
Performance
Alex H. Lang, Sourabh Vora, Holger Caesar, Lubing Zhou, Jiong Yang, Oscar Beijbom. 2018.
PointPillars: Fast Encoders for Object Detection from Point Clouds
arXiv:1812.05784.
Retrieved from https://arxiv.org/abs/1812.05784
Performance
Alex H. Lang, Sourabh Vora, Holger Caesar, Lubing Zhou, Jiong Yang, Oscar Beijbom. 2018.
PointPillars: Fast Encoders for Object Detection from Point Clouds
arXiv:1812.05784.
Retrieved from https://arxiv.org/abs/1812.05784
PointPillars
Alex H. Lang, Sourabh Vora, Holger Caesar, Lubing Zhou, Jiong Yang, Oscar Beijbom. 2018.
PointPillars: Fast Encoders for Object Detection from Point Clouds
arXiv:1812.05784.
Retrieved from https://arxiv.org/abs/1812.05784
Failure Case
歩行者とサイクリストの誤分類
街路樹を歩行者と分類
Alex H. Lang, Sourabh Vora, Holger Caesar, Lubing Zhou, Jiong Yang, Oscar Beijbom. 2018.
PointPillars: Fast Encoders for Object Detection from Point Clouds
arXiv:1812.05784.
Retrieved from https://arxiv.org/abs/1812.05784
3D物体検出との付き合い方
● 精度が上がって来たが、まだまだ3D物体検出単体で使うには
いまいち
● 使い方
○ 画像とFusionする
■ Deep Learningで行う必要はない
○ 地図のレーン情報など他に持っているデータも利用する
● Trackingの精度向上
○ 単純な2Dだけで推測するより距離などは正確
○ 物体の運動モデルがだいたい分かっていれば役に立つ
● 2D & 3Dの物体検出教師データ作成ツール
Annotation Tool開発 Automan
● 2D & 3Dの物体検出教師データ作成ツール
Automan
Automan Architecture
Automan Architecture API Server
● User/Group登録
● Raw Data登録
● Annotation登録
Job Container
● Calibration
● Sampling
● AutoLabeling
OSSに向け準備中...
● 現在
○ Input
■ ROSBAG
○ Output
■ 2D & 3D Bounding Box
● 計画
○ Input
■ どんなサポートが欲しい?MP4?
○ Output
■ Polygon Labeling (Semantic Segmentation)
■ Landmark Labeling (Semantic Segmentation)
課題と今後の展望
● データ節約
○ 通信量 & ラベリング工数 & ストレージ
○ 学習できていないデータに絞った収集
● シミュレーションによるデータ生成
○ 精度の高い教師データの作成 (特に3D)
○ リアルとの違いの分析 (ノイズなどの影響や再現)
● 学習評価システム
○ 環境ごとのあるべき状態の定義・テストデータ整備
○ モデル説明性・解釈性 (Interpretability) の検討

Más contenido relacionado

La actualidad más candente

Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
Shuyo Nakatani
 
局所特徴量と統計学習手法による物体検出
局所特徴量と統計学習手法による物体検出局所特徴量と統計学習手法による物体検出
局所特徴量と統計学習手法による物体検出
MPRG_Chubu_University
 

La actualidad más candente (20)

不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)
不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)
不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)
 
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
ORB-SLAMの手法解説
ORB-SLAMの手法解説ORB-SLAMの手法解説
ORB-SLAMの手法解説
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
 
点群深層学習 Meta-study
点群深層学習 Meta-study点群深層学習 Meta-study
点群深層学習 Meta-study
 
先駆者に学ぶ MLOpsの実際
先駆者に学ぶ MLOpsの実際先駆者に学ぶ MLOpsの実際
先駆者に学ぶ MLOpsの実際
 
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
 
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
 
CVPR2018のPointCloudのCNN論文とSPLATNet
CVPR2018のPointCloudのCNN論文とSPLATNetCVPR2018のPointCloudのCNN論文とSPLATNet
CVPR2018のPointCloudのCNN論文とSPLATNet
 
【DL輪読会】NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics vi...
【DL輪読会】NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics vi...【DL輪読会】NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics vi...
【DL輪読会】NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics vi...
 
Machine learning CI/CD with OSS
Machine learning CI/CD with OSSMachine learning CI/CD with OSS
Machine learning CI/CD with OSS
 
局所特徴量と統計学習手法による物体検出
局所特徴量と統計学習手法による物体検出局所特徴量と統計学習手法による物体検出
局所特徴量と統計学習手法による物体検出
 
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
 
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs	(gMLP)[DL輪読会]Pay Attention to MLPs	(gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 

Trend of 3D object detections