SlideShare una empresa de Scribd logo
1 de 28
第53回 コンピュータビジョン勉強会@関東
CVPR2019読み会(前編)
Devil is in the Edges:
Learning Semantic Boundaries
from Noisy Annotations
宮澤 一之
株式会社ディー・エヌ・エー
自己紹介
• 2007〜2010年 東北大学博士課程
生体認証やステレオビジョンの研究に従事
日本学術振興会特別研究員(DC1)
• 2010〜2019年 電機メーカ研究所
映像符号化、標準化活動
車載・監視カメラ物体認識、外観検査
• 2019年〜 DeNA
車載カメラ向け3Dビジョン
2
@kzykmyzw
宮澤 一之
株式会社ディー・エヌ・エー
AI本部 AIシステム部 AI研究開発エンジニア
3
Paper: https://arxiv.org/abs/1904.07934
Inference Code: https://github.com/nv-tlabs/STEAL
Project: https://nv-tlabs.github.io/STEAL/
Semantic Edge Detection
• 画像からエッジを検出すると共に各エッジ画素にSemantic Labelを与え
る(e.g. 人と車両の境界)
• Semantic Segmentationの双対問題であるが、エッジは古くから画像の
低次特徴として重要であり、中間表現として価値がある
4
Input Output
https://arxiv.org/pdf/1705.09759.pdf
Related Work
5
https://www.youtube.com/watch?v=BNE1hAP6Qho
Z. Yu et al., “CASENet: Deep Category-Aware Semantic Edge Detection,” CVPR2017
Contribution
• アノテーションによる物体境界は不正確であることが多く、こうしたデータ
で学習すると検出されるエッジが厚みを持ってしまうことを指摘
• エッジを細線化するための新たなレイヤとロスを提案
• 長い研究の歴史を持つ古典的な境界検出手法を取り入れることで、粗いアノ
テーション境界を高精度化するフレームワークを提案
6
不正確
https://arxiv.org/pdf/1904.07934.pdf
STEAL (Semantically Thinned Edge Alignment Learning)
• 細く、正確なエッジを生成するためのBoundary Thinning Layerを提案
• アノテーションのノイズを学習時に補正するActive Alignmentを提案
• バックボーンのアーキテクチャに依存しないため、既存の学習型エッジ
検出モデルへの追加導入が可能
7
https://arxiv.org/pdf/1904.07934.pdf
Semantic Aware Edge-Detection
• 入力画像 x からK 種類の各物体クラスに対するエッジマップを生成する
• 画素 m がクラス k に属するか否かを𝑦 𝑘
𝑚
∈ 0,1 と表すと、確率
𝑃 𝑦 𝑘
𝑚
|𝐱; 𝜃 をパラメータ𝜃のニューラルネット f により推定する
• 複数の物体の境界となるエッジを表現するため、各画素は複数のクラス
に属することが可能
8
x
https://arxiv.org/pdf/1904.07934.pdf
yk
Semantic Aware Edge-Detection
9
x
Binary Cross-Entropy Loss
エッジの画素数 |Y| と
非エッジの画素数 |Y-| の
不均衡を補正
https://arxiv.org/pdf/1904.07934.pdf
yk
Semantic Boundary Thinning Layer
• 推定したエッジマップ上でエッジの法線方向に画素をサンプリング
• サンプリング結果に対して温度付きSoftmaxをかける(τ = 0.1)
10
x
https://arxiv.org/pdf/1904.07934.pdf
p
dp
エッジ
法線
pt
yk
Semantic Boundary Thinning Layer
11
x
https://arxiv.org/pdf/1904.07934.pdf
NMS loss
p
dp
エッジ
法線
pt
エッジ上の画素 p の出力が法線方向に
最大となるように制約をかける
yk
Semantic Boundary Thinning Layer
12
x
https://arxiv.org/pdf/1904.07934.pdf
Direction loss
dp
エッジ
真の法線
真のエッジと推定したエッジとの間で法線
方向が一致するように制約をかける
ep推定した法線
p
yk
Full Augmented Loss
13
Active Alignment
14
x
yk
https://arxiv.org/pdf/1904.07934.pdf
yk
^
• アノテーションによる境界 y をより高精度な境界 y にアラインメント
• 境界 y とエッジ検出モデルのパラメータθ を同時に最適化
前項までで説明y 𝑘とy 𝑘を近付ける
Active Alignment
15
x
yk
https://arxiv.org/pdf/1904.07934.pdf
yk
^
• 動的輪郭モデルを利用し、エネルギー最小化問題に帰着
輪郭の長さ
検出モデルの出力が大きい
箇所をy 𝑘が通るとき小さくなる
y 𝑘と y 𝑘 が近いほど小さくなる
寄与率
Level Set Method
• 2次元画像に対して3次元空間を設定し、そこに定義される補助関数 𝜙
のゼロ等高面 𝜙 = 0 の領域境界が求める境界であると考える
• 補助関数の移動とゼロ等高面の切り出しとを繰り返すことで輪郭を追跡
• 補助関数の形状と制御を適切に設計することで滑らかな形状を保ちつつ
自然な形でSnakesでは不可能なトポロジーの変化に対応できる
16
https://en.wikipedia.org/wiki/Level-set_method
境界 y 𝑘
補助関数 𝜙
Learning
• ロスの最小化は2ステップに分けて行う
1. 与えられた境界 y 𝑘 を境界検出モデルの出力に合わせて移動
2. 得られた境界 y 𝑘 を用いて境界検出モデルのパラメータ θ を最適化
• 学習初期はエッジ検出モデルの出力が信頼できないため、検出モデルの
学習が収束し始めてからActive Alignmentを導入(初期は 𝜆 = ∞)
• 計算の効率化のため、Active Alignmentは限られたiterationでのみ適用
17
Experiments
• 実装
- Backboneのエッジ検出モデルとしてCASENetを採用
- 学習時の画像サイズは472×472
- NVIDIA DGX Station (4 GPUs)で約2日
• データセット
18
Semantic Boundary Dataset
http://home.bharathh.info/pubs/codes/SBD/download.html https://www.cityscapes-dataset.com/
The Cityscapes Dataset
train: 8498
val: 100
test:2857
train: 2975
val: 500
test: 1525
Evaluation Protocol
• カテゴリごとに真値と検出エッジとをBipartite Matchingで
対応づけ、対応が得られた画素とそうでない画素をカウン
トすることでPrecision/Recallを計算
• 真値のクオリティに応じてデータセットごとに対応づけの
許容範囲を調整
• 評価尺度
- PRカーブの各点におけるF値のうち最大となる値
(Maximum F-Measure at Optimal Dataset Scale)
- Average Precision (AP)
19
Comparisons with Other Methods
• CASENetおよびその改善版であるCASENet-S、SEALと比較
• 2種類のデータセット、評価尺度のいずれにおいても最高性能
• NMS Lossを導入するだけでも従来から1%程度性能が向上
20
SBD
Cityscapes
Effect of Active Alignment
• Active Alignmentの効果を確認するため、真値境界を近似することでラ
フな境界を生成して学習を実施
• 評価時には高精度な境界を利用
• NMS LayerとActive Alignmentの併用で15%以上APを改善
21
SBD
Comparisons with Semantic Segmentation
• Semantic Segmentationの最新手法であるDeepLab-v3と比較
• DeepLabの出力に対して微分フィルタを適用してエッジを抽出
• 最も厳しい条件設定ではDeepLabよりも4.2%高性能
• Semantic SegmentationもIoUだけでなく境界の精度も評価すべき?
22
真値境界との対応づけ時の許容範囲
https://arxiv.org/pdf/1904.07934.pdf
Qualitative Results (SBD)
23
https://arxiv.org/pdf/1904.07934.pdf
Qualitative Results (Cityscapes)
24
https://arxiv.org/pdf/1904.07934.pdf
Refining Coarsely Annotated Data
• 提案手法で学習済みの境界検出モデルを利用することで、ラフにアノ
テーションされた境界を高精度化することが可能となる(𝜆 = 0)
• 境界検出の代表例であるGrabCutと比較
• ラフな境界を初期値とした既存の境界検出手法よりも大幅に高精度
25
SBD
Cityscapes
Refining Coarsely Annotated Data
26
https://arxiv.org/pdf/1904.07934.pdf
Better Segmentation
• 提案手法で境界を高精度化したデータを用いることでSemantic
Segmentationの精度がどれだけ変化するかを調査
• 高精度化によりカテゴリによっては1.2%以上IoUが改善
27
DeepLav-v3@Cityscapes
https://arxiv.org/pdf/1904.07934.pdf
Conclusion
• Semantic Edge Detectionにおいて、NMSを学習の中に取り込むことで
従来法に比べてシャープなエッジを生成することに成功
• CNNによるエッジ検出とレベルセット法を組み合わせることで、不正確
なアノテーション境界を高精度化するフレームワークを提案
• 労力が大きい物体境界アノテーションの低コスト化に貢献
28
https://nv-tlabs.github.io/STEAL/

Más contenido relacionado

La actualidad más candente

【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
[DL輪読会]End-to-end Recovery of Human Shape and Pose
[DL輪読会]End-to-end Recovery of Human Shape and Pose[DL輪読会]End-to-end Recovery of Human Shape and Pose
[DL輪読会]End-to-end Recovery of Human Shape and PoseDeep Learning JP
 
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...Deep Learning JP
 
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII
 
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...Deep Learning JP
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話Yusuke Uchida
 
SSII2020TS: 物理ベースビジョンの過去・現在・未来 〜 カメラ・物体・光のインタラクションを モデル化するには 〜
SSII2020TS: 物理ベースビジョンの過去・現在・未来 〜 カメラ・物体・光のインタラクションを モデル化するには 〜SSII2020TS: 物理ベースビジョンの過去・現在・未来 〜 カメラ・物体・光のインタラクションを モデル化するには 〜
SSII2020TS: 物理ベースビジョンの過去・現在・未来 〜 カメラ・物体・光のインタラクションを モデル化するには 〜SSII
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化Yusuke Uchida
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデルDeep Learning JP
 
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...Deep Learning JP
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionKazuyuki Miyazawa
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイcvpaper. challenge
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...Deep Learning JP
 
[DL輪読会]Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images
[DL輪読会]Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images[DL輪読会]Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images
[DL輪読会]Pixel2Mesh: Generating 3D Mesh Models from Single RGB ImagesDeep Learning JP
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimationharmonylab
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用Yoshitaka Ushiku
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted WindowsDeep Learning JP
 
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...Deep Learning JP
 

La actualidad más candente (20)

【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
[DL輪読会]End-to-end Recovery of Human Shape and Pose
[DL輪読会]End-to-end Recovery of Human Shape and Pose[DL輪読会]End-to-end Recovery of Human Shape and Pose
[DL輪読会]End-to-end Recovery of Human Shape and Pose
 
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
 
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
 
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
 
SSII2020TS: 物理ベースビジョンの過去・現在・未来 〜 カメラ・物体・光のインタラクションを モデル化するには 〜
SSII2020TS: 物理ベースビジョンの過去・現在・未来 〜 カメラ・物体・光のインタラクションを モデル化するには 〜SSII2020TS: 物理ベースビジョンの過去・現在・未来 〜 カメラ・物体・光のインタラクションを モデル化するには 〜
SSII2020TS: 物理ベースビジョンの過去・現在・未来 〜 カメラ・物体・光のインタラクションを モデル化するには 〜
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
 
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
 
Point net
Point netPoint net
Point net
 
[DL輪読会]Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images
[DL輪読会]Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images[DL輪読会]Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images
[DL輪読会]Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
 
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
 

Similar a Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations

How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?Kazuyuki Miyazawa
 
ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]
ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]
ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]DeNA
 
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Kazuyuki Miyazawa
 
20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)Takuya Minagawa
 
論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)
論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)
論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)Toshiki Sakai
 
[DL輪読会]DeepSignals: Predicting Intent of Drivers Through Visual Signals
[DL輪読会]DeepSignals: Predicting Intent of Drivers Through Visual Signals[DL輪読会]DeepSignals: Predicting Intent of Drivers Through Visual Signals
[DL輪読会]DeepSignals: Predicting Intent of Drivers Through Visual SignalsDeep Learning JP
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation Takumi Ohkuma
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDeep Learning JP
 
画像の基盤モデルの変遷と研究動向
画像の基盤モデルの変遷と研究動向画像の基盤モデルの変遷と研究動向
画像の基盤モデルの変遷と研究動向nlab_utokyo
 
最近のSingle Shot系の物体検出のアーキテクチャまとめ
最近のSingle Shot系の物体検出のアーキテクチャまとめ最近のSingle Shot系の物体検出のアーキテクチャまとめ
最近のSingle Shot系の物体検出のアーキテクチャまとめYusuke Uchida
 
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太Preferred Networks
 
高専キャリア ~アプリコンテストに独りで挑んだ「OnlyOne」の皆さん~
高専キャリア ~アプリコンテストに独りで挑んだ「OnlyOne」の皆さん~高専キャリア ~アプリコンテストに独りで挑んだ「OnlyOne」の皆さん~
高専キャリア ~アプリコンテストに独りで挑んだ「OnlyOne」の皆さん~KubotaHideya
 
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...Yoshitaka Ushiku
 
ビックデータとシリコンバレースタートアップ事情
ビックデータとシリコンバレースタートアップ事情ビックデータとシリコンバレースタートアップ事情
ビックデータとシリコンバレースタートアップ事情Osaka University
 
[クリエイティブハント2018]LT 道場破りしたらできちゃった/// #ゴーハント
[クリエイティブハント2018]LT 道場破りしたらできちゃった/// #ゴーハント[クリエイティブハント2018]LT 道場破りしたらできちゃった/// #ゴーハント
[クリエイティブハント2018]LT 道場破りしたらできちゃった/// #ゴーハントHiroyuki Ishikawa
 
20190831 3 d_inaba_final
20190831 3 d_inaba_final20190831 3 d_inaba_final
20190831 3 d_inaba_finalDaikiInaba
 

Similar a Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations (20)

How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?
 
ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]
ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]
ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]
 
SIGGRAPH 2019 Report
SIGGRAPH 2019 ReportSIGGRAPH 2019 Report
SIGGRAPH 2019 Report
 
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
 
20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)
 
論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)
論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)
論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)
 
[DL輪読会]DeepSignals: Predicting Intent of Drivers Through Visual Signals
[DL輪読会]DeepSignals: Predicting Intent of Drivers Through Visual Signals[DL輪読会]DeepSignals: Predicting Intent of Drivers Through Visual Signals
[DL輪読会]DeepSignals: Predicting Intent of Drivers Through Visual Signals
 
2019.12.7 kaihatsu
2019.12.7 kaihatsu2019.12.7 kaihatsu
2019.12.7 kaihatsu
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
画像の基盤モデルの変遷と研究動向
画像の基盤モデルの変遷と研究動向画像の基盤モデルの変遷と研究動向
画像の基盤モデルの変遷と研究動向
 
最近のSingle Shot系の物体検出のアーキテクチャまとめ
最近のSingle Shot系の物体検出のアーキテクチャまとめ最近のSingle Shot系の物体検出のアーキテクチャまとめ
最近のSingle Shot系の物体検出のアーキテクチャまとめ
 
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
 
高専キャリア ~アプリコンテストに独りで挑んだ「OnlyOne」の皆さん~
高専キャリア ~アプリコンテストに独りで挑んだ「OnlyOne」の皆さん~高専キャリア ~アプリコンテストに独りで挑んだ「OnlyOne」の皆さん~
高専キャリア ~アプリコンテストに独りで挑んだ「OnlyOne」の皆さん~
 
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
 
20201010 personreid
20201010 personreid20201010 personreid
20201010 personreid
 
ビックデータとシリコンバレースタートアップ事情
ビックデータとシリコンバレースタートアップ事情ビックデータとシリコンバレースタートアップ事情
ビックデータとシリコンバレースタートアップ事情
 
[クリエイティブハント2018]LT 道場破りしたらできちゃった/// #ゴーハント
[クリエイティブハント2018]LT 道場破りしたらできちゃった/// #ゴーハント[クリエイティブハント2018]LT 道場破りしたらできちゃった/// #ゴーハント
[クリエイティブハント2018]LT 道場破りしたらできちゃった/// #ゴーハント
 
両眼立体視可能なスマートグラス を用いた3Dモデル可視化アプリの 開発
両眼立体視可能なスマートグラス を用いた3Dモデル可視化アプリの 開発両眼立体視可能なスマートグラス を用いた3Dモデル可視化アプリの 開発
両眼立体視可能なスマートグラス を用いた3Dモデル可視化アプリの 開発
 
20190831 3 d_inaba_final
20190831 3 d_inaba_final20190831 3 d_inaba_final
20190831 3 d_inaba_final
 

Más de Kazuyuki Miyazawa

VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...Kazuyuki Miyazawa
 
Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)Kazuyuki Miyazawa
 
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...Kazuyuki Miyazawa
 
Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査Kazuyuki Miyazawa
 
ドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility Technologiesドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility TechnologiesKazuyuki Miyazawa
 
CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選Kazuyuki Miyazawa
 
kaggle NFL 1st and Future - Impact Detection
kaggle NFL 1st and Future - Impact Detectionkaggle NFL 1st and Future - Impact Detection
kaggle NFL 1st and Future - Impact DetectionKazuyuki Miyazawa
 
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth EstimationKazuyuki Miyazawa
 
3D Perception for Autonomous Driving - Datasets and Algorithms -
3D Perception for Autonomous Driving - Datasets and Algorithms -3D Perception for Autonomous Driving - Datasets and Algorithms -
3D Perception for Autonomous Driving - Datasets and Algorithms -Kazuyuki Miyazawa
 

Más de Kazuyuki Miyazawa (10)

VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
 
Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)
 
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
 
Data-Centric AIの紹介
Data-Centric AIの紹介Data-Centric AIの紹介
Data-Centric AIの紹介
 
Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査
 
ドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility Technologiesドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility Technologies
 
CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選
 
kaggle NFL 1st and Future - Impact Detection
kaggle NFL 1st and Future - Impact Detectionkaggle NFL 1st and Future - Impact Detection
kaggle NFL 1st and Future - Impact Detection
 
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
 
3D Perception for Autonomous Driving - Datasets and Algorithms -
3D Perception for Autonomous Driving - Datasets and Algorithms -3D Perception for Autonomous Driving - Datasets and Algorithms -
3D Perception for Autonomous Driving - Datasets and Algorithms -
 

Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations