SlideShare una empresa de Scribd logo
1 de 16
DDR: Deep Diminished Reality
の実現に向けた一検討
第40回CV勉強会「AR/VRを支える技術」
2017/6/10
進矢陽介
2017/6/15 説明・紹介論文追加
自己紹介
2007~2014 東京大学
話者認識
形状の数式表現、Mixed Reality
2014~2015 三菱電機
車内センシング(ドライバモニタ)
2015~ デンソー(東京支社)
車外センシング(ADAS、自動運転)
技術動向調査(cvpaper.challenge参加)
http://toyota.jp/technology/safety/toyota_safety_sense_p/ より引用
三菱電機公式サイトより引用
※本発表は個人として行うものであり
所属組織を代表するものではありません
前提知識:DR (Diminished Reality, 隠消現実感)
説明文・図引用元:
[森ら, 日本バーチャルリアリティ学会論文誌2011]
• 「視覚的に不要な物体を隠蔽・消去,
もしくは障害となる物体を透過させる技術」
• 下図の場合、ポストが存在しないように
見せかける技術
背景:ARと変身願望
Snapchat, SNOW, Instagram
・顔検出・顔器官検出による
けもの化機能
・Viola-Jones世代を中心に
億単位のユーザー
②美少女化願望
①けもの化願望
機械学習で美少女化 ~ あるいはNEW GAME! の世界 ~
http://qiita.com/Hi-king/items/8d36d9029ad1203aac55
• 私は貝になりたい
• けものになりたい
• 早く人間になりたい
• 風になりたい
• チーズ蒸しパンになりたい
• 美少女になりたい
• 来世は東京のイケメン男子に
してくださーい!
SNOW https://itunes.apple.com/jp/app/id1022267439
人間が持つ様々な変身願望
・顔検出・似顔絵生成GAN
による美少女化
・2020年に向けて
さらなる研究の必要性
課題:顔に限定され、全身を変換できない
全身の姿勢を推定する技術が必要
人物姿勢推定
OpenPosehttps://github.com/CMU-Perceptual-Computing-Lab/openpose
[Zhe Cao+, CVPR2017], [Tomas Simon+, CVPR2017]
多人数の2D姿勢を約10fpsで推定
手と顔のkeypointも合わせて推定
MMD (MikuMikuDance) 等の
3Dモデル
関節等を合わせて
重畳表示
VNect http://gvv.mpi-inf.mpg.de/projects/VNect/
[Dushyant Mehta+, SIGGRAPH2017]
1人の3D姿勢を30fpsで推定
https://learnmmd.com/http:/learnmmd.com/quic
k-start-basics-of-mmd-to-get-you-started/
人物姿勢推定と重畳表示
なんかでかい
重畳表示
BodySLAM https://wrnch.com/
・wrnch社の人物姿勢推定エンジンで、ARに利用可能
・重畳する物体は鎧(通常の服より大きい)
重畳する物体の方が小さいと破綻すると推測される
©大川ぶくぶ/竹書房・キングレコード http://hoshiiro.jp/
重畳する物体
重畳される物体
はみ出る
課題:
大は小を兼ねない
元画像中の人物を消去する技術が必要
発生する現象
画像補完
Globally and Locally Consistent Image Completion
[Satoshi Iizuka+, SIGGRAPH2017] http://hi.cs.waseda.ac.jp/~iizuka/projects/completion/ja/
課題:マスクの入力が必要
マスクを推定する技術が必要
Instance segmentation
Mask R-CNN
[Kaiming He+, arXiv2017] https://arxiv.org/abs/1703.06870
DDR: Deep Diminished Reality
• Instance segmentationと画像補完により
単眼カメラでのDR (Diminished Reality)が実現される
• 学習済みモデルの組み合わせで実行可能になるはず
課題:
遅い (解像度によるが約3fps)
一つのネットワークにまとめ、
専用に学習した方が良い
図引用元:[Kaiming He+, arXiv2017], [Satoshi Iizuka+, SIGGRAPH2017]
人物を3Dモデルに変換する場合の構成案
人物姿勢推定
Instance
segmentation
画像補完
重畳表示
光学的整合性
Discriminator*1
陰影生成*1
画像補完
Discriminator
*1: オプション。検討が不十分ですのでご了承下さい。以下が関連するかもしれません。
Deep Shading [Oliver Nalbach, EGSR2017] http://deep-shading-datasets.mpi-inf.mpg.de/
https://www.youtube.com/
watch?v=OWSpFm5LP3I
画像引用元は他ページをご参照下さい。
課題:どうやってマルチタスク学習を行うか
• データセット準備、学習、評価、実験環境再現が大変なため、
Instance segmentationと画像補完と3D人物姿勢推定を同時実行し、
元画像の人物を消去した上で、
MMDを重畳表示するのに都合の良いデータセットがあると良い
• 上記が無理でも、異種のデータセットを交ぜて学習を行いつつ、
メモリ消費量は抑えられる手法があると良い
SURREAL Dataset
Learning from Synthetic Humans
[Gül Varol+, CVPR2017]
http://www.di.ens.fr/willow/research/surreal/
UberNet
Ubernet: Training a Universal Convolutional Neural Network for Low-, Mid-, and High-Level Vision Using Diverse Datasets and Limited Memory
[Iasonas Kokkinos, CVPR2017] https://arxiv.org/abs/1609.02132
cvpaper.challenge資料: https://www.slideshare.net/cvpaperchallenge/201609cvpaperchallenge2016/24
まとめ
• ディープラーニング技術の進展により、
単眼カメラでのDR (Diminished Reality)の実現が近づいている
• 高精度化が重要なのは言うまでもないが、
AR関連の応用には、何よりも速さが足りない
(各技術はこの1年で著しく高速化したが、更なる高速化が必要)
補足:応用上の高速化
• ディープでなくても良い部分を置き換える
• フレームごとに別のGPUで処理(遅延が気にならない場合)
• キーフレームのみ重い演算を行う
• 背景の真値を取得し、ボトルネックとなるであろう画像補完処理を除去(対象が動く場合)
• アプリケーションに応じて、解像度を下げる、処理対象を限定する
補足:CNN自体の高速化
• Depthwise Separable Convolution*1
• 蒸留 (Distillation)*2
• その他モデル圧縮*3
*1: 近年、高精度化・高速化・省メモリ化を目的に盛んに研究されている。
- Xception [François Chollet, CVPR2017] https://arxiv.org/abs/1610.02357
- ResNeXt [Saining Xie+, CVPR2017] https://arxiv.org/abs/1611.05431
- Speed/accuracy trade-offs [Jonathan Huang+, CVPR2017] https://arxiv.org/abs/1611.10012
- MobileNet [Andrew G. Howard+, arXiv2017] https://arxiv.org/abs/1704.04861
- SliceNet [Lukasz Kaiser+, arXiv2017] https://arxiv.org/abs/1706.03059
一方で、演算回数の理論値通りには高速化しない(2017年6月時点)。
- Speed/accuracy論文の”4.1.7 FLOPs analysis.”のMobilenetに関する記載
- Depthwise (separable) convolutionとか色々な畳込みの処理時間を比較してみる [内田祐介, 2017] http://qiita.com/yu4u/items/cf3f81e32fe613747f76
- 畳み込みニューラルネットを高速化するためのいろいろ [徳永拓之, 2017] https://developer.smartnews.com/blog/2017/06/convolution-speed-up/
そのため、Depthwise Separable Convolutionのパフォーマンスが出るよう設計されたハードウェアの登場が期待される。
(Depthwise Separable Convolutionを早期に検討していたGoogleが圧倒的に有利。)
*2: segmentationではおそらく有効 (T-Net [German Ros+, arXiv2016] https://arxiv.org/abs/1604.01545 )。
画像補完等で有効かは要調査、要検証。
*3: 「マルチタスク学習でのモデル圧縮をどのように行うべきか」、「タスクごとに何の手法が有効で、それは何故なのか」等、更なる研究が必要。

Más contenido relacionado

La actualidad más candente

車載カメラの映像から歩行者に関わる危険を予測する技術
車載カメラの映像から歩行者に関わる危険を予測する技術車載カメラの映像から歩行者に関わる危険を予測する技術
車載カメラの映像から歩行者に関わる危険を予測する技術
Takuya Minagawa
 

La actualidad más candente (13)

Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy AnnotationsDevil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
 
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
 
SLAM開発における課題と対策の一例の紹介
SLAM開発における課題と対策の一例の紹介SLAM開発における課題と対策の一例の紹介
SLAM開発における課題と対策の一例の紹介
 
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
 
2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)
 
ディープラーニングの車載応用に向けて
ディープラーニングの車載応用に向けてディープラーニングの車載応用に向けて
ディープラーニングの車載応用に向けて
 
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
 
車載カメラの映像から歩行者に関わる危険を予測する技術
車載カメラの映像から歩行者に関わる危険を予測する技術車載カメラの映像から歩行者に関わる危険を予測する技術
車載カメラの映像から歩行者に関わる危険を予測する技術
 
object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: survey
 
20160525はじめてのコンピュータビジョン
20160525はじめてのコンピュータビジョン20160525はじめてのコンピュータビジョン
20160525はじめてのコンピュータビジョン
 
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation
 
コンピュータビジョン技術の実応用とビジネス
コンピュータビジョン技術の実応用とビジネスコンピュータビジョン技術の実応用とビジネス
コンピュータビジョン技術の実応用とビジネス
 
DRIVE CHARTを支えるAI技術
DRIVE CHARTを支えるAI技術DRIVE CHARTを支えるAI技術
DRIVE CHARTを支えるAI技術
 

Último

Último (10)

論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 

DDR: Deep Diminished Realityの実現に向けた一検討