SlideShare una empresa de Scribd logo
1 de 146
Descargar para leer sin conexión
ICCV 2019 論文紹介
2019/12/20
AI本部AIシステム部 CV研究開発チーム
岡田英樹, 唐澤拓己, 木村元紀, 冉文昇, 築山将央, 本多浩大, 馬文鵬
Agenda
• Network Architectures
• Detection, Segmentation
• Action & Video
• Face Recognition
• Synthesis, GAN, Low-level
• Automotive関連
• Others
Network Architectures
紹介する論文一覧
• Searching for MobileNetv3
• CutMix: Regularization Strategy to Train Strong Classifiers with
Localizable Features
• Differentiable Learning-to-Group Channels via Groupable
Convolutional Neural Network
Searching for MobileNetv3
Oral
Links
paper code(Tensorflow, official) code(PyTorch) video
Summary
• アーキテクチャサーチがモデル開発ツールの一つとして定着
関連ワークショップは満員御礼
• MobileNetv3は、サーチされたモデルを起点にさらなる最適化を
行い、レイテンシを改善する
• EfficientNetとともに、Mobile Inverted Residual + SE*
を中心とした一般的なネットワークシリーズである
権威
* Squeeze and Excitation
cited from the paper
Method: MobileNetv3 block
1x1 conv
K x K depthwise conv
1 x 1 conv
hard-swish or ReLU
hard-swish or ReLU
squeeze & excitation
1x1 conv K x K depthwise
SE block
https://github.com/rwightman/gen-efficientnet-pytorch/blob/master/geffnet/efficientnet_builder.py
1x1 conv
Mobilenet v3 block
cited from the paper
Method: Architecture Searchからの最適化
MnasNetでサーチしたモデルを起点にレイテンシを改善していく
activation
高速化
pruning
cited from the paper
Method: Nonlinearities
モバイルでのレイテンシを向上するため、非線形関数を簡易化
cited from the paper
ResultsEfficientNet とMobileNetv3の比較
EfficientNet
MobileNetv3-Large
MobileNetv3-Small
EfficientNetは起点となる’B0’ からの
スケールアップ手法を導入したもの
MobileNetv3はMNasNetサーチしたLarge,
Smallモデルをベースに、より低レイテンシ化した
もの
積和演算量 (レイテンシではない)
EfficientNetB0
参考:モデルアーキテクチャ観点からの高速化 2019
cited from the paper
CutMix: Regularization Strategy to Train Strong
Classifiers with Localizable Features
Oral
Links
paper code video
Summary
2つの画像を片方をパッチとして埋め込むデータオーグメンテーション手法の提案
• Cutout は情報を落としてしまっている
• 2つの画像を、片方をパッチとしてカットし他方の画像に埋め込む Augmentationの提案
• ラベルは面積の割合で決定し学習を行う
cited from the paper
Results
ベンチマークデータセット名: ImageNet, Pascal VOC
ベンチマーク結果:+2.3(ImageNet Cls), +1.0(ImageNet Loc), +1.1(Pascal det)
*ただし detection については pre-trainingでの使用。
cited from the paper
Differentiable Learning-to-Group Channels via
Groupable Convolutional Neural Networks
Links
paper code
Poster
Summary
これまでは hyperparameter だった Group convolutionの最適なグループ数を
動的に学習する Dynamic Grouping Convolution(DGConv)を提案
DGConv の貢献
• Convolution kernel とグループ数及びどのチャンネル同士をグループにするか等の
grouping strategy を同時に学習可能
• 微分可能なので end2end に学習可能
• 通常の Convolution から置き換え可能
• ResNet や ResNext と同等もしくはそれ以下のパラメタ数で高精度達成
Method:Binary relationship matrix Uの導入
Binary relationship matrix U を用いることで全ての convolution が表現可能
Uの size は(input_channel, output_channel)
DGConvの式:
ex) Uが all-ones matrix なら通常の convolution (a)
Uが identity matrix なら Depthwise convolution (b)
しかしUを直接学習するのは以下の課題がある
• SGD 使って binary matrix を学習するの難しい
• Input_channel, output_channel が大きいと U の parameter の数も膨大になる
• 制約なく学習させると( f)のような unstructured convolution を生み出す
Matrix Uの形状
cited from the paper
cited from the paper
Method:Binary relationship matrix Uの構成
• U を K 個の submatrix のクロネッカー積で表現 (4)
• submatrix Uk を single binary variable g で表現することで parameter を削減 (5)
• Input と output の channel 数が1024の場合 K=10 となる
利点は何か
• g のみを学習すればよいので parameter の数を減らすことができる
in / out が1024/1024の場合、Uを直接学習させると1024**2のパラメタが必要だが
g のみの学習であれば log2(1024)=10 個のパラメタですむ
• U が必ず group 構造をとるようになる
cited from the paper
Method:DGConvのResNextへの適用
上記のDGConvをResNetとResNextに転用
cited from the paper
Results:Complexity vs Accuracy
制約項bの大きさを変えた時の FLOPsと精度
DGConvがGConvより効率的なGroup Strategyを獲得していることを証明
b=96, FLOPs 0.27xにおいて同等の精度
b=256, FLOPs 0.14xにおいて同等の精度
cited from the paper
Results:他手法との比較
Parameter数が同等の既存手法よりも高精度を達成
cited from the paper
Detection, Segmentation
紹介する論文一覧
• Gaussian YOLOv3: An Accurate and Fast Object Detector Using
Localization Uncertainty for Autonomous Driving
• Towards Unconstrained End-to-End Text Spotting
• Single-Shot Instance Segmentation With Affinity Pyramid
• Scale-Aware Trident Networks for Object Detection
• YOLACT: Real-time Instance Segmentation
Gaussian YOLOv3:
An Accurate and Fast Object Detector
Using Localization Uncertainty
for Autonomous Driving
Poster
Links
paper code
Summary
• YOLOv3 において box 座標とともにそれらの uncertainty を同時に学習・予測すること
で、物体検出の精度を大きく向上
• 予測した uncertainty が大きい box については相対的に重みが下がるように損失関数が
設計されており、box アノテーションのノイズや外れ値に対して頑強になる
• KITTI / BDD に対する評価では、 YOLOv3 に比べて mAP を 3.09 / 3.5 ポイント向上
• 計算上のオーバーヘッドとしては、 head の出力チャネルが アンカーの数×4 だけ増えるの
みで、推論の速度は YOLOv3 とほぼ変わらない
Cited from the paper
Method
• box 座標 x, y, w, h それぞれに対して、平均 : 予測した box 座標、分散: 予測した
uncertainty となるようなガウス分布を仮定する
• ガウス分布の確率密度関数において、真の box 座標における値に対し、負の対数をとっ
たものを損失としてネットワークを学習する
• このような損失関数の設計により、外れ値や box ラベルにノイズがあるような
サンプルに対しては、 uncertainty が大きくなるように学習がされる
• 推論時は uncertainty に応じて score をスケーリングし、不確かさの大きい box を
抑制する
Cited from the paper
Cited from the paper
Results
• KITTI / BDD に対する評価では、 YOLOv3 に比べて mAP を 3.09 / 3.5 ポイント向上
• false positive を 40%以上削減しつつ、true positive の割合も向上できている
• 全体的に予測した box の位置精度が向上しており、 IoU=0.75 など厳しめの IoU 閾値に
対する mAPが特に改善している傾向
• COCO に対する評価でも、mAP を 3.1 ポイント向上している
Cited from the paper
Cited from the paper
Towards Unconstrained End-to-End Text
Spotting
Oral
Links
paper video
Summary
• 画像から任意形状のテキストを検出できる End-to-End OCR ネットワークの提案
• Detector に Mask R-CNN を用い、さらに RoI-Masking という工夫によって E2E で画像
からテキストと領域マスクを同時に生成できるようになった
• 既存の OCR エンジンからの出力を部分ラベルとして活用可能
• ICDAR データセットにおいて、 E2E テキスト検出&認識で SOTA 達成
cited from the paper
Method
• Detector には Mask R-CNN を使用
Mask R-CNN は BBox とその領域内の物体マスクを予測するため、 Straight Case /
Curve Case どちらにも対応可能
• Recognizer の入力として、Stride-8 Feature を Upsample したものと
Stride-4 Feature の要素和を用いる(小さいテキストに対するパフォーマンス向上)
• Detector からの BBox を用いて Feature を切り出し、さらに Mask を掛け合わせる
(RoI-Masking と呼ぶ)ことで、明示的な Attention が得られる
cited from the paper
Method
• LSTM は前ステップの予測単語と Hidden State, そして Context Feature が入力
• Context Feature: c_i の作り方は下図参照
RoI-Masking 後の Image Feature と前ステップ Hidden State から Attention 生成
• 損失関数は以下。Fully Labeled な場合は δ=1, 既存 OCR の出力を学習に用いる場合
は δ=0 となる。α, β, γ は本実装では 1 でよい
cited from the paper
Results
• ICDAR データセットにおいて SOTA スコア達成
• Detection ベンチマークにおいて既存手法と Competitive な精度を出しつつ、End-to-End
認識においては既存手法に大きな差をつけた
• Ablation Study により、特に RoI-Masking の効果が大きいことが判明
cited from the paper
SSAP: Single-Shot Instance Segmentation
With Affinity Pyramid
Links
paper
Poster
Summary
• 各スケールにて、Semantic Segmentation Maskと、各位置における
affinity情報 (同一instanceかどうかのlocal map)を学習する
• Segmentation maskとaffinity情報から、インスタンスセグメンテーショ
ンマスクを生成する
• cascaded graph partition moduleによって、最もstrideの大きいレイヤ
から、インスタンス推定結果を徐々に補正しながらstrideの小さいレイ
ヤに伝播することで効率化を図る
Method
• U-Net構造のencoder-decoder Network
• Semantic Segmentation maskと
各位置におけるaffinity情報が
各階層から出力される
• Affinityブランチでは、各グリッドにて r x r
のwindowがchannel方向にflattenされた
情報が出力され、その位置にある instance
と同じinstanceのある位置で1となるように
学習される
cited from the paper
Method
• graph partitionは、affinity情報をもとに、
画素をinstance分割する
• 画素の組み合わせが少ない scale(stride=64)
から、高解像度側へ伝搬していくことにより、
partitioningに必要な計算量を減らす
• semantic segmentation結果と組み合わせること
により、クラス情報 (車・人など)を付与する
cited from the paper
Results
Cityscapes test : AP 32.7 (PANet: 31.8)
COCO test-dev : panoptic quality (PQ) : 36.9 (DeeperLab: 34.3)
cited from the paper
Scale Aware Trident Networks
for Object Detection
Oral
Links
paper video
Summary
object detection における receptive field の影響を調査し、それぞれ特定のスケールへの
feature map を生成する3つのブランチを持つ TridentNet を提案し精度改善
cited from the paper
Method
• multi-scaleへの対処に関して
• image pyramidは推論が遅い
• feature pyramidは異なる段階でのfeatureを同一に扱って
いてconsistencyが取れていない
• 同一の重みで異なる dilation rate をそれぞれ持つ trident block
に、convolutionのブロックを置換することを提案
• trident netを学習するためのscale-aware training scheme
• 各ブランチに valid range [l_i, u_i]を定義し、whの平方根
がそれに収まるもののみ backpropさせる。
cited from the paper
cited from the paper
Results
• ベンチマークデータセット名: COCO
• ベンチマーク結果:46.8 mAP、Image Pyramid を追加した場合 48.4 mAP
*は、SNIP、SNIPER で実装されている工夫を合わせたもの
(multi-scale training, soft-NMS, deformable convolutions, large-batch BN,
and the 3× training scheme)
cited from the paper
YOLACT: Real-time Instance Segmentation
Oral
Links
paper code video
Summary
Real-time なインスタンスセグメンテーション手法の提案
* YOLACT = You Only Look At CoefficienTs
.
cited from the paper
Method
Instance segmentation を2つのサブタスクに分ける
(1) prototype masks セットの出力、 (2) インスタンスごとのマスク係数の予測
YOLACTアーキテクチャ図。protonet でいくつかの prototype を出力し、prediction headで
インスタンスマスク係数出力し、掛け合わせる
その後crop&thresholdで適切な位置を取る。論文中では RetinaNet(ResNet-101 + FPN)を使用
cited from the paper
Method
NMS は約 5 FPS かかり全体の30 FPS に対してボトルネックであるとし、 Fast NMSも提案
既に削除されたdetectionによって他のdetectionを削除することをよしとすることで、
一度に計算し高速化を行う
1. Cクラス分、scoreの高い n この検出に関して c × n × n のIoU matrix を計算。
2. IoU threshold より高いスコアのものを選択
Results
精度ではなく、スピード重視の手法
他手法と比較すると、精度 /スピードは
トレードオフの関係にある
33 FPSで 29.8 mAP (COCO test-dev)
*複数あるのは画像サイズの違い
また、実際に出力される prototype は異なる意味を
表せているという可視化が下 cited from the paper
cited from the paper
Action & Video
紹介する論文一覧
• GradNet: Gradient-Guided Network for Visual Object Tracking
• SlowFast Networks for Video Recognition
• TSM: Temporal Shift Module for Efficient Video Understanding
• Video Object Segmentation using Space-Time Memory Networks
GradNet: Gradient-Guided Network
for Visual Object Tracking
Oral
Links
paper code video
Summary
• Siamese networkのようなテンプレートマッチングベースのトラッキング手法の
改良
• 勾配を用いて推論時にテンプレートをアップデートすることで
Siamese networkの課題であるターゲットや背景の時間的変化の弱さを改善
Method
• Search region X から特徴を抽出する branchとtarget patchのテンプレートとgradientを計
算するbranchからなるネットワークである
• Initial embedding module:初期テンプレートβとsearch region側の特徴との
相互相関をとることで Score map Sを得る
• gradient calculation module:Score map Sとground truth Yとのlogistic lossを活用し
initial featureに加える
• Template update module:initial embeddingと同じNetworkでテンプレートを
更新し、search region側の特徴との相互相関をとることで最終 Score mapを得る
cited from the paper
Method
従来のTraining手法:同じ動画内でtarget frameとsearch region frameを選択
課題点
• Update branchがgradientを無視してtemplate appearanceを重視するようになる
• 過学習が避けられない
提案手法:target frameに対して複数の動画(同じ動画は含む)から search region frameを選択
し、それぞれのペアで計算された最終スコアマップと ground truthとのロスを最小化するように学
習させる
• 他動画でも良い性能を発揮する templateを
得ようとすることでNetworkがGradientに
注目するよう強制する
cited from the paper
Results
各データセットでSOTA及び
それに匹敵する性能を達成
cited from the paper cited from the paper
cited from the paper
cited from the paper
SlowFast Networks for Video Recognition
Oral
Links
paper code video
Summary
• Facebook AI Research(FAIR)の研究
• 低い時間解像度で空間方向の特徴抽出を行うSlow pathwayと高い時間解像度で時
間方向の特徴抽出を行うFast pathwayからなるネットワークの提案
• 計算コストと精度のトレードオフを大幅に改善
• Action RecognitionのKinetics-400, Action DetectionのAVA datasetでともにSOTA
を達成
Method
• Slow pathway: 入力の時間解像度が低いため、畳み込みも主に空間方向の
2D畳み込みを採用
• Fast pathway: 入力の時間解像度が高いだけでなく、ネットワーク全体を通して
時間方向のdownsampling layerがないため時間解像度の高い特徴抽出を行う
channel数や空間方向の情報を削減しているため Slow Pathwayの15~20%のFLOPs
• Lateral connection: Fast pathwayからSlow pathwayへの方向のみに結合を持たせて 2
つのpathwayの情報を混合している
cited from the paper cited from the paper
Results
Action Classification: Kinetics-400での実験結果
• 左図:提案手法では ImageNetでの事前学習を行なっていないが、従来手法よりも高い精
度を達成
• 右図:推論時の計算コストと精度のトレードオフが大幅に向上
cited from the paper cited from the paper
Results
Action Detection: AVA datasetでの実験結果
• 左図:SlowFast Networkが既存手法を超える精度を達成
• 右図:Slow pathwayのみの場合ととSlowFast NetworkとのAVAの各クラスごとの精度比
較。Fast pathwayを使用することで動き情報が大きく影響しそうなクラス
(hand clap, swin等)の精度向上が顕著に見られる
cited from the paper cited from the paper
TSM: Temporal Shift Module for Efficient Video
Understanding
Poster
Links
paper code website
Summary
• 動画認識の 2DCNNベースの手法
• Temporal Shift Module(TSM)という特徴マップを時間方向にシフトする
モジュールを導入し、2DCNN と同等の計算コストを保ちながら 3DCNN
のような効率的な時間方向の特徴抽出を実現
• オフラインでの動画認識のための bi-directional TSM を提案し、
Something-Something leaderboard で SOTA を実現
• オンラインでのリアルタイム動画認識をエッジデバイスで行うことができる
uni-directional TSM を提案 demo video
Method
• 全体のネットワーク構成:サンプリングした各フレームを 2DConv に通した後のfeature
map を時間方向にシフトして次の conv へ通す構造を繰り返す
• Shift の詳細
• Shift 自体は演算なしで行われるので計算コストはないが、全 channel をシフトさせ
るのは推論の遅延や精度の低下を産むため、 partial shift を採用
• Shift の組み込み方としては左下図の In-place TSM と Residual TSM を比較し、
精度の高かった Residual TSM を採用
• Offline では各フレーム間で bi-directional に Shift を行うが、
Online では future frame がわからないので Uni-directional な Shift を行う
cited from the paper cited from the website
Results
• Kinetics, UCF101, HMDB51:動き情報に敏感でないデータセット
• Something-Something, Jester:動き情報に敏感なデータセット
• 左図:TSM を 2DCNN baseline(TSN)に加えて、全データセットで精度向上
TSM は動き情報のモデリングを主眼に置いているので、
Something-SomethingやJesterでは精度の向上が顕著に現れている
• 右図:様々なバックボーンで精度を向上させている
cited from the paper
cited from the paper
Results
• 左図:Something-Somthing dataset での TSM と既存手法との比較
TSM は 2D baseline の性能を向上させるだけでなく、 SOTA の性能を発揮している
• 右図:TSM と他手法との精度と計算コストのトレードオフの比較
TSM が ECO や I3D ベースの手法と比べて低い計算コストで高い性能を発揮しているこ
とがわかる
cited from the paper
cited from the paper
Video Object Segmentation using Space-Time
Memory Networks
Oral
Links
paper code video
Summary
• Memory Network を導入することで、計算コストを低く保ちつつ過去フレームと Target フ
レーム間の類似性を用いて Memory から適応的に特徴を読み出す
Video Object Segmentation 手法の提案
• 途中フレームも全て活用することで、 Appearance Changes, Occlusions, Drifts に
より対処できるようになった
cited from the paper
Method
• Memory Encoder(4 channel の ResNet50)
• 初期 Frame w/ GT maskと、 過去 Frame w/ Predicted Mask から Key-Value map
を抽出する
• Query Encoder
• Target frame から Key-Value map(query 特徴)を抽出する
• Frame 数制限はなく、Memory 特徴は Frame が進むたびに動的にスタック
cited from the paper
Method
• Key map は見た目の変化に頑健な Semantic 特徴
• Value map は背景・前景判定やマスク生成に有用な Local 特徴
• Query の Key map を用いて Memory に格納されている過去 Frame から類似度の
高いものを抽出
• 図参照:Q-key と M-key の dot 積→softmax→それと M-value の dot 積
• 画像データセットから擬似的に動画中の Frame 群のような合成データを生成し、
事前学習に使用
cited from the paper
Results
• Youtube VOS, DAVIS 2016/2017 で評価、どちらも SOTA 達成
• 速度と精度のバランスを考慮し、 5 Frame ごとに Memory に追加
Youtube VOS DAVIS 2017
cited from the paper
Face Recognition
紹介する論文一覧
• Co-Mining: Deep Face Recognition with Noisy Labels
• Fair Loss: Margin-Aware Reinforcement Learning
for Deep Face Recognition
• Occlusion Robust Face Recognition Based on Mask Learning with
Pairwise Differential Siamese Network
• Detecting Photoshopped Faces by Scripting Photoshop
Co-Mining: Deep Face Recognition
with Noisy Labels
Oral
Links
paper code video
• 大規模顔認証データセットのノイズに対して、既存手法の問題
• ノイズを効果的かつ正確に検出できない
• 標本選択バイアスによって引き起こされるエラー累積問題を意識していない
• クリーンなサンプルが識別特徴を学習するための重要性を無視している
• ノイズが多いラベルを持つ大規模な顔認証データセットで学習するためのコマイニング手法
を提案
Summary
Method
Co-Miningフレームワーク
• ミニバッチサンプルを、ノイズラベル、高信頼度のクリーンフェイス、
クリーンフェイスの3つを識別
cited from the paper
Method
• ノイズラベルの検出
• baseline:Are-Softmax loss
• 損失値を手がかりとして、ノイズラベルの検出を行う
• 高信頼度のクリーンフェイスの交換
• 標本選択バイアスに引き起こされるエラー累積問題を軽減するために高信頼度のク
リーンフェイスを交換
• クリーンフェイスのRe-weighting
• Re-weighting関数:            ( μ >= 0)
• クリーンフェイスに重みを付けて、識別特徴を学習
Results(on Real-World Data)
• Baselineやほかの6つのSOTA手法より、良いパフォーマンス
• MsCeleb-Rで学習し、RFWで評価、SOTA達成
• VggFace2-Rで学習し、MegaFace Challengeで評価、SOTA達成
cited from the papercited from the paper
Fair Loss: Margin-Aware Reinforcement
Learning for Deep Face Recognition
Poster
Links
paper
Summary
• 大規模顔認証データセットは各クラスのサンプル数が不均衡問題
• 既存のマージンベース手法がマージン値を固定させているので、不均衡問題を無視( a, b)
• 多数クラスが比較的小さいマージン、少数クラスが比較的大きなマージンが必要( c)
• マージンを考慮した強化学習( Q−Net)ベースの損失関数Fair Lossを提案
cited from the paper
Method
• すべてのクラスをサンプル数とクラス内の分 散でグルーピングし、手 動でマージンを変 更した
CNNを学習してサンプルを収集
• 収集されたサンプルを使って、マージン適応策(マルコフ決定過程として)のエージェントを学習
• エージェントからのアクション出力によって、マージンが変化するネットワークを学習
cited from the paper
Method
Loss Function
• Based on CosFace:
• Based on ArcFace:
Agent Training
cited from the paper
Results
LFW, YTF, MegeFace Challenge 1 (MF1), MegaFace Challenge 2 (MF2)のSOTAとの比較
cited from the papercited from the paper
Occlusion Robust Face Recognition Based on
Mask Learning with Pairwise Differential
Siamese Network
Poster
Links
paper
Summary
• 一般的なディープCNN顔モデルは、遮蔽の汎化性が不十分
• 顔の遮蔽ブロックとその影響を受けた特徴の対応関係を学習できる
Pairwise Differential Siamese Network(PDSN)を提案
• 顔の任意の部分的な遮蔽での CNNモデルのパフォーマンスを改善
Method
• 提案されたPDSNネットワークを使用して、顔の遮蔽ブロックとその影響を受けた
特徴要素間の対応関係をキャプチャする
• 学習したマスクジェネレータからマスクディクショナリを確立する
• テスト段階でディクショナリからの遮蔽部分の feature discarding mask(FDM)を
ランダムで組み合わせ、元の feature と乗算することにより、遮蔽部分の影響を消す
cited from the paper
Method
cited from the paper
Results
MegaFaceとARデータセットで検証し、 SOTAを達成
cited from the paper
cited from the paper
Detecting Photoshopped Faces
by Scripting Photoshop
Poster
Links
paper code
Summary
• Face-Aware Liquify (FAL)ツールで大規模な偽顔データセットを作成
• Photoshopでワープされた顔画像の検出及び Undo状態への復元手法を提案
cited from the paper
Method
• 顔画像がワープされたか否かを判定するため、 Dilated Residual Network variant
(DRN-C-26)で二値分類器を訓練
• 低解像度および高解像度のモデルを訓練することにより、解像度の影響を調査
• 訓練中、顔画像をランダムに左右反転させたり、 384ピクセルまたは640ピクセルにクロッ
ピングさせたりする
cited from project page
Method
• オリジナル画像からワープ画像への optical flowフィールドを予測し、
それを逆にしてオリジナル画像を復元する
• flow predictionモデルFを訓練し、ピクセルごとのワーピングフィールドを予測し、
各トレーニング例の近似 ground-truthのフローフィールドまでの距離を測定する
• 誤ったフロー値を消すため、前後の一貫性テストに失敗したピクセルを破棄する
cited from project page
Experiment
cited from the paper
Results
顔画像がワープされたか否かの識別精度について、提案手法が人工( 53.5%)より大幅に向上
(99.8%AP)
cited from the paper
Synthesis, GAN, Low-level
紹介する論文
SinGAN: Learning a Generative Model from a Single Natural Image
SinGAN: Learning a Generative Model from a
Single Natural Image
Oral
Links
paper code video
Summary
• Single-Image: 一枚の画像から表現を学習する
• Multi-Scale: 多スケールで生成・伝搬
• Unconditional: 推論時は任意サイズのランダムノイズを入力
cited from the paper
Method
学習画像生成画像
ランダム
ノイズ
画像
粗いスケール (大きな構造) から学習する
伝播、下のスケールは freeze
x0.75ずつ
スケール
cited from the paper
Method
DiscriminatorによるGAN lossと、ゼロ入力をGround Truthに対応させるReconstruction Loss
Fake Real
cited from the paper
Results
入力ノイズ画像のサイズに応じた、ランダムな画像の生成学習画像
学習画像 テクスチャの生成
cited from the paper
cited from the paper
イラストの「注入」 アニメーションの生成例
(画像をクリックすると tweetに飛びます)
Automotive関連
紹介する論文一覧
• 3D-LaneNet: end-to-end 3D multiple lane detection
• Learning Lightweight Lane Detection CNNs
by Self Attention Distillation
• Joint Monocular 3D Vehicle Detection and Tracking
• Learning Object-Specific Distance From a Monocular Image
• Digging Into Self-Supervised Monocular Depth Estimation
• How Do Neural Networks See Depth in Single Images?
3D-LaneNet: End-to-end 3D Multiple Lane
Detection
Poster
Links
paper
Summary
• 内部パラメーターと一部の外部パラメーターを固定にして、残りの外部パラメーターと 3d空
間における区画線を検出する手法を提案
• 従来semantic segmentationの手法で区画線を検出するのではなく、
物体検出のanchorと似たような手法を提案
• Front-viewの画像を入力として、 front-viewのfeatureだけではなく、top-viewのfeatureも推
定し、一部の外部パラメーターと 3d空間の区画線を出力
Method
モデルアーキテクチャー
cited from the paper
Method
Anchor
• 道路座標系(top-view)とカメラ座標系
(入力画像front-view)があって、モデルの
出力は道路座標における区画線の座標
• 区画線branchが出力したtensorのshape:
N × 1 × 3 · (2 · K + 1)
• N: anchorの数、K:一本の区画線に関して、
k個の点を出力
cited from the paper
Results
•
cited from the paper
Learning Lightweight Lane Detection CNNs
by Self Attention Distillation
Poster
Links
paper code
Summary
• Attention distillationを用いて区画線を検出する手法
• 通常のdistillationでは精度が高い教師モデルが精度が低い生徒モデルに情報を与える
のでネットワークが二つあるが、提案手法では自分が自分自身に情報を与えるので
一つのネットワークで構成されている
• 出力に近い層が入力に近い層に情報を与える。情報は attentionの形式で与えられる
cited from the paper
Method
Attentionマップの作り方
• チャンネル*縦長*横幅の三次元畳み込み feature mapを縦長*横幅の二次元feature map
に変換する
• 各グリードにチャンネル方向で値をマージする、具体的にはこれらの値を二乗し、
足し合わせる
cited from the paper
Method
モデルアーキテクチャー
• 最大4本の区画線を検出できる、検出された区画線方が1、されなかった区画線の方が0
が出力される
• 各レイアのFeature MapからAttention Mapが算出されて、隣接のレイアの Attention Map
のL2 ロスが算出される
cited from the paper
Results
cited from the paper
Joint Monocular 3D Vehicle Detection and
Tracking
Poster
Links
paper code
Summary
• 単眼のカメラだけで、車両の三次元情報を検出&トラッキングできる手法を提案
• パイプラインは四つのパートに分かれる
• 各フレームに対して、物体検出を行う
• 3dの情報(位置、向き、 depth)を推定
• 3d情報を使って、フレーム間の物体のトラッキングを行う
• LSTMで物体のtrajectoryを予測
cited from the paper
Method
• 各フレームに対して、物体検出を行う
• 検出するもの:2d bounding boxの座標、このフレームに投影された 3d bounding
boxの中心の座標、物体の向き、三次元の物体のスケール
• フレーム間のトラッキングを行う
• フレーム間の物体の depthの情報を考慮
• occlusionによる一時的な未検出によるトラッキングの途切れも対応
cited from the papercited from the paper
Results
•
cited from the paper
Learning Object-Specific Distance
From a Monocular Image
Poster
Links
paper
Summary
• 単眼カメラの画像から、物体ごとに距離を回帰する CNN を提案
• inverse perspective mapping などの古典的手法では勾配の変化があるような場所では距離の誤差が大
きくなってしまうが、提案手法ではそのような状況下でも正しく距離を推定できる
• KITTI, nuScenes において point cloud と 3D bbox を用いて物体ごとの距離ラベルを生成し、距離推定タ
スクのデータセットを作成した
Cited from the paper
Cited from the paper
Method
• 別の物体検出器で検出した box に対して ROI pooling した固定サイズの特徴マップを全結合層に
入力し、距離を回帰する
• 距離の回帰と同時に物体のクラス分類を行うことで、category-aware な距離の学習を行う
(推論時はクラス分類の結果は使用しない)
• 物体の 3D key-point も同時に学習・回帰することで、距離の精度をさらに向上
Cited from the paper
Results
既存手法の inverse perspective mapping などと比べて距離の推定誤差が小さく、
特に既存手法が苦手とする勾配のあるシーンなどで精度が大きく向上した
ground truth
inverse
perspective
mapping
proposed
enhanced model
Cited from the paper
Cited from the paper
Digging Into Self-Supervised Monocular
Depth Estimation
Poster
Links
paper code
Summary
• 単眼カメラによるdepth推定は、ground truthデータの獲得が難しいため、 self-supervised
learning を用いた手法が近年盛り上がっている (Zhou et al.)
• 本論文の手法Monodepth2では、シンプルなパイプラインで高精度な単眼 depth推定を可
能とした。
• 手法1:遮蔽に対してロバスト化する minimum reprojection loss
• 手法2:アーティファクトを低減する full-resolution multi-scale sampling method
• 手法3:学習の邪魔となる動物体などの画素領域をマスクする auto-masking loss
Method
• Depth Networkはエンコーダ(ResNet18)とデコーダー(シンプルな upsampler Network)
からなるU-Net構造となっており、depth mapが出力される
• Pose Networkは2フレームをスタックして Res18に入力するシンプルな構造で、
2フレーム間のカメラの transformationが出力される
• それぞれのNetworkのエンコーダはweight sharingをしない方が精度が高い
• Pose Networkへの入力は、既存手法で採用されてきた 3フレームより、2フレームの方が
精度が高い
cited from the paper
Method
手法1:遮蔽に対してロバスト化する minimum reprojection loss
• 推定したdepth map, camera poseの変化を用い、入力画像It’をワープした推定画像It’→tを得る
• 目的関数は入力画像ItとIt’→tのPhotometric Reconstruction Error、SSIMとL1の組み合わせ
• フレームの途中である領域が遮蔽される場合、error が不連続に大きくなるため、複数フレームのmin を取る
ことでロバストにする
cited from the paper
cited from the paper
Method
手法3:学習の邪魔となる動物体などの
画素領域をマスクする auto-masking loss
手法2:アーティファクトを低減する full-resolution
multi-scale sampling method
cited from the paper
すべてのスケールのdepth mapを入力画像サイズに戻し、
それぞれ推定画像を生成してマルチスケールでphotometric
lossを計算する。
これにより、生成画像のアーティファクトを低減できる
従来はPose networkの出力にデコーダを追加し、maskを学
習していた
本手法では、入力画像シーケンスにおいて、フレーム間の
photometric lossが小さくなる、つまり静止している領域を指
定してマスクし、loss対象外とする
Results
depth教師がある場合
単眼, self-supervised
SfmLearner
ステレオ, self-supervised
いずれの条件においても、既存手法を上回る depth推定精度を示した
cited from the paper
How Do Neural Networks See Depth
in Single Images?
Poster
Links
paper
Summary
• 単眼距離推定CNN は、画像中の物体の大きさではなく、物体の縦位置 (y座標) に
着目して距離を推定していることを実験的によって確かめた
• 教師あり/教師なしの両方のモデルを含む 4種類の CNN に対して評価を行った結果、
どのモデルも上のような傾向を示すことが明らかになった
Method
• カメラの幾何を考えると、物体の距離の手がかりとなるのは、画像上での物体の
大きさと、物体の画像上での縦位置 (y座標) と考えられる
• KITTI データセットの画像に、距離に応じて : (1)大きさと縦位置を変化させる
(2)縦位置だけを変化させる (3)大きさだけを変化させる の3パターンで擬似的に
車両を合成し、その車両に対して CNN が推論した距離を評価した
Cited from the paper
Results
1. 距離に応じて合成車両の大きさと縦位置を変化させた場合
どの CNN も車両までの距離を正しく推定することができた
2. 縦位置だけを変化させた場合も、 1. に比べて誤差は
大きくなるが、概ね正しく距離を推定できた
3. 大きさだけを変化させた場合、どの CNN もほぼ一定の距離
を推定してしまい、正しく距離を推定できなかった
以上の結果から、物体の縦位置が距離の推定には重要で
あることが明らかになった
Cited from the paper
Others
紹介する論文一覧とサマリ
• Sampling-free Epistemic Uncertainty Estimation
Using Approximated Variance Propagation
• AdaTransform: Adaptive Data Transformation
• Many Task Learning With Task Routing
Sampling-free Epistemic Uncertainty
Estimation Using Approximated Variance
Propagation
Oral
Links
paper code video
Summary
• 未知のデータに対するモデルの信頼性を測ることができる epistemic uncertainty を、
Monte-Carlo Dropout のような sampling を用いずに推定する
• 数十~数百回の forward 計算を必要とする sampling ベースの手法と異なり、
epistemic uncertainty の推定を大幅に高速化した
• classification task および regression task の両方において提案手法を評価し、
提案手法の有効性を示した
Cited from the paper
Method
• Dropout などの noise レイヤに起因する activation の covariance matrix を求め、
それを一層ずつ伝搬させていくことで、ネットワークの出力に対する不確かさを得る
• 全結合や畳み込みなどの線形な演算であれば、重みパラメータを用いることで
covariance matrix を伝搬させることができる :
• 活性化関数など非線形な演算が含まれる場合、一次近似によって線形化し、
ヤコビアンを用いることで、近似的に covariance matrix を伝搬させる:
Cited from the paper
Cited from the paper
Method
• CNN の特徴マップに対する covariance matrix の要素数は (C×H×W)^2 でありメモリ効率が悪い
• 畳み込みでは、近隣の activation のみが非ゼロの共分散を持つ
• さらに、ReLU では負の activation がゼロに切り上げられるので、ReLU を作用させるたびに activation の
不確かさが減り、近隣の actication 間の共分散もほぼゼロとみなせるようになる
• よって、多くのCNNで用いられる畳み込み + ReLU においては、covariance matrix の対角成分
(要素数: C×H×W) だけを考慮すれば十分
Cited from the paper
Results: Semantic Segmentation
• Bayesian SegNet を CamVid で学習・評価
• MC-dropout (N=50) で求めた uncertainty と提案手法で求めた uncertainty は定性的によく一致
• 分類精度と uncertainty の関係もよく一致している
• sample に比例して推論時間が増える MC-dropout に比べ、提案手法はかなり高速
Cited from the paper
Cited from the paper
Results: Depth Regression
• 単眼 depth 推定モデルに対し、最後の conv の直前に dropout を入れ、KITTI で学習・評価
• MC-dropout (N=50) で求めた uncertainty と提案手法で求めた uncertainty は定性的によく一致している
• depth の推定精度と uncertaity の関係もよく一致している
• synthetic data での実験と同じく、 MC-dropout の sample 数を増やしていくと、 uncertainty が提案手法に
よって求めた uncertainty に漸近している
Cited from the paper Cited from the paper
AdaTransform: Adaptive Data Transformation
Oral
Links
paper video
Summary
• 学習中に適応的に Augmentation パラメータの更新を行う新たな
Image Augmentation フレームワークの提案
• 課題: 従来の Image Augmentation はドメインやデータセットの性質に依存し、
学習中は更新されず固定
• 学習時にはデータの Invariance を高め、かつテストに時は Invariance を軽減する
ような Transformer を学習したいというモチベーション
cited from the paper
Method
• 学習向けとテスト向けの Transform を同時に学習
• Competitive Task(学習向け):
• 分類器 Loss と Discriminator Score の和を最大化
• 分類器にとって難しく、かつ分布から外れない Transform を学習したい
• Cooperative Task(テスト向け):
• 分類器 Loss を最小化
• 分類器にとって簡単な Transform を学習したい
• Discriminator をかませることで、Transformer が分布から外れた画像を出力することを防
いでいる
cited from the paper
Method
• Target Network は、Transform を行った Loss と行わない Loss の和を最小化する
ように学習
• 微細な変化を加える Meta-transform を定義してそれらを K ステップ行い、
各ステップに報酬を割り当てる。サンプリングと Policy Gradient を用いて Backward
(言語生成等でも用いられるテクニック)
cited from the paper
Results
• Classification, Pose Estimation, Face Alignment の3タスクで評価
• CIFAR, MPII(pose), LSP(pose), NME(face alignment)
• ベンチマーク結果:CIFAR においては既存の Auto Augment よりも探索時間が
少なく Competitive な精度を達成
• Pose Estimation と Face Alignment においては既存の Adversarial Augmentation
と比較して精度が向上した
• Testing Perturbation に対するロバスト性が高い
cited from the paper
Many Task Learning With Task Routing
Oral
Links
paper code video
Summary
• 一定割合の重みはタスク間で共有しつつ、タスク固有の重みも保持するための
Task Routing Layer (TRL) を導入
• タスク数が20を超える場合のマルチタスクを Many Task Learning (MaTL) と
定義し、 従来の Multi Task Learning (MTL) と区別
• マルチタスク学習におけるタスク数のスケーラビリティを向上させ、最大 312 tasks を同時
に解かせている。複数の MTL ベンチマークで SOTA
cited from the paper
Method
• 本論文で扱う MTL は、補助タスクの学習によってメインタスクの精度向上を
期待する Asymmetric MTL は目的としない
• TRL は Conv の出力マップに対するマスクとして働き、一定割合の特徴マップを
無効化する
• Route(マスク)は学習開始時にタスク毎にランダムに設定され、学習中は更新無く保持さ
れる
• タスク毎のサブネットが固定なので、他タスクの学習による悪影響を受けづらい
cited from the paper
Method
• Layer の位置は BN の後(Conv → BN → TRL → ReLU)
• 共有率 σ によって全タスクで共有される重みの割合が決まる
• イテレーションごとに学習タスクをランダムに選択し、そのタスクの TRを適用する
• 入力 X を         
• Route(マスク)を      
• TRL は
cited from the paper
Results
• UCSD Birds, Visual Decathlon, その他多数のベンチマークで評価
• Birds 312 tasksで Accuracy 66.5, VDで Score 2919.26 と SOTA
• 共有率 σ は本実験においては 0.4 が最良だった
cited from the paper
cited from the paper
Results
• UCSD Birds データセットにおける、タスク数と精度の関係
• タスク数が大幅に増加しても、 TRL を用いた本手法は精度を維持
cited from the paper

Más contenido relacionado

La actualidad más candente

[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View SynthesisDeep Learning JP
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII
 
SSII2020 [OS2-03] 深層学習における半教師あり学習の最新動向
SSII2020 [OS2-03] 深層学習における半教師あり学習の最新動向SSII2020 [OS2-03] 深層学習における半教師あり学習の最新動向
SSII2020 [OS2-03] 深層学習における半教師あり学習の最新動向SSII
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )cvpaper. challenge
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted WindowsDeep Learning JP
 
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...Deep Learning JP
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fieldscvpaper. challenge
 
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...Deep Learning JP
 
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual VideosDeep Learning JP
 
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...harmonylab
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion ModelsDeep Learning JP
 
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)Yoshitaka Ushiku
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language SupervisionDeep Learning JP
 

La actualidad más candente (20)

[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
 
SSII2020 [OS2-03] 深層学習における半教師あり学習の最新動向
SSII2020 [OS2-03] 深層学習における半教師あり学習の最新動向SSII2020 [OS2-03] 深層学習における半教師あり学習の最新動向
SSII2020 [OS2-03] 深層学習における半教師あり学習の最新動向
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
 
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
 
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
 
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
 
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
 
Semantic segmentation
Semantic segmentationSemantic segmentation
Semantic segmentation
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
 

Similar a ICCV 2019 論文紹介 (26 papers)

オープンソースのIoT向けスケールアウト型データベース GridDB 〜性能ベンチマーク結果とOSSを利用したビッグデータ分析環境〜
オープンソースのIoT向けスケールアウト型データベース GridDB 〜性能ベンチマーク結果とOSSを利用したビッグデータ分析環境〜オープンソースのIoT向けスケールアウト型データベース GridDB 〜性能ベンチマーク結果とOSSを利用したビッグデータ分析環境〜
オープンソースのIoT向けスケールアウト型データベース GridDB 〜性能ベンチマーク結果とOSSを利用したビッグデータ分析環境〜griddb
 
200702material hirokawa
200702material hirokawa200702material hirokawa
200702material hirokawaRCCSRENKEI
 
CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)MasanoriSuganuma
 
ソフトウェア志向の組込みシステム協調設計環境
ソフトウェア志向の組込みシステム協調設計環境ソフトウェア志向の組込みシステム協調設計環境
ソフトウェア志向の組込みシステム協調設計環境Hideki Takase
 
JCBの Payment as a Service 実現にむけたゼロベースの組織変革とテクニカル・イネーブラー(NTTデータ テクノロジーカンファレンス ...
JCBの Payment as a Service 実現にむけたゼロベースの組織変革とテクニカル・イネーブラー(NTTデータ テクノロジーカンファレンス ...JCBの Payment as a Service 実現にむけたゼロベースの組織変革とテクニカル・イネーブラー(NTTデータ テクノロジーカンファレンス ...
JCBの Payment as a Service 実現にむけたゼロベースの組織変革とテクニカル・イネーブラー(NTTデータ テクノロジーカンファレンス ...NTT DATA Technology & Innovation
 
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向Yusuke Uchida
 
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...Deep Learning JP
 
第11回 配信講義 計算科学技術特論B(2022)
第11回 配信講義 計算科学技術特論B(2022)第11回 配信講義 計算科学技術特論B(2022)
第11回 配信講義 計算科学技術特論B(2022)RCCSRENKEI
 
最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17Masayoshi Kondo
 
テスト 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第33回】
テスト 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第33回】テスト 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第33回】
テスト 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第33回】Tomoharu ASAMI
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定Morpho, Inc.
 
実装(2) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第31回】
実装(2) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第31回】実装(2) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第31回】
実装(2) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第31回】Tomoharu ASAMI
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイyohei okawa
 
2012-03-08 MSS研究会
2012-03-08 MSS研究会2012-03-08 MSS研究会
2012-03-08 MSS研究会Kimikazu Kato
 
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...de:code 2017
 
CNNの構造最適化手法について
CNNの構造最適化手法についてCNNの構造最適化手法について
CNNの構造最適化手法についてMasanoriSuganuma
 
Azure Antenna AI 概要
Azure Antenna AI 概要Azure Antenna AI 概要
Azure Antenna AI 概要Miho Yamamoto
 

Similar a ICCV 2019 論文紹介 (26 papers) (20)

オープンソースのIoT向けスケールアウト型データベース GridDB 〜性能ベンチマーク結果とOSSを利用したビッグデータ分析環境〜
オープンソースのIoT向けスケールアウト型データベース GridDB 〜性能ベンチマーク結果とOSSを利用したビッグデータ分析環境〜オープンソースのIoT向けスケールアウト型データベース GridDB 〜性能ベンチマーク結果とOSSを利用したビッグデータ分析環境〜
オープンソースのIoT向けスケールアウト型データベース GridDB 〜性能ベンチマーク結果とOSSを利用したビッグデータ分析環境〜
 
200702material hirokawa
200702material hirokawa200702material hirokawa
200702material hirokawa
 
CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)
 
ソフトウェア志向の組込みシステム協調設計環境
ソフトウェア志向の組込みシステム協調設計環境ソフトウェア志向の組込みシステム協調設計環境
ソフトウェア志向の組込みシステム協調設計環境
 
JCBの Payment as a Service 実現にむけたゼロベースの組織変革とテクニカル・イネーブラー(NTTデータ テクノロジーカンファレンス ...
JCBの Payment as a Service 実現にむけたゼロベースの組織変革とテクニカル・イネーブラー(NTTデータ テクノロジーカンファレンス ...JCBの Payment as a Service 実現にむけたゼロベースの組織変革とテクニカル・イネーブラー(NTTデータ テクノロジーカンファレンス ...
JCBの Payment as a Service 実現にむけたゼロベースの組織変革とテクニカル・イネーブラー(NTTデータ テクノロジーカンファレンス ...
 
MIRU2018 tutorial
MIRU2018 tutorialMIRU2018 tutorial
MIRU2018 tutorial
 
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向
 
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
 
第11回 配信講義 計算科学技術特論B(2022)
第11回 配信講義 計算科学技術特論B(2022)第11回 配信講義 計算科学技術特論B(2022)
第11回 配信講義 計算科学技術特論B(2022)
 
最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17
 
テスト 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第33回】
テスト 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第33回】テスト 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第33回】
テスト 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第33回】
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
 
実装(2) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第31回】
実装(2) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第31回】実装(2) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第31回】
実装(2) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第31回】
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイ
 
2012-03-08 MSS研究会
2012-03-08 MSS研究会2012-03-08 MSS研究会
2012-03-08 MSS研究会
 
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
 
CNNの構造最適化手法について
CNNの構造最適化手法についてCNNの構造最適化手法について
CNNの構造最適化手法について
 
TVM の紹介
TVM の紹介TVM の紹介
TVM の紹介
 
Azure Antenna AI 概要
Azure Antenna AI 概要Azure Antenna AI 概要
Azure Antenna AI 概要
 

Último

デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 

Último (8)

デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 

ICCV 2019 論文紹介 (26 papers)