SlideShare a Scribd company logo
1 of 29
CVPR2017参加報告
(速報版・二日目)
2017.7.23(現地時間)
@a_hasimoto
このスライドについて
1. 本会議での発表の内容を
2. 印象に残ったものだけ
3. その時の印象と,あとでのreferenceをたどるために
メモしたものです.
9/18(月・祝),関西CVPRML勉強会にて,解説を予定.
→ https://twitter.com/kansaicvprml
私の理解が深まるので,勘違いの指摘や質問,リンクの紹介,そ
の他議論大歓迎.
二日目総評
• やはりMLはDeep Learningが90%以上.
• データセットを新たに用意した/複数のデータセットを組合せた
• 入出力が従来と異なる問題にCNN(+RNN)を適用した
• semi/weakly-supervised learning
• self-supervised learning
• 従来のものをネットワーク等の工夫で強化した
• やはり人が集まるのは,後者の2つ
• しかし,少数派でもある.
• 入力x出力,または複数データセットにより,
組合せ爆発的な研究課題を人海戦術的に解いている印象
• 技術的には面白くない.アルゴリズム << データセット
メモを取りました
• 昨日は夕方に思いついてPPTを作り始めましたが,再編集が思
いの外大変だったので,ほぼ,そのまま載せられる形でメモを
取りました
• メモを取ったものを,自分が面白いと思ったものが大体前の方
に来るようにゆるーくソート.
• 個人の興味や専門分野,現在取り組んでいる課題などによるもので,
実際の論文の質の評価ではありませんので誤解の無いようお願いしま
す
• 注)本当にメモなのです.ご了承下さい.
Making Deep Neural Networks Robust to Label
Noise: A Loss Correction Approach
Giorgio Patrini, Alessandro Rozza, Aditya Krishna Menon, Richard Nock, Lizhen Qu
• [Malach & Shalev Schwartz 17] data scienceはラベルを空中から取
り出す時代になった.
• Noise-aware deep netsなど
• CVとPRのコミュニティでそれぞれ類似の関連研究発表あり.
• Two procedures for loss correction
• Backward loss correction と Forward loss correction
従来手法と違い,従来のNNに適用可能(ネットワーク構造の制限なし!)
• 間違えている可能性を定式化して考えている→数学的な理論的な保証がある
らしい,詳細は論文を読まないと不明
• 前提としてp(y^hat|x)が非常によく特定できる,としている
(次ページ)
Making Deep Neural Networks Robust to Label
Noise: A Loss Correction Approach
(続き)
• Algorithm
1. Train the neural net on noisy data.推定ラベルはかなり正しい,は
ず.
2. re-train the network correcting with forward/backward loss
• ノイズが0.8くらいまでは結構いける.
• 0.8→割合??80%ノイズ!? または0.8%ノイズ? 詳細は論文をみる必要
あり
• データセット: 1M noisy label, 500k clean labels (服飾?)
• 最後の結果の表がよくわからなかった.
• limitation: クラス数が多い場合は辛いらしい(著者曰く)
Learning From Simulated and Unsupervised
Images Through Adversarial Training
Ashish Shrivastava et al. BEST PAPER
• https://machinelearning.apple.com/2017/07/07/GAN.html
• 高精度の達成には「Large, Diverse, Perfectly annotated」Datasetが大事.
• simulatorの出力 → CNN → 結果 ができると上記は満たせる.
• ただし,simulatorの出力とリアルには差がある.
• Synthetic imageをsimulatorで作る → SimGAN
• refiner networkでさらに本物っぽく(ノイズが加わる?non-realistic artifactがない,らし
い)する.
• RefinerにはAdversarial Networkで学習した生成器を使う
• simulation→realっぽい画像を生成,例えばカメラノイズやDepth画像の欠け具合など.
• 手の訓練データ.かなり本物のセンサぽい感じになっている!
• このやり方は,センサデータからのregressionに対してはスタン
ダードになりそうな雰囲気.
Inverse Compositional Spatial Transformer
Networks
Chen-Hsuan Lin, Simon Lucey
• spatial variationsにロバストにしたい
• 現状は学習データのバリエーションを増やすしかない.
• つまり,Data Augmentation + Pooling
• もっと直接的に対策できないか?
• warpingによる形状の正規化をend-to-endで学習してしまえば良い!
• Boundary effect: warpするときに画像を外挿をしないといけな
いような場合はヤバい.
• 位置ズレの量が大きい場合は困難 (optical flowの一般的な問題)
• 実験は,数字や標識で行っている
→外形以外のバリエーションが多いターゲットでも大丈夫???(質問できず)
Densely Connected Convolutional Networks
Gao Huang, Zhuang Liu, Laurens van der Maaten, Kilian Q.
Weinberger BEST PAPER
• もうみんな知っちゃってるDenseNet
• 層の再利用性を高めることで,
• パラメタ数が少ないままで,
• よりDeepな構造を実現.
• Backpropagationの伝播もいい感じになる.
• 次回作があるらしい.
• Multi-Scale DenseNet
• https://arxiv.org/pdf/1703.09844.pdf
• DenseNetよりちょっと早くて同程度?の精度
ShapeOdds: Variational Bayesian Learning of
Generative Shape Models,
Shireen Elhabian, Ross Whitaker
• シルエットは大事
• 形状情報の多くを占める
• 0/1でsparseな情報
• 情報として他の問題より単純なので,カリキュラムラーニングなどの
初期ステップとして利用することで有用性大(と理解)
• 形状だけなら,大きな欠損などからもCNNベースで復元ができ
る
• 他のタスクと組み合わせることでポテンシャルが発揮される可
能性があり,結構面白そうと感じた.
Interpretable Structure-Evolving LSTM,
Xiaodan Liang et al.
• 従来のLSTMのグラフ構造はhand-crafted
• LSTMの構造を学習中に最適化しよう,という論文.
• ノード数が多めの初期のグラフから,ノードをマージしていく
(stochastically merging nodes)
• semantical region segmentationで評価
→ super pixel画像とdeep conv netの出力をまとめてLSTMに
入力し,評価.
Semi-Supervised Deep Learning for Monocular
Depth Map Prediction
Yevhen Kuznietsov, Jörg Stückler, Bastian Leibe
• 単独画像での深度予測(車でドライブしているときの画像)
• ステレオ視したデータと,ground truthを使って学習.
• なぜ両方使うのか?
→ステレオ視したデータは間違いがあるから.
• 上手くこれらを組合せた
(モデルの図だけでは理解できなかった)
• 誤差 4.8m(supervised only) → 4.6m(semi supervised)へ
A Hierarchical Approach for Generating
DescriptiveImage Paragraphs,
Jonathan Krause, Justin Johnson,Ranjay Krishna, Li Fei-Fei
• 長いキャプションを作る.
• DenseCaptioningの結果を利用.
• DenseCaptioningの結果を,全部poolして文章生成.
• 新しい技術…といえるのか???
• 実現されたものはもちろん新しい.
• DenseCaptioningの段階でほぼできていた,とも言える.
Synthesizing Normalized Faces From Facial
Identity Features
Forrester Cole et al.
• 表情や背景,顔の角度を正規化して精度向上!
• 正規化された顔のみで学習
• 学習次に顔のKeypointも抽出して,顔の正規化処理をしたもので学習.
• 顔のkeypoint抽出や正規化の部分はCNNベースではない?
• 逆に言えば,その部分は学習なしでも既存技術でクリアできている?
• 従来のkeypoint抽出などがオクルージョンに強い
• 顔の認識もオクルージョンには強くなる.
• 逆にCNNを使っていない部分は,そうと言ってくれないと不安
になる….
Re-Sign: Re-Aligned End-To-End Sequence
Modelling With Deep Recurrent CNN-HMMs
Oscar Koller et al.
• CNN-LSTM in HMM
• 手話認識 (over 1k motions)
• BLSTM layer と re-alignments
• 構造がよくわからなかったが,コンパクトで効率的な表現であ
るといっている.
# 多分,会場の誰もが,よくわからなかった雰囲気.
• 手話以外に使えるのか疑問.動作がかなり綺麗な構造をしていないと
HMMは動作しないのでは???
• 逆にかなりクラス内分散の小さい隠れ状態が仮定出来れば良く動く??
Social Scene Understanding: End-To-End
Multi-Person Action Localization and Collective
ActivityRecognition Timur Bagautdinov et al
• 従来は,それぞれの人物を検出→追跡→hierarchical modelな
どの従来の構造化モデルへ入力してシーン理解.
• これをend-to-endにしよう!
• 選手全部を一気に検出
• 検出した選手をフレーム間でMatching
→ 難しくないらしい.なんで??
→質疑で判明: 間違えてもシーン理解に大きな影響がない.
• 評価に使ったデータセット
• Volleyball Dataset [Ibrahim et al., CVPR 2016]
• Brainwash Dataset: Multi-person (head) detection [CVPR2016]
Detangling People: Individuating Multiple Close
People and Their Body Parts via Region
Assembly Hao Jiang, Kristen Grauman
• ディープラーニングではなくて最適化ですよ!
• ボーンモデルとbounding boxは違う問題.でも,これを上手い
こと合体できない? → body partsの検出結果を統合して
bounding boxへ.
• bottom up region assembly: スーパーピクセルなどを利用?
• Hand-craftedなパーツ間関係のグラフの関係を使う.
• グラフ上での最適化をよくある感じのコスト関数の最小化で解
いている.計算は時間がかかりそう.
• サイズの制約とか色々なものを入れている→作り込みが凄い.
• ただし,比較対象は古い.どれも4,5年前の手法に見える.
DESIRE: Distant Future Prediction in Dynamic
Scenes With Interacting Agents
Namhoon Lee, et al.
• 交通シーンでの未来予測→軌跡予測.
• 分布として予測される(非決定的)
• 車がどちらに曲がるかは不明→難しい!
• 全部の可能性をAgentベースで?出す
↑Agentと言いながらRNNしか使っていないように見える.
• ネットワークモデルだけではなかなか不明. RNNベース.
Deep Metric Learning via Facility Location
Hyun Oh Song, Stefanie Jegelka, Vivek Rathod, Kevin Murphy
• 意味的な距離をdeep metric learningで学ばせたい.
• N枚の入力画像に対してNxNの行列を出力するような形
(実際には画像対毎に判定するようになっているかもしれない)
• クラスタリングの結果のNMIスコアを最大化するように学習
(これをバッチ処理でやるところなどで色々工夫がある)
• 未知の物体に対して,どれくらいうまくいくのか不明.
• 昨日のRed wine Redo tomatoに通じる何かを感じる.
• 精度がクラスタリング手法などに依存しそう.
Binge Watching: Scaling Affordance Learning
FromSitcoms
Xiaolong Wang, Rohit Girdhar, Abhinav Gupta
• Affordanceを視覚情報から認識できるようにしたい.
• アノテーションデータが無い.
• 人のアノテーション? シミュレーション?
• アイディア: テレビドラマから,データセットを作成.
• アメリカのホームドラマは同じ家具のシーンがたくさんだからできるように思える(個
人の感想)
• 具体的には,シーンAで人物の姿勢を抽出→別のシーンに映った同じ場所に,その姿勢
データを投影してデータを水増し.
• Affordanceがわかれば,ポーズの事前確率がわかる,などなど.
• 応用が様々なのは激しく同意.
• アメリカのホームドラマみたいな環境がどれだけあるのか,とも思うけれど,同時に,
ある環境でできるようになると,今度は転移学習可能になるから,一気にどこでもでき
るようになる(する)という戦略?
Weakly Supervised Semantic Segmentation
Using Web-Crawled Videos
Seunghoon Hong et al.
• ビデオを使うと,動いているものの領域が出せる→単一画像の
領域分割の学習できるんじゃない?
• 問題: youtube videoは余計なものが沢山はいっているよね.
• 字幕
• アニメっぽいキャラクターやCGなど
• 余計なものを事前の学習で除く.
• 51.7%→58.7%
Fast Video Classification via Adaptive
Cascading of Deep Models
Haichen Shen et al.
• 毎日見たものを全部記録したい.
• 計算コストやばい
• 1分のうちに現れる主要な物体の数は10個くらい?
→dominant class
• dominant classだけcompactなCNNで検出,それ以外の大量の
クラスはDeep learningで検出.
# なんでSSDとかFaster R-CNNじゃだめなの?
# それより早い精度が欲しい?歩行シーンで???
• 苦労しているが,既存手法の組合せという印象.淘汰されそう
に感じるが….
Dual Attention Networks for Multimodal
Reasoning and Matching
Hyeonseob Nam, Jung-Woo Ha, Jeonghee Kim
• Multimodal ReasoningとMultimodal Matching に適したネッ
トワークの提案
• MR: 入力がImageとText,応用は Visual Q/A, 機械翻訳など
• MM: imageとtextの間でのマッチング.応用はテキスト検索など.
• 後は,それ用のネットワーク構造の説明がラフに行われた.
Scalable Person Re-Identification on
SupervisedSmoothed Manifold
Song Bai, Xiang Bai, Qi Tian
• manifold ができるけど,その類似度空間を教師ありで学習した
ら良くなった.
Person Re-Identification in the Wild
Liang Zheng,Hengheng Zhang, Shaoyan Sun, Manmohan Chandraker, YiYang, Qi Tian
• 人物検出とPerson Re-identificationをいい感じに統合.
Joint Detection and Identification Feature
Learning for Person Search
Tong Xiao, Shuang Li, Bochao Wang
• 人物の特定の学習
• データセットの中に写り込んでしまう(がアノテーションされ
ていない)人が,学習途中で検出されるようになったら,どん
どん学習サンプルに入れてしまう
• 2%くらい精度が上がる.
ポスターまで記述するのは力尽きました
• 希望があれば関西CVPRML勉強会で解説.
• 良く見て聴いてきたリスト(解説できないのは除外,赤は面白いと思ったもの,青は面
白そうだけどいけなかったけど後で読みたい=解説頼まれたらやるもの):
• Procedural Generation of Videos to Train Deep Action Recognition Networks, César
Roberto de Souza, Adrien Gaidon, Yohann Cabon, Antonio Manuel López
• GeneratingtheFutureWithAdversarialTransformers, Carl Vondrick, Antonio Torralba
• BIND: Binary Integrated Net Descriptors for Texture-Less Object Recognition, Jacob Chan,
Jimmy Addison Lee, Qian Kemao
• GrowingaBrain:Fine-Tuningby Increasing Model Capacity, Yu-Xiong Wang, Deva Ramanan,
Martial Hebert
• A-Fast-RCNN: Hard Positive Generation via Adversary for Object Detection, Xiaolong Wang,
Abhinav Shrivastava, Abhinav Gupta
• Kernel Pooling for Convolutional Neural Networks, Yin Cui, Feng Zhou, Jiang Wang, Xiao
Liu, Yuanqing Lin, Serge Belongie
• Learning Cross-Modal Embeddings for Cooking Recipes and Food Images, Amaia Salvador,
Nicholas Hynes, Yusuf Aytar, Javier Marin, Ferda Ofli, Ingmar Weber, Antonio Torralba
• pic2recipe.csail.mit.edu
続き(1)
• 希望があれば関西CVPRML勉強会で解説
• 良く見て聴いてきたリスト(解説できないのは除外,赤は面白いと思ったもの,青は面白そ
うだけどいけなかったけど後で読みたい=解説頼まれたらやるもの):
• Scene Graph Generation by Iterative Message Passing, Danfei Xu, Yuke Zhu, Christopher B.
Choy, Li Fei-Fei
• ようはOpenPoseの手法に近いよね.
• Grassmannian Manifold Optimization Assisted Sparse Spectral Clustering, Qiong Wang, Junbin
Gao, Hong Li
• 発表者がいなくて,代理の人が質問があれば本人を呼び出す,とか言われましたが,待っている時間もったいない.
• From Motion Blur to MotionFlow: A Deep Learning Solution for Removing Heterogeneous
Motion Blur, Dong Gong, Jie Yang, Lingqiao Liu, Yanning Zhang, Ian Reid, Chunhua Shen, Anton
van den Hengel, Qinfeng Shi
• blurカーネルは線形であると仮定して,画素ごとにlinear blurをディープラーニングで推定.
• Noisy Softmax: Improving the Generalization Ability of DCNN via Postponing the Early Softmax
Saturation, Binghui Chen, Weihong Deng, Junping Du
• LSTM Self-Supervision for Detailed Behavior Analysis, Biagio Brattoli, Uta Büchler, Anna-Sophia
Wahl, Martin E. Schwab, Björn Ommer
続き(2)
• 希望があれば関西CVPRML勉強会で解説
• 良く見て聴いてきたリスト(解説できないのは除外,赤は面白いと思ったもの,青は面白そうだけ
どいけなかったけど後で読みたい=解説頼まれたらやるもの):
• Deep Feature Flow for Video Recognition, Xizhou Zhu, Yuwen Xiong, Jifeng Dai, Lu Yuan,
Yichen Wei
• semantic segmentationとoptical flowをCNNで両方解いたら精度上がるよね,という話.
• 当たり前だし,これもCNN使った系に見える….
• Semantic Regularisation for Recurrent Image Annotation, Feng Liu, Tao Xiang, Timothy M.
Hospedales, Wankou Yang, Changyin Sun
• CNNとRNNの接続部分の連結は意味的な繋がりが弱く,重みの伝播がしにくい→CNNとRNN別々のpretrainingが必要
• 連結部に対して,hand-craftedな特徴量による推定結果(?)を入力として差し込むような層を追加すると精度向上.
• Collaborative Summarization of Topic-Related Videos, Rameswar Panda, Amit K. Roy-
Chowdhury
• 誰でもしっている当たり前のシーンしか抽出されなさそうに見えるが,それが目的の模様.

More Related Content

What's hot

CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日Atsushi Hashimoto
 
CVPR2018 参加報告(速報版)2日目
CVPR2018 参加報告(速報版)2日目CVPR2018 参加報告(速報版)2日目
CVPR2018 参加報告(速報版)2日目Atsushi Hashimoto
 
オトナのプログラミング勉強会 オトナのDeep Learning 2016-11
オトナのプログラミング勉強会 オトナのDeep Learning 2016-11オトナのプログラミング勉強会 オトナのDeep Learning 2016-11
オトナのプログラミング勉強会 オトナのDeep Learning 2016-11Katsuhiro Morishita
 
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文cvpaper. challenge
 
卒論執筆・スライド作成のポイント
卒論執筆・スライド作成のポイント卒論執筆・スライド作成のポイント
卒論執筆・スライド作成のポイントTsubasa Hirakawa
 
【CVPR 2020 メタサーベイ】Vision & Other Modalities
【CVPR 2020 メタサーベイ】Vision & Other Modalities【CVPR 2020 メタサーベイ】Vision & Other Modalities
【CVPR 2020 メタサーベイ】Vision & Other Modalitiescvpaper. challenge
 
コンピュータビジョン分野メジャー国際会議 Award までの道のり
コンピュータビジョン分野メジャー国際会議 Award までの道のりコンピュータビジョン分野メジャー国際会議 Award までの道のり
コンピュータビジョン分野メジャー国際会議 Award までの道のりcvpaper. challenge
 
捗るリコメンドシステムの裏事情(ハッカドール)
捗るリコメンドシステムの裏事情(ハッカドール)捗るリコメンドシステムの裏事情(ハッカドール)
捗るリコメンドシステムの裏事情(ハッカドール)mosa siru
 
研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有Naoaki Okazaki
 
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 [最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 Yuki Arase
 
ECCV2020 オーラル論文完全読破 (2/2)
ECCV2020 オーラル論文完全読破 (2/2) ECCV2020 オーラル論文完全読破 (2/2)
ECCV2020 オーラル論文完全読破 (2/2) cvpaper. challenge
 
画像認識 6.3-6.6 畳込みニューラル ネットワーク
画像認識 6.3-6.6 畳込みニューラルネットワーク画像認識 6.3-6.6 畳込みニューラルネットワーク
画像認識 6.3-6.6 畳込みニューラル ネットワークShion Honda
 

What's hot (15)

CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日
 
CVPR2018 参加報告(速報版)2日目
CVPR2018 参加報告(速報版)2日目CVPR2018 参加報告(速報版)2日目
CVPR2018 参加報告(速報版)2日目
 
オトナのプログラミング勉強会 オトナのDeep Learning 2016-11
オトナのプログラミング勉強会 オトナのDeep Learning 2016-11オトナのプログラミング勉強会 オトナのDeep Learning 2016-11
オトナのプログラミング勉強会 オトナのDeep Learning 2016-11
 
cvpaper.challengeについて
cvpaper.challengeについてcvpaper.challengeについて
cvpaper.challengeについて
 
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
 
CVPR 2017 報告
CVPR 2017 報告CVPR 2017 報告
CVPR 2017 報告
 
卒論執筆・スライド作成のポイント
卒論執筆・スライド作成のポイント卒論執筆・スライド作成のポイント
卒論執筆・スライド作成のポイント
 
【CVPR 2020 メタサーベイ】Vision & Other Modalities
【CVPR 2020 メタサーベイ】Vision & Other Modalities【CVPR 2020 メタサーベイ】Vision & Other Modalities
【CVPR 2020 メタサーベイ】Vision & Other Modalities
 
コンピュータビジョン分野メジャー国際会議 Award までの道のり
コンピュータビジョン分野メジャー国際会議 Award までの道のりコンピュータビジョン分野メジャー国際会議 Award までの道のり
コンピュータビジョン分野メジャー国際会議 Award までの道のり
 
捗るリコメンドシステムの裏事情(ハッカドール)
捗るリコメンドシステムの裏事情(ハッカドール)捗るリコメンドシステムの裏事情(ハッカドール)
捗るリコメンドシステムの裏事情(ハッカドール)
 
研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有
 
CVPR 2019 速報
CVPR 2019 速報CVPR 2019 速報
CVPR 2019 速報
 
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 [最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
 
ECCV2020 オーラル論文完全読破 (2/2)
ECCV2020 オーラル論文完全読破 (2/2) ECCV2020 オーラル論文完全読破 (2/2)
ECCV2020 オーラル論文完全読破 (2/2)
 
画像認識 6.3-6.6 畳込みニューラル ネットワーク
画像認識 6.3-6.6 畳込みニューラルネットワーク画像認識 6.3-6.6 畳込みニューラルネットワーク
画像認識 6.3-6.6 畳込みニューラル ネットワーク
 

Similar to CVPR2017 参加報告 速報版 本会議 2日目

[DLHacks 実装]Network Dissection: Quantifying Interpretability of Deep Visual R...
[DLHacks 実装]Network Dissection: Quantifying Interpretability of Deep Visual R...[DLHacks 実装]Network Dissection: Quantifying Interpretability of Deep Visual R...
[DLHacks 実装]Network Dissection: Quantifying Interpretability of Deep Visual R...Deep Learning JP
 
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 [旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 Yuki Arase
 
CNNの可視化手法Grad-CAMの紹介~CNNさん、あなたはどこを見ているの?~ | OHS勉強会#6
CNNの可視化手法Grad-CAMの紹介~CNNさん、あなたはどこを見ているの?~ | OHS勉強会#6CNNの可視化手法Grad-CAMの紹介~CNNさん、あなたはどこを見ているの?~ | OHS勉強会#6
CNNの可視化手法Grad-CAMの紹介~CNNさん、あなたはどこを見ているの?~ | OHS勉強会#6Toshinori Hanya
 
Introduction to "Facial Landmark Detection by Deep Multi-task Learning"
Introduction to "Facial Landmark Detection by Deep Multi-task Learning"Introduction to "Facial Landmark Detection by Deep Multi-task Learning"
Introduction to "Facial Landmark Detection by Deep Multi-task Learning"Yukiyoshi Sasao
 
[名古屋CV・PRML勉強会] ゼロからはじめたいDeep Learning
[名古屋CV・PRML勉強会] ゼロからはじめたいDeep Learning[名古屋CV・PRML勉強会] ゼロからはじめたいDeep Learning
[名古屋CV・PRML勉強会] ゼロからはじめたいDeep LearningHiroshi Fukui
 
モジュールの凝集度・結合度・インタフェース
モジュールの凝集度・結合度・インタフェースモジュールの凝集度・結合度・インタフェース
モジュールの凝集度・結合度・インタフェースHajime Yanagawa
 
【ECCV 2018】Deep Clustering for Unsupervised Learning of Visual Features
【ECCV 2018】Deep Clustering for Unsupervised Learning of Visual Features【ECCV 2018】Deep Clustering for Unsupervised Learning of Visual Features
【ECCV 2018】Deep Clustering for Unsupervised Learning of Visual Featurescvpaper. challenge
 
子どもの言語獲得のモデル化とNN Language ModelsNN
子どもの言語獲得のモデル化とNN Language ModelsNN 子どもの言語獲得のモデル化とNN Language ModelsNN
子どもの言語獲得のモデル化とNN Language ModelsNN Chiba Institute of Technology
 
デザインパターンとともに学ぶオブジェクト指向のこころ
デザインパターンとともに学ぶオブジェクト指向のこころデザインパターンとともに学ぶオブジェクト指向のこころ
デザインパターンとともに学ぶオブジェクト指向のこころjum paku
 
2014/5/29 東大相澤山崎研勉強会:パターン認識とニューラルネットワーク,Deep Learningまで
2014/5/29 東大相澤山崎研勉強会:パターン認識とニューラルネットワーク,Deep Learningまで2014/5/29 東大相澤山崎研勉強会:パターン認識とニューラルネットワーク,Deep Learningまで
2014/5/29 東大相澤山崎研勉強会:パターン認識とニューラルネットワーク,Deep LearningまでHokuto Kagaya
 
2018 07 02_dense_pose
2018 07 02_dense_pose2018 07 02_dense_pose
2018 07 02_dense_poseharmonylab
 
深層学習 - 画像認識のための深層学習 ②
深層学習 - 画像認識のための深層学習 ②深層学習 - 画像認識のための深層学習 ②
深層学習 - 画像認識のための深層学習 ②Shohei Miyashita
 
がんばろう!はじめてのDnn!
がんばろう!はじめてのDnn!がんばろう!はじめてのDnn!
がんばろう!はじめてのDnn!Shushi Namba
 
論文 Solo Advent Calendar
論文 Solo Advent Calendar論文 Solo Advent Calendar
論文 Solo Advent Calendar諒介 荒木
 
opensource and accessibility (Dec2000) Part 2
opensource and accessibility (Dec2000) Part 2opensource and accessibility (Dec2000) Part 2
opensource and accessibility (Dec2000) Part 2Takuya Nishimoto
 
内職がいらないくらいわかりやすいディープラーニング
内職がいらないくらいわかりやすいディープラーニング内職がいらないくらいわかりやすいディープラーニング
内職がいらないくらいわかりやすいディープラーニングKo Kikuta
 
Meta-Learning with Memory Augmented Neural Network
Meta-Learning with Memory Augmented Neural NetworkMeta-Learning with Memory Augmented Neural Network
Meta-Learning with Memory Augmented Neural NetworkYusuke Watanabe
 

Similar to CVPR2017 参加報告 速報版 本会議 2日目 (20)

[DLHacks 実装]Network Dissection: Quantifying Interpretability of Deep Visual R...
[DLHacks 実装]Network Dissection: Quantifying Interpretability of Deep Visual R...[DLHacks 実装]Network Dissection: Quantifying Interpretability of Deep Visual R...
[DLHacks 実装]Network Dissection: Quantifying Interpretability of Deep Visual R...
 
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 [旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
 
Eccv2018 report day3
Eccv2018 report day3Eccv2018 report day3
Eccv2018 report day3
 
Eccv2018 report day2
Eccv2018 report day2Eccv2018 report day2
Eccv2018 report day2
 
CNNの可視化手法Grad-CAMの紹介~CNNさん、あなたはどこを見ているの?~ | OHS勉強会#6
CNNの可視化手法Grad-CAMの紹介~CNNさん、あなたはどこを見ているの?~ | OHS勉強会#6CNNの可視化手法Grad-CAMの紹介~CNNさん、あなたはどこを見ているの?~ | OHS勉強会#6
CNNの可視化手法Grad-CAMの紹介~CNNさん、あなたはどこを見ているの?~ | OHS勉強会#6
 
Introduction to "Facial Landmark Detection by Deep Multi-task Learning"
Introduction to "Facial Landmark Detection by Deep Multi-task Learning"Introduction to "Facial Landmark Detection by Deep Multi-task Learning"
Introduction to "Facial Landmark Detection by Deep Multi-task Learning"
 
[名古屋CV・PRML勉強会] ゼロからはじめたいDeep Learning
[名古屋CV・PRML勉強会] ゼロからはじめたいDeep Learning[名古屋CV・PRML勉強会] ゼロからはじめたいDeep Learning
[名古屋CV・PRML勉強会] ゼロからはじめたいDeep Learning
 
深層学習入門
深層学習入門深層学習入門
深層学習入門
 
モジュールの凝集度・結合度・インタフェース
モジュールの凝集度・結合度・インタフェースモジュールの凝集度・結合度・インタフェース
モジュールの凝集度・結合度・インタフェース
 
【ECCV 2018】Deep Clustering for Unsupervised Learning of Visual Features
【ECCV 2018】Deep Clustering for Unsupervised Learning of Visual Features【ECCV 2018】Deep Clustering for Unsupervised Learning of Visual Features
【ECCV 2018】Deep Clustering for Unsupervised Learning of Visual Features
 
子どもの言語獲得のモデル化とNN Language ModelsNN
子どもの言語獲得のモデル化とNN Language ModelsNN 子どもの言語獲得のモデル化とNN Language ModelsNN
子どもの言語獲得のモデル化とNN Language ModelsNN
 
デザインパターンとともに学ぶオブジェクト指向のこころ
デザインパターンとともに学ぶオブジェクト指向のこころデザインパターンとともに学ぶオブジェクト指向のこころ
デザインパターンとともに学ぶオブジェクト指向のこころ
 
2014/5/29 東大相澤山崎研勉強会:パターン認識とニューラルネットワーク,Deep Learningまで
2014/5/29 東大相澤山崎研勉強会:パターン認識とニューラルネットワーク,Deep Learningまで2014/5/29 東大相澤山崎研勉強会:パターン認識とニューラルネットワーク,Deep Learningまで
2014/5/29 東大相澤山崎研勉強会:パターン認識とニューラルネットワーク,Deep Learningまで
 
2018 07 02_dense_pose
2018 07 02_dense_pose2018 07 02_dense_pose
2018 07 02_dense_pose
 
深層学習 - 画像認識のための深層学習 ②
深層学習 - 画像認識のための深層学習 ②深層学習 - 画像認識のための深層学習 ②
深層学習 - 画像認識のための深層学習 ②
 
がんばろう!はじめてのDnn!
がんばろう!はじめてのDnn!がんばろう!はじめてのDnn!
がんばろう!はじめてのDnn!
 
論文 Solo Advent Calendar
論文 Solo Advent Calendar論文 Solo Advent Calendar
論文 Solo Advent Calendar
 
opensource and accessibility (Dec2000) Part 2
opensource and accessibility (Dec2000) Part 2opensource and accessibility (Dec2000) Part 2
opensource and accessibility (Dec2000) Part 2
 
内職がいらないくらいわかりやすいディープラーニング
内職がいらないくらいわかりやすいディープラーニング内職がいらないくらいわかりやすいディープラーニング
内職がいらないくらいわかりやすいディープラーニング
 
Meta-Learning with Memory Augmented Neural Network
Meta-Learning with Memory Augmented Neural NetworkMeta-Learning with Memory Augmented Neural Network
Meta-Learning with Memory Augmented Neural Network
 

More from Atsushi Hashimoto

人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示-
人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示- 人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示-
人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示- Atsushi Hashimoto
 
ECCV2018参加速報(一日目)
ECCV2018参加速報(一日目)ECCV2018参加速報(一日目)
ECCV2018参加速報(一日目)Atsushi Hashimoto
 
PRMU GC第二期 無形概念認識
PRMU GC第二期 無形概念認識PRMU GC第二期 無形概念認識
PRMU GC第二期 無形概念認識Atsushi Hashimoto
 
Kusk Object Dataset: Recording Access to Objects in Food Preparation
Kusk Object Dataset: Recording Access to Objects in Food PreparationKusk Object Dataset: Recording Access to Objects in Food Preparation
Kusk Object Dataset: Recording Access to Objects in Food PreparationAtsushi Hashimoto
 
人工知能研究振興財団研究助成に対する成果報告
人工知能研究振興財団研究助成に対する成果報告人工知能研究振興財団研究助成に対する成果報告
人工知能研究振興財団研究助成に対する成果報告Atsushi Hashimoto
 
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本Atsushi Hashimoto
 

More from Atsushi Hashimoto (8)

Ocha 20191204
Ocha 20191204Ocha 20191204
Ocha 20191204
 
人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示-
人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示- 人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示-
人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示-
 
Eccv2018 report day4
Eccv2018 report day4Eccv2018 report day4
Eccv2018 report day4
 
ECCV2018参加速報(一日目)
ECCV2018参加速報(一日目)ECCV2018参加速報(一日目)
ECCV2018参加速報(一日目)
 
PRMU GC第二期 無形概念認識
PRMU GC第二期 無形概念認識PRMU GC第二期 無形概念認識
PRMU GC第二期 無形概念認識
 
Kusk Object Dataset: Recording Access to Objects in Food Preparation
Kusk Object Dataset: Recording Access to Objects in Food PreparationKusk Object Dataset: Recording Access to Objects in Food Preparation
Kusk Object Dataset: Recording Access to Objects in Food Preparation
 
人工知能研究振興財団研究助成に対する成果報告
人工知能研究振興財団研究助成に対する成果報告人工知能研究振興財団研究助成に対する成果報告
人工知能研究振興財団研究助成に対する成果報告
 
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
 

CVPR2017 参加報告 速報版 本会議 2日目

  • 2. このスライドについて 1. 本会議での発表の内容を 2. 印象に残ったものだけ 3. その時の印象と,あとでのreferenceをたどるために メモしたものです. 9/18(月・祝),関西CVPRML勉強会にて,解説を予定. → https://twitter.com/kansaicvprml 私の理解が深まるので,勘違いの指摘や質問,リンクの紹介,そ の他議論大歓迎.
  • 3. 二日目総評 • やはりMLはDeep Learningが90%以上. • データセットを新たに用意した/複数のデータセットを組合せた • 入出力が従来と異なる問題にCNN(+RNN)を適用した • semi/weakly-supervised learning • self-supervised learning • 従来のものをネットワーク等の工夫で強化した • やはり人が集まるのは,後者の2つ • しかし,少数派でもある. • 入力x出力,または複数データセットにより, 組合せ爆発的な研究課題を人海戦術的に解いている印象 • 技術的には面白くない.アルゴリズム << データセット
  • 4. メモを取りました • 昨日は夕方に思いついてPPTを作り始めましたが,再編集が思 いの外大変だったので,ほぼ,そのまま載せられる形でメモを 取りました • メモを取ったものを,自分が面白いと思ったものが大体前の方 に来るようにゆるーくソート. • 個人の興味や専門分野,現在取り組んでいる課題などによるもので, 実際の論文の質の評価ではありませんので誤解の無いようお願いしま す • 注)本当にメモなのです.ご了承下さい.
  • 5. Making Deep Neural Networks Robust to Label Noise: A Loss Correction Approach Giorgio Patrini, Alessandro Rozza, Aditya Krishna Menon, Richard Nock, Lizhen Qu • [Malach & Shalev Schwartz 17] data scienceはラベルを空中から取 り出す時代になった. • Noise-aware deep netsなど • CVとPRのコミュニティでそれぞれ類似の関連研究発表あり. • Two procedures for loss correction • Backward loss correction と Forward loss correction 従来手法と違い,従来のNNに適用可能(ネットワーク構造の制限なし!) • 間違えている可能性を定式化して考えている→数学的な理論的な保証がある らしい,詳細は論文を読まないと不明 • 前提としてp(y^hat|x)が非常によく特定できる,としている (次ページ)
  • 6. Making Deep Neural Networks Robust to Label Noise: A Loss Correction Approach (続き) • Algorithm 1. Train the neural net on noisy data.推定ラベルはかなり正しい,は ず. 2. re-train the network correcting with forward/backward loss • ノイズが0.8くらいまでは結構いける. • 0.8→割合??80%ノイズ!? または0.8%ノイズ? 詳細は論文をみる必要 あり • データセット: 1M noisy label, 500k clean labels (服飾?) • 最後の結果の表がよくわからなかった. • limitation: クラス数が多い場合は辛いらしい(著者曰く)
  • 7. Learning From Simulated and Unsupervised Images Through Adversarial Training Ashish Shrivastava et al. BEST PAPER • https://machinelearning.apple.com/2017/07/07/GAN.html • 高精度の達成には「Large, Diverse, Perfectly annotated」Datasetが大事. • simulatorの出力 → CNN → 結果 ができると上記は満たせる. • ただし,simulatorの出力とリアルには差がある. • Synthetic imageをsimulatorで作る → SimGAN • refiner networkでさらに本物っぽく(ノイズが加わる?non-realistic artifactがない,らし い)する. • RefinerにはAdversarial Networkで学習した生成器を使う • simulation→realっぽい画像を生成,例えばカメラノイズやDepth画像の欠け具合など. • 手の訓練データ.かなり本物のセンサぽい感じになっている! • このやり方は,センサデータからのregressionに対してはスタン ダードになりそうな雰囲気.
  • 8. Inverse Compositional Spatial Transformer Networks Chen-Hsuan Lin, Simon Lucey • spatial variationsにロバストにしたい • 現状は学習データのバリエーションを増やすしかない. • つまり,Data Augmentation + Pooling • もっと直接的に対策できないか? • warpingによる形状の正規化をend-to-endで学習してしまえば良い! • Boundary effect: warpするときに画像を外挿をしないといけな いような場合はヤバい. • 位置ズレの量が大きい場合は困難 (optical flowの一般的な問題) • 実験は,数字や標識で行っている →外形以外のバリエーションが多いターゲットでも大丈夫???(質問できず)
  • 9. Densely Connected Convolutional Networks Gao Huang, Zhuang Liu, Laurens van der Maaten, Kilian Q. Weinberger BEST PAPER • もうみんな知っちゃってるDenseNet • 層の再利用性を高めることで, • パラメタ数が少ないままで, • よりDeepな構造を実現. • Backpropagationの伝播もいい感じになる. • 次回作があるらしい. • Multi-Scale DenseNet • https://arxiv.org/pdf/1703.09844.pdf • DenseNetよりちょっと早くて同程度?の精度
  • 10. ShapeOdds: Variational Bayesian Learning of Generative Shape Models, Shireen Elhabian, Ross Whitaker • シルエットは大事 • 形状情報の多くを占める • 0/1でsparseな情報 • 情報として他の問題より単純なので,カリキュラムラーニングなどの 初期ステップとして利用することで有用性大(と理解) • 形状だけなら,大きな欠損などからもCNNベースで復元ができ る • 他のタスクと組み合わせることでポテンシャルが発揮される可 能性があり,結構面白そうと感じた.
  • 11. Interpretable Structure-Evolving LSTM, Xiaodan Liang et al. • 従来のLSTMのグラフ構造はhand-crafted • LSTMの構造を学習中に最適化しよう,という論文. • ノード数が多めの初期のグラフから,ノードをマージしていく (stochastically merging nodes) • semantical region segmentationで評価 → super pixel画像とdeep conv netの出力をまとめてLSTMに 入力し,評価.
  • 12. Semi-Supervised Deep Learning for Monocular Depth Map Prediction Yevhen Kuznietsov, Jörg Stückler, Bastian Leibe • 単独画像での深度予測(車でドライブしているときの画像) • ステレオ視したデータと,ground truthを使って学習. • なぜ両方使うのか? →ステレオ視したデータは間違いがあるから. • 上手くこれらを組合せた (モデルの図だけでは理解できなかった) • 誤差 4.8m(supervised only) → 4.6m(semi supervised)へ
  • 13. A Hierarchical Approach for Generating DescriptiveImage Paragraphs, Jonathan Krause, Justin Johnson,Ranjay Krishna, Li Fei-Fei • 長いキャプションを作る. • DenseCaptioningの結果を利用. • DenseCaptioningの結果を,全部poolして文章生成. • 新しい技術…といえるのか??? • 実現されたものはもちろん新しい. • DenseCaptioningの段階でほぼできていた,とも言える.
  • 14. Synthesizing Normalized Faces From Facial Identity Features Forrester Cole et al. • 表情や背景,顔の角度を正規化して精度向上! • 正規化された顔のみで学習 • 学習次に顔のKeypointも抽出して,顔の正規化処理をしたもので学習. • 顔のkeypoint抽出や正規化の部分はCNNベースではない? • 逆に言えば,その部分は学習なしでも既存技術でクリアできている? • 従来のkeypoint抽出などがオクルージョンに強い • 顔の認識もオクルージョンには強くなる. • 逆にCNNを使っていない部分は,そうと言ってくれないと不安 になる….
  • 15. Re-Sign: Re-Aligned End-To-End Sequence Modelling With Deep Recurrent CNN-HMMs Oscar Koller et al. • CNN-LSTM in HMM • 手話認識 (over 1k motions) • BLSTM layer と re-alignments • 構造がよくわからなかったが,コンパクトで効率的な表現であ るといっている. # 多分,会場の誰もが,よくわからなかった雰囲気. • 手話以外に使えるのか疑問.動作がかなり綺麗な構造をしていないと HMMは動作しないのでは??? • 逆にかなりクラス内分散の小さい隠れ状態が仮定出来れば良く動く??
  • 16. Social Scene Understanding: End-To-End Multi-Person Action Localization and Collective ActivityRecognition Timur Bagautdinov et al • 従来は,それぞれの人物を検出→追跡→hierarchical modelな どの従来の構造化モデルへ入力してシーン理解. • これをend-to-endにしよう! • 選手全部を一気に検出 • 検出した選手をフレーム間でMatching → 難しくないらしい.なんで?? →質疑で判明: 間違えてもシーン理解に大きな影響がない. • 評価に使ったデータセット • Volleyball Dataset [Ibrahim et al., CVPR 2016] • Brainwash Dataset: Multi-person (head) detection [CVPR2016]
  • 17. Detangling People: Individuating Multiple Close People and Their Body Parts via Region Assembly Hao Jiang, Kristen Grauman • ディープラーニングではなくて最適化ですよ! • ボーンモデルとbounding boxは違う問題.でも,これを上手い こと合体できない? → body partsの検出結果を統合して bounding boxへ. • bottom up region assembly: スーパーピクセルなどを利用? • Hand-craftedなパーツ間関係のグラフの関係を使う. • グラフ上での最適化をよくある感じのコスト関数の最小化で解 いている.計算は時間がかかりそう. • サイズの制約とか色々なものを入れている→作り込みが凄い. • ただし,比較対象は古い.どれも4,5年前の手法に見える.
  • 18. DESIRE: Distant Future Prediction in Dynamic Scenes With Interacting Agents Namhoon Lee, et al. • 交通シーンでの未来予測→軌跡予測. • 分布として予測される(非決定的) • 車がどちらに曲がるかは不明→難しい! • 全部の可能性をAgentベースで?出す ↑Agentと言いながらRNNしか使っていないように見える. • ネットワークモデルだけではなかなか不明. RNNベース.
  • 19. Deep Metric Learning via Facility Location Hyun Oh Song, Stefanie Jegelka, Vivek Rathod, Kevin Murphy • 意味的な距離をdeep metric learningで学ばせたい. • N枚の入力画像に対してNxNの行列を出力するような形 (実際には画像対毎に判定するようになっているかもしれない) • クラスタリングの結果のNMIスコアを最大化するように学習 (これをバッチ処理でやるところなどで色々工夫がある) • 未知の物体に対して,どれくらいうまくいくのか不明. • 昨日のRed wine Redo tomatoに通じる何かを感じる. • 精度がクラスタリング手法などに依存しそう.
  • 20. Binge Watching: Scaling Affordance Learning FromSitcoms Xiaolong Wang, Rohit Girdhar, Abhinav Gupta • Affordanceを視覚情報から認識できるようにしたい. • アノテーションデータが無い. • 人のアノテーション? シミュレーション? • アイディア: テレビドラマから,データセットを作成. • アメリカのホームドラマは同じ家具のシーンがたくさんだからできるように思える(個 人の感想) • 具体的には,シーンAで人物の姿勢を抽出→別のシーンに映った同じ場所に,その姿勢 データを投影してデータを水増し. • Affordanceがわかれば,ポーズの事前確率がわかる,などなど. • 応用が様々なのは激しく同意. • アメリカのホームドラマみたいな環境がどれだけあるのか,とも思うけれど,同時に, ある環境でできるようになると,今度は転移学習可能になるから,一気にどこでもでき るようになる(する)という戦略?
  • 21. Weakly Supervised Semantic Segmentation Using Web-Crawled Videos Seunghoon Hong et al. • ビデオを使うと,動いているものの領域が出せる→単一画像の 領域分割の学習できるんじゃない? • 問題: youtube videoは余計なものが沢山はいっているよね. • 字幕 • アニメっぽいキャラクターやCGなど • 余計なものを事前の学習で除く. • 51.7%→58.7%
  • 22. Fast Video Classification via Adaptive Cascading of Deep Models Haichen Shen et al. • 毎日見たものを全部記録したい. • 計算コストやばい • 1分のうちに現れる主要な物体の数は10個くらい? →dominant class • dominant classだけcompactなCNNで検出,それ以外の大量の クラスはDeep learningで検出. # なんでSSDとかFaster R-CNNじゃだめなの? # それより早い精度が欲しい?歩行シーンで??? • 苦労しているが,既存手法の組合せという印象.淘汰されそう に感じるが….
  • 23. Dual Attention Networks for Multimodal Reasoning and Matching Hyeonseob Nam, Jung-Woo Ha, Jeonghee Kim • Multimodal ReasoningとMultimodal Matching に適したネッ トワークの提案 • MR: 入力がImageとText,応用は Visual Q/A, 機械翻訳など • MM: imageとtextの間でのマッチング.応用はテキスト検索など. • 後は,それ用のネットワーク構造の説明がラフに行われた.
  • 24. Scalable Person Re-Identification on SupervisedSmoothed Manifold Song Bai, Xiang Bai, Qi Tian • manifold ができるけど,その類似度空間を教師ありで学習した ら良くなった.
  • 25. Person Re-Identification in the Wild Liang Zheng,Hengheng Zhang, Shaoyan Sun, Manmohan Chandraker, YiYang, Qi Tian • 人物検出とPerson Re-identificationをいい感じに統合.
  • 26. Joint Detection and Identification Feature Learning for Person Search Tong Xiao, Shuang Li, Bochao Wang • 人物の特定の学習 • データセットの中に写り込んでしまう(がアノテーションされ ていない)人が,学習途中で検出されるようになったら,どん どん学習サンプルに入れてしまう • 2%くらい精度が上がる.
  • 27. ポスターまで記述するのは力尽きました • 希望があれば関西CVPRML勉強会で解説. • 良く見て聴いてきたリスト(解説できないのは除外,赤は面白いと思ったもの,青は面 白そうだけどいけなかったけど後で読みたい=解説頼まれたらやるもの): • Procedural Generation of Videos to Train Deep Action Recognition Networks, César Roberto de Souza, Adrien Gaidon, Yohann Cabon, Antonio Manuel López • GeneratingtheFutureWithAdversarialTransformers, Carl Vondrick, Antonio Torralba • BIND: Binary Integrated Net Descriptors for Texture-Less Object Recognition, Jacob Chan, Jimmy Addison Lee, Qian Kemao • GrowingaBrain:Fine-Tuningby Increasing Model Capacity, Yu-Xiong Wang, Deva Ramanan, Martial Hebert • A-Fast-RCNN: Hard Positive Generation via Adversary for Object Detection, Xiaolong Wang, Abhinav Shrivastava, Abhinav Gupta • Kernel Pooling for Convolutional Neural Networks, Yin Cui, Feng Zhou, Jiang Wang, Xiao Liu, Yuanqing Lin, Serge Belongie • Learning Cross-Modal Embeddings for Cooking Recipes and Food Images, Amaia Salvador, Nicholas Hynes, Yusuf Aytar, Javier Marin, Ferda Ofli, Ingmar Weber, Antonio Torralba • pic2recipe.csail.mit.edu
  • 28. 続き(1) • 希望があれば関西CVPRML勉強会で解説 • 良く見て聴いてきたリスト(解説できないのは除外,赤は面白いと思ったもの,青は面白そ うだけどいけなかったけど後で読みたい=解説頼まれたらやるもの): • Scene Graph Generation by Iterative Message Passing, Danfei Xu, Yuke Zhu, Christopher B. Choy, Li Fei-Fei • ようはOpenPoseの手法に近いよね. • Grassmannian Manifold Optimization Assisted Sparse Spectral Clustering, Qiong Wang, Junbin Gao, Hong Li • 発表者がいなくて,代理の人が質問があれば本人を呼び出す,とか言われましたが,待っている時間もったいない. • From Motion Blur to MotionFlow: A Deep Learning Solution for Removing Heterogeneous Motion Blur, Dong Gong, Jie Yang, Lingqiao Liu, Yanning Zhang, Ian Reid, Chunhua Shen, Anton van den Hengel, Qinfeng Shi • blurカーネルは線形であると仮定して,画素ごとにlinear blurをディープラーニングで推定. • Noisy Softmax: Improving the Generalization Ability of DCNN via Postponing the Early Softmax Saturation, Binghui Chen, Weihong Deng, Junping Du • LSTM Self-Supervision for Detailed Behavior Analysis, Biagio Brattoli, Uta Büchler, Anna-Sophia Wahl, Martin E. Schwab, Björn Ommer
  • 29. 続き(2) • 希望があれば関西CVPRML勉強会で解説 • 良く見て聴いてきたリスト(解説できないのは除外,赤は面白いと思ったもの,青は面白そうだけ どいけなかったけど後で読みたい=解説頼まれたらやるもの): • Deep Feature Flow for Video Recognition, Xizhou Zhu, Yuwen Xiong, Jifeng Dai, Lu Yuan, Yichen Wei • semantic segmentationとoptical flowをCNNで両方解いたら精度上がるよね,という話. • 当たり前だし,これもCNN使った系に見える…. • Semantic Regularisation for Recurrent Image Annotation, Feng Liu, Tao Xiang, Timothy M. Hospedales, Wankou Yang, Changyin Sun • CNNとRNNの接続部分の連結は意味的な繋がりが弱く,重みの伝播がしにくい→CNNとRNN別々のpretrainingが必要 • 連結部に対して,hand-craftedな特徴量による推定結果(?)を入力として差し込むような層を追加すると精度向上. • Collaborative Summarization of Topic-Related Videos, Rameswar Panda, Amit K. Roy- Chowdhury • 誰でもしっている当たり前のシーンしか抽出されなさそうに見えるが,それが目的の模様.