5. Making Deep Neural Networks Robust to Label
Noise: A Loss Correction Approach
Giorgio Patrini, Alessandro Rozza, Aditya Krishna Menon, Richard Nock, Lizhen Qu
• [Malach & Shalev Schwartz 17] data scienceはラベルを空中から取
り出す時代になった.
• Noise-aware deep netsなど
• CVとPRのコミュニティでそれぞれ類似の関連研究発表あり.
• Two procedures for loss correction
• Backward loss correction と Forward loss correction
従来手法と違い,従来のNNに適用可能(ネットワーク構造の制限なし!)
• 間違えている可能性を定式化して考えている→数学的な理論的な保証がある
らしい,詳細は論文を読まないと不明
• 前提としてp(y^hat|x)が非常によく特定できる,としている
(次ページ)
6. Making Deep Neural Networks Robust to Label
Noise: A Loss Correction Approach
(続き)
• Algorithm
1. Train the neural net on noisy data.推定ラベルはかなり正しい,は
ず.
2. re-train the network correcting with forward/backward loss
• ノイズが0.8くらいまでは結構いける.
• 0.8→割合??80%ノイズ!? または0.8%ノイズ? 詳細は論文をみる必要
あり
• データセット: 1M noisy label, 500k clean labels (服飾?)
• 最後の結果の表がよくわからなかった.
• limitation: クラス数が多い場合は辛いらしい(著者曰く)
7. Learning From Simulated and Unsupervised
Images Through Adversarial Training
Ashish Shrivastava et al. BEST PAPER
• https://machinelearning.apple.com/2017/07/07/GAN.html
• 高精度の達成には「Large, Diverse, Perfectly annotated」Datasetが大事.
• simulatorの出力 → CNN → 結果 ができると上記は満たせる.
• ただし,simulatorの出力とリアルには差がある.
• Synthetic imageをsimulatorで作る → SimGAN
• refiner networkでさらに本物っぽく(ノイズが加わる?non-realistic artifactがない,らし
い)する.
• RefinerにはAdversarial Networkで学習した生成器を使う
• simulation→realっぽい画像を生成,例えばカメラノイズやDepth画像の欠け具合など.
• 手の訓練データ.かなり本物のセンサぽい感じになっている!
• このやり方は,センサデータからのregressionに対してはスタン
ダードになりそうな雰囲気.
13. A Hierarchical Approach for Generating
DescriptiveImage Paragraphs,
Jonathan Krause, Justin Johnson,Ranjay Krishna, Li Fei-Fei
• 長いキャプションを作る.
• DenseCaptioningの結果を利用.
• DenseCaptioningの結果を,全部poolして文章生成.
• 新しい技術…といえるのか???
• 実現されたものはもちろん新しい.
• DenseCaptioningの段階でほぼできていた,とも言える.
14. Synthesizing Normalized Faces From Facial
Identity Features
Forrester Cole et al.
• 表情や背景,顔の角度を正規化して精度向上!
• 正規化された顔のみで学習
• 学習次に顔のKeypointも抽出して,顔の正規化処理をしたもので学習.
• 顔のkeypoint抽出や正規化の部分はCNNベースではない?
• 逆に言えば,その部分は学習なしでも既存技術でクリアできている?
• 従来のkeypoint抽出などがオクルージョンに強い
• 顔の認識もオクルージョンには強くなる.
• 逆にCNNを使っていない部分は,そうと言ってくれないと不安
になる….
15. Re-Sign: Re-Aligned End-To-End Sequence
Modelling With Deep Recurrent CNN-HMMs
Oscar Koller et al.
• CNN-LSTM in HMM
• 手話認識 (over 1k motions)
• BLSTM layer と re-alignments
• 構造がよくわからなかったが,コンパクトで効率的な表現であ
るといっている.
# 多分,会場の誰もが,よくわからなかった雰囲気.
• 手話以外に使えるのか疑問.動作がかなり綺麗な構造をしていないと
HMMは動作しないのでは???
• 逆にかなりクラス内分散の小さい隠れ状態が仮定出来れば良く動く??
16. Social Scene Understanding: End-To-End
Multi-Person Action Localization and Collective
ActivityRecognition Timur Bagautdinov et al
• 従来は,それぞれの人物を検出→追跡→hierarchical modelな
どの従来の構造化モデルへ入力してシーン理解.
• これをend-to-endにしよう!
• 選手全部を一気に検出
• 検出した選手をフレーム間でMatching
→ 難しくないらしい.なんで??
→質疑で判明: 間違えてもシーン理解に大きな影響がない.
• 評価に使ったデータセット
• Volleyball Dataset [Ibrahim et al., CVPR 2016]
• Brainwash Dataset: Multi-person (head) detection [CVPR2016]
17. Detangling People: Individuating Multiple Close
People and Their Body Parts via Region
Assembly Hao Jiang, Kristen Grauman
• ディープラーニングではなくて最適化ですよ!
• ボーンモデルとbounding boxは違う問題.でも,これを上手い
こと合体できない? → body partsの検出結果を統合して
bounding boxへ.
• bottom up region assembly: スーパーピクセルなどを利用?
• Hand-craftedなパーツ間関係のグラフの関係を使う.
• グラフ上での最適化をよくある感じのコスト関数の最小化で解
いている.計算は時間がかかりそう.
• サイズの制約とか色々なものを入れている→作り込みが凄い.
• ただし,比較対象は古い.どれも4,5年前の手法に見える.
18. DESIRE: Distant Future Prediction in Dynamic
Scenes With Interacting Agents
Namhoon Lee, et al.
• 交通シーンでの未来予測→軌跡予測.
• 分布として予測される(非決定的)
• 車がどちらに曲がるかは不明→難しい!
• 全部の可能性をAgentベースで?出す
↑Agentと言いながらRNNしか使っていないように見える.
• ネットワークモデルだけではなかなか不明. RNNベース.
21. Weakly Supervised Semantic Segmentation
Using Web-Crawled Videos
Seunghoon Hong et al.
• ビデオを使うと,動いているものの領域が出せる→単一画像の
領域分割の学習できるんじゃない?
• 問題: youtube videoは余計なものが沢山はいっているよね.
• 字幕
• アニメっぽいキャラクターやCGなど
• 余計なものを事前の学習で除く.
• 51.7%→58.7%
22. Fast Video Classification via Adaptive
Cascading of Deep Models
Haichen Shen et al.
• 毎日見たものを全部記録したい.
• 計算コストやばい
• 1分のうちに現れる主要な物体の数は10個くらい?
→dominant class
• dominant classだけcompactなCNNで検出,それ以外の大量の
クラスはDeep learningで検出.
# なんでSSDとかFaster R-CNNじゃだめなの?
# それより早い精度が欲しい?歩行シーンで???
• 苦労しているが,既存手法の組合せという印象.淘汰されそう
に感じるが….
23. Dual Attention Networks for Multimodal
Reasoning and Matching
Hyeonseob Nam, Jung-Woo Ha, Jeonghee Kim
• Multimodal ReasoningとMultimodal Matching に適したネッ
トワークの提案
• MR: 入力がImageとText,応用は Visual Q/A, 機械翻訳など
• MM: imageとtextの間でのマッチング.応用はテキスト検索など.
• 後は,それ用のネットワーク構造の説明がラフに行われた.
24. Scalable Person Re-Identification on
SupervisedSmoothed Manifold
Song Bai, Xiang Bai, Qi Tian
• manifold ができるけど,その類似度空間を教師ありで学習した
ら良くなった.
25. Person Re-Identification in the Wild
Liang Zheng,Hengheng Zhang, Shaoyan Sun, Manmohan Chandraker, YiYang, Qi Tian
• 人物検出とPerson Re-identificationをいい感じに統合.
26. Joint Detection and Identification Feature
Learning for Person Search
Tong Xiao, Shuang Li, Bochao Wang
• 人物の特定の学習
• データセットの中に写り込んでしまう(がアノテーションされ
ていない)人が,学習途中で検出されるようになったら,どん
どん学習サンプルに入れてしまう
• 2%くらい精度が上がる.
27. ポスターまで記述するのは力尽きました
• 希望があれば関西CVPRML勉強会で解説.
• 良く見て聴いてきたリスト(解説できないのは除外,赤は面白いと思ったもの,青は面
白そうだけどいけなかったけど後で読みたい=解説頼まれたらやるもの):
• Procedural Generation of Videos to Train Deep Action Recognition Networks, César
Roberto de Souza, Adrien Gaidon, Yohann Cabon, Antonio Manuel López
• GeneratingtheFutureWithAdversarialTransformers, Carl Vondrick, Antonio Torralba
• BIND: Binary Integrated Net Descriptors for Texture-Less Object Recognition, Jacob Chan,
Jimmy Addison Lee, Qian Kemao
• GrowingaBrain:Fine-Tuningby Increasing Model Capacity, Yu-Xiong Wang, Deva Ramanan,
Martial Hebert
• A-Fast-RCNN: Hard Positive Generation via Adversary for Object Detection, Xiaolong Wang,
Abhinav Shrivastava, Abhinav Gupta
• Kernel Pooling for Convolutional Neural Networks, Yin Cui, Feng Zhou, Jiang Wang, Xiao
Liu, Yuanqing Lin, Serge Belongie
• Learning Cross-Modal Embeddings for Cooking Recipes and Food Images, Amaia Salvador,
Nicholas Hynes, Yusuf Aytar, Javier Marin, Ferda Ofli, Ingmar Weber, Antonio Torralba
• pic2recipe.csail.mit.edu
28. 続き(1)
• 希望があれば関西CVPRML勉強会で解説
• 良く見て聴いてきたリスト(解説できないのは除外,赤は面白いと思ったもの,青は面白そ
うだけどいけなかったけど後で読みたい=解説頼まれたらやるもの):
• Scene Graph Generation by Iterative Message Passing, Danfei Xu, Yuke Zhu, Christopher B.
Choy, Li Fei-Fei
• ようはOpenPoseの手法に近いよね.
• Grassmannian Manifold Optimization Assisted Sparse Spectral Clustering, Qiong Wang, Junbin
Gao, Hong Li
• 発表者がいなくて,代理の人が質問があれば本人を呼び出す,とか言われましたが,待っている時間もったいない.
• From Motion Blur to MotionFlow: A Deep Learning Solution for Removing Heterogeneous
Motion Blur, Dong Gong, Jie Yang, Lingqiao Liu, Yanning Zhang, Ian Reid, Chunhua Shen, Anton
van den Hengel, Qinfeng Shi
• blurカーネルは線形であると仮定して,画素ごとにlinear blurをディープラーニングで推定.
• Noisy Softmax: Improving the Generalization Ability of DCNN via Postponing the Early Softmax
Saturation, Binghui Chen, Weihong Deng, Junping Du
• LSTM Self-Supervision for Detailed Behavior Analysis, Biagio Brattoli, Uta Büchler, Anna-Sophia
Wahl, Martin E. Schwab, Björn Ommer
29. 続き(2)
• 希望があれば関西CVPRML勉強会で解説
• 良く見て聴いてきたリスト(解説できないのは除外,赤は面白いと思ったもの,青は面白そうだけ
どいけなかったけど後で読みたい=解説頼まれたらやるもの):
• Deep Feature Flow for Video Recognition, Xizhou Zhu, Yuwen Xiong, Jifeng Dai, Lu Yuan,
Yichen Wei
• semantic segmentationとoptical flowをCNNで両方解いたら精度上がるよね,という話.
• 当たり前だし,これもCNN使った系に見える….
• Semantic Regularisation for Recurrent Image Annotation, Feng Liu, Tao Xiang, Timothy M.
Hospedales, Wankou Yang, Changyin Sun
• CNNとRNNの接続部分の連結は意味的な繋がりが弱く,重みの伝播がしにくい→CNNとRNN別々のpretrainingが必要
• 連結部に対して,hand-craftedな特徴量による推定結果(?)を入力として差し込むような層を追加すると精度向上.
• Collaborative Summarization of Topic-Related Videos, Rameswar Panda, Amit K. Roy-
Chowdhury
• 誰でもしっている当たり前のシーンしか抽出されなさそうに見えるが,それが目的の模様.