Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

20160601画像電子学会

3.860 visualizaciones

Publicado el

20160601画像電子学会

Publicado en: Tecnología
  • Sé el primero en comentar

20160601画像電子学会

  1. 1. 東京大学 大学院情報理工学系研究科 創造情報学専攻 講師 中山 英樹
  2. 2.  1. Deep Learning (深層学習)とは? ◦ 画像認識におけるブレークスルー ◦ 畳み込みニューラルネットワークのトレンド  2. 最新の研究動向 ◦ マルチモーダル学習 ◦ 強化学習との融合 ◦ パターン生成 2
  3. 3. 3 汎用AI (真の知能?) 弱いAI (ある特定のタスク・機能) 機械学習 (お手本を真似る方法論) ニューラル ネットワーク 人工知能のある方法論における一つの道具にすぎない … 深層学習
  4. 4.  画像認識 ◦ トロント大のデモ http://deeplearning.cs.toronto.edu/  音声認識 [Krizhevsky et al., 2012] 4 http://research.microsoft.com/en-US/people/deng/icml- june21-2014-cleanedup-referencesadded.pptx http://blogs.technet.com/b/inside_microsoft_research/archive/ 2013/06/13/dnn-research-improves-bing-voice-search.aspx
  5. 5.  制約をおかない実世界環境の画像を言語で記述 ◦ 一般的な物体やシーン、形容詞、印象語 ◦ 2000年代以降急速に発展(コンピュータビジョンの人気分野) ◦ 幅広い応用先 デジタルカメラ、ウェアラブルデバイス、画像検索、ロボット、…
  6. 6.  事例の“類似度”をどう定義すべきか? ◦ 例えば、単純なカラーヒストグラム (色の割合)だと右の二つの画像は 非常に近い値となる I look my dog contest: http://www.hemmy.net/2006/ 06/25/i-look-like-my-dog- contest/  もともと物理的な信号に過ぎない画像と“意味”との間には 大きな隔たりがある  どういうポイント(特徴)を見ればよいか?
  7. 7.  機械学習(教師付) 7 “cat” ( ){ }Niyii ,...,1,, =x x y 未知のデータ(学習データに含まれない)を正しく認識させることが目標 大量のラベル付き訓練データ (x:画像,y:ラベル) … cat dog bird ( )xf
  8. 8. 8 Figure from [Ramanan et al, ICCV’09] 2004 カテゴリ数:10^2 サンプル数: 10^3~10^4
  9. 9. 9 Figure from Russakovsky et al., ILSVRC’14 slides. 2010 カテゴリ数:10^3~10^4 サンプル数: 10^6~10^7
  10. 10.  ニューラルネットワークを用いた人工知能の 構築技術の総称 ◦ 脳(神経細胞)の働きを一部参考にした学習アルゴリズム  特に、深く大規模な構造を備えていることが特徴 10 cat cat dog horse
  11. 11.  局所領域(受容野)の畳み込みとプーリングを繰り返す 多層ネットワーク ◦ 段階的に解像度を落としながら、局所的な相関パターンを抽出 ◦ 要するに、さまざまな解像度でのパターンの共起をみている ◦ 誤差逆伝播法による全体最適化 11 Y. LeCun, L. Bottou, Y. Bengio and P. Haffner: Gradient-Based Learning Applied to Document Recognition, Proceedings of the IEEE, 86(11):2278-2324, 1998. 最終的に、識別したいクラス数 と同数のニューロンへ
  12. 12. 12 Low-level image feature Mid-level image feature “Car” SIFT, HOG, SURF, etc. BoVW, VLAD, Fisher Vector, etc. Supervised Classifier: SVM, Logistic Regression, etc. 生の画素値から、識別に至る階層構造を直接的に学習 伝統的 方法論 (“Shallow” learning) Deep learning “Car”・・・ 人手で設計 人手で設計/教師なし学習
  13. 13. 13 Low-level image feature Mid-level image feature “Car” SIFT, HOG, SURF, etc. BoVW, VLAD, Fisher Vector, etc. Supervised Classifier: SVM, Logistic Regression, etc. 生の画素値から、識別に至る階層構造を直接的に学習 従来の特徴量に相当する構造が中間層に自然に出現 伝統的 方法論 (“Shallow” learning) Deep learning “Car”・・・ 人手で設計 人手で設計/教師なし学習 [Zeiler and Fergus, 2013]
  14. 14.  ImageNetのデータの一部を用いたフラッグシップコンペ ティション (2010年より開催) ◦ ImageNet [Deng et al., 2009]  クラウドソーシングにより構築中の大規模画像データセット  1400万枚、2万2千カテゴリ(WordNetに従って構築)  コンペでのタスク ◦ 1000クラスの物体カテゴリ分類  学習データ120万枚、検証用データ5万枚、テストデータ10万枚 ◦ 200クラスの物体検出  学習データ45万枚、検証用データ2万枚、テストデータ4万枚 14 Russakovsky et al., “ImageNet Large Scale Visual Recognition Challenge”, 2014.
  15. 15.  1000クラス識別タスクで、deep learning を用いたシステムが圧勝 ◦ トロント大学Hinton先生のチーム (AlexNet) 15 [A. Krizhevsky et al., NIPS’12] エラー率が一気に10%以上減少! (※過去数年間での向上は1~2%)
  16. 16.  2012年以降も劇的な向上が続いている 16 2012 AlexNet (8層) 2014 VGG (19層) 2014 GoogLeNet (22層) 2015 MSRA (152層)
  17. 17. 0 5 10 15 20 25 30 2010 2011 2012 2013 2014 Human 2015 (MS) 2015 (Google) 2015 (MS) 2016 (Google)  エラー率が 16% (2012) → 3.08% (2015) 17 Szegedy et al., “Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning”, arXiv, 2016. He et al., “Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification”, arXiv, 2015. Classificationerror(%) 28% 26% 16% 6.6% 12% 5.1% 4.94% 4.82% 3.08% 3.57%
  18. 18.  できるだけ少ないパラメータで深い非線形性を与える ◦ 一つのレイヤ内(線形変換)の パラメータを増やすのは効率が悪い  例)畳み込み層 ◦ 7 x 7 の畳み込みは、3 x 3の畳み込み層を3つ積めば意味的に等価 18 ≒ 活 性 化 関 数 ( 非 線 形 ) 畳 み 込 み ( 線 形 ) プ ー リ ン グ 7×7 = 49 3×(3×3) = 27 より少ないパラメータで、 より深い非線形性! He and Sun, “Convolutional Neural Networks at Constrained Time Cost“, in Proc. CVPR, 2015. Simonyan and Zisserman, “Very deep convolutional networks for large-scale image recognition”, In Proc. ICLR, 2015.
  19. 19. 0 2000 4000 6000 8000 10000 12000 14000 16000 0 20 40 60 80 100 120 140 160 2012 (AlexNet) 2013 (Clarifai) 2014 (NIN) 2014 (VGG) 2014 (GoogLeNet) 2015 (MS) 19 パ ラ メ ー タ 数 (万 ) ネ ッ ト ワ ー ク 層 数 16% 12% 9.7% 7.3% 6.6% 3.6% ILSVRC 識別エラー率 全結合層なし
  20. 20. 20  物体検出 ◦ R-CNN [Girshick et al., CVPR’2014]  物体領域ラベリング ◦ Fully-connected CNN [Long et al., CVPR’15]
  21. 21.  1. Deep Learning (深層学習)とは? ◦ 画像認識におけるブレークスルー ◦ 畳み込みニューラルネットワークのトレンド  2. 最新の研究動向 ◦ マルチモーダル学習 ◦ 強化学習との融合 ◦ パターン生成 21
  22. 22.  画像説明文生成 ◦ CNN (画像側)の出力をRNN(言語側)へ接続 22 O. Vinyals et al., “Show and Tell: A Neural Image Caption Generator”, In Proc. CVPR, 2015.
  23. 23. 23 a woman is slicing some vegetables a cat is trying to eat the food a dog is swimming in the pool 認識結果
  24. 24. 24  共通の上位レイヤ(潜在空間)へマッピング [Kiros et al., 2014] ◦ 異なるモダリティ間での“演算”が可能 R. Kiros et al., “Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models”, TACL, 2015.
  25. 25. 25 [Kiros et al., 2014]
  26. 26. 26 [Kiros et al., 2014]
  27. 27.  LSTMを用いた質問入力と回答の対応関係学習 27 H. Gao et al., “Are You Talking to a Machine? Dataset and Methods for Multilingual Image Question Answering”, 2015.
  28. 28.  NNを使った機械翻訳モデルの応用  質問文に加え、CNN対象画像の特徴抽出を行い、 回答文生成のRNNへ入力 28 H. Gao et al., “Are You Talking to a Machine? Dataset and Methods for Multilingual Image Question Answering”, 2015.
  29. 29.  Deep Q-learning [Mnih et al, NIPS’13, Nature’15] ◦ 強化学習における行動価値関数のモデリングに深層学習を応用 ◦ 膨大な回数ゲームプレイを行い、試行錯誤しながら学習 ◦ クラッシックゲーム、囲碁等で人間を超える腕前(AlphaGo) 29 Mnih et al., “Human-Level Control Through Deep Reinforcement Learning”, Nature, 518(7540):529–533, 2015.
  30. 30. 30 http://googleresearch.blogspot.jp/2016/03/deep-learning-for-robots-learning-from.html  物体の把持戦略を試行錯誤しながら学習 ◦ 複数台のロボットで学習経過を共有
  31. 31.  生成モデルの構築にDNNを利用 [Kingma et al., NIPS’14] 31 クエリ 自動生成された画像 Kingma et al., “Semi-supervised Learning with Deep Generative Models”, In Proc. of NIPS, 2014.
  32. 32.  自然言語文から画像を生成 [Mansimov et al., ICLR’16] 32Mansimov et al., “Genarating Images from Captions with Attention”, In Proc. of ICLR, 2016.
  33. 33. 33 Chuan Li and Michael Wand, “Combining Markov Random Fields and Convolutional Neural Networks for Image Synthesis”, arXiv:1601.04589, 2016.
  34. 34.  画像認識における深層学習コア技術の進化 ◦ 畳み込みニューラルネットワークの超多層化 ◦ 一層一層はできるだけシンプルにして、層数を増やす ⇒ 少ないパラメータで大きな表現能力  最新の研究動向 ◦ 関連するさまざまな分野と融合が進んでいる ◦ もはや単なるパターン認識の枠組みを超えつつある? ◦ 爆発的な速さで次々に新しい研究が進展している 34

×