Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)

106.627 visualizaciones

Publicado el

WBA若手の会が第11回勉強会で発表するスライドです

Publicado en: Ciencias
  • Inicia sesión para ver los comentarios

スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)

  1. 1. スパースモデリング、スパース コーディングとその数理 全脳アーキテクチャ若手の会 第11回勉強会 2015/11/19 東京理科大学3年 神野成海 1
  2. 2. 目次 イントロダクション 教師あり学習の導入 正則化 推定アルゴリズム 圧縮センシング 脳とスパースコーディングの関係 2
  3. 3. 目次 イントロダクション 教師あり学習の導入 正則化 推定アルゴリズム 圧縮センシング 脳とスパースコーディングの関係 3
  4. 4. 自己紹介 • 神野成海 • 東京理科大学 理学部 数理情報科学科3年 • スパースモデリング歴2ヶ月 4
  5. 5. スパース(疎)とは? • スパースなベクトル: 0 0 0 0 1 0 • スパースな行列: 1 0 0 0 2 0 0 0 2 密ではなく疎らな状態 5
  6. 6. スパースモデリングとは? 1. 問題が複雑 2. データが少ない 解が疎(スパース)と仮定して推定解を得る手法 6
  7. 7. スパースコーディングとは? • ある情報を少ない基底でスパースに表現する情報表現 7 少数の細胞が発火 おばあさんの顔を認知 脳はスパースコーディングをしている?
  8. 8. 今日する話 8 スパースモデリング Lasso [Tibshirani,1996] Lars [Efron et al.,2004] 座標降下法 [Friedman et al.,2007;2010] 圧縮センシング [Candès et al.,2006] ブラックホールの観測シミュレーション [Honma et al.,2014] スパースコーディング Barlowの仮説 [Barlow,1972] V1の過完備性 [Barlow,1981] 一次視覚野における基底表現 [Olshansen and Field,1996]
  9. 9. 目次 イントロダクション 教師あり学習の導入 正則化 推定アルゴリズム 圧縮センシング 脳とスパースコーディングの関係 9
  10. 10. 機械学習とは? • 機械に学習アルゴリズムと学習用データを与えて ある能力を学習の中で獲得させる手法 脳っぽい 10
  11. 11. 機械学習の種類 • 教師あり学習←今日はこの話をします • 教師なし学習 • 強化学習 11
  12. 12. 教師あり学習とは? • ある入力𝑥𝑖に対する教師𝑦𝑖を与えて、未知の入力 𝑥 𝑛𝑒𝑤に対してもっともらしい𝑦 𝑝𝑟𝑒𝑑を予測する 𝑦 𝑝𝑟𝑒𝑑を予測する 12 𝑥𝑖, 𝑦𝑖を与えて学習 𝑥 𝑛𝑒𝑤を入力
  13. 13. 教師あり学習で出来ること • 回帰問題 • 分類問題 etc... 今日は回帰問題(線形回帰)を題材にしてお話しします 13
  14. 14. 線形回帰とは? • ある関数𝑓 𝑥 に従うデータ点 𝑥1 ⋮ 𝑥 𝑁 , 𝑦1 ⋮ 𝑦 𝑁 を与える • 既知の関数∅1(𝑥), … , ∅ 𝑀(𝑥)を与える • 𝑓 𝑥 を 𝑗=1 M 𝑤𝑗∅ 𝑗(𝑥)で近似する良い𝑤𝑗を推定 14
  15. 15. 線形和のベクトル表現 φ(𝑥) = ∅1(𝑥) ⋮ ∅ 𝑀(𝑥) , 𝑤 = 𝑤1 ⋮ 𝑤 𝑀 とおけば 𝑗=1 𝑀 𝑤𝑗∅ 𝑗(𝑥) = 𝑤 𝑇φ(𝑥) と表せる(簡単のため今後は𝑤 𝑇φ(𝑥)で表す) 15
  16. 16. 線形回帰の問題設定 • データ数: 𝑁 • 入力データ: 𝒙 = 𝑥1, … , 𝑥 𝑁 𝑇 • 出力データ:𝒚 = 𝑦1, … , 𝑦 𝑁 𝑇 • 特徴量:φ(𝑥) = ∅1(𝑥), … , ∅ 𝑀(𝑥) 𝑇(𝑀次元) • パラメータ:𝑤(𝑀次元) 𝑦を𝑤 𝑇 φ(𝑥)でモデル化する良い𝑤を推定する 16
  17. 17. 線形回帰の例 未知関数 𝑦 = sin 𝑥 (+𝜀)(εは観測誤差)に従うデータ 𝑥𝑖, 𝑦𝑖 𝑖=1 𝑁 を基にsin 𝑥 を∅ 𝑗(𝑥) = 𝑥 𝑗 𝑗 = 1, … , 10 の線形和 でモデル化 目標値: 𝑤 𝑇 = 1,0, − 1 3! , 0, 1 5! , 0, − 1 7! , 0, 1 9! , 0 sin 𝑥 ≈ 𝑤 𝑇 φ(𝑥) = 𝑥1 1! − 𝑥3 3! + 𝑥5 5! − 𝑥7 7! + 𝑥9 9! 17結果、未知の𝑥から𝑦を予測できる
  18. 18. 線形回帰を解く(最小二乗法) • データ 𝑥𝑖, 𝑦𝑖 𝑁個、特徴ベクトルφ(𝒙)(𝑀次元)を用意 • 𝒚を𝒘 𝑇 φ(𝑥)で近似するため • 誤差関数 𝐸 𝐷 = 1 2 𝑖=1 𝑁 𝑦𝑖 − 𝒘 𝑇 φ(𝑥𝑖) 2 を最小化する𝒘を求める 18
  19. 19. 誤差関数の行列表現 • 計画行列 Φ = ∅1(𝑥1) ⋯ ∅ 𝑗(𝑥1) ⋯ ∅ 𝑀(𝑥1) ⋮ ⋮ ⋮ ∅1(𝑥𝑖) ⋯ ∅ 𝑗(𝑥𝑖) ⋯ ∅ 𝑀(𝑥𝑖) ⋮ ⋮ ⋮ ∅1(𝑥 𝑁) ⋯ ∅ 𝑗(𝑥 𝑁) ⋯ ∅ 𝑀(𝑥 𝑁) とおけば、 𝐸 𝐷 = 1 2 𝑖=1 𝑁 𝑦𝑖 − 𝒘 𝑇φ(𝑥𝑖) 2 = 1 2 𝒚 − Φ𝒘 2 2 と表せる(簡単のため今後は 𝒚 − Φ𝒘 2 2 で表す) 19
  20. 20. 最小二乗法(𝑀 < 𝑁) • Φ𝒘は𝑁次元ベクトル空間の (𝑀次元)部分空間𝑆上に存在 • 𝐸 𝐷 の最小化 ⇔𝒚とΦ𝒘の距離の最小化 Φ𝒘 𝑆 φ(𝑥 𝟏) φ(𝑥 𝟐) 𝒚 (図は𝑁 = 3, 𝑀 = 2) 𝑀 < 𝑁のとき解が一意に存在する 20 線分の長さ= 𝐸 𝐷
  21. 21. 最小二乗法(𝑀 ≥ 𝑁) 1. 𝑀 ≥ 𝑁(特徴ベクトルの次元数≥データ数) ⇒ 𝐲とΦ𝒘の距離が0になる ⇔誤差関数が0になる ⇒データに依存してしまう(過学習) 2. φ 𝑗(𝑥)が線形従属 ⇒解が複数存在、逆行列の計算ができない 𝑀 ≥ 𝑁だとうまくいかない 21
  22. 22. 過学習とは? • 訓練データに対して学習されているが、未知デー タに対しては適合できていない状態 (𝑀 < 𝑁でも𝑀が大きいと過学習しやすい) 過学習していない 過学習している 22
  23. 23. 目次 イントロダクション 教師あり学習の導入 正則化 推定アルゴリズム 圧縮センシング 脳とスパースコーディングの関係 23
  24. 24. 過学習を防ぐには?(正則化) • 誤差関数𝐸 𝐷 = 1 2 𝒚 − Φ𝒘 2 2 に • 正則化項𝑅 𝒘 を付け加えることで • 解を一意に求めることができる 24 (誤差項) (正則化項) 𝐸 𝐷 = 1 2 𝒚 − Φ𝒘 2 2 𝐸 𝐷 = 1 2 𝒚 − Φ𝒘 2 2 + 𝑅 𝒘 正則化
  25. 25. 正則化項の種類 1. L2正則化 (𝑅 𝒘 = 1 2 λ 𝑗 𝑤𝑗 2) 2. L0正則化 (𝑅 𝒘 = λ 𝑗 𝐼 𝑤𝑗 ≠ 0 ) 3. L1正則化 (𝑅 𝒘 = λ 𝑗 𝑤𝑗 ) etc… 今日はこの3つを中心に紹介します 25
  26. 26. L2正則化の定義 • 𝐸 𝐷 = 1 2 𝒚 − Φ𝒘 2 2 に • 正則化項 1 2 λ 𝒘 2 2 = 1 2 λ 𝑗 𝑤𝑗 2 を付け加える 26 𝐸 𝐷 = 1 2 𝒚 − Φ𝒘 2 2 𝐸 𝐷 = 1 2 𝒚 − Φ𝒘 2 2 + 1 2 λ 𝒘 2 2 L2正則化
  27. 27. L2正則化の推定解 • 𝐸 𝐷 = 1 2 𝒚 − Φ𝒘 2 2 + 1 2 λ 𝒘 2 2 の最小化 ⇔ 𝑑 𝑑𝒘 𝐸 𝐷 = 0 ⇔𝒘∗ = (λI + Φ 𝑇Φ)−1Φ 𝑇 𝒚 (𝒘∗:最適解) λI + Φ 𝑇 Φは正則なため、 1. λI + Φ 𝑇Φ −1が(実時間で)計算できる 2. 縮小推定により過学習を防げる 27
  28. 28. 縮小推定とは? • 𝒘 が小さくなるよう𝒘を推定することによって過 学習を抑えることができる • L2正則化、L0正則化、L1正則化による推定は全て 縮小推定 28
  29. 29. L2正則化の別表現 • 𝐸 𝐷 = 1 2 𝒚 − Φ𝒘 2 2 + 1 2 λ 𝒘 2 2 の最小化は min 𝒘 1 2 ||𝒚 − Φ𝒘||2 , subject to 1 2 𝒘 2 2 ≤ η のラグランジュ形式 29 𝑤1 𝑤2 𝒘∗ ◎は𝐸 𝐷 の等高線 ○内は 1 2 𝒘 2 2 ≤ ηの実行可能領域図は𝒘 = 𝑤1 𝑤2 𝑟 = 2η ○内で𝐸 𝐷 を最小化する点は ○と◎が接する𝒘∗
  30. 30. L0正則化の定義 • 𝐸 𝐷 = 1 2 𝒚 − Φ𝒘 2 2 に • 正則化項λ 𝑗 𝐼 𝑤𝑗 ≠ 0 を付け加える 𝐼 𝑤𝑗 ≠ 0 = 1 𝑤𝑗 ≠ 0 0 𝑤𝑗 = 0 𝐸 𝐷 = 1 2 𝒚 − Φ𝒘 2 2 𝐸 𝐷 = 1 2 𝒚 − Φ𝒘 2 2 + λ 𝑗 𝐼 𝑤𝑗 ≠ 0 L0正則化 30
  31. 31. L0正則化の推定解 • 𝐸 𝐷 = 1 2 𝒚 − Φ𝒘 2 2 + λ 𝑗 𝐼 𝑤𝑗 ≠ 0 の最小化 ⇔0と推定される𝑤𝑗の組合せで場合分けして解く ⇒𝒘∗ = 0, … , 0, 𝑤𝑗 ∗, 0, … , 0 𝑇 1. ベクトルの成分に0が多くなる(スパース推定してく れる) 2. 縮小推定により過学習を防げる 3. 組み合わせ最適化問題になるため計算量が爆発 31
  32. 32. L1正則化の定義 1. 𝐸 𝐷 = 1 2 𝒚 − Φ𝒘 2 2 に 2. 正則化項λ 𝒘 1 = λ 𝑗 𝑤𝑗 を付け加える 32 𝐸 𝐷 = 1 2 𝒚 − Φ𝒘 2 2 𝐸 𝐷 = 1 2 𝒚 − Φ𝒘 2 2 + λ 𝒘 1 L1正則化
  33. 33. L1正則化の推定解 • 𝐸 𝐷 = 1 2 𝒚 − Φ𝒘 2 2 + λ 𝒘 1の最小化 ⇔ 𝑑 𝑑𝒘 𝐸 𝐷 = 0(?) 33 λ 𝒘 1は𝑤𝑗 = 0のとき微分不可能 𝑀 = 1のとき
  34. 34. Active Set • 𝑤𝑗 ∗が非0となる𝑗を集めた集合をActive Setと呼ぶ 𝐴 = 𝑗 ∈ 1, … , 𝑀 : 𝑤𝑗 ∗ ≠ 0 34
  35. 35. 𝐸 𝐷 を𝑤𝑗で微分 (𝑗 ∈ 𝐴) • 𝜕 𝜕𝑤 𝑗 1 2 𝒚 − Φ𝒘 2 2 + λ 𝒘 1 = −φ 𝑗 𝑇 𝒚 − Φ𝒘 + λ sign 𝑤𝑗 𝑤𝑗 ≠ 0 • 𝒘 = 𝒘∗のとき 𝜕𝐸 𝐷 𝜕𝑤 𝑗 = 0より φ 𝑗 𝑇 𝒚 − Φ𝒘∗ = λ sign 𝑤𝑗 ∗ (∀𝑗 ∈ 𝐴) φ 𝑗 𝑇 𝒚 − Φ𝒘∗ = φ 𝑗′ 𝑇 𝒚 − Φ𝒘∗ = λ (∀𝑗, 𝑗′ ∈ 𝐴) 35 +1 or − 1
  36. 36. λと𝒘の関係(1/3) • λが十分に大きいとき、 𝐸 𝐷 = 1 2 𝒚 − Φ𝒘 2 2 + λ 𝒘 1 を最小化する𝒘は零ベクトル λが十分に大きいとき𝒘∗は零ベクトル 36
  37. 37. λと𝒘の関係(2/3) 1. 非0の推定値𝑤𝑗1 ∗を得るまで連続的にλを小さくする ⇒𝑗1はActive Setに入る 2. さらにλを小さくすると、非0の推定値𝑤𝑗2 ∗が現れる ⇒𝑗2はActive Setに入る (途中𝑤𝑗1 ≠ 0ならば) φ 𝑗1 𝑇 𝒚 − Φ𝒘∗ = φ 𝑗2 𝑇 𝒚 − Φ𝒘∗ = λ 37
  38. 38. λと𝒘の関係(3/3) 3. さらにλを小さくすると、非0の推定値𝑤𝑗3 ∗が現れる ⇒𝑗3はActive Setに入る (途中𝑤𝑗1 , 𝑤𝑗2 ≠ 0ならば) λ = φ 𝑗1 𝑇 𝒚 − Φ𝒘∗ = φ 𝑗2 𝑇 𝒚 − Φ𝒘∗ = φ 𝑗3 𝑇 𝒚 − Φ𝒘∗ 38
  39. 39. 𝜕𝐸 𝐷 𝜕𝑤 𝑗 = 0 𝒘=𝒘∗を𝑤𝑗 ∗ (𝑗 ∈ 𝐴)で解く(1/3) • 𝜕 𝜕𝑤 𝑗 1 2 𝒚 − Φ𝒘 2 2 = −φ 𝑗 𝑇 𝒚 − Φ𝒘 • −φ 𝑗 𝑇 𝒚 − Φ𝒘∗ = −φ 𝑗 𝑇 𝒚 − 𝑘≠𝑗 𝑤 𝑘 ∗ φ 𝑘 − 𝑤𝑗 ∗ φ 𝑗 = 0 を𝑤𝑗 ∗ で解く 𝑤𝑗 ∗ = φ 𝑗 𝑇 𝒚 − 𝑘≠𝑗 𝑤 𝑘 ∗ φ 𝑘 φ 𝑗 𝑇 𝑟𝑗は最小二乗推定解 39 𝒚 − 𝑘≠𝑗 𝑤 𝑘 ∗ φ 𝑘 = 𝑟𝑗とおくと
  40. 40. 𝜕𝐸 𝐷 𝜕𝑤 𝑗 = 0 𝒘=𝒘∗を𝑤𝑗 ∗ (𝑗 ∈ 𝐴)で解く(2/3) • 𝜕 𝜕𝑤 𝑗 1 2 𝒚 − Φ𝒘 2 2 + λ 𝒘 1 = −φ 𝑗 𝑇 𝒚 − Φ𝒘 + λ sign 𝑤𝑗 𝑤𝑗 ≠ 0 • −φ 𝑗 𝑇 𝒚 − Φ𝒘∗ + λ sign 𝑤𝑗 ∗ = −φ 𝑗 𝑇 𝒚 − 𝑘≠𝑗 𝑤 𝑘 ∗ φ 𝑘 − 𝑤𝑗 ∗ φ 𝑗 + λ sign 𝑤𝑗 ∗ = −φ 𝑗 𝑇 𝑟𝑗 − 𝑤𝑗 ∗ φ 𝑗 + λ sign 𝑤𝑗 ∗ = 0 を𝑤𝑗 ∗ で解く 𝑤𝑗 ∗ = φ 𝑗 𝑇 𝑟𝑗 − λ sign 𝑤𝑗 ∗ 40
  41. 41. 𝜕𝐸 𝐷 𝜕𝑤 𝑗 = 0 𝒘=𝒘∗を𝑤𝑗 ∗ (𝑗 ∈ 𝐴)で解く(3/3) • 𝑤𝑗 ∗ = φ 𝑗 𝑇 𝑟𝑗 − λ sign 𝑤𝑗 ∗ = S φ 𝑗 𝑇 𝑟𝑗, λ (ソフト閾値処理) • 𝑆 φ 𝑗 𝑇 𝑟𝑗, λ = sign φ 𝑗 𝑇 𝑟𝑗 φ 𝑗 𝑇 𝑟𝑗 − λ + = φ 𝑗 𝑇 𝑟𝑗 − λ φ 𝑗 𝑇 𝑟𝑗 + λ 0 41 if φ 𝑗 𝑇 𝑟𝑗 > 0 and λ < φ 𝑗 𝑇 𝑟𝑗 if φ 𝑗 𝑇 𝑟𝑗 < 0 and λ < φ 𝑗 𝑇 𝑟𝑗 if λ > φ 𝑗 𝑇 𝑟𝑗 φ 𝑗 𝑇 𝑟𝑗 𝑤𝑗 ∗ λ −λ λ λ L1正則化による推定解は 最小二乗推定解から λを引くor0にしたもの L1正則解 最小二乗推定解
  42. 42. L1正則化の推定解 • 推定解はソフト閾値処理により 42 1. スパース推定してくれる 2. 縮小推定により過学習を防げる
  43. 43. L1正則化の別表現 • 𝐸 𝐷 = 1 2 𝒚 − Φ𝒘 2 2 + λ 𝒘 1は min 𝒘 1 2 ||𝒚 − Φ𝒘||2 , subject to 𝒘 1 ≤ η のラグランジュ形式 43 𝑤2 𝑤1 𝒘∗ ◎は 1 2 ||𝒚 − Φ𝒘||2 の等高線 ◇内は 𝒘 1 ≤ ηの実行可能領域 図は𝒘 = 𝑤1 𝑤2 η ◇内で𝐸 𝐷 を最小化する点は ◇と◎が接する𝒘∗
  44. 44. L2正則化項とL1正則化項の凸性 44 L2正則化項とL1正則化項は凸性を持っている ⇒効率的なアルゴリズムを適用可能 𝑀 = 1のとき
  45. 45. L1正則化とL2正則化の比較 45 L2正則化 L1正則化 L1正則化はスパース推定してくれる
  46. 46. スパースモデリングの具体例 1. 問題が複雑 2. データが少ない 解が疎(スパース)と仮定して推定解を得る 46
  47. 47. 問題が複雑でデータが少ないとは? 1. 問題が複雑 ⇒変数が多い 2. データが少ない ⇒解くための情報が少ない 47 不良設定問題 1 = 2𝑥1 + 𝑥2のとき、 𝑥1, 𝑥2 は? 解が一意に定まらない
  48. 48. 解がスパースと仮定する • 1 = 2𝑥1 + 𝑥2を解く • 𝑥1, 𝑥2 はスパースと仮定する(𝑥1 = 0?, 𝑥2 = 0?) • これをL2、L0、L1正則化で解いてみる 48
  49. 49. L2正則化の場合 • 𝐸 𝐷 = 1 2 1 − 2𝑥1 − 𝑥2 2 + 1 2 λ 𝑥1 2 + 𝑥2 2 の最小化 • 𝑥1 𝑥2 ∗ = (λI + 2 1 2 1 )−1 2 1 = 2 λ+5 1 λ+5 解は一意だがスパースでない 49
  50. 50. L0正則化の場合 • 𝐸 𝐷 = 1 2 1 − 2𝑥1 − 𝑥2 2 + λ 𝑗 𝐼 𝑥𝑗 ≠ 0 の最小化 • 非0の値で場合分け • 𝑥1 = 0のときで計算 • 𝑥2 = 0のときで計算 • 𝑥1 = 0, 𝑥2 = 0のときで計算 組み合わせ最適化問題となり計算量が指数時間なので実際の問 題には適用できない 50
  51. 51. L1正則化の場合 • 𝐸 𝐷 = 1 2 1 − 2𝑥1 − 𝑥2 2 + λ 𝑥1 + λ 𝑥2 の最小化 • λ = 1のとき、 𝑥1 𝑥2 ∗ = 3 8 0 スパースに推定してくれる 計算時間は推定アルゴリズムに依存 51
  52. 52. 目次 イントロダクション 教師あり学習の導入 正則化 Lassoの推定アルゴリズム スパースモデリングの応用 脳とスパースコーディングの関係 52
  53. 53. Lasso(Least Absolute Shrinkage and Selection Operator) 𝐸 𝐷 = 1 2 𝒚 − Φ𝒘 2 2 + λ 𝒘 1(L1正則化) • 1996年にTibshiraniが提案 • スパース推定をしてくれる • 凸性を有しているので実時間で推定可能 • 現在のスパースモデリング研究の礎 最小二乗法にL1正則化項をつけたものをLassoと呼ぶ 53
  54. 54. Lassoの派生形 • Lasso [Tibshirani,1996] • Elastic Net [Zou and Hastie,2005] • Group Lasso[Yuan and Lin,2006] • Fused Lasso[Tibshirani et al.,2005] • Adaptive Lasso[Zou,2006] • Graphical Lasso[Friedman et al.,2008] etc… Lassoをベースとした新しい手法が複数提案されている 54
  55. 55. Lassoの推定アルゴリズム • Shooting algorithm[Fu,1998] • LARS[Efron et al.,2004] • 座標降下法[Friedman et al.,2007] • 交互方向乗数法[Boyd et al.,2011] 55
  56. 56. LARS(Least angle regression) • 2004年にEfonが提案 • φ 𝑗 𝑇 𝒚 − Φ𝒘∗ = φ 𝑗′ 𝑇 𝒚 − Φ𝒘∗ に注目して作 られたLassoの推定アルゴリズム • 推定値を原点から最小二乗推定値に近づける • 非0の推定値を一つずつ増やす 56
  57. 57. 使用済み説明変数 • 𝑤𝑗 ∗が一度でも非0となったφ 𝑗を使用済み説明変数と呼ぶ 𝐵 = 𝑗 ∈ 1, … , 𝑀 : 𝑤𝑗 ∗ ≠ 0(一度でも) 57
  58. 58. LARSのアルゴリズム(1/6) • 予測値𝑦0 = 0からスタート • (𝒚は中心化、φは基準化) 58 φ1 φ2 𝒚 𝑦0 𝑤 = 0 0 𝑦0 = φ1 φ2 𝑤 = 0 0
  59. 59. LARSのアルゴリズム(2/6) • 𝒚 − 𝑦0と内積の絶対値が一番大きいφ 𝑗1 を見つける • (𝑗1を𝐵に入れる) ⇒この場合はφ1 59 φ1 φ2 𝒚 𝑦0 𝑤 = 0 0 𝑦0 = φ1 φ2 𝑤 = 0 0 𝐵 = {1}
  60. 60. LARSのアルゴリズム(3/6) • 𝑤1を 𝒚 − 𝑦0 ′ 2が小さくなる方向に移動させる • ( 𝒚 − 𝑦0 ′ とφ1の内積の絶対値は小さくなる) 60 φ1 φ2 𝒚 𝑦0 𝒘 = 𝑤1 ∗ 0 𝑦0 ′ = φ1 φ2 𝒘 = φ1 𝑤1 ∗ φ2 𝑤1 ∗ 𝐵 = {1} 𝑦0 ′
  61. 61. LARSのアルゴリズム(4/6) • 𝒚 − 𝑦1 φ1 = 𝒚 − 𝑦1 φ 𝑗 となる他の説明変数φ 𝑗2 を 見つける • (𝑗2を𝐵に入れる) ⇒この場合はφ2 61 φ1 φ2 𝒚 𝑦0 𝒘 = 𝑤1 ∗ 0 𝑦1 = φ1 φ2 𝒘 = φ1 𝑤1 ∗ φ2 𝑤1 ∗ 𝐵 = {1,2} 𝑦1
  62. 62. LARSのアルゴリズム(5/6) • 𝒚 − 𝑦1 ′ φ1 = 𝒚 − 𝑦1 ′ φ2 を保ったまま、𝑤1, 𝑤2を 𝒚 − 𝑦1 ′ 2が小さくなる方向に移動させる 62 φ1 φ2 𝒚 𝑦0 𝒘 = 𝑤1 ∗ 𝑤2 ∗ 𝑦1 ′ = φ1 φ2 𝒘 𝜇1 ′ = φ1 𝑤1 ∗ + φ1 𝑤2 ∗ φ2 𝑤1 ∗ + φ2 𝑤2 ∗ 𝐵 = {1,2} 𝑦1 𝑦1 ′
  63. 63. LARSのアルゴリズム(6/6) 1. 予測値𝑦0 = 0からスタート 2. 𝒚 − 𝑦0と内積の絶対値が一番大きいφ 𝑗1 を見つける 3. 𝑤𝑗1 を 𝒚 − 𝑦0 ′ 2が小さくなる方向に移動させる 4. 𝒚 − 𝑦1 φ 𝑗1 = 𝒚 − 𝑦1 φ 𝑗2 となる他の説明変数φ 𝑗2 を 見つける 5. 𝒚 − 𝑦1 ′ φ 𝑗1 = 𝒚 − 𝑦1 ′ φ 𝑗2 を保ったまま、𝑤𝑗1 , 𝑤𝑗2 を 𝒚 − 𝑦1 ′ 2が小さくなる方向に移動させる 4,5を繰り返し𝒘∗を推定 63
  64. 64. LARSとLassoの違い • LARS:非0と推定された 推定値が再び0と推定さ れても予測値ベクトルの 方向は変化しない • Lasso:非0と推定された 推定値が再び0と推定さ れると予測値ベクトルの 方向は変化する 64 LARSとLassoは一致しない
  65. 65. LARS-Lasso • LARSに以下の修正を加える 非ゼロの係数𝑤𝑗が再び0になった場合、𝑗を使用済み説 明変数から取り除き、予測値を再計算して方向を修正 する • 計算量:最小二乗法と同じ • コレスキー分解:𝑂 𝑝3 + 𝑛𝑝2 2 • QR分解:𝑂 𝑛𝑝2 𝑝が大きいと計算量がかなり大きくなる 65
  66. 66. 座標降下法 • 1998年にFu先生がShooting algorithmを提案(流行らない) • 2007年にFriedman達が発展(流行る) • Shooting algorithmの再発見 • λを固定し、パラメータ毎に他のパラメータを固定して最適化 66
  67. 67. 座標降下法のアルゴリズム 1. λを固定し 𝒘 = 𝟎とする 2. For 𝑗 = 1, … , 𝑀 1. 𝑟𝑗を計算する。 2. 𝑤𝑗 ← 𝑆 φ 𝑗 𝑇 𝑟𝑗, λ 3. 収束条件を満たすまでfor文を繰り返す アルゴリズムが単純、現在大流行 67
  68. 68. 座標降下法の収束条件 • 定理(Tseng,2001) 次で表される関数の最小化問題を考える 𝑓 𝒘 = 𝑔 𝒘 + 𝑗=1 𝑀 ℎ𝑗 𝑤𝑗 ただし、𝑔 𝒘 :微分可能かつ凸関数、ℎ𝑗 𝑤𝑗 :凸関数 このとき、 座標降下法は𝑓の最小値に収束する • ただしFused Lassoなどは収束条件を満たさない • 代わりに交互乗数法が使われ、流行りはじめている 68
  69. 69. 目次 イントロダクション 教師あり学習の導入 正則化 代表的なスパース推定法 圧縮センシング 脳とスパースコーディングの関係 69
  70. 70. ブラックホールの形はわからない 70 これらは全て想像図
  71. 71. ブラックホールを観測するには? • ブラックホールは重力が非常に大きいため光も吸 い込む • ブラックホールの周りにあるガスは吸い込まれると き光を放ち、これをブラックホールシャドウと言う ブラックホールシャドウを観測 71
  72. 72. 電波干渉計によるイメージング • 本間希樹(VLBI観測所)さんらがブラックホールの 観測に挑戦 • 電波望遠鏡をまばらに配置し巨大な望遠鏡を作る (電波干渉計) • 電波干渉計によりブラックホールを観測 • 電波望遠鏡が配置されたところでしかデータが取 れないためデータが不足 圧縮センシングを使う 72
  73. 73. 電波干渉計が観測できる範囲 73 • M-87にあるとされるブラックホールを地球上の6つ の電波望遠鏡で観測する場合 曲線の範囲しか観測できない ⇔データ不足
  74. 74. 圧縮センシング(Candes and Tao,2006) • 高次元(𝑀)の原信号𝑥が𝑁 × 𝑀行列𝐴 𝑁 < 𝑀 により𝑦 = 𝐴𝑥(+ε)と線形変換されているとき (ε は 観測誤差) 、 𝑥がスパースと仮定して少ない(𝑁)観 測𝑦と𝐴から原信号𝑥を予測する 74 𝑦 ≈ 𝐴𝑥(既知) (既知) (未知) スパースな画像を復元できる
  75. 75. ブラックホールの観測 • ブラックホールの原画像データ 𝑥(高次元) • 電波干渉計により得られる情報 𝑦 = 𝐴𝑥 + ε(低次元) 𝑥をスパースと仮定して圧縮センシングを行う 75
  76. 76. 圧縮センシングとLasso推定 圧縮センシング Lasso推定 原信号𝑥(𝑀次元) パラメータ𝑤(𝑀次元) 行列𝐴 𝑁×𝑀(𝑁 < 𝑀) 計画行列Φ 𝑁×𝑀 (𝑁 < 𝑀) 観測𝑦(𝑁次元) 出力𝑦(𝑁次元) 𝑥はスパースと仮定 𝑤はスパースと仮定 𝑦 ≈ 𝐴𝑥 𝑦 ≈ Φ𝑤 76 圧縮センシングの問題はLasso推定で解ける
  77. 77. Lassoを使った実験結果 • M-87のブラックホールを模した画像を使い実験 77 原画像 Lasso推定従来の手法 Lassoは原画像の特徴を捉えている
  78. 78. 今後の研究に期待 78
  79. 79. 目次 イントロダクション 教師あり学習の導入 正則化 推定アルゴリズム 圧縮センシング 脳とスパースコーディングの関係 79
  80. 80. スパースコーディング仮説 • ニューロンが、感覚入力を少数のニューロンの発 火によって表現しているという仮説 • 今回は、視覚野におけるスパースコーディングを 題材として進める 80
  81. 81. 3つの情報表現の関係性 81 集団細胞仮説 おばあさん細胞仮説スパースコーディング仮説 1対11対多 1対少 認知と神経活動の関係は スパースコーディング仮説は 集団細胞仮説とおばあさん細胞仮説の中間
  82. 82. Barlowの仮説(1972) • 感覚神経系のニューロンにおいて、情報処理過程 の後半に位置するニューロンが、前半に位置する ニューロンに比べて活動が鈍いことを観測 ⇒神経系が情報を処理するとき、処理が進むほど 高次の情報を表現するのではないか? 82 処理の前半のニューロンの表現 処理の後半のニューロンの表現 情報処理
  83. 83. V1の過完備性(1981) • 画像を表現するために入力の次元数(ピクセル数)より大 きい数の細胞を用意することでスパースコーディングを可 能にしている 83 外側膝状体(LGN)とV1の単純型細胞を比較 多くの基底を用意することでスパー スに表現しても情報が落ちない LGNの入力よりV1の4層にある 単純型細胞の方が多い
  84. 84. 一次視覚野における基底表現 (Olshausen and Field,1996) • 一次視覚野の単純型細胞には局所性、方位選択性、 周波数選択性がある • 教師なし学習をにより自然画像から一次視覚野の3 つの性質を持つ基底を学習するアルゴリズムを提案 84 1. 局所性 2. 方位選択性 3. 周波数選択性
  85. 85. 局所性 • どの位置のエッジに反応するか 85 局所性がある
  86. 86. 方位選択性 • どの向きのエッジに反応するか 86 方位選択性がある
  87. 87. 周波数選択性 • どの太さのエッジに反応するか 87 周波数選択性がある
  88. 88. 一次視覚野における基底表現 (Olshausen and Field,1996) • 主成分分析により自然画像から基底を学習したが 局所性を持たなかった ⇒一次視覚野の基底表現と異なる 88 一次視覚野は主成分分析をしていない 主成分分析から得られた基底
  89. 89. 一次視覚野における基底表現 (Olshausen and Field,1996) • 自然画像:𝐼 𝑥, 𝑦 • 単純型細胞𝑗の基底表現:φ 𝑗(𝑥, 𝑦) • 単純型細胞𝑗の活性:𝑎𝑗 • 自然画像を基底と活性の線形和で近似 𝐼 𝑥, 𝑦 ≈ 𝑗 𝑎𝑗 φ 𝑗(𝑥, 𝑦) 89
  90. 90. 一次視覚野における基底表現 (Olshausen and Field,1996) • 活性𝑎𝑗のスパース性を最大化する基底を探す 𝐸 = − preserve information − λ sparseness of 𝑎𝑗 を最小化するφ 𝑗 𝑎𝑗を求める最適化問題を解いた 90
  91. 91. 一次視覚野における基底表現 (Olshausen and Field,1996) • preserve informationは𝐼 𝑥, 𝑦 と 𝑗 𝑎𝑗 φ 𝑗(𝑥, 𝑦)の 近似精度 • preserve information = − 𝑥,𝑦 𝐼 𝑥, 𝑦 − 𝑗 𝑎𝑗 φ 𝑗(𝑥, 𝑦) 2 最小二乗誤差を選んだ 91
  92. 92. 一次視覚野における基底表現 (Olshausen and Field,1996) • sparseness of 𝑎𝑗は𝑎𝑗のスパース性 • sparseness of 𝑎𝑗 = − 𝑗 𝑆 𝑎𝑗 𝜎 • 𝜎:スケーリング定数 • 𝑆 𝑥 :いろいろな関数で実験した • 𝑆 𝑥 = −𝑒−𝑥2 , 𝐿𝑜𝑔 1 + 𝑥2 , 𝑥 どの関数も似た結果を導いた 92
  93. 93. 一次視覚野における基底表現 (Olshausen and Field,1996) • 𝑆 𝑥 = 𝑥 、 𝜎 = 1のとき、 • 𝐸 = − preserve information − λ sparseness of 𝑎𝑗 = 𝑥,𝑦 𝐼 𝑥, 𝑦 − 𝑗 𝑎𝑗 φ 𝑗(𝑥, 𝑦) 2 + λ 𝑗 𝑎𝑗 Lassoの誤差関数と同じ 93
  94. 94. 一次視覚野における基底表現 (Olshausen and Field,1996) • スパース性を最大化する ことで得られた基底は局 所性、方位選択性、周波 数選択性をもつ • 一次視覚野の単純型細胞 には局所性、方位選択性、 周波数選択性がある 94 一次視覚野の基底表現は スパース性を最大化した結果では? スパース性を最大化して求めた基底
  95. 95. 一次視覚野とスパースコーディング • 過完備性を持つ(多くの基底を用意) • V1は局所性、方位選択性、周波数選択性を持ち、ス パース性最大化によって得られた基底と似ている 一次視覚野はスパースコーディングをしているのでは? 95
  96. 96. スパースコーディングの好ましい性質 • 同数のニューロンでより多くの容量を記憶可能 • 過完備性+スパース性:密で複雑な自然画像を コーディングすることで、数学的に取り扱いやすい • 低次のスパース表現を組み合わせることによって 高次の概念を階層的に表現できる • 発火頻度が少ないため省エネルギー ⇒以上のような仮説に始まってそれを支持する証拠 を集めてきた 96
  97. 97. 最新の反駁 • Anton Spanne , Henrik Jörntell • “Questioning the role of sparse coding in the brain”(Trends in Neurosciences,2015) 次の2つの点をはじめとしたさまざまな観点からス パースコーディングの正当性を疑問視 ⇒覚せい状態における視覚野の非スパース性 (Berkes,2009) ⇒スパース性最大化という問題設定への疑問:脳 はスパースコーディングを目標としていない? 97
  98. 98. スパースモデリングの今後 • 脳と関係があるかもしれないという仮説からス パースモデリングは注目を集めた • 脳がスパースコーディングをしているかはまだ分 からない • スパースモデリングは圧縮センシングを初めとして、 様々な分野で応用が可能、現在注目を集めている 今後の理論的、実験的研究に期待 98
  99. 99. まとめ • Lassoがスパース性を獲得することを説明した • Lassoの代表的な推定アルゴリズム(LARS,座標降 下法)を扱った • ブラックホールの復元シミュレーションを通して、圧 縮センシングが画像復元に使用されることを説明 した • スパースコーディング仮説に対する証拠と反論を 概観した 99
  100. 100. 参考文献(1/6) • Spanne, A., & Jörntell, H. (2015). Questioning the role of sparse coding in the brain. Trends in neurosciences, 38(7), 417-427. • [Barlow,1981]Barlow, H. B. (1981). The Ferrier Lecture, 1980: Critical limiting factors in the design of the eye and visual cortex. Proceedings of the Royal Society of London B: Biological Sciences, 212(1186), 1-34. • [Barlow,1972]Barlow, H. B. (2009). Single units and sensation: a neuron doctrine for perceptual psychology?. Perception, (38), 795-8. • [Boyd et al,2011]Boyd, S., Parikh, N., Chu, E., Peleato, B., & Eckstein, J. (2011). Distributed optimization and statistical learning via the alternating direction method of multipliers. Foundations and Trends® in Machine Learning, 3(1), 1- 122. • [Candès et al.,2006]Candès, E. J., Romberg, J., & Tao, T. (2006). Robust uncertainty principles: Exact signal reconstruction from highly incomplete frequency information.Information Theory, IEEE Transactions on, 52(2), 489-509. • [Efron et al.,2004]Efron, B., Hastie, T., Johnstone, I., & Tibshirani, R. (2004). Least angle regression. The Annals of statistics, 32(2), 407-499. 100
  101. 101. 参考文献(2/6) • [Friedman et al,2007]Friedman, J., Hastie, T., Höfling, H., & Tibshirani, R. (2007). Pathwise coordinate optimization. The Annals of Applied Statistics, 1(2), 302-332. • [Friedman et al.,2008]Friedman, J., Hastie, T., & Tibshirani, R. (2008). Sparse inverse covariance estimation with the graphical lasso. Biostatistics, 9(3), 432- 441. • [Friedman et al.,2010]Friedman, J., Hastie, T., & Tibshirani, R. (2010). Regularization paths for generalized linear models via coordinate descent. Journal of statistical software, 33(1), 1. • [Fu,1998]Fu, W. J. (1998). Penalized regressions: the bridge versus the lasso. Journal of computational and graphical statistics, 7(3), 397-416. • Hoerl, A. E., & Kennard, R. W. (1970). Ridge regression: Biased estimation for nonorthogonal problems. Technometrics, 12(1), 55-67. • [Honma et al.2014]Honma, M., Akiyama, K., Uemura, M., & Ikeda, S. (2014). Super-resolution imaging with radio interferometry using sparse modeling. Publications of the Astronomical Society of Japan, psu070. 101
  102. 102. 参考文献(3/6) • [Olshausen et al.,1996]Olshausen, B. A., & Field, D. J.(1996). Emergence of simple-cell receptive field properties by learning a sparse code for natural images. Nature, 381(6583), 607-609. • [Olshausen et al.,1997]Olshausen, B. A., & Field, D. J. (1997). Sparse coding with an overcomplete basis set: A strategy employed by V1?. Vision research, 37(23), 3311-3325. • [Olshausen et al.,2004]Olshausen, B. A., & Field, D. J. (2004). Sparse coding of sensory inputs.Current opinion in neurobiology, 14(4), 481-487. • [Spanne et al.,2015]Spanne, A., & Jörntell, H. (2015). Questioning the role of sparse coding in the brain. Trends in neurosciences, 38(7), 417-427. • [Tibshirani,1996]Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society. Series B (Methodological), 267-288. • [Tibshirani et al.,2005]Tibshirani, R., Saunders, M., Rosset, S., Zhu, J., & Knight, K. (2005). Sparsity and smoothness via the fused lasso. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 67(1), 91-108. 102
  103. 103. 参考文献(4/6) • [Yuan and Lin,2006]Yuan, M., & Lin, Y. (2006). Model selection and estimation in regression with grouped variables. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 68(1), 49-67. • [Zou and Hastie,2005]Zou, H., & Hastie, T. (2005). Regularization and variable selection via the elastic net. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 67(2), 301-320. • [Zou,2006]Zou, H. (2006). The adaptive lasso and its oracle properties. Journal of the American statistical association, 101(476), 1418-1429. 103
  104. 104. 参考文献(5/6) • 池田思朗、本間希樹、植村誠.スパースモデリングと天文学.応用数理 25(1), 15-19, 2015-03-25 • 植木優夫、田宮元.ゲノムワイド関連解析の統計学的問題点とその解決.医学 のあゆみ 第230巻12号(2009年9月19日号)(1079-1080) • 岡田真人.大脳皮質視覚野の情報表現を眺める(研究詳解) (特集 地図を描く・ 風景を眺める--主成分分析・多次元尺度法とその周辺).統計数理 49(1), 9-21, 2001 • 樺島祥介.圧縮センシングへの統計力学的アプローチ.日本神経回路学会誌 = The Brain & neural networks 17(2), 70-78, 2010-06-05 • 川野秀一、廣瀬慧、立石正平、小西貞則.回帰モデリングとL1正則化法の最近 の展開.日本統計学会誌 第 39 巻, 第 2 号, 2010 年 3 月 211 頁 ∼ 242 頁 • 田中利幸 .圧縮センシングの数理.電子情報通信学会 基礎・境界ソサイエティ Fundamentals Review 4(1), 39-47, 2010 • 寺島 裕樹.脳の画像・音声処理戦略を解き明かすスパースモデリング(<特集> 画像と音声処理のスパースモデリングとデータ駆動科学の創成).映像情報メ ディア学会誌 : 映像情報メディア 68(12), 897-901, 2014-12-01 104
  105. 105. 参考文献(6/6) • 廣瀬 慧.Lassoタイプの正則化法に基づくスパース推定法を用いた 超高次元 データ解(高次元量子トモグラフィにおける統計理論的なアプローチ).数理解析 研究所講究録.1908, 57-77, 2014-08 • 三村和史.圧縮センシング : 疎情報の再構成とそのアルゴリズム (時間周波数 解析の理論とその理工学的応用).数理解析研究所講究録 1803, 26-56, 2012- 08 105
  106. 106. 参考書 • 2015年度統計関連学会連合大会チュートリアルセッション • Trevor Hastie, Robert Tibshirani, Jerome Friedman[著]、統計的学習の基礎、共立出版、2014年 • C.M.ビショップ[著]、パターン認識と機械学習、シュプリンガージャパン(株)、2007年 • 甘利俊一、外川敬介[著]、脳科学大事典、朝倉書店、2000年 • 岡谷貴之[著]、深層学習、講談社、2015年 106
  107. 107. 参考資料(HP) • スパースモデリングの深化と高次元データ駆動科学の創成 http://sparse-modeling.jp/ • 岡田研究室 http://mns.k.u-tokyo.ac.jp/index.php • 天文屋のためのHow to スパースモデリング http://home.hiroshima-u.ac.jp/uemuram/?page_id=234 • 数理助教の会 http://jokyos.blogspot.jp/ • Lasso-Lars(ぽんのブログ) http://ameblo.jp/p630/entry-11610675456.html • 脳とネットワーク/The Swingy Brain http://blog.livedoor.jp/brain_network/archives/50968197.html • GATAG http://www.gatag.net/ • ブラックホールシャドウとkerrパラメータ http://www.phyas.aichi- edu.ac.jp/~takahasi/Project_H_pdf/BHH130629/takada130629.pdf • 関数解析の基礎とウェーブレット http://wwwcs.ce.nihon-u.ac.jp/lab/moritaleb224w.pdf • 過完備基底関数系による関数近似と その近似精度について http://www.murata.eb.waseda.ac.jp/noboru.murata/paper/mura98_sice_dst.pdf • Sparse coding スパース符号化 http://www.mbs.med.kyoto-u.ac.jp/cortex/24_Sparse_coding.pdf • Vision in Brains and Machines http://redwood.berkeley.edu/bruno/talks/olshausen-VSS-talk-slides.pdf • http://blog.csdn.net/solomon1558/article/details/40951781 • 脳科学辞典 • Wikipedia 107

×