SlideShare una empresa de Scribd logo
1 de 50
パターン認識と機械学習
  第5章 ニューラルネットワーク (5.1~5.3)


  東京工業大学 大学院情報理工学研究科 計算工学専攻 秋山研究室 D2

  大上 雅史 (@tonets)
2012/12/10                                 1
                        W8PRML読書会 2012/12/10
目次
第5章 ニューラルネットワーク
    5.1      フィードフォワードネットワーク関数
    5.2      ネットワーク訓練
    5.3      誤差逆伝播




                         http://www2.edu.ipa.go.jp/gz/a-cg/a-800/a-810/a-811.jpg

2012/12/10                                                                  2
ニューラルネットワーク
    脳機能に見られる特性をシミュレーションによって
    表現することを目指した数学モデル




             http://www.lab.kochi-tech.ac.jp/future/1110/okasaka/neural.htm



2012/12/10                                                                    3
線形モデルの復習
    例:多項式曲線フィッティング




2012/12/10           4
線形モデルの復習
    一般形



    •   Áj(x) :基底関数
    •   Á0(x) = 1, w0はバイアス項


    多項式曲線フィッティングでは




2012/12/10                    5
回帰問題とクラス分類問題
    回帰問題



    クラス分類問題




    •   f( )を非線形活性化関数という
    •   f( )の例:


2012/12/10                 6
ニューラルネットワークの線形モデル
    線形和の重み係数wを訓練する
    基本的なニューラルネットワーク




2012/12/10            7
基本的なニューラルネットワーク
    入力変数(x1,…, xD)の線形和(活性)をつくる



    •   (1) は1層目          iの列   jの列   kの列
    •   wji : 重みパラメータ
    •   wj0 : バイアスパラメータ
    •   aj : 活性
    非線形活性化関数にとおす

    •   hは微分可能であるとする
2012/12/10                                  8
基本的なニューラルネットワーク
    計算したzの線形和(出力ユニット活性)を求める



    適当な活性化関数にとおす      iの列   jの列   kの列
    •   だいたいシグモイド関数




2012/12/10                              9
基本的なニューラルネットワーク
    まとめ



    x0=1 として,




2012/12/10        10
複雑なネットワーク
    複雑なネットワークで一般的な写像を表せる
    •   フィードフォワード構造(有向閉路がない)に限る




        K: kへの接続を持つ全てのユニット




2012/12/10                        11
ネットワーク訓練
    ネットワークパラメータwを決める
    •   決め方→二乗和誤差の最小化
    定式化
    •   入力ベクトル
    •   目標ベクトル
    •   誤差関数




2012/12/10              12
ネットワーク訓練
    ネットワーク出力の確率的解釈が大事
    回帰問題として,実数値目標変数tを考える
    •   tは平均がxに依存するガウス分布に従う




    •   尤度関数




2012/12/10                    13
復習:ガウス分布




i.i.d.データ    に対する対数尤度




2012/12/10              14
ネットワーク訓練
    誤差関数(負の対数尤度)




    •   ニューラルネットワークの研究では尤度最大化より
        誤差関数最小化の方が常套手段
    •   誤差関数を最小化して最尤推定解を求める
        (尤度最大化と等価である)


2012/12/10                        15
ネットワーク訓練
    wを求める→E(w)の最小化



    •   y(xn,w)の非線形性により正確には局所解
    wMLが求まったらbは誤差関数最小化で求められる




    •                    をbで微分して0と置く

2012/12/10                         16
ネットワーク訓練
    目標変数が複数(K個)の場合(t→t)
    •   条件付き確率が独立,ノイズの分散が共通であると仮定



    •   wML:尤度最大化→二乗和誤差関数の最小化
    証明




2012/12/10                      17
ネットワーク訓練
    •   bは誤差関数最小化によって求められる




        • K は目標変数の数




2012/12/10                   18
ネットワーク訓練
    2クラス分類問題の場合
    •   t=1がクラスC1,t=0がクラスC2
    •   ロジスティックシグモイド関数を活性化関数とする
    •   目標の条件付き分布(ベルヌーイ分布)




    •   誤差関数(負の対数尤度)



                          交差エントロピー誤差関数
2012/12/10                          19
ネットワーク訓練
    K個の異なる2クラス分類問題の場合
    •   活性化関数・・・ロジスティックシグモイド関数
    •   K個の出力を持つネットワーク




    •   誤差関数(負の対数尤度)



                       交差エントロピー誤差関数

2012/12/10                       20
ネットワーク訓練
    標準的なKクラス分類問題の場合
    •   1-of-K符号化法で表されるとする
    •   ネットワーク出力は
    •   誤差関数(負の対数尤度)




    •   出力ユニットの活性化関数はソフトマックス関数




2012/12/10                       21
ネットワーク訓練
    まとめ
                 活性化関数           誤差関数

        回帰問題       線形             二乗和

    (独立な多数の)
               ロジスティックシグモイド     交差エントロピー
    2クラス分類問題

   多クラス分類問題      ソフトマックス      多クラス交差エントロピー

               ロジスティックシグモイド
    2クラス分類問題                    交差エントロピー
                 or ソフトマックス


2012/12/10                                 22
パラメータ最適化
    E(w)の最小化問題




2012/12/10       23
局所二次近似
    重み空間内の点 の周りでのE(w)の二次近似



    •         : 勾配

    •                : ヘッセ行列


        の近くでの勾配の局所近似(二次近似式の微分)



2012/12/10                     24
局所二次近似
    極小点w*の周りで考えるとb=0


    (ヘッセ行列の)固有値問題
    •   固有方程式
    •   ヘッセ行列は実対称行列
        →固有ベクトルuは完全正規直交系を成す(p.318 付録C)


    •        を固有ベクトルの線形結合で表す


2012/12/10                               25
局所二次近似
    以上を用いて誤差関数を書き換える




2012/12/10             26
行列の正定値性
    行列Aが正定値である⇔
    行列Aが正定値である⇔Aの全ての固有値が正
     証明




2012/12/10                  27
誤差関数の等高線
    固有空間上の誤差関数の等高線は楕円となる




2012/12/10                 28
誤差関数の等高線
    固有空間上の誤差関数の等高線は楕円となる
       証明




2012/12/10                 29
局所二次近似
    ヘッセ行列Hの    での値が正定値
     ⇔  は極小点である

    証明⇒




   証明⇐




2012/12/10               30
勾配情報の利用
    誤差曲面はbとHで決定される

    •   bの独立なパラメータ数・・・W個 (Wはwの次元)
    •   Hの独立なパラメータ数・・・W(W+1)/2個

    •   極小点を求めるために必要な点の数 O(W2)
    •   極小点の評価に必要なステップ数 O(W)

         の評価でW個分の情報が得られる
    •   勾配情報を用いれば

2012/12/10                          31
勾配降下最適化(最急/勾配降下法)
    勾配降下法による重み最適化


    •   h :学習率パラメータ
    全データによる訓練→バッチ訓練
    •   勾配降下法より良い方法がある
        • 共役勾配法
        • 準ニュートン法
    1個ずつデータを使う訓練→オンライン訓練
    •   大規模データのときに便利


2012/12/10                 32
確率的勾配降下法(オンライン版勾配降下法)
    確率的勾配降下法の誤差関数



    •        :各データ点についての誤差
    確率的勾配降下法の更新式


    •   hのスケジューリングが重要
    •   大域的最適解が得られるかも
        • Eの停留点は必ずしもEiの停留点ではないから


2012/12/10                         33
バックプロパゲーション
    誤差逆伝播法(バックプロパゲーション)                  ×伝搬 ○伝播
                                         ×でんぱん ○でんぱ
    •   誤差関数の勾配を効率良く評価する方法

        wikipediaより
        1. ネットワークの出力と与えられたサンプルの最適解を比較する.
           各出力ユニットについて誤差を計算する.
        2. 個々のユニットの期待される出力値と重み,
           要求された出力と実際の出力の差(誤差)を計算する.
        3. 各ユニットの重みを誤差が小さくなるよう調整する.
        4. より大きな重みで接続された前層のユニットに誤差の責任があると決める.
        5. そのユニットのさらに前層のユニットついて同様の処理を行う

             バックプロパゲーション
             伝言ゲームにおいて,最後の人から逆方向に「元々はどういう言葉だったの?」
             と伝言することで誤りを修正するアルゴリズム.(朱鷺の社より)

2012/12/10                                     34
誤差関数微分の評価
    単純な線形モデルで考える
    •   出力ykが入力変数xiの線形和

    •   誤差関数              ※


    入力パターンnの誤差関数の重みに関する勾配



    •   接続i-jの出力側の誤差信号と入力側の変数の積の形


2012/12/10                      35
誤差関数の偏微分の計算
    計算(添字に注意,(n)に意味はないが補足的に)




2012/12/10                     36
バックプロパゲーション
    一般のフィードフォワードネットワークの場合
    •   ユニットの出力



    •   微分する(添字nを省略)



                          :誤差
    •   正準連結関数を活性化関数に用いた出力ユニットでは


2012/12/10                      37
復習:正準連結関数
    一般化線形モデル


    •        :活性化関数
    •        :連結関数

    正準連結関数
    • 条件付き確率分布を指数型分布族から選ぶ
    • 活性化関数を正準連結関数から選ぶ
    →誤差関数の微分が誤差(yn-tn)と特徴ベクトルjの積になる


2012/12/10                       38
バックプロパゲーション
    隠れユニットの誤差



    逆伝播公式




2012/12/10      39
バックプロパゲーション
    まとめ(誤差逆伝播)
    1. 入力ベクトルxnを入れ,全てのユニットの出力を求める
                             (順伝播)

    2. 全ての出力ユニットの誤差 dk を評価する

    3.   dk を逆伝播させて全ての隠れユニットの誤差 dj を得る


    4. 必要な微分を評価する



2012/12/10                           40
バックプロパゲーション
    補足
    •    バッチ手法の場合
        →全体の誤差関数の微分は全てのパターンの総和




    •    ユニットごとに活性化関数が違う場合
        →特に変わらない
         (ユニットごとのhを用いて計算すれば良い)



2012/12/10                       41
バックプロパゲーションの計算例
    逆伝播手続きの単純な例
    •   2層ネットワーク
    •   誤差関数:二乗和誤差関数



    •   出力ユニットの活性化関数:線形

    •   隠れユニットの活性化関数:シグモイド型




2012/12/10                    42
tanh関数の性質
    定義

    微分




2012/12/10   43
バックプロパゲーションの計算例
1. 全てのユニットの出力を求める




2. 出力ユニットのdkを計算する




2012/12/10          44
バックプロパゲーションの計算例
3. dk を逆伝播させて隠れユニットの誤差 dj を求める



4. 誤差関数の微分を得る




2012/12/10                   45
バックプロパゲーションの効率
    順伝播の計算量・・・
    •         の計算量

    •   結合が非常に疎である場合を除くと 重み数≫ユニット数
    •   逆伝播も同様




2012/12/10                       46
誤差関数の数値微分
    数値微分(有限幅差分)の利用
    •   前進差分(前方差分)



    •   中央差分(中心差分)
        • 誤差項が小さくなるが,前進差分の倍くらいの計算量が必要



    数値微分は計算量が
    •   逆伝播公式の結果の正当性を数値微分で確認する,など


2012/12/10                              47
数値微分の誤差の評価
    前進差分
    •   誤差の評価




    中央差分
    •   誤差の評価




2012/12/10      48
バックプロパゲーションの応用
    ヤコビ行列の評価を逆伝播で計算する



    モジュール型パターン認識システムを考える
    •   誤差関数の微分



                  ヤコビ行列




2012/12/10                 49
ヤコビ行列のバックプロパゲーション
    ヤコビ行列の要素を変形


    微分を計算


    出力ユニット
    •   シグモイド活性化関数

    •   ソフトマックス関数

2012/12/10           50

Más contenido relacionado

La actualidad más candente

変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
 
PRML読書会#4資料+補足
PRML読書会#4資料+補足PRML読書会#4資料+補足
PRML読書会#4資料+補足
Hiromasa Ohashi
 

La actualidad más candente (20)

Prml 3 3.3
Prml 3 3.3Prml 3 3.3
Prml 3 3.3
 
深層学習 勉強会第5回 ボルツマンマシン
深層学習 勉強会第5回 ボルツマンマシン深層学習 勉強会第5回 ボルツマンマシン
深層学習 勉強会第5回 ボルツマンマシン
 
【解説】 一般逆行列
【解説】 一般逆行列【解説】 一般逆行列
【解説】 一般逆行列
 
PRML5
PRML5PRML5
PRML5
 
PRML輪読#3
PRML輪読#3PRML輪読#3
PRML輪読#3
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
PRML輪読#2
PRML輪読#2PRML輪読#2
PRML輪読#2
 
正準相関分析
正準相関分析正準相関分析
正準相関分析
 
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM) 一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
 
質的変数の相関・因子分析
質的変数の相関・因子分析質的変数の相関・因子分析
質的変数の相関・因子分析
 
自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介
 
低ランク性および平滑性を用いたテンソル補完 (Tensor Completion based on Low-rank and Smooth Structu...
低ランク性および平滑性を用いたテンソル補完 (Tensor Completion based on Low-rank and Smooth Structu...低ランク性および平滑性を用いたテンソル補完 (Tensor Completion based on Low-rank and Smooth Structu...
低ランク性および平滑性を用いたテンソル補完 (Tensor Completion based on Low-rank and Smooth Structu...
 
PRML 5章 PP.227-PP.247
PRML 5章 PP.227-PP.247PRML 5章 PP.227-PP.247
PRML 5章 PP.227-PP.247
 
PRML輪読#7
PRML輪読#7PRML輪読#7
PRML輪読#7
 
PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5
 
PRML読書会#4資料+補足
PRML読書会#4資料+補足PRML読書会#4資料+補足
PRML読書会#4資料+補足
 
Prml3.5 エビデンス近似〜
Prml3.5 エビデンス近似〜Prml3.5 エビデンス近似〜
Prml3.5 エビデンス近似〜
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
 
coordinate descent 法について
coordinate descent 法についてcoordinate descent 法について
coordinate descent 法について
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 

Destacado

Protein-RNA Interaction Prediction
Protein-RNA Interaction PredictionProtein-RNA Interaction Prediction
Protein-RNA Interaction Prediction
Masahito Ohue
 

Destacado (20)

タンパク質は音楽を奏でるか?
タンパク質は音楽を奏でるか?タンパク質は音楽を奏でるか?
タンパク質は音楽を奏でるか?
 
FiberDock: Flexible Protein Docking with Normal Mode
FiberDock: Flexible Protein Docking with Normal ModeFiberDock: Flexible Protein Docking with Normal Mode
FiberDock: Flexible Protein Docking with Normal Mode
 
Protein-RNA Interaction Prediction
Protein-RNA Interaction PredictionProtein-RNA Interaction Prediction
Protein-RNA Interaction Prediction
 
Finding correct protein–protein docking models using ProQDock (ISMB2016読み会, 大上)
Finding correct protein–protein docking models using ProQDock (ISMB2016読み会, 大上)Finding correct protein–protein docking models using ProQDock (ISMB2016読み会, 大上)
Finding correct protein–protein docking models using ProQDock (ISMB2016読み会, 大上)
 
Accurate protein-protein docking with rapid calculation
Accurate protein-protein docking with rapid calculationAccurate protein-protein docking with rapid calculation
Accurate protein-protein docking with rapid calculation
 
計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)
計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)
計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)
 
PRML Chapter 14
PRML Chapter 14PRML Chapter 14
PRML Chapter 14
 
学振特別研究員になるために~知っておくべき10のTips~[平成29年度申請版]
学振特別研究員になるために~知っておくべき10のTips~[平成29年度申請版]学振特別研究員になるために~知っておくべき10のTips~[平成29年度申請版]
学振特別研究員になるために~知っておくべき10のTips~[平成29年度申請版]
 
PRML Chapter 5
PRML Chapter 5PRML Chapter 5
PRML Chapter 5
 
学振特別研究員になるために~2018年度申請版
学振特別研究員になるために~2018年度申請版学振特別研究員になるために~2018年度申請版
学振特別研究員になるために~2018年度申請版
 
Protein-Protein Interaction Prediction
Protein-Protein Interaction PredictionProtein-Protein Interaction Prediction
Protein-Protein Interaction Prediction
 
Prml2.1 2.2,2.4-2.5
Prml2.1 2.2,2.4-2.5Prml2.1 2.2,2.4-2.5
Prml2.1 2.2,2.4-2.5
 
機械学習プロフェッショナルシリーズ 深層学習 chapter3 確率的勾配降下法
機械学習プロフェッショナルシリーズ 深層学習 chapter3 確率的勾配降下法機械学習プロフェッショナルシリーズ 深層学習 chapter3 確率的勾配降下法
機械学習プロフェッショナルシリーズ 深層学習 chapter3 確率的勾配降下法
 
統計学の記法,回帰分析と最小二乗法
統計学の記法,回帰分析と最小二乗法統計学の記法,回帰分析と最小二乗法
統計学の記法,回帰分析と最小二乗法
 
Protein-Protein Interaction Prediction Based on Template-Based and de Novo Do...
Protein-Protein Interaction Prediction Based on Template-Based and de Novo Do...Protein-Protein Interaction Prediction Based on Template-Based and de Novo Do...
Protein-Protein Interaction Prediction Based on Template-Based and de Novo Do...
 
PrePPI: structure-based protein-protein interaction prediction
PrePPI: structure-based protein-protein interaction predictionPrePPI: structure-based protein-protein interaction prediction
PrePPI: structure-based protein-protein interaction prediction
 
IIBMP2014 Lightning Talk - MEGADOCK 4.0
IIBMP2014 Lightning Talk - MEGADOCK 4.0IIBMP2014 Lightning Talk - MEGADOCK 4.0
IIBMP2014 Lightning Talk - MEGADOCK 4.0
 
Protein-protein docking-based virtual screening
Protein-protein docking-based virtual screeningProtein-protein docking-based virtual screening
Protein-protein docking-based virtual screening
 
ISMB/ECCB2015読み会:大上
ISMB/ECCB2015読み会:大上ISMB/ECCB2015読み会:大上
ISMB/ECCB2015読み会:大上
 
「全ての確率はコイン投げに通ず」 Japan.R 発表資料
「全ての確率はコイン投げに通ず」 Japan.R 発表資料「全ての確率はコイン投げに通ず」 Japan.R 発表資料
「全ての確率はコイン投げに通ず」 Japan.R 発表資料
 

Similar a W8PRML5.1-5.3

Prml Reading Group 10 8.3
Prml Reading Group 10 8.3Prml Reading Group 10 8.3
Prml Reading Group 10 8.3
正志 坪坂
 
TokyoWebmining統計学部 第1回
TokyoWebmining統計学部 第1回TokyoWebmining統計学部 第1回
TokyoWebmining統計学部 第1回
Issei Kurahashi
 
CMSI計算科学技術特論B(5) アプリケーションの性能最適化の実例2
CMSI計算科学技術特論B(5) アプリケーションの性能最適化の実例2CMSI計算科学技術特論B(5) アプリケーションの性能最適化の実例2
CMSI計算科学技術特論B(5) アプリケーションの性能最適化の実例2
Computational Materials Science Initiative
 
Tokyo r12 - R言語による回帰分析入門
Tokyo r12 - R言語による回帰分析入門Tokyo r12 - R言語による回帰分析入門
Tokyo r12 - R言語による回帰分析入門
Yohei Sato
 
Or seminar2011final
Or seminar2011finalOr seminar2011final
Or seminar2011final
Mikio Kubo
 

Similar a W8PRML5.1-5.3 (20)

PRML_from5.1to5.3.1
PRML_from5.1to5.3.1PRML_from5.1to5.3.1
PRML_from5.1to5.3.1
 
PRML復々習レーン#7 前回までのあらすじ
PRML復々習レーン#7 前回までのあらすじPRML復々習レーン#7 前回までのあらすじ
PRML復々習レーン#7 前回までのあらすじ
 
ディープラーニング基礎.pptx
ディープラーニング基礎.pptxディープラーニング基礎.pptx
ディープラーニング基礎.pptx
 
PRML Chapter 5 (5.0-5.4)
PRML Chapter 5 (5.0-5.4)PRML Chapter 5 (5.0-5.4)
PRML Chapter 5 (5.0-5.4)
 
レポート1
レポート1レポート1
レポート1
 
Prml5 6
Prml5 6Prml5 6
Prml5 6
 
Prml Reading Group 10 8.3
Prml Reading Group 10 8.3Prml Reading Group 10 8.3
Prml Reading Group 10 8.3
 
Building High-level Features Using Large Scale Unsupervised Learning
Building High-level Features Using Large Scale Unsupervised LearningBuilding High-level Features Using Large Scale Unsupervised Learning
Building High-level Features Using Large Scale Unsupervised Learning
 
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
 
TokyoWebmining統計学部 第1回
TokyoWebmining統計学部 第1回TokyoWebmining統計学部 第1回
TokyoWebmining統計学部 第1回
 
bigdata2012ml okanohara
bigdata2012ml okanoharabigdata2012ml okanohara
bigdata2012ml okanohara
 
Image net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural NetworksImage net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural Networks
 
点群深層学習 Meta-study
点群深層学習 Meta-study点群深層学習 Meta-study
点群深層学習 Meta-study
 
文献紹介:Learning Video Stabilization Using Optical Flow
文献紹介:Learning Video Stabilization Using Optical Flow文献紹介:Learning Video Stabilization Using Optical Flow
文献紹介:Learning Video Stabilization Using Optical Flow
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
 
CMSI計算科学技術特論B(5) アプリケーションの性能最適化の実例2
CMSI計算科学技術特論B(5) アプリケーションの性能最適化の実例2CMSI計算科学技術特論B(5) アプリケーションの性能最適化の実例2
CMSI計算科学技術特論B(5) アプリケーションの性能最適化の実例2
 
Tokyo r12 - R言語による回帰分析入門
Tokyo r12 - R言語による回帰分析入門Tokyo r12 - R言語による回帰分析入門
Tokyo r12 - R言語による回帰分析入門
 
Or seminar2011final
Or seminar2011finalOr seminar2011final
Or seminar2011final
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
 
第14回 配信講義 計算科学技術特論B(2022)
第14回 配信講義 計算科学技術特論B(2022)第14回 配信講義 計算科学技術特論B(2022)
第14回 配信講義 計算科学技術特論B(2022)
 

Más de Masahito Ohue

Más de Masahito Ohue (15)

学振特別研究員になるために~2024年度申請版
 学振特別研究員になるために~2024年度申請版 学振特別研究員になるために~2024年度申請版
学振特別研究員になるために~2024年度申請版
 
学振特別研究員になるために~2023年度申請版
学振特別研究員になるために~2023年度申請版学振特別研究員になるために~2023年度申請版
学振特別研究員になるために~2023年度申請版
 
学振特別研究員になるために~2022年度申請版
学振特別研究員になるために~2022年度申請版学振特別研究員になるために~2022年度申請版
学振特別研究員になるために~2022年度申請版
 
第43回分子生物学会年会フォーラム2F-11「インシリコ創薬を支える最先端情報科学」から抜粋したAlphaFold2の話
第43回分子生物学会年会フォーラム2F-11「インシリコ創薬を支える最先端情報科学」から抜粋したAlphaFold2の話第43回分子生物学会年会フォーラム2F-11「インシリコ創薬を支える最先端情報科学」から抜粋したAlphaFold2の話
第43回分子生物学会年会フォーラム2F-11「インシリコ創薬を支える最先端情報科学」から抜粋したAlphaFold2の話
 
Learning-to-rank for ligand-based virtual screening
Learning-to-rank for ligand-based virtual screeningLearning-to-rank for ligand-based virtual screening
Learning-to-rank for ligand-based virtual screening
 
Parallelized pipeline for whole genome shotgun metagenomics with GHOSTZ-GPU a...
Parallelized pipeline for whole genome shotgun metagenomics with GHOSTZ-GPU a...Parallelized pipeline for whole genome shotgun metagenomics with GHOSTZ-GPU a...
Parallelized pipeline for whole genome shotgun metagenomics with GHOSTZ-GPU a...
 
Molecular Activity Prediction Using Graph Convolutional Deep Neural Network C...
Molecular Activity Prediction Using Graph Convolutional Deep Neural Network C...Molecular Activity Prediction Using Graph Convolutional Deep Neural Network C...
Molecular Activity Prediction Using Graph Convolutional Deep Neural Network C...
 
学振特別研究員になるために~2020年度申請版
学振特別研究員になるために~2020年度申請版学振特別研究員になるために~2020年度申請版
学振特別研究員になるために~2020年度申請版
 
出会い系タンパク質を探す旅
出会い系タンパク質を探す旅出会い系タンパク質を探す旅
出会い系タンパク質を探す旅
 
学振特別研究員になるために~2019年度申請版
学振特別研究員になるために~2019年度申請版学振特別研究員になるために~2019年度申請版
学振特別研究員になるために~2019年度申請版
 
Link Mining for Kernel-based Compound-Protein Interaction Predictions Using a...
Link Mining for Kernel-based Compound-Protein Interaction Predictions Using a...Link Mining for Kernel-based Compound-Protein Interaction Predictions Using a...
Link Mining for Kernel-based Compound-Protein Interaction Predictions Using a...
 
目バーチャルスクリーニング
目バーチャルスクリーニング目バーチャルスクリーニング
目バーチャルスクリーニング
 
Microsoft Azure上でのタンパク質間相互作用予測システムの並列計算と性能評価
Microsoft Azure上でのタンパク質間相互作用予測システムの並列計算と性能評価Microsoft Azure上でのタンパク質間相互作用予測システムの並列計算と性能評価
Microsoft Azure上でのタンパク質間相互作用予測システムの並列計算と性能評価
 
学振特別研究員になるために~知っておくべき10のTips~[平成28年度申請版]
学振特別研究員になるために~知っておくべき10のTips~[平成28年度申請版]学振特別研究員になるために~知っておくべき10のTips~[平成28年度申請版]
学振特別研究員になるために~知っておくべき10のTips~[平成28年度申請版]
 
学振特別研究員になるために~知っておくべき10のTips~
学振特別研究員になるために~知っておくべき10のTips~学振特別研究員になるために~知っておくべき10のTips~
学振特別研究員になるために~知っておくべき10のTips~
 

Último

The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024
koheioishi1
 
TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationTokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentation
YukiTerazawa
 

Último (8)

2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
 
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
 
The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024
 
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
 
TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationTokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentation
 
世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム
世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム
世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム
 
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
 
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
 

W8PRML5.1-5.3

  • 1. パターン認識と機械学習 第5章 ニューラルネットワーク (5.1~5.3) 東京工業大学 大学院情報理工学研究科 計算工学専攻 秋山研究室 D2 大上 雅史 (@tonets) 2012/12/10 1 W8PRML読書会 2012/12/10
  • 2. 目次 第5章 ニューラルネットワーク 5.1 フィードフォワードネットワーク関数 5.2 ネットワーク訓練 5.3 誤差逆伝播 http://www2.edu.ipa.go.jp/gz/a-cg/a-800/a-810/a-811.jpg 2012/12/10 2
  • 3. ニューラルネットワーク 脳機能に見られる特性をシミュレーションによって 表現することを目指した数学モデル http://www.lab.kochi-tech.ac.jp/future/1110/okasaka/neural.htm 2012/12/10 3
  • 4. 線形モデルの復習 例:多項式曲線フィッティング 2012/12/10 4
  • 5. 線形モデルの復習 一般形 • Áj(x) :基底関数 • Á0(x) = 1, w0はバイアス項 多項式曲線フィッティングでは 2012/12/10 5
  • 6. 回帰問題とクラス分類問題 回帰問題 クラス分類問題 • f( )を非線形活性化関数という • f( )の例: 2012/12/10 6
  • 7. ニューラルネットワークの線形モデル 線形和の重み係数wを訓練する 基本的なニューラルネットワーク 2012/12/10 7
  • 8. 基本的なニューラルネットワーク 入力変数(x1,…, xD)の線形和(活性)をつくる • (1) は1層目 iの列 jの列 kの列 • wji : 重みパラメータ • wj0 : バイアスパラメータ • aj : 活性 非線形活性化関数にとおす • hは微分可能であるとする 2012/12/10 8
  • 9. 基本的なニューラルネットワーク 計算したzの線形和(出力ユニット活性)を求める 適当な活性化関数にとおす iの列 jの列 kの列 • だいたいシグモイド関数 2012/12/10 9
  • 10. 基本的なニューラルネットワーク まとめ x0=1 として, 2012/12/10 10
  • 11. 複雑なネットワーク 複雑なネットワークで一般的な写像を表せる • フィードフォワード構造(有向閉路がない)に限る K: kへの接続を持つ全てのユニット 2012/12/10 11
  • 12. ネットワーク訓練 ネットワークパラメータwを決める • 決め方→二乗和誤差の最小化 定式化 • 入力ベクトル • 目標ベクトル • 誤差関数 2012/12/10 12
  • 13. ネットワーク訓練 ネットワーク出力の確率的解釈が大事 回帰問題として,実数値目標変数tを考える • tは平均がxに依存するガウス分布に従う • 尤度関数 2012/12/10 13
  • 14. 復習:ガウス分布 i.i.d.データ に対する対数尤度 2012/12/10 14
  • 15. ネットワーク訓練 誤差関数(負の対数尤度) • ニューラルネットワークの研究では尤度最大化より 誤差関数最小化の方が常套手段 • 誤差関数を最小化して最尤推定解を求める (尤度最大化と等価である) 2012/12/10 15
  • 16. ネットワーク訓練 wを求める→E(w)の最小化 • y(xn,w)の非線形性により正確には局所解 wMLが求まったらbは誤差関数最小化で求められる • をbで微分して0と置く 2012/12/10 16
  • 17. ネットワーク訓練 目標変数が複数(K個)の場合(t→t) • 条件付き確率が独立,ノイズの分散が共通であると仮定 • wML:尤度最大化→二乗和誤差関数の最小化 証明 2012/12/10 17
  • 18. ネットワーク訓練 • bは誤差関数最小化によって求められる • K は目標変数の数 2012/12/10 18
  • 19. ネットワーク訓練 2クラス分類問題の場合 • t=1がクラスC1,t=0がクラスC2 • ロジスティックシグモイド関数を活性化関数とする • 目標の条件付き分布(ベルヌーイ分布) • 誤差関数(負の対数尤度) 交差エントロピー誤差関数 2012/12/10 19
  • 20. ネットワーク訓練 K個の異なる2クラス分類問題の場合 • 活性化関数・・・ロジスティックシグモイド関数 • K個の出力を持つネットワーク • 誤差関数(負の対数尤度) 交差エントロピー誤差関数 2012/12/10 20
  • 21. ネットワーク訓練 標準的なKクラス分類問題の場合 • 1-of-K符号化法で表されるとする • ネットワーク出力は • 誤差関数(負の対数尤度) • 出力ユニットの活性化関数はソフトマックス関数 2012/12/10 21
  • 22. ネットワーク訓練 まとめ 活性化関数 誤差関数 回帰問題 線形 二乗和 (独立な多数の) ロジスティックシグモイド 交差エントロピー 2クラス分類問題 多クラス分類問題 ソフトマックス 多クラス交差エントロピー ロジスティックシグモイド 2クラス分類問題 交差エントロピー or ソフトマックス 2012/12/10 22
  • 23. パラメータ最適化 E(w)の最小化問題 2012/12/10 23
  • 24. 局所二次近似 重み空間内の点 の周りでのE(w)の二次近似 • : 勾配 • : ヘッセ行列 の近くでの勾配の局所近似(二次近似式の微分) 2012/12/10 24
  • 25. 局所二次近似 極小点w*の周りで考えるとb=0 (ヘッセ行列の)固有値問題 • 固有方程式 • ヘッセ行列は実対称行列 →固有ベクトルuは完全正規直交系を成す(p.318 付録C) • を固有ベクトルの線形結合で表す 2012/12/10 25
  • 26. 局所二次近似 以上を用いて誤差関数を書き換える 2012/12/10 26
  • 27. 行列の正定値性 行列Aが正定値である⇔ 行列Aが正定値である⇔Aの全ての固有値が正 証明 2012/12/10 27
  • 28. 誤差関数の等高線 固有空間上の誤差関数の等高線は楕円となる 2012/12/10 28
  • 29. 誤差関数の等高線 固有空間上の誤差関数の等高線は楕円となる 証明 2012/12/10 29
  • 30. 局所二次近似 ヘッセ行列Hの での値が正定値 ⇔ は極小点である 証明⇒ 証明⇐ 2012/12/10 30
  • 31. 勾配情報の利用 誤差曲面はbとHで決定される • bの独立なパラメータ数・・・W個 (Wはwの次元) • Hの独立なパラメータ数・・・W(W+1)/2個 • 極小点を求めるために必要な点の数 O(W2) • 極小点の評価に必要なステップ数 O(W) の評価でW個分の情報が得られる • 勾配情報を用いれば 2012/12/10 31
  • 32. 勾配降下最適化(最急/勾配降下法) 勾配降下法による重み最適化 • h :学習率パラメータ 全データによる訓練→バッチ訓練 • 勾配降下法より良い方法がある • 共役勾配法 • 準ニュートン法 1個ずつデータを使う訓練→オンライン訓練 • 大規模データのときに便利 2012/12/10 32
  • 33. 確率的勾配降下法(オンライン版勾配降下法) 確率的勾配降下法の誤差関数 • :各データ点についての誤差 確率的勾配降下法の更新式 • hのスケジューリングが重要 • 大域的最適解が得られるかも • Eの停留点は必ずしもEiの停留点ではないから 2012/12/10 33
  • 34. バックプロパゲーション 誤差逆伝播法(バックプロパゲーション) ×伝搬 ○伝播 ×でんぱん ○でんぱ • 誤差関数の勾配を効率良く評価する方法 wikipediaより 1. ネットワークの出力と与えられたサンプルの最適解を比較する. 各出力ユニットについて誤差を計算する. 2. 個々のユニットの期待される出力値と重み, 要求された出力と実際の出力の差(誤差)を計算する. 3. 各ユニットの重みを誤差が小さくなるよう調整する. 4. より大きな重みで接続された前層のユニットに誤差の責任があると決める. 5. そのユニットのさらに前層のユニットついて同様の処理を行う バックプロパゲーション 伝言ゲームにおいて,最後の人から逆方向に「元々はどういう言葉だったの?」 と伝言することで誤りを修正するアルゴリズム.(朱鷺の社より) 2012/12/10 34
  • 35. 誤差関数微分の評価 単純な線形モデルで考える • 出力ykが入力変数xiの線形和 • 誤差関数 ※ 入力パターンnの誤差関数の重みに関する勾配 • 接続i-jの出力側の誤差信号と入力側の変数の積の形 2012/12/10 35
  • 36. 誤差関数の偏微分の計算 計算(添字に注意,(n)に意味はないが補足的に) 2012/12/10 36
  • 37. バックプロパゲーション 一般のフィードフォワードネットワークの場合 • ユニットの出力 • 微分する(添字nを省略) :誤差 • 正準連結関数を活性化関数に用いた出力ユニットでは 2012/12/10 37
  • 38. 復習:正準連結関数 一般化線形モデル • :活性化関数 • :連結関数 正準連結関数 • 条件付き確率分布を指数型分布族から選ぶ • 活性化関数を正準連結関数から選ぶ →誤差関数の微分が誤差(yn-tn)と特徴ベクトルjの積になる 2012/12/10 38
  • 39. バックプロパゲーション 隠れユニットの誤差 逆伝播公式 2012/12/10 39
  • 40. バックプロパゲーション まとめ(誤差逆伝播) 1. 入力ベクトルxnを入れ,全てのユニットの出力を求める (順伝播) 2. 全ての出力ユニットの誤差 dk を評価する 3. dk を逆伝播させて全ての隠れユニットの誤差 dj を得る 4. 必要な微分を評価する 2012/12/10 40
  • 41. バックプロパゲーション 補足 • バッチ手法の場合 →全体の誤差関数の微分は全てのパターンの総和 • ユニットごとに活性化関数が違う場合 →特に変わらない (ユニットごとのhを用いて計算すれば良い) 2012/12/10 41
  • 42. バックプロパゲーションの計算例 逆伝播手続きの単純な例 • 2層ネットワーク • 誤差関数:二乗和誤差関数 • 出力ユニットの活性化関数:線形 • 隠れユニットの活性化関数:シグモイド型 2012/12/10 42
  • 43. tanh関数の性質 定義 微分 2012/12/10 43
  • 45. バックプロパゲーションの計算例 3. dk を逆伝播させて隠れユニットの誤差 dj を求める 4. 誤差関数の微分を得る 2012/12/10 45
  • 46. バックプロパゲーションの効率 順伝播の計算量・・・ • の計算量 • 結合が非常に疎である場合を除くと 重み数≫ユニット数 • 逆伝播も同様 2012/12/10 46
  • 47. 誤差関数の数値微分 数値微分(有限幅差分)の利用 • 前進差分(前方差分) • 中央差分(中心差分) • 誤差項が小さくなるが,前進差分の倍くらいの計算量が必要 数値微分は計算量が • 逆伝播公式の結果の正当性を数値微分で確認する,など 2012/12/10 47
  • 48. 数値微分の誤差の評価 前進差分 • 誤差の評価 中央差分 • 誤差の評価 2012/12/10 48
  • 49. バックプロパゲーションの応用 ヤコビ行列の評価を逆伝播で計算する モジュール型パターン認識システムを考える • 誤差関数の微分 ヤコビ行列 2012/12/10 49
  • 50. ヤコビ行列のバックプロパゲーション ヤコビ行列の要素を変形 微分を計算 出力ユニット • シグモイド活性化関数 • ソフトマックス関数 2012/12/10 50