Deep Learning Chap. 6: Deep Feedforward Networks

Deep Learning
Chap. 6 Deep Feedforward
Networks (pp.164-223)
Shion Honda
Journal Club @ DSP

概要
• Deep feedforward networks導入
• 例: XORの学習
• 勾配ベースの学習法
• 隠れユニット
• アーキテクチャ
• 誤差逆伝搬
• 歴史
2019/4/16 Shion HONDA 2

Deep feedforward networks
• 別名: feedforward neural networks, 多層パー
セプトロン(MLP)
• feedback結合があるものはRNN(→10章)
• の誤差を最小化するを学習
• 各層はニューロンを模した層からなる
• 脳を忠実に再現したモデルというよりは, 一般的な
関数を近似できるネットワークがたまたま脳に着想
を得ていたというイメージ

線形モデルの拡張
• お馴染みの線形モデルを, ではなくに適
用して非線形な関係も学習可能にすることを考
える
• はデータの「特徴」や「表現」を取り出す
1. 次元が大きい(表現力の高い)関数を利用する
→過学習の原因
2. 人手で設計した関数を利用する
→手間がかかる, ドメイン適応できない
3. ディープラーニング: 隠れ層の出力の線形結合
• これを入れ子状にして表現力を高める
• 大量のデータで学習させる

6.1 例: XORの学習

導入
• XOR関数を例にとって, MLPが非線形な関係を
学べるか調べる
• XOR:
• は4点で, 最小二乗誤差(MSE)を最小化する
• 線形モデルでは誤差を0に
できない
• x2が0のときと1のときでx2
の傾きが異なる

MLP
• 簡単な3層のMLPを利用する
• 素朴な方法
• このままだとで線形だからダメ
→非線形な関数が必要
• 多くのニューラルネットでは固定された非線形な関
数(活性化関数)としてReLU (rectified linear unit)
を採用している

解
solution
実際に計算してみよう！
input output
[注意]
• 他にも最適解が存在する
• 実際の問題ではパラメータ数がもっと多いので勾配降下法で解を探す
• 必ずしも大域的最適解は得られない

6.2 勾配ベースの学習

ニューラルネットの非凸性
• ニューラルネットを使うと損失関数は非凸にな
り最適化が難しい
• 初期値依存性
• 局所最適解
→繰り返しパラメータを更新して損失を小さく
してく確率的勾配降下法(→5.9)
• 誤差逆伝搬: 無数にあるパラーメータを出力層
に近いところから順番に更新していく効率的な
アルゴリズム(→6.5)

損失関数
• 最尤推定を使う場合, 負の対数尤度(NLL)を最
小化するのと同値
• これはpが正規分布で平均値を予測したい場合,
最小二乗誤差の最小化とも同値になる
• pの出力層に指数関数を繋げることが多い
→指数の肩が極端な負の数だと勾配が小さくなりや
すく学習が難しい
→対数変換はこの問題を緩和する(NLL推奨)
• ニューラルネットの高い表現力から, これは関数の
最適化問題(変分法)と考えることもできる(→19.4)
データの経験分布とモデルの分布
の間の交差エントロピー

出力ユニット
• 線形ユニット
• 正規分布の平均の予測に使われる
• 飽和しないので勾配ベースの最適化が楽
• シグモイドユニット
• ベルヌーイ分布の予測に使われる(2クラス分類)
• 値域が[0,1]で確率分布の制約を満たす
• zをロジットと呼ぶ
• シグモイドは端の方で勾配が
緩やかになるので, NLLを
使うべし(MSEはダメ)

出力ユニット
• ソフトマックスユニット
• 他項分布で使われる(他クラス分類)
• 対数尤度は
• zが極端な第2項が極端な負の値になると, 第2項は
小さくなるが, 第1項で勾配を伝えられる
• ラフに考えると第2項はmaxを微分可能にしたもの
→自信の大きな間違いに重い罰則を与える
→正解ラベルの値が大きければ第1項と第2項は
キャンセルして損失がほぼ0になる
• softmaxというよりはsoft”arg”max

他の出力ユニット
• 正規分布の分散を予測したいとき
• 複数の値の回帰
• 混合密度ネットワーク(ガウス混合分布)
• 音や物体の動きの生成で有効
3つの値を回帰する例

6.3 隠れユニット

隠れユニット
• 隠れユニットの選択法について理論付けはなさ
れていない
• 「とりあえずReLU」でOK
• 隠れユニットの微分可能性
• ReLUはx=0で微分できない
• 「一部を除いたすべての領域で」微分できればよい
ランプ関数とも呼ぶ

いろいろな活性化関数
• 2階微分が0, 1階微分は1か0とシンプル
• 負のときも勾配を伝えられるようにした
LReLU, PReLU, ELUなどもある
• sigmoid/tanhは勾配が0になりやすいので, 出
力層としてのみ使われる

その他の活性化関数
• maxout
• 凸性を保持したまま表現
力を高めた
• softplus
• 経験的にはReLUの方が
良い
Wikipediaには20種以上

6.4 アーキテクチャ

万能近似性と深さ
• 層: ユニットの集合
• 万能近似定理 [Hornik+, 1989]
• ネットワークが十分な数の隠れユニットを持ってい
る場合, 任意のボレル可測関数を任意の制度で近似
できる
* の有界閉集合上の任意の連続関数はボレル可測
• 「近似可能」でも「学習可能」とは限らない
• 最適化アルゴリズムが最適なパラメータに辿り着けない
• 過適合
• ネットワークは「広く浅く」より「狭く深く」
した方が, 表現力を保ったままパラメータを減
らせる

活性化関数をかけるイメージ
• Absolute value ReLUを繰り返し適用すると
…？
• 鏡像となる点どうしは同じ点に移される
• 2回の折り畳み(活性化関数)で4つの領域をまとめら
れる
• 入力次元d, ユニット数n, 深さlの場合の表現力
nCd [Montufar+, 2014]

深さと性能の関係
• 左図
• 深いほうが良い
• 右図
• 浅いままパラメータ数を増やしてもダメ
• 11層だとパラメータ数の増加の効果が見える
• ちなみに, 畳込みは全結合に比べて劇的にパラメー
タを削減できる
• 関数は複数の単純な関数の組み合わせで表せる

6.5 誤差逆伝搬

誤差逆伝搬
• 損失関数の勾配を, 出力層に近い方から順番に
連鎖律で求めてパラメータ更新に使う
• 計算グラフを使う
• 各ノードで1つの演算を行う
• TensorFlowやChainerなどのフレームワークの内部
では, 順伝搬でこのようなグラフが構築される
• 『ゼロから作るDeep Learning』を読みましょう！

計算グラフと連鎖律
• 前の層に勾配をバトンパスしていく
• 各層(クラス)のメソッドとしてbackward関数
を定義しておく
予め実装しておく

順伝搬
• 入れ子状の合成関数として計算している
• 出力(予測結果)と教師ラベルで誤差を計算
親ノードの計算結果を代入
1層の計算

逆伝搬
微分の結果を保存するテーブル

参考書
• ゼロから作るDeep Learning
• 斎藤康毅, O’Reilly Japan, 2016.
• TensorFlowやChainerを使わずにNumPyだけで
DNNやCNNを実装
• Pythonや線形代数の導入から書いてあるので事前
知識不要！
• 自然言語処理を扱う第2弾もある

6.6 歴史

歴史ノート
• 連鎖律 [Leibniz, 1676] [L’Hopital, 1696]
• 勾配降下法 [Cauchy, 1847]
• 誤差逆伝搬 [LeCun, 1985] [Rumelhart+,
1986]など
• ここまでで理論的には概ね完成. その後の発展
は次による
• オープンな大規模データベースの登場
• GPUなど計算機性能の向上
Geoffrey Hinton Yann LeCun Yoshua Bengio

まとめ
• 基本的には, モデル分布と経験分布の間で負の
対数尤度(交差エントロピーとも)を最小化する
• 活性化関数はReLUが良い
• ネットワークを深くすると表現力が高まる
• 誤差逆伝搬で大量のパラメータを効率的に更新
• 連鎖律
• 計算グラフ

参考文献
[1] I. Goodfellow et al., Deep Learning, MIT Press, 2016.
[2] 岩澤他訳, 深層学習, ASCII DWANGO, 2018.

Deep Learning Chap. 6: Deep Feedforward Networks

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (20)

Deep Learning Chap. 6: Deep Feedforward Networks

Notas del editor