Más contenido relacionado
Deep Learning Chap. 6: Deep Feedforward Networks
- 2. 概要
• Deep feedforward networks導入
• 例: XORの学習
• 勾配ベースの学習法
• 隠れユニット
• アーキテクチャ
• 誤差逆伝搬
• 歴史
2019/4/16 Shion HONDA 2
- 3. Deep feedforward networks
• 別名: feedforward neural networks, 多層パー
セプトロン(MLP)
• feedback結合があるものはRNN(→10章)
• の誤差を最小化する を学習
• 各層はニューロンを模した層からなる
• 脳を忠実に再現したモデルというよりは, 一般的な
関数を近似できるネットワークがたまたま脳に着想
を得ていたというイメージ
2019/4/16 Shion HONDA 3
- 4. 線形モデルの拡張
• お馴染みの線形モデルを, ではなく に適
用して非線形な関係も学習可能にすることを考
える
• はデータ の「特徴」や「表現」を取り出す
1. 次元が大きい(表現力の高い)関数 を利用する
→過学習の原因
2. 人手で設計した関数 を利用する
→手間がかかる, ドメイン適応できない
3. ディープラーニング: 隠れ層の出力 の線形結合
• これを入れ子状にして表現力を高める
• 大量のデータで学習させる
2019/4/16 Shion HONDA 4
- 7. MLP
• 簡単な3層のMLPを利用する
• 素朴な方法
• このままだと で線形だからダメ
→非線形な関数が必要
• 多くのニューラルネットでは固定された非線形な関
数(活性化関数)としてReLU (rectified linear unit)
を採用している
2019/4/16 Shion HONDA 7
- 8. 解
2019/4/16 Shion HONDA 8
solution
実際に計算してみよう!
input output
[注意]
• 他にも最適解が存在する
• 実際の問題ではパラメータ数がもっと多いので勾配降下法で解を探す
• 必ずしも大域的最適解は得られない
- 11. 損失関数
• 最尤推定を使う場合, 負の対数尤度(NLL)を最
小化するのと同値
• これはpが正規分布で平均値を予測したい場合,
最小二乗誤差の最小化とも同値になる
• pの出力層に指数関数を繋げることが多い
→指数の肩が極端な負の数だと勾配が小さくなりや
すく学習が難しい
→対数変換はこの問題を緩和する(NLL推奨)
• ニューラルネットの高い表現力から, これは関数の
最適化問題(変分法)と考えることもできる(→19.4)
2019/4/16 Shion HONDA 11
データの経験分布とモデルの分布
の間の交差エントロピー
- 12. 出力ユニット
• 線形ユニット
• 正規分布の平均の予測に使われる
• 飽和しないので勾配ベースの最適化が楽
• シグモイドユニット
• ベルヌーイ分布の予測に使われる(2クラス分類)
• 値域が[0,1]で確率分布の制約を満たす
• zをロジットと呼ぶ
• シグモイドは端の方で勾配が
緩やかになるので, NLLを
使うべし(MSEはダメ)
2019/4/16 Shion HONDA 12
- 13. 出力ユニット
• ソフトマックスユニット
• 他項分布で使われる(他クラス分類)
• 対数尤度は
• zが極端な第2項が極端な負の値になると, 第2項は
小さくなるが, 第1項で勾配を伝えられる
• ラフに考えると第2項はmaxを微分可能にしたもの
→自信の大きな間違いに重い罰則を与える
→正解ラベルの値が大きければ第1項と第2項は
キャンセルして損失がほぼ0になる
• softmaxというよりはsoft”arg”max
2019/4/16 Shion HONDA 13
- 20. 万能近似性と深さ
• 層: ユニットの集合
• 万能近似定理 [Hornik+, 1989]
• ネットワークが十分な数の隠れユニットを持ってい
る場合, 任意のボレル可測関数を任意の制度で近似
できる
* の有界閉集合上の任意の連続関数はボレル可測
• 「近似可能」でも「学習可能」とは限らない
• 最適化アルゴリズムが最適なパラメータに辿り着けない
• 過適合
• ネットワークは「広く浅く」より「狭く深く」
した方が, 表現力を保ったままパラメータを減
らせる
2019/4/16 Shion HONDA 20
- 21. 活性化関数をかけるイメージ
• Absolute value ReLUを繰り返し適用すると
…?
• 鏡像となる点どうしは同じ点に移される
• 2回の折り畳み(活性化関数)で4つの領域をまとめら
れる
• 入力次元d, ユニット数n, 深さlの場合の表現力
2019/4/16 Shion HONDA 21
nCd [Montufar+, 2014]
- 22. 深さと性能の関係
• 左図
• 深いほうが良い
• 右図
• 浅いままパラメータ数を増やしてもダメ
• 11層だとパラメータ数の増加の効果が見える
• ちなみに, 畳込みは全結合に比べて劇的にパラメー
タを削減できる
• 関数は複数の単純な関数の組み合わせで表せる
2019/4/16 Shion HONDA 22
- 28. 参考書
• ゼロから作るDeep Learning
• 斎藤康毅, O’Reilly Japan, 2016.
• TensorFlowやChainerを使わずにNumPyだけで
DNNやCNNを実装
• Pythonや線形代数の導入から書いてあるので事前
知識不要!
• 自然言語処理を扱う第2弾もある
2019/4/16 Shion HONDA 28
- 30. 歴史ノート
• 連鎖律 [Leibniz, 1676] [L’Hopital, 1696]
• 勾配降下法 [Cauchy, 1847]
• 誤差逆伝搬 [LeCun, 1985] [Rumelhart+,
1986]など
• ここまでで理論的には概ね完成. その後の発展
は次による
• オープンな大規模データベースの登場
• GPUなど計算機性能の向上
2019/4/16 Shion HONDA 30
Geoffrey Hinton Yann LeCun Yoshua Bengio
Notas del editor
- 尤度最大化 対数尤度最大化 NLL(誤差)最小化