レトリバ勉強会資料：深層学習による自然言語処理２章

深層学習による自然言語処理
2.6~2.9
株式会社レトリバ
© 2017 Retrieva, Inc.

自己紹介
• 飯田大貴（いいだひろき）
• セールスエンジニア
© 2017 Retrieva, Inc. 2

本日の内容
• 発展的なニューラルネットワークの紹介
• 再帰ニューラルネット(RNN)
• ゲート付き再帰ニューラルネット(LSTM・GRU)
• 木構造再帰ニューラルネット(木構造RNN)
• 畳み込みニューラルネット(CNN)

2.6 再帰ニューラルネット
• 可変長の入力を扱うことに優れたネットワーク構造
• 前の時刻の隠れ状態ベクトルと現時刻の入力ベクトルを使って、
現在の隠れ状態ベクトルを更新
• 任意の長さの入力履歴を考慮した出力を得ることができる
• 状態変数の数を大きくすれば、原理的には前の入力をすべて考慮でき
る
• 単語などを各時刻の入力とするとテキストは可変長の入力列と
なる。→RNNがテキスト処理に向いていそう。

2.6.1 再帰ニューラルネットのモデル
• １層の場合
𝒉 𝑡 = 𝑓(𝑈𝒙 𝑡 + 𝑊𝒉 𝑡 − 1 + 𝒃)
𝒚 𝑡 = 𝑔(𝑉𝒉 𝑡 + 𝒄)
入力層𝒙(𝑡)
過去の隠れ層𝒉(𝑡 − 1)
隠れ層𝒉(𝑡)
𝑼
𝑾
𝑽
出力層𝐲(𝑡)

• 複数層(L層)の場合(バイアス項はhに含むものとした）
𝒉𝑙
𝑡 = 𝑓 𝑈 𝑙−1
𝒉𝑙−1
𝑡 + 𝑊 𝑙
𝒉𝑙
𝑡 − 1 , 𝒉 𝟎
= 𝒙
𝒚 𝑡 = 𝑔(𝑉𝒉 𝐿 𝑡 )
𝒙 𝟏 𝒙 𝟐 𝒙 𝟑
𝒉 𝟏
𝟏
𝒉 𝟐
𝟏
𝒉 𝟑
𝟏
𝒉 𝟎
𝟏
𝒉 𝟏
𝟐
𝒉 𝟐
𝟐
𝒉 𝟑
𝟐
𝒉 𝟎
𝟐
𝒉 𝟎
𝟑
𝒉 𝟏
𝟑 𝒉 𝟐
𝟑
𝒉 𝟑
𝟑
𝒚 𝟏 𝒚 𝟐 𝒚 𝟑
𝑼 𝟎
𝑾 𝟑𝑾 𝟑𝑾 𝟑
𝑾 𝟐𝑾 𝟐
𝑾 𝟐
𝑾 𝟏
𝑾 𝟏 𝑾 𝟏
𝑼 𝟏
𝑼 𝟐
𝑼 𝟎
𝑼 𝟏
𝑼 𝟐
𝑼 𝟎
𝑼 𝟏
𝑼 𝟐
𝐕 𝐕 𝐕

• 教科書の表記との対応
𝑊 𝑙 = 𝑈 𝑙−1, Vl , Wo = V, ot = y
• RNNはマルコフ性（前の状態と現在の入力だけで、現在の状態
を推定できること）を仮定している。
• これが成立していれば、𝒉 𝒕には1~tの可変長の入力を記憶していること
が期待できる。
• 𝒉 𝟎は仮のベクトル。

2.6.1 再帰ニューラルネット:誤差逆伝搬
• １層の場合
• 𝒒(𝒕) = 𝑉𝒉 𝑡 + 𝒄, 𝒑(𝒕) = 𝑈𝒙 𝑡 + 𝑊𝒉 𝑡 − 1 + 𝒃とおく。
• 𝑈 = 𝒖 𝟏, ⋯ 𝒖 𝑱
𝑻
, 𝑊 = 𝒘 𝟏, ⋯ 𝒘 𝑱
𝑻
, 𝑉 = 𝒗 𝟏, ⋯ 𝒗 𝒌
𝑻
とおく。
𝜕𝑙
𝜕𝑉
=
𝜕𝑙
𝜕𝒗 𝟏
, ⋯ ,
𝜕𝑙
𝜕𝒗 𝑲
𝑇
=
⋮
𝜕𝑙
𝜕𝑦𝑡𝑘
𝜕𝑦𝑡𝑘
𝜕𝑞𝑡𝑘
𝜕𝑞𝑡𝑘
𝜕𝒗 𝒌
𝑇
⋮
=
⋮
𝜕𝑙
𝜕𝑦𝑡𝑘
𝜕𝑦𝑡𝑘
𝜕𝑞𝑡𝑘
𝒉 𝒕
𝑻
⋮
𝜕𝑙
𝜕𝑈
=
𝜕𝑙
𝜕𝒖 𝟏
, ⋯ ,
𝜕𝑙
𝜕𝒖 𝑱
𝑇
=
⋮
𝑘
𝜕𝑙
𝜕𝑦𝑡𝑘
𝜕𝑦𝑡𝑘
𝜕𝑞𝑡𝑘
𝜕𝑞𝑡𝑘
𝜕ℎ 𝑡𝑗
𝜕ℎ 𝑡𝑗
𝜕𝒑 𝒕𝒋
𝜕𝑝𝑡𝑗
𝜕𝒖𝒋
⋮
=
⋮
𝑘
𝜕𝑙
𝜕𝑦𝑡𝑘
𝜕𝑦𝑡𝑘
𝜕𝑞𝑡𝑘
𝜕𝑞𝑡𝑘
𝜕ℎ 𝑡𝑗
𝜕ℎ 𝑡𝑗
𝜕𝒑 𝒕𝒋
𝒙 𝒕
𝑻
⋮
𝜕𝑙
𝜕𝑊
=
𝜕𝑙
𝜕𝒘 𝟏
, ⋯ ,
𝜕𝑙
𝜕𝒘 𝑱
𝑇
=
⋮
𝑘
𝜕𝑙
𝜕𝑦𝑡𝑘
𝜕𝑦𝑡𝑘
𝜕𝑞𝑡𝑘
𝜕𝑞𝑡𝑘
𝜕ℎ 𝑡𝑗
𝜕ℎ 𝑡𝑗
𝜕𝒑 𝒕𝒋
𝜕𝑝𝑡𝑗
𝜕𝒖𝒋
⋮
=
⋮
𝑘
𝜕𝑙
𝜕𝑦𝑡𝑘
𝜕𝑦𝑡𝑘
𝜕𝑞𝑡𝑘
𝜕𝑞𝑡𝑘
𝜕ℎ 𝑡𝑗
𝜕ℎ 𝑡𝑗
𝜕𝒑 𝒕𝒋
𝒉 𝒕−𝟏
𝑻
⋮
𝜕𝑙
𝜕𝒄
=
𝜕𝑙
𝜕𝒄 𝟏
, ⋯ ,
𝜕𝑙
𝜕𝒄 𝒌
𝑇
=
⋮
𝜕𝑙
𝜕𝑦𝑡𝑘
𝜕𝑦𝑡𝑘
𝜕𝑞𝑡𝑘
𝜕𝑞𝑡𝑘
𝜕𝒄 𝒌
⋮
=
⋮
𝜕𝑙
𝜕𝑦𝑡𝑘
𝜕𝑦𝑡𝑘
𝜕𝑞𝑡𝑘
⋮
𝜕𝑙
𝜕𝒃
=
𝜕𝑙
𝜕𝒃 𝟏
, ⋯ ,
𝜕𝑙
𝜕𝒃 𝑱
𝑇
=
⋮
𝑘
𝜕𝑙
𝜕𝑦𝑡𝑘
𝜕𝑦𝑡𝑘
𝜕𝑞𝑡𝑘
𝜕𝑞𝑡𝑘
𝜕ℎ 𝑡𝑗
𝜕ℎ 𝑡𝑗
𝜕𝑝𝑡𝑗
𝜕𝑝𝑡𝑗
𝜕𝑏𝑗
⋮
=
⋮
𝑘
𝜕𝑙
𝜕𝑦𝑡𝑘
𝜕𝑦𝑡𝑘
𝜕𝑞𝑡𝑘
𝜕𝑞𝑡𝑘
𝜕ℎ 𝑡𝑗
𝜕ℎ 𝑡𝑗
𝜕𝑝𝑡𝑗
⋮© 2017 Retrieva, Inc. 8

•
𝝏𝒍
𝝏𝒒 𝒕
= 𝒆 𝒐 𝑡 =
⋮
𝜕𝑙
𝜕𝑦 𝑡𝑘
𝜕𝑦 𝑡𝑘
𝜕𝑞 𝑡𝑘
⋮
,
𝝏𝒍
𝝏𝒑 𝒕
= 𝒆 𝒉 𝒕 =
⋮
𝑘
𝜕𝑙
𝜕𝑦 𝑡𝑘
𝜕𝑦 𝑡𝑘
𝜕𝑞 𝑡𝑘
𝜕𝑞 𝑡𝑘
𝜕ℎ 𝑡𝑗
𝜕ℎ 𝑡𝑗
𝜕𝑝 𝑡𝑗
⋮
=
⋮
𝑘
𝜕𝑙
𝜕𝑦 𝑡𝑘
𝜕𝑦 𝑡𝑘
𝜕𝑞 𝑡𝑘
𝑣 𝑘𝑗 𝑓′
(𝑝𝑗)
⋮
= 𝑽 𝑻
𝒆 𝒐(𝒕) ⊙ 𝒇′
(𝒑)=とおく。
• 先ほどの式は以下のようになる。
𝜕𝑙
𝜕𝑉
= 𝒆 𝒐 𝒕 𝒉 𝒕
𝑻
,
𝜕𝑙
𝜕𝑈
= 𝒆 𝒉 𝒕 𝒙 𝒕
𝑻
,
𝜕𝑙
𝜕𝑊
= 𝒆 𝒉 𝒕 𝒉 𝑡−1
𝑇
,
𝜕𝑙
𝜕𝒄
= 𝒆 𝒐 𝒕 ,
𝜕𝑙
𝜕𝒃
= 𝒆 𝒉 𝒕
入力層𝒙(𝑡)
隠れ層𝒉(𝑡) 出力層𝐲(𝑡)
𝑒 𝑜𝑒ℎ
隠れ層𝒉(𝑡)
𝑼 𝑽
𝑾

• 時間依存性について
𝒆 𝒉 𝑡 − 1 =
𝜕𝑙
𝜕𝒑 𝒕−𝟏
=
⋮
𝜕𝑙
𝜕𝑝 𝑡𝑗
𝜕𝑝 𝑡𝑗
𝜕𝑝 𝑡−1𝑗
⋮
= 𝒆ℎ 𝑡 ⊙
⋮
𝜕𝑝 𝑡𝑗
𝜕ℎ 𝑡−1𝑗
𝜕ℎ 𝑡−1𝑗
𝜕𝑝 𝑡−1𝑗
⋮
= 𝒆ℎ 𝑡 ⊙ 𝑊𝑓′
𝑝 𝑡 − 1
• よって、任意の時刻において以下の通り𝒆 𝒉が計算できることが
わかる。
𝒆 𝒉 𝑡 − 𝑧 − 1 = 𝒆 𝒉(𝑡 − 𝑧) ⊙ 𝑊𝑓′
𝑝 𝑡 − 𝑧 − 1

• よって、更新式が以下の通りとなる。
𝑈 𝑡 + 1 = 𝑈 𝑡 − 𝜏 − 𝜂
𝑧=0
𝜏
𝑒ℎ 𝑡 − 𝑧 𝑥 𝑡 − 𝑧 𝑇
𝑊 𝑡 + 1 = 𝑊 𝑡 − 𝜏 − 𝜂
𝑧=0
𝜏
𝑒ℎ 𝑡 − 𝑧 ℎ 𝑡 − 𝑧 − 1 𝑇
𝑉 𝑡 + 1 = 𝑉 𝑡 − 𝜂𝑒 𝑜 𝑡 ℎ 𝑡 𝑇
𝑏 𝑡 + 1 = 𝑏 𝑡 − 𝜏 − 𝜂
𝑧=0
𝜏
𝑒ℎ 𝑡 − 𝑧
𝑐 𝑡 + 1 = 𝑐 𝑡 − 𝜂𝑒 𝑜 𝑡

• 複数層(L層)の場合(バイアス項はhに含むものとした）
𝒒 𝒕 = 𝑉𝒉 𝐿 𝑡 , 𝒑𝒍(𝒕) = 𝑈 𝑙−1 𝒉𝑙−1 𝑡 + 𝑊 𝑙 𝒉𝑙 𝑡 − 1 として、
𝝏𝒍
𝝏𝒒 𝒕
= 𝒆 𝒐 𝑡 =
⋮
𝜕𝑙
𝜕𝑦𝑡𝑘
𝜕𝑦𝑡𝑘
𝜕𝑞𝑡𝑘
⋮
,
𝝏𝒍
𝝏𝒑𝒕
𝒍
= 𝒆 𝒉
𝒍
𝒕 = 𝑼𝒍+𝟏 𝑻
𝒆 𝒉
𝒍+𝟏
(𝒕) ⊙ 𝒇′𝒍(𝒑)
とすればよい。（l+1=Lのとき、h=o)

• 模式図
𝒆 𝒉
𝟎
(𝟏) 𝒆 𝒉
𝟎
(𝟐) 𝒆 𝒉
𝟎
(𝟑)
𝒆 𝒉
𝟏
(𝟏) 𝒆 𝒉
𝟏
(𝟐) 𝒆 𝒉
𝟏
(𝟑)𝒆 𝟎
𝟏
(𝟎)
𝒆 𝒉
𝟐
(𝟏) 𝒆 𝒉
𝟐
(𝟐) 𝒆 𝒉
𝟐
(𝟑)𝒆 𝒉
𝟐
(𝟎)
𝒆 𝒉
𝟑
(𝟎) 𝒆 𝒉
𝟑
(𝟏) 𝒆 𝒉
𝟑
(𝟐) 𝒆 𝒉
𝟑
(𝟑)
𝒆 𝒐(𝟏) 𝒆 𝒐(𝟐) 𝒆 𝒐(𝟑)
𝑼 𝟎
𝑾 𝟑𝑾 𝟑𝑾 𝟑
𝑾 𝟐𝑾 𝟐
𝑾 𝟐
𝑾 𝟏
𝑾 𝟏 𝑾 𝟏
𝑼 𝟏
𝑼 𝟐
𝑼 𝟎
𝑼 𝟏
𝑼 𝟐
𝑼 𝟎
𝑼 𝟏
𝑼 𝟐
𝐕 𝐕 𝐕

2.6.2 双方向再帰ニューラルネット
• 入力列全体の情報を各時刻で考慮させたい時に使用。
• 入力列全体が与えられている必要がある
• 双方向を考慮する方法は様々

• パターン１：隠れ状態の相互作用がないパターン
前向き：𝒉 𝒕
𝒍
= 𝑎 𝑙
𝑾𝑙 𝒉 𝑡
𝑙−1
𝒉 𝑡−1
𝑙
+ 𝒃𝑙
後向き：𝒉 𝒕
𝒍
= 𝑎 𝑙
𝑾𝑙 𝒉 𝑡
𝑙−1
𝒉 𝑡+1
𝑙
+ 𝒃𝑙
出力層： 𝐨𝐭 = 𝑾 𝒐 𝒉 𝑡
𝐿
𝒉 𝑡
𝑳
+ 𝒃 𝒐
教科書より

• パターン２：隠れ状態の相互作用があるパターン
前向き：𝒉 𝒕
𝒍
= 𝑎 𝑙
𝑾𝑙
𝒉 𝑡
𝑙−1
𝒉 𝑡−1
𝑙
𝒉 𝑡
𝑙−1
+ 𝒃𝑙
後向き：𝒉 𝒕
𝒍
= 𝑎 𝑙
𝑾𝑙
𝒉 𝑡
𝑙−1
𝒉 𝑡+1
𝑙
𝒉 𝑡
𝑙−1
+ 𝒃𝑙
出力層： 𝐨𝐭 = 𝑾 𝒐 𝒉 𝑡
𝐿
𝒉 𝑡
𝑳
+ 𝒃 𝒐
教科書より

2.7 ゲート付き再帰ニューラルネット
• RNNは時間方向に深いニューラルネット。
→時間的に離れている時刻に発生した誤差を伝搬させるのは困
難
→長期記憶が苦手で、直近の依存関係だけを学習してしまう傾
向がある
• ゲートを導入することで、長期記憶も短期記憶も学習可能

2.7.1 ゲートについて
• ゲート付きショートカット
𝒉𝒍 = 𝒈 𝒇⨀𝑓 𝑙 𝒉𝑙−1 + 𝒈ℎ⨀𝒉𝑙−1
• 𝒈 𝒇・𝒈ℎが、それぞれの重みでゲートと呼ばれている。
• ゲート自体を入力𝒉によって、変化させる場合は以下のようなゲート関
数が使用される。
𝒈 𝒉 = 𝑎 𝑔(𝑾 𝑔 𝒉 + 𝒃 𝑔)
• 𝑾 𝒈・𝒃 𝑔はパラメータで、 𝒂 𝑔はゲート用の活性化関数で通常はシグモ
イド関数やハイパーボリック関数が使用される。
• 通常のショートカット関数は、 𝒈 𝒇 = 𝒈ℎ = 1

2.7.1 ゲート付き再帰ニューラルネット
• ゲート付きRNN
𝒉 𝒕 = 𝑓 𝒉 𝑡−1 +
𝒊=𝟏
𝒕−𝟏
(⨀𝒋=𝒊
𝒕
𝒈𝒋)𝒇(𝒉𝒊−𝟏)
• 導出
• 一つ前の時刻状態へのショートカットをつける
𝒉 𝒕 = 𝑓 ℎ 𝑡−1 + 𝒉 𝑡−1
• 時刻tのゲート出力を𝒈 𝒕として、以下のように、ゲート付きショートカットに
変更する
𝒉 𝒕 = 𝑓 ℎ 𝑡−1 + 𝒈 𝒕⨀𝒉 𝑡−1
• これを再帰的に繰り返すことで上式を導出できる。

2.7.1 ゲート付き再帰ニューラルネットの性質
• 一つ前の時刻状態へのショートカットをつける
𝒉 𝒕 = 𝑓 ℎ 𝑡−1 + 𝒉 𝑡−1
• 再帰的な評価により、以下のように書ける。
𝒉 𝒕 =
𝒊=𝟏
𝒕
𝑓(𝒉𝒊−𝟏)
• これより、ショートカットを加えると、隠れ状態ベクトルは長期の状態を
和で集約した情報を表している。
• ゲート付きRNNは𝑓(𝒉𝒊−𝟏)の各項に重み𝑮 𝑖 = ⨀𝒋=𝒊
𝒕
𝒈𝒋が付いている。
𝑮 𝑖 − 1 ≤ 𝑮 𝒊 なので、過去に行くほど重みが減少する。
• よって、ゲートを加えることによって、過去の忘却を図り、ゲートを学習
することで、長期記憶と短期きおくの調整をすることが期待できる。

2.7.1 ゲート付き再帰ニューラルネット
の誤差逆伝搬
• ゲート付きRNNの誤差逆伝搬
•
𝜕𝑙(𝒉 𝒕)
𝜕𝒉 𝒕
𝜕𝒉 𝒕
𝜕𝜽
=
𝜕𝑙(𝒉 𝒕)
𝜕𝒉 𝒕
𝜕𝑓(𝒉 𝑡−1)
𝜕𝜽
+ 𝑖=1
𝑡−1 𝜕𝑙 𝒉 𝒕
𝜕𝒉 𝒕
(⨀𝒋=𝒊
𝒕
𝑔𝑗)
𝜕𝑓(𝒉 𝑖−1)
𝜕𝜽
• 上式から、過去のすべての時刻の
𝜕𝑓(𝒉 𝑖−1)
𝜕𝜽
に対して、時刻tの誤差
𝜕𝑙(𝒉 𝒕)
𝜕𝒉 𝒕
が
直接かけられている。
• また、ゲートが誤差の伝達度合いを調整している。

2.7.2 長短期記憶ニューラルネット
• 長短期記憶ニューラルネット(LSTM)は、RNNの一つ一つの
ノードをLSTMに変える。
入力層𝒙(𝑡)
隠れ層𝒉(𝑡)
𝑼
𝑾
𝑽
出力層𝐲(𝑡)

• LSTMの発想
• 無関係な入力で活性を小さくし、注目すべき入力で大きく活性する。
このために、依存性のありそうな情報を内部で保持するとともに、依存性が
ある信号を受け取った時のみ活性化しさせたい。
• 前者は、誤差を止まらせて、伝搬させることで達成できる。そのために、追
加するニューロンを、CEC(constant error carousel)またはメモリセルと呼ぶ。
• 後者を達成するために、ゲートを導入。これを入力ゲートお呼び出力ゲート
と呼ぶ。
• 適切なタイミングで過去の情報を忘れる必要もある。これを忘却ゲートとい
う。

2.7.2 CEC
• 誤差を伝搬させるためには以下のようにすることを考えればい
い。
𝒆ℎ 𝑡 − 1 = 𝒆ℎ 𝑡 ⨀ 𝑊𝑓′ 𝒑 𝑡 − 1 = 1
• CECに以下のような関数を考える。
𝒄𝒍 𝑡 = 𝒉𝒍 𝑡 + 𝒄𝒍 𝑡 − 1
この誤差関数は以下のようになり、誤差が止まるようになる。
𝜕𝐸
𝜕𝒄(𝑡 − 1)
=
𝜕𝐸
𝜕𝒄(𝑡)
⨀
𝜕𝒄 𝑡
𝜕𝒄 𝑡 − 1
=
𝜕𝐸
𝜕𝒄(𝑡)

2.7.2 CEC
• 模式図
𝒉 𝒕−𝟏
𝒍
𝒉 𝒕
𝒍
𝒉 𝒕
𝒍−𝟏
𝒄 𝒕
𝒍
𝒄 𝒕−𝟏
𝒍
𝒉 𝒕
𝒍

2.7.2 入力ゲートと出力ゲート
• 入力ゲートと出力ゲートは、欲しい刺激の時に１、不要な刺激の時に０に
なるようにするのが理想。そこで、重みをして０−１をとるシグモイド関
数を使用する
• 入力ゲート
𝒊 𝑡 = 𝝈 𝑾𝒊 𝒙 𝑡 + 𝑼𝒊 𝒉 𝑡 − 1 + 𝒃𝒊
• 出力ゲート
𝒐 𝑡 = 𝝈(𝑾 𝒐 𝒙 𝑡 + 𝑼 𝒐 𝒉 𝑡 − 1 + 𝒃 𝒐)
• 入力ゲートと出力ゲートを加味した出力
𝒄 𝑡 = 𝒊 𝑡 ⨀ 𝒉 𝑡 + 𝒄(𝑡 − 1)
𝒉 𝑡 = 𝒐(𝑡) ⊙ 𝑔 𝒄 𝑡

• 模式図
𝒉 𝒕−𝟏
𝒍
𝒉 𝒕
𝒍
𝒉 𝒕
𝒍−𝟏
𝒄 𝒕
𝒍
𝒄 𝒕−𝟏
𝒍
𝒉 𝒕
𝒍
𝒊 𝒕
𝒍
𝒐 𝒕
𝒍

2.7.2 忘却ゲート
• 適切なタイミングで過去の情報を忘れるということを重みで表
現すると、以下のようになる。
𝒄 𝑡 = 𝒊 𝑡 ⨀ 𝒉 𝑡 + 𝒇 𝒕 ⨀𝒄 𝑡 − 1
𝒇 𝑡 = 𝝈 𝑾 𝒇 𝒙 𝑡 + 𝑼 𝒇 𝒉 𝑡 − 1 + 𝒃 𝒇
• このようにすると、忘却ゲートによって誤差が以下のように表
される。
𝒆 𝒇 𝑡 ≡
𝜕𝐸
𝜕𝒇 𝑡
=
𝜕𝐸
𝜕𝒄 𝑡
⨀
𝜕𝒄 𝑡
𝜕𝒇 𝑡
= 𝒆 𝒄 𝑡 ⨀𝒄(𝒕 − 𝟏)

2.7.3 忘却ゲート
• 模式図
𝒉 𝒕−𝟏
𝒍
𝒉 𝒕
𝒍
𝒉 𝒕
𝒍−𝟏
𝒄 𝒕
𝒍
𝒄 𝒕−𝟏
𝒍
𝒉 𝒕
𝒍
𝒊 𝒕
𝒍
𝒐 𝒕
𝒍
𝒇 𝒕
𝒍

• 以上をまとめて、モデルは以下のとおり
ℎ 𝑡
𝑙
𝑖 𝑡
𝑙
𝑓𝑡
𝑙
𝑜𝑡
𝑙
=
𝑓
𝑠𝑖𝑔𝑚𝑜𝑖𝑑
𝑾ℎ
𝑙
𝑾𝑖
𝑙
𝑾 𝑓
𝑙
𝑾 𝑜
𝑙
𝒉 𝒕
𝒍−𝟏
𝒉 𝒕−𝟏
𝒍 +
𝒃ℎ
𝑙
𝒃𝑖
𝑙
𝒃 𝑓
𝑙
𝒃 𝑜
𝑙
𝒄 𝒕
𝒍
= 𝒊 𝒕
𝒍
⨀ 𝒉 𝒕
𝒍
+ 𝒇 𝒕
𝒍
⨀𝒄 𝒕−𝟏
𝒍
𝒉 𝒕
𝒍
= 𝒐 𝒕
𝒍
⨀𝒈 𝒄 𝒕
𝒍

2.7.3 ゲート付き回帰ユニット(GRU)
• LSTMは計算量が多いので、計算量を抑えたく考案されたモデル
• LSTMのようにセルを使わず長期の情報を隠れ状態ベクトルhに集約
• LSTMより少ない２つのゲートr,zだけを使用して、忘却と状態の更新を操作
• rをリセットゲート、zを更新ゲートという。
• rで１時刻前の隠れ状態ベクトルを減衰
• zで１時刻前の隠れ状態ベクトルからの更新率を調整
• モデルは以下の通り
𝒓 𝑡
𝑙
𝒛 𝑡
𝑙
= 𝑠𝑖𝑔𝑚𝑜𝑖𝑑
𝑾 𝒓
𝒍
𝑾 𝒛
𝒍
𝒉 𝒕
𝑙−1
𝒉 𝑡
𝒍
+
𝒃 𝑟
𝑙
𝒃 𝑧
𝑙
𝒉 𝒕
𝒍
= tanh 𝑾𝑙 𝒉 𝒕
𝒍−𝟏
𝒉 𝒕−𝟏
𝑙
𝒉 𝒕
𝒍
= 1 − 𝑧𝑡
𝑙
⨀ 𝒉𝒕
𝒍
+ 𝒛 𝒕
𝒍
⨀𝒉 𝒕−𝟏
𝒍

2.7.3 ゲート付き回帰ユニット(GRU)
• 模式図
𝒉 𝒕−𝟏
𝒍
𝒉 𝒕
𝒍
𝒉 𝒕
𝒍−𝟏
𝒓 𝒕
𝒍
𝒛𝒕−𝟏
𝒍
𝒉 𝒕
𝒍

2.8 木構造再帰ニューラルネット(Tree-RNN)
• 再帰ニューラルネットを木構造に拡張したもの。
• 簡単のため、モデルを二分木とすると、以下のようになる。
𝒉 𝒑 = 𝑎(𝑾
𝒉 𝑳
𝒉 𝑹
+ 𝒃)
• 演算が木構造の葉ノードからルートノードに向かって順番に実施される。そのた
め、ルートノードは各隠れ状態ベクトルの情報を、集約しているとみなすことが
できる。
教科書より

• 多層の場合は以下の通りになる。
𝒉 𝒑 = 𝑎(𝑾
𝒉 𝑳
𝒍
𝒉 𝑹
𝒍
𝒉 𝑷
𝒍−𝟏
+ 𝒃)

• 特徴
• RNNに比べて、深さがlog2 𝑇となるため、長距離の要素間関係を表現
しやすい
• NLPでは、文を文法木構造に変換して、構文解析を行う。そのため、
構文的に意味のある単位の固定長のベクトル表現を得ることができる。
• ただし、構文木が応用上必要かは不明

2.9 畳み込みニューラルネット
• 畳み込み操作によって時刻tの特徴を窓幅Cの局所的な特徴で表現。
• 周辺の隠れ状態ベクトルの重み付き和で時刻tの特徴を表している
• 畳み込みのモデルは以下のとおり
𝒛 𝒕
𝒍
= 𝑾𝒍
𝒉 𝒕− 𝑪/𝟐
𝒍−𝟏
⋮
𝒉 𝒕
𝒍−𝟏
⋮
𝒉 𝒕+ 𝑪/𝟐
𝒍−𝟏
+ 𝒃𝒍

• 特徴と技法
• パディング：系列の最初と最後に仮の隠れ状態ベクトルを配置する
• 入力系列の長さに対する出力系列の長さの比率を調整できる。
• プーリング：畳み込み操作の後に複数の局所特徴値を集約する
• 複数の局所特徴値を集約する操作。入力テキストの小さな変化に対して、不変な表現の学習が
期待できる。
• 可変長の入力に対して固定長の表現を得る
• ストライド：すべての時刻を使わないで、sおきにダウンサンプリングすること
パディングの概念図プーリングの概念図
教科書より教科書より

• 自然言語処理での使いどころ
• 時間に依存せず、局所的な不変性が成立するタスクに向く
• 畳み込み操作が時間非依存性を仮定しており、プーリングが局所的な不変性を仮
定しているため
• CNNでは隠れ状態ベクトル間に依存関係が少なく並列化しやすい
• RNNでは並列化ができない。

Appendix

誤差逆伝搬をすべて行列・ベクトルの微分で行う
場合
• １層の場合
• 𝒒(𝒕) = 𝑉𝒉 𝑡 + 𝒄, 𝒑(𝒕) = 𝑈𝒙 𝑡 + 𝑊𝒉 𝑡 − 1 + 𝒃とおく。
• 𝑈 = 𝒖 𝟏, ⋯ 𝒖 𝑱
𝑻
, 𝑊 = 𝒘 𝟏, ⋯ 𝒘 𝑱
𝑻
, 𝑉 = 𝒗 𝟏, ⋯ 𝒗 𝒌
𝑻とおく。
𝜕𝑙
𝜕𝑉
=
𝜕𝑙
𝜕𝒚 𝒕
𝑻
𝜕𝒚 𝒕
𝜕𝒒 𝒕
𝑻
𝝏𝒒 𝒕
𝝏𝑽
𝜕𝑙
𝜕𝑈
=
𝜕𝑙
𝜕𝑦𝒕
𝑻
𝜕𝒚 𝒕
𝜕𝒒 𝒕
𝑻
𝜕𝒒 𝒕
𝜕𝒉 𝒕
𝑻
𝜕𝒉 𝑡
𝜕𝒑 𝒕
𝑻
𝝏𝒑 𝒕
𝝏𝑼
𝜕𝑙
𝜕𝑊
=
𝜕𝑙
𝜕𝑦𝒕
𝑻
𝜕𝒚 𝒕
𝜕𝒒 𝒕
𝑻
𝜕𝒒 𝒕
𝜕𝒉 𝒕
𝑻
𝜕𝒉 𝑡
𝜕𝒑 𝒕
𝑻
𝝏𝒑 𝒕
𝝏𝑾
テンソル
になるけ
ど、計算
する出て
くるよ！

2.6 再帰ニューラルネット:誤差逆伝搬
•
𝜕𝑙
𝜕𝒚 𝒕
𝑻
𝜕𝒚 𝒕
𝜕𝒒 𝒕
𝑻 = 𝒆 𝒐
𝑻 𝑡 ,
𝜕𝑙
𝜕𝑦𝒕
𝑻
𝜕𝒚 𝒕
𝜕𝒒 𝒕
𝑻
𝜕𝒒 𝒕
𝜕𝒉 𝒕
𝑻
𝜕𝒉 𝑡
𝜕𝒑 𝒕
𝑻 = 𝒆 𝒐
𝑻 𝑡 𝑽
𝜕𝒉 𝑡
𝜕𝒑 𝒕
𝑻 = 𝒆 𝒐
𝑻 𝑡 (𝑽 𝑇⊙ 𝒇′(𝒑)
𝑻
= 𝒆 𝒉
𝑻
(𝒕) とおく。
• 先ほどの式は以下のようになる。
𝜕𝑙
𝜕𝑉
= 𝒆 𝒐 𝒕 𝒉 𝒕
𝑻
,
𝜕𝑙
𝜕𝑈
= 𝒆 𝒉 𝒕 𝒙 𝒕
𝑻
,
𝜕𝑙
𝜕𝑊
= 𝒆 𝒉 𝒕 𝒉 𝑡−1
𝑇
,
𝜕𝑙
𝜕𝒄
= 𝒆 𝒐 𝒕 ,
𝜕𝑙
𝜕𝒃
= 𝒆 𝒉 𝒕
入力層𝒙(𝑡)
隠れ層𝒉(𝑡) 出力層𝐲(𝑡)

2.7.2 CEC
• 模式図
f
出力層
CEC
X1.0
入力層
g

• 模式図
f
出力層
CEC
X1.0
入力層
g
i o

レトリバ勉強会資料：深層学習による自然言語処理２章

Recommended

Recommended

More Related Content

What's hot

What's hot (9)

Similar to レトリバ勉強会資料：深層学習による自然言語処理２章

Similar to レトリバ勉強会資料：深層学習による自然言語処理２章 (20)

More from Hiroki Iida

More from Hiroki Iida (17)

レトリバ勉強会資料：深層学習による自然言語処理２章