音声認識技術の変遷

⾳声認識技術の変遷
GitHub @emonosuke

⼿法の変遷 2
1. 1960年〜 DPマッチング
2. 1980年〜統計モデル(GMM-HMM, N-gram)
3. 2010年〜ニューラルネットの導⼊(DNN-HMM)
4. 2015年〜 End-to-End 学習
• 単語ごとのテンプレート⾳声と⼊⼒⾳声との単なるパターンマッチ
→ 多数話者のバリエーションをモデル化するには不⼗分
1. サブワード単位の End-to-End
2. 単語単位の End-to-End

GMM-HMM(⾳響モデル) 4
r-a+y a-y+u y-u+r
⾳素は前後の⾳素の影響を受けて変化する(調⾳結合)
→ 3つ組⾳素(トライフォン) を処理単位とする
例えば, ⾳素列 “arayuru…” に対して、
出⼒確率 𝑃(𝑋-|𝑆-)
遷移確率 𝑃(𝑆-|𝑆-./)
Baum-Welch アルゴリズムにより
HMM の出⼒確率, 遷移確率を最尤推定

3. ニューラルネットの導⼊ 6
⾳素状態認識
(DNN)
⾳素モデル
(HMM)
𝑃(𝑆|𝑋)
⾳声特徴量認識結果
𝑃(𝑋|𝑆) 𝑃(𝑆|𝑊) 𝑃(𝑊)
⾔語モデル
(RNN)
単語辞書⾳響モデル
𝑊 = argmax 𝑃(𝑊|𝑋)
GMM-HMM では
• ⾳声特徴量の次元は⼩さく制限
• 特徴量に正規分布の仮定
DNN-HMM では
• 広範囲の⾳声特徴量+特徴抽出
• 特徴量分布は陽に仮定しない
→ 精度向上

DNN-HMM 7
⾳声特徴量 𝑋
𝑃(𝑆|𝑋)
𝑃(𝑋|𝑆) ∝ 𝑃(𝑆|𝑋) / 𝑃(𝑆)
HMM の出⼒確率分布をDNN の出⼒から学習

⾳素状態認識
(DNN)
⾳素モデル
(HMM)
4-1. サブワード(⾳素)単位のEnd-to-End 8
⾳声特徴量認識結果⾳響モデル⾔語モデル単語辞書
サブワード(⾳素)単位のEnd-to-End(LSTM)
→ 𝑃(𝑆|𝑋) を直接推定

例. CTC モデル 9
LSTM
LSTM
LSTM
𝑆/ 𝑆6𝑆7
𝑋/
⾳素列 𝑆 : 𝑆/, …, 𝑆8
正解⾳素列 ”hai” に縮約される全ての⾳素列
→ これらに対する尤度( = 𝑃 𝑆- 𝑋-, 𝑤 ) 和を基に LSTM のパラメータ更新
『Connectionist Temporal Classification (2006)』
_h__a___i_
_hh_aa_ii_
_h__aaaai_
…
𝑋7 𝑋6
ブランク⾳素 “_” を含む
特徴量 𝑋 : 𝑋/, …, 𝑋8

4-2. 単語単位のEnd-to-End 10
⾳声特徴量認識結果⾳響モデル⾔語モデル単語辞書
単語単位のEnd-to-End
→ 𝑃(𝑊|𝑋) を直接推定

例. Attention モデル(A2W) 11
LSTM
LSTM
LSTM
LSTM
LSTM
Encoder
𝐻/
𝑊/
s1
𝑎/,/
𝑋/
『Attention-Based Models for Speech Recognition (2015)』
特徴量 𝑋 : 𝑋/, …, 𝑋8
分散表現 𝐻 : 𝐻/, …, 𝐻8
単語列 𝑊 : 𝑊/, …, 𝑊<
𝐻7 𝐻6
𝑋7 𝑋6
𝑎7,/
𝑠/ 𝑠7
𝑊7
LSTM
𝑔/ 𝑔7
𝑎? = 𝑎𝑡𝑡𝑒𝑛𝑑(𝑠?./, 𝑎?./, 𝐻)
𝑔? = )
-
𝑎?,- + 𝐻-
Attention 重み
Decoder

まとめ 12
2. 1980年〜 GMM-HMM, N-gram
3. 2010年〜 DNN-HMM
4. 2015年〜 End-to-End 学習
1. サブワード単位の End-to-End
2. 単語単位の End-to-End
• ⾔語モデル, 単語辞書の情報をデコーディングの早い段階で適⽤していな
いため、あまり精度が上がらない
• ⾳声データベースのみで学習するため, テキストデータや単語辞書など外
部の⾔語資源の活⽤が課題
• 未知語の追加登録が容易でない
階層モデル

参考⽂献 13
• ⽇本⾳響学会第74巻07号(2018)
解説⾳声認識技術の変遷と最先端 - 河原達也(京都⼤学)
• ITText ⾳声認識システム(改訂2版) 河原達也編著

音声認識技術の変遷

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

音声認識技術の変遷