SlideShare una empresa de Scribd logo
1 de 13
Descargar para leer sin conexión
⾳声認識技術の変遷
GitHub @emonosuke
⼿法の変遷 2
1. 1960年〜 DPマッチング
2. 1980年〜 統計モデル(GMM-HMM, N-gram)
3. 2010年〜 ニューラルネットの導⼊(DNN-HMM)
4. 2015年〜 End-to-End 学習
• 単語ごとのテンプレート⾳声と⼊⼒⾳声との単なるパターンマッチ
→ 多数話者のバリエーションをモデル化するには不⼗分
1. サブワード単位の End-to-End
2. 単語単位の End-to-End
2. 統計モデル 3
⾳声特徴量
𝑋
認識結果
𝑃(𝑋|𝑆) 𝑃(𝑊)
𝑃(𝑊|𝑋) ∝ )
*
𝑃(𝑊) + 𝑃(𝑋|𝑆) + 𝑃(𝑆|𝑊)
⾔語モデル
(N-gram)
⾳響モデル
(GMM-HMM) 𝑊 = argmax 𝑃(𝑊|𝑋)
𝑋: ⾳声特徴量 𝑊: 単語列
𝑆 は⾳素 ( ex. /h/ + /a/ + /i/ ) として
𝑃(𝑆|𝑊)
単語辞書
決定的に与えられる
GMM-HMM(⾳響モデル) 4
r-a+y a-y+u y-u+r
⾳素は前後の⾳素の影響を受けて変化する(調⾳結合)
→ 3つ組⾳素(トライフォン) を処理単位とする
例えば, ⾳素列 “arayuru…” に対して、
出⼒確率 𝑃(𝑋-|𝑆-)
遷移確率 𝑃(𝑆-|𝑆-./)
Baum-Welch アルゴリズムにより
HMM の出⼒確率, 遷移確率を最尤推定
N-gram(⾔語モデル) 5
ある単語の出現確率は直前の 𝑁 − 1 単語にのみ依存すると仮定
出現確率を最尤推定
W =“学校/に/⾏/く”
𝑁 = 3 とすると、
𝑃(学校, に, ⾏, く) = 𝑃(学校 | <s>, <s>) + 𝑃(に | <s>, 学校)
+ 𝑃(⾏ | 学校, に) + 𝑃(く | に, ⾏) + 𝑃(</s> | ⾏, く)
3. ニューラルネットの導⼊ 6
⾳素状態認識
(DNN)
⾳素モデル
(HMM)
𝑃(𝑆|𝑋)
⾳声特徴量 認識結果
𝑃(𝑋|𝑆) 𝑃(𝑆|𝑊) 𝑃(𝑊)
⾔語モデル
(RNN)
単語辞書⾳響モデル
𝑊 = argmax 𝑃(𝑊|𝑋)
GMM-HMM では
• ⾳声特徴量の次元は⼩さく制限
• 特徴量に正規分布の仮定
DNN-HMM では
• 広範囲の⾳声特徴量+特徴抽出
• 特徴量分布は陽に仮定しない
→ 精度向上
DNN-HMM 7
⾳声特徴量 𝑋
𝑃(𝑆|𝑋)
𝑃(𝑋|𝑆) ∝ 𝑃(𝑆|𝑋) / 𝑃(𝑆)
HMM の出⼒確率分布をDNN の出⼒から学習
⾳素状態認識
(DNN)
⾳素モデル
(HMM)
4-1. サブワード(⾳素)単位のEnd-to-End 8
⾳声特徴量 認識結果⾳響モデル ⾔語モデル単語辞書
𝑃(𝑋|𝑆) 𝑃(𝑆|𝑊) 𝑃(𝑊)
サブワード(⾳素)単位のEnd-to-End(LSTM)
→ 𝑃(𝑆|𝑋) を直接推定
例. CTC モデル 9
LSTM
LSTM
LSTM
𝑆/ 𝑆6𝑆7
𝑋/
⾳素列 𝑆 : 𝑆/, …, 𝑆8
正解⾳素列 ”hai” に縮約される全ての⾳素列
→ これらに対する尤度( = 𝑃 𝑆- 𝑋-, 𝑤 ) 和を基に LSTM のパラメータ更新
『Connectionist Temporal Classification (2006)』
_h__a___i_
_hh_aa_ii_
_h__aaaai_
…
𝑋7 𝑋6
ブランク⾳素 “_” を含む
特徴量 𝑋 : 𝑋/, …, 𝑋8
4-2. 単語単位のEnd-to-End 10
⾳声特徴量 認識結果⾳響モデル ⾔語モデル単語辞書
𝑃(𝑋|𝑆) 𝑃(𝑆|𝑊) 𝑃(𝑊)
単語単位のEnd-to-End
→ 𝑃(𝑊|𝑋) を直接推定
例. Attention モデル(A2W) 11
LSTM
LSTM
LSTM
LSTM
LSTM
Encoder
𝐻/
𝑊/
s1
𝑎/,/
𝑋/
『Attention-Based Models for Speech Recognition (2015)』
特徴量 𝑋 : 𝑋/, …, 𝑋8
分散表現 𝐻 : 𝐻/, …, 𝐻8
単語列 𝑊 : 𝑊/, …, 𝑊<
𝐻7 𝐻6
𝑋7 𝑋6
𝑎7,/
𝑠/ 𝑠7
𝑊7
LSTM
𝑔/ 𝑔7
𝑎? = 𝑎𝑡𝑡𝑒𝑛𝑑(𝑠?./, 𝑎?./, 𝐻)
𝑔? = )
-
𝑎?,- + 𝐻-
Attention 重み
Decoder
まとめ 12
2. 1980年〜 GMM-HMM, N-gram
3. 2010年〜 DNN-HMM
4. 2015年〜 End-to-End 学習
1. サブワード単位の End-to-End
2. 単語単位の End-to-End
• ⾔語モデル, 単語辞書の情報をデコーディングの早い段階で適⽤していな
いため、あまり精度が上がらない
• ⾳声データベースのみで学習するため, テキストデータや単語辞書など外
部の⾔語資源の活⽤が課題
• 未知語の追加登録が容易でない
階層モデル
参考⽂献 13
• ⽇本⾳響学会第74巻07号(2018)
解説 ⾳声認識技術の変遷と最先端 - 河原達也(京都⼤学)
• ITText ⾳声認識システム(改訂2版) 河原達也 編著

Más contenido relacionado

La actualidad más candente

時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元NU_I_TODALAB
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理Taiji Suzuki
 
音響システム特論 第11回 実環境における音響信号処理と機械学習
音響システム特論 第11回 実環境における音響信号処理と機械学習音響システム特論 第11回 実環境における音響信号処理と機械学習
音響システム特論 第11回 実環境における音響信号処理と機械学習Yuma Koizumi
 
パターン認識と機械学習 13章 系列データ
パターン認識と機械学習 13章 系列データパターン認識と機械学習 13章 系列データ
パターン認識と機械学習 13章 系列データemonosuke
 
深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理Yuma Koizumi
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)Daichi Kitamura
 
音声認識の基礎
音声認識の基礎音声認識の基礎
音声認識の基礎Akinori Ito
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価Shinnosuke Takamichi
 
音声合成の基礎
音声合成の基礎音声合成の基礎
音声合成の基礎Akinori Ito
 
音声生成の基礎と音声学
音声生成の基礎と音声学音声生成の基礎と音声学
音声生成の基礎と音声学Akinori Ito
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換NU_I_TODALAB
 
MIRU2016 チュートリアル
MIRU2016 チュートリアルMIRU2016 チュートリアル
MIRU2016 チュートリアルShunsuke Ono
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析Shinnosuke Takamichi
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展Shinnosuke Takamichi
 
音響信号に対する異常音検知技術と応用
音響信号に対する異常音検知技術と応用音響信号に対する異常音検知技術と応用
音響信号に対する異常音検知技術と応用Yuma Koizumi
 
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...Yui Sudo
 
最適化計算の概要まとめ
最適化計算の概要まとめ最適化計算の概要まとめ
最適化計算の概要まとめYuichiro MInato
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3Naoya Takahashi
 
統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用Yuma Koizumi
 
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...Daichi Kitamura
 

La actualidad más candente (20)

時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 
音響システム特論 第11回 実環境における音響信号処理と機械学習
音響システム特論 第11回 実環境における音響信号処理と機械学習音響システム特論 第11回 実環境における音響信号処理と機械学習
音響システム特論 第11回 実環境における音響信号処理と機械学習
 
パターン認識と機械学習 13章 系列データ
パターン認識と機械学習 13章 系列データパターン認識と機械学習 13章 系列データ
パターン認識と機械学習 13章 系列データ
 
深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
 
音声認識の基礎
音声認識の基礎音声認識の基礎
音声認識の基礎
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
 
音声合成の基礎
音声合成の基礎音声合成の基礎
音声合成の基礎
 
音声生成の基礎と音声学
音声生成の基礎と音声学音声生成の基礎と音声学
音声生成の基礎と音声学
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
 
MIRU2016 チュートリアル
MIRU2016 チュートリアルMIRU2016 チュートリアル
MIRU2016 チュートリアル
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
 
音響信号に対する異常音検知技術と応用
音響信号に対する異常音検知技術と応用音響信号に対する異常音検知技術と応用
音響信号に対する異常音検知技術と応用
 
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
 
最適化計算の概要まとめ
最適化計算の概要まとめ最適化計算の概要まとめ
最適化計算の概要まとめ
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
 
統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用
 
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
 

音声認識技術の変遷

  • 2. ⼿法の変遷 2 1. 1960年〜 DPマッチング 2. 1980年〜 統計モデル(GMM-HMM, N-gram) 3. 2010年〜 ニューラルネットの導⼊(DNN-HMM) 4. 2015年〜 End-to-End 学習 • 単語ごとのテンプレート⾳声と⼊⼒⾳声との単なるパターンマッチ → 多数話者のバリエーションをモデル化するには不⼗分 1. サブワード単位の End-to-End 2. 単語単位の End-to-End
  • 3. 2. 統計モデル 3 ⾳声特徴量 𝑋 認識結果 𝑃(𝑋|𝑆) 𝑃(𝑊) 𝑃(𝑊|𝑋) ∝ ) * 𝑃(𝑊) + 𝑃(𝑋|𝑆) + 𝑃(𝑆|𝑊) ⾔語モデル (N-gram) ⾳響モデル (GMM-HMM) 𝑊 = argmax 𝑃(𝑊|𝑋) 𝑋: ⾳声特徴量 𝑊: 単語列 𝑆 は⾳素 ( ex. /h/ + /a/ + /i/ ) として 𝑃(𝑆|𝑊) 単語辞書 決定的に与えられる
  • 4. GMM-HMM(⾳響モデル) 4 r-a+y a-y+u y-u+r ⾳素は前後の⾳素の影響を受けて変化する(調⾳結合) → 3つ組⾳素(トライフォン) を処理単位とする 例えば, ⾳素列 “arayuru…” に対して、 出⼒確率 𝑃(𝑋-|𝑆-) 遷移確率 𝑃(𝑆-|𝑆-./) Baum-Welch アルゴリズムにより HMM の出⼒確率, 遷移確率を最尤推定
  • 5. N-gram(⾔語モデル) 5 ある単語の出現確率は直前の 𝑁 − 1 単語にのみ依存すると仮定 出現確率を最尤推定 W =“学校/に/⾏/く” 𝑁 = 3 とすると、 𝑃(学校, に, ⾏, く) = 𝑃(学校 | <s>, <s>) + 𝑃(に | <s>, 学校) + 𝑃(⾏ | 学校, に) + 𝑃(く | に, ⾏) + 𝑃(</s> | ⾏, く)
  • 6. 3. ニューラルネットの導⼊ 6 ⾳素状態認識 (DNN) ⾳素モデル (HMM) 𝑃(𝑆|𝑋) ⾳声特徴量 認識結果 𝑃(𝑋|𝑆) 𝑃(𝑆|𝑊) 𝑃(𝑊) ⾔語モデル (RNN) 単語辞書⾳響モデル 𝑊 = argmax 𝑃(𝑊|𝑋) GMM-HMM では • ⾳声特徴量の次元は⼩さく制限 • 特徴量に正規分布の仮定 DNN-HMM では • 広範囲の⾳声特徴量+特徴抽出 • 特徴量分布は陽に仮定しない → 精度向上
  • 7. DNN-HMM 7 ⾳声特徴量 𝑋 𝑃(𝑆|𝑋) 𝑃(𝑋|𝑆) ∝ 𝑃(𝑆|𝑋) / 𝑃(𝑆) HMM の出⼒確率分布をDNN の出⼒から学習
  • 8. ⾳素状態認識 (DNN) ⾳素モデル (HMM) 4-1. サブワード(⾳素)単位のEnd-to-End 8 ⾳声特徴量 認識結果⾳響モデル ⾔語モデル単語辞書 𝑃(𝑋|𝑆) 𝑃(𝑆|𝑊) 𝑃(𝑊) サブワード(⾳素)単位のEnd-to-End(LSTM) → 𝑃(𝑆|𝑋) を直接推定
  • 9. 例. CTC モデル 9 LSTM LSTM LSTM 𝑆/ 𝑆6𝑆7 𝑋/ ⾳素列 𝑆 : 𝑆/, …, 𝑆8 正解⾳素列 ”hai” に縮約される全ての⾳素列 → これらに対する尤度( = 𝑃 𝑆- 𝑋-, 𝑤 ) 和を基に LSTM のパラメータ更新 『Connectionist Temporal Classification (2006)』 _h__a___i_ _hh_aa_ii_ _h__aaaai_ … 𝑋7 𝑋6 ブランク⾳素 “_” を含む 特徴量 𝑋 : 𝑋/, …, 𝑋8
  • 10. 4-2. 単語単位のEnd-to-End 10 ⾳声特徴量 認識結果⾳響モデル ⾔語モデル単語辞書 𝑃(𝑋|𝑆) 𝑃(𝑆|𝑊) 𝑃(𝑊) 単語単位のEnd-to-End → 𝑃(𝑊|𝑋) を直接推定
  • 11. 例. Attention モデル(A2W) 11 LSTM LSTM LSTM LSTM LSTM Encoder 𝐻/ 𝑊/ s1 𝑎/,/ 𝑋/ 『Attention-Based Models for Speech Recognition (2015)』 特徴量 𝑋 : 𝑋/, …, 𝑋8 分散表現 𝐻 : 𝐻/, …, 𝐻8 単語列 𝑊 : 𝑊/, …, 𝑊< 𝐻7 𝐻6 𝑋7 𝑋6 𝑎7,/ 𝑠/ 𝑠7 𝑊7 LSTM 𝑔/ 𝑔7 𝑎? = 𝑎𝑡𝑡𝑒𝑛𝑑(𝑠?./, 𝑎?./, 𝐻) 𝑔? = ) - 𝑎?,- + 𝐻- Attention 重み Decoder
  • 12. まとめ 12 2. 1980年〜 GMM-HMM, N-gram 3. 2010年〜 DNN-HMM 4. 2015年〜 End-to-End 学習 1. サブワード単位の End-to-End 2. 単語単位の End-to-End • ⾔語モデル, 単語辞書の情報をデコーディングの早い段階で適⽤していな いため、あまり精度が上がらない • ⾳声データベースのみで学習するため, テキストデータや単語辞書など外 部の⾔語資源の活⽤が課題 • 未知語の追加登録が容易でない 階層モデル
  • 13. 参考⽂献 13 • ⽇本⾳響学会第74巻07号(2018) 解説 ⾳声認識技術の変遷と最先端 - 河原達也(京都⼤学) • ITText ⾳声認識システム(改訂2版) 河原達也 編著