Enviar búsqueda
Cargar
音声認識技術の変遷
•
1 recomendación
•
952 vistas
E
emonosuke
Seguir
解説記事 音声認識技術の変遷と最先端 (河原 2018) のまとめ
Leer menos
Leer más
Ingeniería
Denunciar
Compartir
Denunciar
Compartir
1 de 13
Descargar ahora
Descargar para leer sin conexión
Recomendados
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
NU_I_TODALAB
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
Yuma Koizumi
バンディット問題について
バンディット問題について
jkomiyama
音声の認識と合成
音声の認識と合成
Akinori Ito
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
Yuma Koizumi
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito
Recomendados
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
NU_I_TODALAB
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
Yuma Koizumi
バンディット問題について
バンディット問題について
jkomiyama
音声の認識と合成
音声の認識と合成
Akinori Ito
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
Yuma Koizumi
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
NU_I_TODALAB
深層学習の数理
深層学習の数理
Taiji Suzuki
音響システム特論 第11回 実環境における音響信号処理と機械学習
音響システム特論 第11回 実環境における音響信号処理と機械学習
Yuma Koizumi
パターン認識と機械学習 13章 系列データ
パターン認識と機械学習 13章 系列データ
emonosuke
深層学習と音響信号処理
深層学習と音響信号処理
Yuma Koizumi
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
音声認識の基礎
音声認識の基礎
Akinori Ito
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
音声合成の基礎
音声合成の基礎
Akinori Ito
音声生成の基礎と音声学
音声生成の基礎と音声学
Akinori Ito
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
NU_I_TODALAB
MIRU2016 チュートリアル
MIRU2016 チュートリアル
Shunsuke Ono
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
音響信号に対する異常音検知技術と応用
音響信号に対する異常音検知技術と応用
Yuma Koizumi
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Yui Sudo
最適化計算の概要まとめ
最適化計算の概要まとめ
Yuichiro MInato
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用
Yuma Koizumi
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
Daichi Kitamura
Más contenido relacionado
La actualidad más candente
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
NU_I_TODALAB
深層学習の数理
深層学習の数理
Taiji Suzuki
音響システム特論 第11回 実環境における音響信号処理と機械学習
音響システム特論 第11回 実環境における音響信号処理と機械学習
Yuma Koizumi
パターン認識と機械学習 13章 系列データ
パターン認識と機械学習 13章 系列データ
emonosuke
深層学習と音響信号処理
深層学習と音響信号処理
Yuma Koizumi
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
音声認識の基礎
音声認識の基礎
Akinori Ito
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
音声合成の基礎
音声合成の基礎
Akinori Ito
音声生成の基礎と音声学
音声生成の基礎と音声学
Akinori Ito
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
NU_I_TODALAB
MIRU2016 チュートリアル
MIRU2016 チュートリアル
Shunsuke Ono
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
音響信号に対する異常音検知技術と応用
音響信号に対する異常音検知技術と応用
Yuma Koizumi
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Yui Sudo
最適化計算の概要まとめ
最適化計算の概要まとめ
Yuichiro MInato
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用
Yuma Koizumi
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
Daichi Kitamura
La actualidad más candente
(20)
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
深層学習の数理
深層学習の数理
音響システム特論 第11回 実環境における音響信号処理と機械学習
音響システム特論 第11回 実環境における音響信号処理と機械学習
パターン認識と機械学習 13章 系列データ
パターン認識と機械学習 13章 系列データ
深層学習と音響信号処理
深層学習と音響信号処理
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音声認識の基礎
音声認識の基礎
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
音声合成の基礎
音声合成の基礎
音声生成の基礎と音声学
音声生成の基礎と音声学
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
MIRU2016 チュートリアル
MIRU2016 チュートリアル
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
音響信号に対する異常音検知技術と応用
音響信号に対する異常音検知技術と応用
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
最適化計算の概要まとめ
最適化計算の概要まとめ
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音声認識技術の変遷
1.
⾳声認識技術の変遷 GitHub @emonosuke
2.
⼿法の変遷 2 1. 1960年〜
DPマッチング 2. 1980年〜 統計モデル(GMM-HMM, N-gram) 3. 2010年〜 ニューラルネットの導⼊(DNN-HMM) 4. 2015年〜 End-to-End 学習 • 単語ごとのテンプレート⾳声と⼊⼒⾳声との単なるパターンマッチ → 多数話者のバリエーションをモデル化するには不⼗分 1. サブワード単位の End-to-End 2. 単語単位の End-to-End
3.
2. 統計モデル 3 ⾳声特徴量 𝑋 認識結果 𝑃(𝑋|𝑆)
𝑃(𝑊) 𝑃(𝑊|𝑋) ∝ ) * 𝑃(𝑊) + 𝑃(𝑋|𝑆) + 𝑃(𝑆|𝑊) ⾔語モデル (N-gram) ⾳響モデル (GMM-HMM) 𝑊 = argmax 𝑃(𝑊|𝑋) 𝑋: ⾳声特徴量 𝑊: 単語列 𝑆 は⾳素 ( ex. /h/ + /a/ + /i/ ) として 𝑃(𝑆|𝑊) 単語辞書 決定的に与えられる
4.
GMM-HMM(⾳響モデル) 4 r-a+y a-y+u
y-u+r ⾳素は前後の⾳素の影響を受けて変化する(調⾳結合) → 3つ組⾳素(トライフォン) を処理単位とする 例えば, ⾳素列 “arayuru…” に対して、 出⼒確率 𝑃(𝑋-|𝑆-) 遷移確率 𝑃(𝑆-|𝑆-./) Baum-Welch アルゴリズムにより HMM の出⼒確率, 遷移確率を最尤推定
5.
N-gram(⾔語モデル) 5 ある単語の出現確率は直前の 𝑁
− 1 単語にのみ依存すると仮定 出現確率を最尤推定 W =“学校/に/⾏/く” 𝑁 = 3 とすると、 𝑃(学校, に, ⾏, く) = 𝑃(学校 | <s>, <s>) + 𝑃(に | <s>, 学校) + 𝑃(⾏ | 学校, に) + 𝑃(く | に, ⾏) + 𝑃(</s> | ⾏, く)
6.
3. ニューラルネットの導⼊ 6 ⾳素状態認識 (DNN) ⾳素モデル (HMM) 𝑃(𝑆|𝑋) ⾳声特徴量
認識結果 𝑃(𝑋|𝑆) 𝑃(𝑆|𝑊) 𝑃(𝑊) ⾔語モデル (RNN) 単語辞書⾳響モデル 𝑊 = argmax 𝑃(𝑊|𝑋) GMM-HMM では • ⾳声特徴量の次元は⼩さく制限 • 特徴量に正規分布の仮定 DNN-HMM では • 広範囲の⾳声特徴量+特徴抽出 • 特徴量分布は陽に仮定しない → 精度向上
7.
DNN-HMM 7 ⾳声特徴量 𝑋 𝑃(𝑆|𝑋) 𝑃(𝑋|𝑆)
∝ 𝑃(𝑆|𝑋) / 𝑃(𝑆) HMM の出⼒確率分布をDNN の出⼒から学習
8.
⾳素状態認識 (DNN) ⾳素モデル (HMM) 4-1. サブワード(⾳素)単位のEnd-to-End 8 ⾳声特徴量
認識結果⾳響モデル ⾔語モデル単語辞書 𝑃(𝑋|𝑆) 𝑃(𝑆|𝑊) 𝑃(𝑊) サブワード(⾳素)単位のEnd-to-End(LSTM) → 𝑃(𝑆|𝑋) を直接推定
9.
例. CTC モデル
9 LSTM LSTM LSTM 𝑆/ 𝑆6𝑆7 𝑋/ ⾳素列 𝑆 : 𝑆/, …, 𝑆8 正解⾳素列 ”hai” に縮約される全ての⾳素列 → これらに対する尤度( = 𝑃 𝑆- 𝑋-, 𝑤 ) 和を基に LSTM のパラメータ更新 『Connectionist Temporal Classification (2006)』 _h__a___i_ _hh_aa_ii_ _h__aaaai_ … 𝑋7 𝑋6 ブランク⾳素 “_” を含む 特徴量 𝑋 : 𝑋/, …, 𝑋8
10.
4-2. 単語単位のEnd-to-End 10 ⾳声特徴量
認識結果⾳響モデル ⾔語モデル単語辞書 𝑃(𝑋|𝑆) 𝑃(𝑆|𝑊) 𝑃(𝑊) 単語単位のEnd-to-End → 𝑃(𝑊|𝑋) を直接推定
11.
例. Attention モデル(A2W)
11 LSTM LSTM LSTM LSTM LSTM Encoder 𝐻/ 𝑊/ s1 𝑎/,/ 𝑋/ 『Attention-Based Models for Speech Recognition (2015)』 特徴量 𝑋 : 𝑋/, …, 𝑋8 分散表現 𝐻 : 𝐻/, …, 𝐻8 単語列 𝑊 : 𝑊/, …, 𝑊< 𝐻7 𝐻6 𝑋7 𝑋6 𝑎7,/ 𝑠/ 𝑠7 𝑊7 LSTM 𝑔/ 𝑔7 𝑎? = 𝑎𝑡𝑡𝑒𝑛𝑑(𝑠?./, 𝑎?./, 𝐻) 𝑔? = ) - 𝑎?,- + 𝐻- Attention 重み Decoder
12.
まとめ 12 2. 1980年〜
GMM-HMM, N-gram 3. 2010年〜 DNN-HMM 4. 2015年〜 End-to-End 学習 1. サブワード単位の End-to-End 2. 単語単位の End-to-End • ⾔語モデル, 単語辞書の情報をデコーディングの早い段階で適⽤していな いため、あまり精度が上がらない • ⾳声データベースのみで学習するため, テキストデータや単語辞書など外 部の⾔語資源の活⽤が課題 • 未知語の追加登録が容易でない 階層モデル
13.
参考⽂献 13 • ⽇本⾳響学会第74巻07号(2018) 解説
⾳声認識技術の変遷と最先端 - 河原達也(京都⼤学) • ITText ⾳声認識システム(改訂2版) 河原達也 編著
Descargar ahora