雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習

Department of Computer Science and Electronic Engineering, National Institute of Technology, Tokuyama College
雑音環境下音声を用いた音声合成のための
雑音生成モデルの敵対的学習
宇根昌和（徳山高専，東大），
齋藤佑樹，高道慎之介，北村大地（東大）
宮崎亮一（徳山高専），猿渡洋（東大）

• 音声合成
 人間のように自然な音声を人工的に生成する技術
• Deep Neural Network (DNN) に基づく
音声合成 [Zen, 2013]
 音声特徴量を統計的にモデル化
 テキスト特徴量から音声を生成するようモデルを学習
 学習には理想的な環境で収録した音声データが必須
研究背景
2/24
Linguistic
feature
Speech
feature

• 劣悪な環境下で収録した音声の利用は困難
 一般的な家庭環境で収録した場合 [高道, 2017]
→ 周囲の雑音の混入
 DNNの学習に雑音環境下音声を利用
→合成音声の品質が雑音によって劣化
• クリーンな音声の収録は容易ではない．
 手軽にスタジオのような設備は使えない．
問題点
3/24
雑音混入音声のみ存在する状況で
クリーンな音声を合成したい！

• 一般的な方法（従来手法）：雑音抑圧を適用
 雑音抑圧を行った音声をモデルの学習に使用
 雑音抑圧による推定誤差が音声合成部で重畳
• 提案手法：雑音混入過程を考慮
 音声生成モデルと雑音生成モデルの2つのモデルを構築
問題に対するアプローチ
4/24

• 本発表
 雑音混入過程を考慮した枠組みを構築
 確率的に雑音を生成する雑音生成モデルを導入
→ 敵対的学習を用いて観測雑音の分布を効果的に表現
 音声生成モデルは，その出力と生成雑音の和が
雑音環境下音声に一致するように学習
• 結果
 雑音生成モデルは観測雑音の分布を効果的に表現
 雑音抑圧による音声合成と比較して高品質な音声の
合成に成功
概要
5/24

•
• 雑音抑圧による音声合成
•
•
•
目次
6/24

• Spectral subtraction (SS) [Boll, 1979]
従来手法における雑音抑圧手法
7/24
：SS後の信号の対数振幅スペクトル系列
：観測信号の対数振幅スペクトル系列
：観測雑音の対数振幅スペクトル系列
：減算係数
：雑音区間の総フレーム数

• モデルの枠組みと学習の方法
 モデルは入力コンテキスト系列から
対数振幅スペクトルを生成する．
 とSS後の対数振幅スペクトルの平均二乗誤差
(Mean square error: MSE）を最小化するよう学習
雑音抑圧による音声合成
8/24
Linguistic
feat.
Noisy
speech
SS

• 雑音の分布を期待値で近似：推定誤差の発生
 音声成分の歪み
 ミュージカルノイズの発生 [Miyazaki, 2012]
- ミュージカルノイズ：聴覚的に不快な音
SS後の音声合成における問題点
9/24
後段の音声合成モデルの学習に推定誤差が蓄積

•
• 提案手法
•
•
目次
10/24

• 雑音の混入過程を考慮
 音声生成モデルに加え雑音生成モデルを導入
 は既知の任意の事前分布を観測雑音の分布に
変形するように事前に学習（は事前分布から生成）
 は雑音生成モデルの出力との出力との和が
雑音環境下音声に一致するよう学習
提案手法
11/24

• 雑音生成に敵対的学習（GAN）の導入
 とを交互に学習
雑音生成モデルの事前学習
12/24
：生成雑音と観測雑音を識別
[Goodfellow, 2014]

• 雑音生成に敵対的学習（GAN）の導入
 とを交互に学習
雑音生成モデルの事前学習
13/24
：生成雑音を観測雑音と識別させる．
[Goodfellow, 2014]

• 敵対的学習は観測雑音と生成雑音の分布間
距離を最小化
• ガウス性雑音を観測雑音にした場合
観測雑音と生成雑音の比較
14/24
観測雑音
生成雑音
は観測雑音の分布や音色を効果的に表現できている．

• 敵対的学習により定常雑音を表現
 雑音の分布を効果的に表現
→ ミュージカルノイズなどの歪みを低減
• 学習方法の拡張が可能
 条件付きGAN[Mirza, 2012]
→コンテキスト依存性への対応
 リカレント構造を持つneural network生成モデルの導入
→ 時間構造の考慮
雑音生成モデルに関する考察
15/24

• 事前学習したを用いてを学習
 生成した雑音混入音声と観測信号のMSEを最小化
音声生成モデルの学習
16/24

•
•
• 評価実験
•
目次
17/24

評価実験
18/24
• 目的
 雑音抑圧による音声合成と提案手法を比較し，
提案手法の有効性を示す．
• 比較手法
 SS+MSE: SSで雑音抑圧後，音声生成モデルを学習
 Proposed: 提案手法

実験条件
19/24
学習データ日本語約3000文
テストデータ ATR音素バランス Jセット 53文
音声パラメータ 257次元のスペクトログラム
コンテキストラベル
439次元テキスト特徴量
+F0+UV+3次元継続長
ニューラルネットワーク全てFeed-Forward (原稿参照)
雑音生成モデルの入力一様分布からランダム生成
観測雑音白色ガウス雑音
SSにおける減算係数 0.5, 1.0, 2.0, 5.0
入力SNR 0 [dB], 5 [dB], 10[dB]
評価法
プリファレンスABテスト
(各減算係数, SNRごとに25人の評価者)

• SNR = 0dBの結果
 音声の明瞭性＋雑音の量の点で評価
実験結果
20/24
0.368 0.632
SS+MSE
(β = 0.5)
SS+MSE
(β = 1.0)
SS+MSE
(β = 2.0)
SS+MSE
(β = 5.0)
Proposed
0.312 0.688
0.312 0.688
0.00 0.25 0.50 0.75 1.00
Preference score
0.253 0.747
提案法は知覚的に従来法に比べ優れている．

実験結果
21/24
0.292 0.708
0.320 0.680
0.323 0.677
0.00 0.25 0.50 0.75 1.00
Preference score
0.216 0.784
SS+MSE
(β = 0.5)
SS+MSE
(β = 1.0)
SS+MSE
(β = 2.0)
SS+MSE
(β = 5.0)
Proposed

実験結果
22/24
0.268 0.732
0.292 0.707
0.256 0.744
0.00 0.25 0.50 0.75 1.00
Preference score
0.288 0.712
SS+MSE
(β = 0.5)
SS+MSE
(β = 1.0)
SS+MSE
(β = 2.0)
SS+MSE
(β = 5.0)
Proposed

•
•
•
• まとめ
目次
23/24

• 目的
 雑音混入音声から高品質な音声を生成
• 提案法
 雑音混入過程を考慮したDNN音声合成モデルを構築
 雑音生成モデルに敵対的学習を導入し，観測雑音を生成
• 結果
 敵対的学習により，雑音生成モデルが観測雑音の分布を
効果的に表現
 主観評価実験より，従来法と比較して提案手法が有効
• 今後の課題
 当該話者以外のクリーン音声を用いた適応学習
まとめ
24/24

雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a 雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習

Similar a 雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習 (6)

Más de Shinnosuke Takamichi

Más de Shinnosuke Takamichi (20)

雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習