Más contenido relacionado
La actualidad más candente (20)
Similar a 日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価” (7)
Más de Shinnosuke Takamichi (20)
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
- 2. /12
概要
発話間変動
– 同一コンテキストに対する音声の変動
一期一会音声合成 [Takamichi et al., INTERSPEECH2017.]
– Moment-matching networkに基づく音響モデリング
– 音質を劣化させずに,音声パラメータをランダム生成可能
本報告:一期一会音声合成の発話間変動を定量的に評価
– 繰り返し発話された自然音声と比較
2
“Hello” “Hello”
- 3. /12
通常のDNN音声合成
(Mean squared errorの最小化)
3
Mean squared
error
Linguistic
feats.
Static-delta
mean vectors
⋯
⋯
⋯
⋯
time
𝑡 = 1
⋯
⋯
⋯
⋯
⋯
time
𝑡 = 𝑇
⋯
Generated
speech
params.
Natural
speech
params.
Parameter
generation
⋯
[Wu et al., 2016.]
𝒚𝒚
𝒙
条件付き分布𝑃 𝒚|𝒙 として正規分布を仮定した最尤推定
- 5. /12
MMD (Maximum Mean Discrepancy)
5
2つのデータセットの統計量の不一致指標
Moment-matching network [Li et al., 2015.]
– MMDを最小化するように、ノイズ入力のDNNを学習
𝑁 𝟎, 𝑰
𝒚
𝒚
MMD = Tr 𝟏 ⋅ 𝑲 𝒚,𝒚 + Tr 𝟏 ⋅ 𝑲 𝒚,𝒚 − 2Tr 𝟏 ⋅ 𝑲 𝒚,𝒚
𝒚, 𝒚 のグラム行列 𝒚, 𝒚 𝒚, 𝒚
⋯
⋯
⋯
⋯
- 6. /12
条件付きMMD (CMMD: Conditional MMD)
条件付き分布の統計量の不一致を計算 [Ren et al., 2016.]
Conditional moment-matching network [Ren et al., 2016.]
– CMMDを最小化するように、 𝒙 &ノイズを入力とするDNNを学習
6
𝒙, 𝒙 のグラム行列の逆行列を含む行列
𝑁 𝟎, 𝑰
𝒚
𝒙
⋯
⋯
⋯
⋯
𝒚
CMMD = Tr 𝑳 𝒙 ⋅ 𝑲 𝒚,𝒚 + Tr 𝑳 𝒙 ⋅ 𝑲 𝒚,𝒚 − 2Tr 𝑳 𝒙 ⋅ 𝑲 𝒚,𝒚
𝒙
- 9. /12
実験条件
9
項目 値・設定
学習データ 女性1名,日本語4000文
評価データ ATR音素バランスJセット53文 (後述)
入力特徴量 442次元コンテキスト
出力特徴量 40次元メルケプストラム,連続対数F0,有声/無声
ラベル,5帯域非周期性指標
入力ノイズ 5次元/フレーム.正規分布からランダム生成
ネットワーク構造 Feed-Forward
グラム行列の
カーネル
ガウスカーネル (予備実験で線形カーネル・多項式
カーネルも使用したが,大きな変化はなし)
- 10. /12
発話間変動の評価法
評価用データセットの作成
– 自然音声:評価データ (Jセット53文) を5回ずつ繰り返し収録
– 合成音声:各文に対して100回ランダム生成
評価対象手法
– 動的特徴量を考慮したパラメータ生成 [Tokuda et al., 2000.] あり/なし
• なしの場合は,静的特徴量を直接推定
– スペクトル,連続対数F0,有声/無声ラベル,音素継続長生成
評価法
– 自然音声同士,合成音声同士で発話間変動を計算
• スペクトル:メルケプストラム歪み
• 連続対数F0・継続長:二乗誤差
• 有声/無声ラベル:誤りフレーム数
10