日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”

Moment-matching networkに基づく
一期一会音声合成における発話間変動の評価
○高道慎之介†1，郡山知樹†2，齋藤佑樹†1，猿渡洋†1
日本音響学会 2017年秋季研究発表会
1-8-9
（†1：東大院・情報理工，†2：東工大）

/12
概要
 発話間変動
– 同一コンテキストに対する音声の変動
 一期一会音声合成 [Takamichi et al., INTERSPEECH2017.]
– Moment-matching networkに基づく音響モデリング
– 音質を劣化させずに，音声パラメータをランダム生成可能
 本報告：一期一会音声合成の発話間変動を定量的に評価
– 繰り返し発話された自然音声と比較
2
“Hello” “Hello”

/12
通常のDNN音声合成
(Mean squared errorの最小化)
3
Mean squared
error
Linguistic
feats.
Static-delta
mean vectors
⋯
⋯
⋯
⋯
time
𝑡 = 1
⋯
⋯
⋯
⋯
⋯
time
𝑡 = 𝑇
⋯
Generated
speech
params.
Natural
speech
params.
Parameter
generation
⋯
[Wu et al., 2016.]
𝒚𝒚
𝒙
条件付き分布𝑃 𝒚|𝒙 として正規分布を仮定した最尤推定

/12
一期一会音声合成
(条件付きMMDの最小化)
4
Conditional
MMD
Linguistic
feats.
𝒚
Static-delta
mean vectors
𝒚
⋯
Generated
speech
params.
Natural
speech
params.
Parameter
generation
⋯
𝑁 𝟎, 𝑰 Frame-wise noise generator
time
𝑡 = 1
time
𝑡 = 𝑇
𝒙
⋯
⋯
⋯
⋯
⋯
⋯
⋯
⋯
⋯
モーメントマッチングによる経験分布表現に基づくサンプリング

/12
MMD (Maximum Mean Discrepancy)
5
 2つのデータセットの統計量の不一致指標

 Moment-matching network [Li et al., 2015.]
– MMDを最小化するように、ノイズ入力のDNNを学習
𝑁 𝟎, 𝑰
𝒚
𝒚
MMD = Tr 𝟏 ⋅ 𝑲 𝒚,𝒚 + Tr 𝟏 ⋅ 𝑲 𝒚,𝒚 − 2Tr 𝟏 ⋅ 𝑲 𝒚,𝒚
𝒚, 𝒚 のグラム行列 𝒚, 𝒚 𝒚, 𝒚
⋯
⋯
⋯
⋯

/12
条件付きMMD (CMMD: Conditional MMD)
 条件付き分布の統計量の不一致を計算 [Ren et al., 2016.]
 Conditional moment-matching network [Ren et al., 2016.]
– CMMDを最小化するように、 𝒙 &ノイズを入力とするDNNを学習
6
𝒙, 𝒙 のグラム行列の逆行列を含む行列
𝑁 𝟎, 𝑰
𝒚
𝒙
⋯
⋯
⋯
⋯
𝒚
CMMD = Tr 𝑳 𝒙 ⋅ 𝑲 𝒚,𝒚 + Tr 𝑳 𝒙 ⋅ 𝑲 𝒚,𝒚 − 2Tr 𝑳 𝒙 ⋅ 𝑲 𝒚,𝒚
𝒙

/12
前回までの報告と今回の報告
 前回までの報告：音質評価
– 1. 通常のDNN音声合成より，一期一会音声合成は高品質
– 2. スペクトルのランダム生成は，最尤生成と同程度の音質
 今回の報告
– そのランダム性 (発話間変動) を定量評価
– 繰り返し音声を新たに収録
7

/12
実験条件
9
項目値・設定
学習データ女性1名，日本語4000文
評価データ ATR音素バランスJセット53文 (後述)
入力特徴量 442次元コンテキスト
出力特徴量 40次元メルケプストラム，連続対数F0，有声／無声
ラベル，5帯域非周期性指標
入力ノイズ 5次元/フレーム．正規分布からランダム生成
ネットワーク構造 Feed-Forward
グラム行列の
カーネル
ガウスカーネル (予備実験で線形カーネル・多項式
カーネルも使用したが，大きな変化はなし)

/12
発話間変動の評価法
 評価用データセットの作成
– 自然音声：評価データ (Jセット53文) を5回ずつ繰り返し収録
– 合成音声：各文に対して100回ランダム生成
 評価対象手法
– 動的特徴量を考慮したパラメータ生成 [Tokuda et al., 2000.] あり／なし
• なしの場合は，静的特徴量を直接推定
– スペクトル，連続対数F0，有声／無声ラベル，音素継続長生成
 評価法
– 自然音声同士，合成音声同士で発話間変動を計算
• スペクトル：メルケプストラム歪み
• 連続対数F0・継続長：二乗誤差
• 有声／無声ラベル：誤りフレーム数
10

/12
評価結果
11
パラメータパラメータ生成発話間変動
自然音声の発話
間変動との比
スペクトル
あり 0.095 1.6 [%]
なし 0.202 3.4 [%]
連続対数F0
あり 0.60e-5 0.014 [%]
なし 1.85e-5 0.042 [%]
有声／無声 - 4.02e-3 2.7 [%]
音素継続長 - 0.557 17.3 [%]
・生成した音素継続長は，自然音声と比較して17%程度の発話間変動
－他のパラメータは数％程度
・パラメータ生成を入れない方が，発話間変動は改善

/12
まとめ
 一期一会音声合成
– 合成するごとに異なる音声パラメータを生成
– → 発話間変動を有する合成音声
 実験的評価・結果
– 合成音声パラメータの発話間変動を定量的に評価
– → 自然音声と比較して，音素継続長は17%程度の変動
– → それ以外の特徴量は数%程度
 今後の予定
– 発話間変動の主観評価
– 発話間変動の改善
12

日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (14)

Similar a 日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”

Similar a 日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価” (7)

Más de Shinnosuke Takamichi

Más de Shinnosuke Takamichi (20)

Último

Último (10)

日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”