Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.
Moment matching networkを用いた
音声パラメータのランダム生成の検討
○高道 慎之介 (東大院・情報理工)
郡山 知樹 (東工大)
猿渡 洋 (東大院・情報理工)
日本音響学会 2017年 春季研究発表会
2-6-9
/13
概要
 目的: 自然音声のように「同一テキストでも発話毎に
音声特徴量が異なる」音声合成システム
– 同一テキストでも発話毎にスペクトルは違う [Inukai et al., 2013.]
– この音声のランダム性(発話間変動)を合成...
/13
通常の音声合成
(Mean squared errorの最小化)
3
Mean squared
error
Linguistic
feats.
Static-delta
mean vectors
⋯
⋯
⋯
⋯
time
𝑡 = 1
⋯...
/13
提案法
(条件付きMMDの最小化)
4
Conditional
MMD
Linguistic
feats.
𝒚
Static-delta
mean vectors
𝒚
⋯
Generated
speech
params.
Natural...
/13
MMD (Maximum Mean Discrepancy)
5
 2つのデータセットの統計量の不一致指標

 Moment-matching network [Li et al., 2015.]
– MMDを最小化するように、ノ...
/13
条件付きMMD (CMMD: Conditional MMD)
 条件付き分布の統計量の不一致を計算 [Ren et al., 2016.]
 Conditional moment-matching network [Ren et ...
/13
音声合成への適用
 グラム行列のカーネル関数をどう設計する?
– 𝒚(音声パラメータ):ガウスカーネルなど
– 𝒙(コンテキストラベル):ガウスカーネル?
• ほとんどの要素は1-of-K hotベクトル,非常にスパース…
 Bot...
/13
生成パラメータのサンプル
8
/13
従来手法との比較
9
項目 従来法 提案法
確率密度関数 Gaussian or GMM
(mixture density nets)
より複雑な分布
サンプリング 全共分散の正規分布
(trajectory model)
単純な事前分...
実験的評価
10
従来の生成と比較して,音質劣化なしでサンプリングできるか?
/13
実験条件
11
項目 値・設定
学習データ 音素バランス450文/話者 × 5話者
評価データ 53文/話者 × 1話者
入力特徴量 274次元コンテキスト + 5次元話者ID
出力特徴量 40次元メルケプストラム+動的特徴量(計120...
/13
主観評価指標
(音質に関するABテスト)
12
サンプリングによる音質劣化なし&従来法を上回る音質を達成
* エラーバーは95%信頼区間
/13
まとめ
 目的:ランダム性を持つ音声合成を作りたい!
 提案法:Moment-matching networkを用いた音声合成法
– 自然音声と合成音声のモーメントを揃えるようにDNNを学習
– サンプリングによる音声パラメータ生成...
Próxima SlideShare
Cargando en…5
×

Moment matching networkを用いた音声パラメータのランダム生成の検討

音響学会201703

  • Inicia sesión para ver los comentarios

Moment matching networkを用いた音声パラメータのランダム生成の検討

  1. 1. Moment matching networkを用いた 音声パラメータのランダム生成の検討 ○高道 慎之介 (東大院・情報理工) 郡山 知樹 (東工大) 猿渡 洋 (東大院・情報理工) 日本音響学会 2017年 春季研究発表会 2-6-9
  2. 2. /13 概要  目的: 自然音声のように「同一テキストでも発話毎に 音声特徴量が異なる」音声合成システム – 同一テキストでも発話毎にスペクトルは違う [Inukai et al., 2013.] – この音声のランダム性(発話間変動)を合成音声に持たせたい  提案:Moment-matching networkを用いた音声合成法 – 自然音声と合成音声のモーメントを揃えるようにDNNを学習 – サンプリングによる音声パラメータ生成 2 最尤生成と比較して音質劣化なしで,サンプリング生成を可能に
  3. 3. /13 通常の音声合成 (Mean squared errorの最小化) 3 Mean squared error Linguistic feats. Static-delta mean vectors ⋯ ⋯ ⋯ ⋯ time 𝑡 = 1 ⋯ ⋯ ⋯ ⋯ ⋯ time 𝑡 = 𝑇 ⋯ Generated speech params. Natural speech params. Parameter generation ⋯ [Wu et al., 2016.] 𝒚𝒚 𝒙 条件付き分布𝑃 𝒚|𝒙 として正規分布を仮定した最尤推定
  4. 4. /13 提案法 (条件付きMMDの最小化) 4 Conditional MMD Linguistic feats. 𝒚 Static-delta mean vectors 𝒚 ⋯ Generated speech params. Natural speech params. Parameter generation ⋯ 𝑁 𝟎, 𝑰 Frame-wise noise generator time 𝑡 = 1 time 𝑡 = 𝑇 𝒙 ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ モーメントマッチングによる経験分布表現に基づくサンプリング
  5. 5. /13 MMD (Maximum Mean Discrepancy) 5  2つのデータセットの統計量の不一致指標   Moment-matching network [Li et al., 2015.] – MMDを最小化するように、ノイズ入力のDNNを学習 𝑁 𝟎, 𝑰 𝒚 𝒚 MMD = Tr 𝟏 ⋅ 𝑲 𝒚,𝒚 + Tr 𝟏 ⋅ 𝑲 𝒚,𝒚 − 2Tr 𝟏 ⋅ 𝑲 𝒚,𝒚 𝒚, 𝒚 のグラム行列 𝒚, 𝒚 𝒚, 𝒚 ⋯ ⋯ ⋯ ⋯
  6. 6. /13 条件付きMMD (CMMD: Conditional MMD)  条件付き分布の統計量の不一致を計算 [Ren et al., 2016.]  Conditional moment-matching network [Ren et al., 2016.] – CMMDを最小化するように、 𝒙 &ノイズを入力とするDNNを学習 6 𝒙, 𝒙 のグラム行列の逆行列を含む行列 𝑁 𝟎, 𝑰 𝒚 𝒙 ⋯ ⋯ ⋯ ⋯ 𝒚 CMMD = Tr 𝑳 𝒙 ⋅ 𝑲 𝒚,𝒚 + Tr 𝑳 𝒙 ⋅ 𝑲 𝒚,𝒚 − 2Tr 𝑳 𝒙 ⋅ 𝑲 𝒚,𝒚 𝒙
  7. 7. /13 音声合成への適用  グラム行列のカーネル関数をどう設計する? – 𝒚(音声パラメータ):ガウスカーネルなど – 𝒙(コンテキストラベル):ガウスカーネル? • ほとんどの要素は1-of-K hotベクトル,非常にスパース…  Bottleneck特徴量を用いたカーネル計算 – 連続空間に写像したコンテキストでカーネルを計算 7 Context Speech feats. Squared error 最小化で学習 Conditional MMD 最小化で学習 Speech feats. ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ Noise
  8. 8. /13 生成パラメータのサンプル 8
  9. 9. /13 従来手法との比較 9 項目 従来法 提案法 確率密度関数 Gaussian or GMM (mixture density nets) より複雑な分布 サンプリング 全共分散の正規分布 (trajectory model) 単純な事前分布 最適化問題 ミニマックス問題 (GAN [敵対的学習] ) 最小化問題 従来法との関連 Divergenceに関連 (尤度比) (GAN: Jensen-Shannon div.) GV/MSに関連 (モーメント差) Anti-spoofingの詐称 Replay-attack検出技術で検出 (最尤生成) ランダム生成で 検出を緩和 [スペースの都合により引用を省略] * GV/MS: 系列内変動/変調スペクトル * GMM: 混合正規分布モデル
  10. 10. 実験的評価 10 従来の生成と比較して,音質劣化なしでサンプリングできるか?
  11. 11. /13 実験条件 11 項目 値・設定 学習データ 音素バランス450文/話者 × 5話者 評価データ 53文/話者 × 1話者 入力特徴量 274次元コンテキスト + 5次元話者ID 出力特徴量 40次元メルケプストラム+動的特徴量(計120次元) Bottleneck特徴量 128次元 入力ノイズ 3次元/フレーム.正規分布からランダム生成 ネットワーク構造 Feed-Forward, 131 – 512×3 (ReLU) – 120 (Linear) 評価対象 conv:従来のdeep neural network音声合成で最尤生成 [Zen et al., 2013.] pro (w/ rand): 提案法(ランダム生成) pro (w/o rand): 提案法(ノイズ項を最尤推定で固定して生成)
  12. 12. /13 主観評価指標 (音質に関するABテスト) 12 サンプリングによる音質劣化なし&従来法を上回る音質を達成 * エラーバーは95%信頼区間
  13. 13. /13 まとめ  目的:ランダム性を持つ音声合成を作りたい!  提案法:Moment-matching networkを用いた音声合成法 – 自然音声と合成音声のモーメントを揃えるようにDNNを学習 – サンプリングによる音声パラメータ生成  実験結果: – サンプリングによる音質劣化なし  今後の予定: – 動的特徴量の必要性 – 学習データ数の影響 – 自然音声の持つランダム性との比較 – 継続長決定・波形生成への応用 13

×