SlideShare una empresa de Scribd logo
1 de 29
Descargar para leer sin conexión
多話者音声合成のためのAdversarial
Regularizerを考慮した学習アルゴリズム
仲井 佑友輔,齋藤 佑樹,宇田川 健太,猿渡 洋(東大)
2022 年 3 月 音声 (SP) 研究会 3 月 1 日(火)
/28
目次
• イントロダクション
• 従来の多話者音声合成モデル
• 提案法
• 実験的評価
• 結論
1
イントロダクション
/28
イントロダクション
• テキスト音声合成 (Text to Speech: TTS)
• テキストから人間の自然音声に近い音声を合成する技術
• 既に社会にも広く浸透
→音声アシスタント,スマートスピーカーなど
近年は Deep Neural Network (DNN) [1]による学習モデルが主流に
• 多話者音声合成 [2]
• 複数の話者に対して音声合成を行う TTS
• それぞれの話者が持つ固有の特徴(話者埋め込み)をうまく捉えることが重要
• 多様な話者埋め込みをどう学習,解釈すべきかが本研究の関心
2
イントロダクション
[1] Y. Ren et al., ICLR, 2021 [2] N. Hojo et al., IEICE Trans., 2018
/28
本発表の概要
• 従来法 : Speaker Encoder で事前学習した話者埋め込みによる多話者音声合成
• Synthesizer, Vocoder と独立に学習することで少ないデータセットでも高品質な音声合成
が可能に
• 問題点 : Synthesizer に対して埋め込み空間の解釈性の高さが保証されない
• 未知話者を入力とした際に話者性を捉えた音声を合成できないという懸念
• 提案法 : Adversarial Regularizer を考慮した敵対学習による埋め込み空間の解
釈性の向上
• 2 名の話者埋め込みを混合,得られたメルスペクトログラムから混合率を推定するネット
ワークを導入,Synthesizer と敵対学習
• 結果 : 合成音声の話者類似性の改善を確認
3
イントロダクション
/28
• イントロダクション
• 従来の多話者音声合成モデル
• 提案法
• 実験的評価
• 結論
4
/28
• テキストから抽出された言語特徴
量から音素継続長,音響特徴量を
学習
• 学習したモデルから音素継続長,
音響特徴量を予測
• 多話者音声合成では話者埋め込み
も入力として用いる
DNN音声合成
5
従来の多話者音声合成モデル
[3]
[3] 山本, 高道, Pythonで学ぶ音声合成 機械学習実践シリーズ, 2021
/28
• 3 つの独立した DNN から構成される
① Speaker Encoder
• メルスペクトログラムから識別的タスクにより話者埋め込みを抽出
② Synthesizer
• テキストから得られる言語特徴量と話者埋め込みからメルスペクトログラムを合成
③ Vocoder
• メルスペクトログラムから音声を合成
6
従来の多話者音声合成モデル
従来の多話者音声合成モデル [4]
[4] Y. Jia et al., NIPS, 2018
/28
• 自然音声から変換したメルスペクトログラムを入力とし,固定次元の話者埋め
込みを学習する
• Generalized end-to-end (GE2E) 損失 [5] を用いた識別的な学習タスクにより,
同じ話者による埋め込みは対応する話者のセントロイドの近くに,異なる話者
のセントロイドから遠くに分布するように学習
7
Speaker Encoder 従来の多話者音声合成モデル
[5] G. Heigold, ICASSP, 2016
/28
• イントロダクション
• 従来の多話者音声合成モデル
• 提案法
• 実験的評価
• 結論
8
/28
• Speaker Encoder と Synthesizer は独立に学習するため,話者埋め
込み空間が Synthesizer にとって解釈性が高いとは限らない
→埋め込み空間の解釈性が低い場合,未知話者の特徴を上手く抽出できない
可能性がある
• 提案法では,話者埋め込み空間を上手く捉えられるような
Synthesizer の構築を目的とする
9
提案法
従来法の問題点
/28
• 画像生成の文脈での技術
• 特徴空間の解釈性の向上が
モチベーションの敵対学習
• Encoder 𝑓𝜃, Decoder 𝑔𝜙, Critic 𝑑𝜔 からなる
① 異なるデータ 𝑥1, 𝑥2 を Encoder に入力,抽出された特徴量 𝑧1, 𝑧2を 𝛼 ∶ 1 − 𝛼
の割合で混合 ( 𝛼 ∈ 0, 0.5 )
• 𝑧𝑖 = 𝑓𝜃 𝑥𝑖 (𝑖 = 1, 2)
② 混合した特徴量を Decoder に与え,データを出力
• ො
𝑥𝛼 = 𝑔𝜙(𝛼𝑧1 + (1 − 𝛼)𝑧2)
③ Critic は入力された合成データから混合率 𝛼 を推定
10
提案法
Adversarial Regularizer [6]
[6] D. Berthelot et al., ICLR, 2019
/28
• 話者埋め込み空間を上手く捉えられるような Synthesizer の構築がモチベーション
• Speaker Encoder は Synthesizer とは独立に事前学習し,パラメータは更新しない
11
提案法
提案法
/28
① 異なる話者による発話を 1つずつサンプリング,メルスペクトログラム 𝑥1, 𝑥2 を
Speaker Encoder に入力
12
提案法
提案法
/28
② 話者埋め込みを混合,Synthesizer は混合した話者埋め込みによるメルスペクト
ログラム ො
𝑥𝛼 を出力
13
提案法
提案法
/28
③ Critic は入力 ො
𝑥𝛼 から混合率 𝛼 を推定
• モデルの更新は Critic → Synthesizer の順で行う
14
提案法
提案法
/28
• Critic は以下の損失関数でパラメータを更新
• 第 1 項 : 真の 𝛼 と Critic が推定した ො
𝛼 との二乗誤差
• 第 2 項 : 入力 𝑥1 と Synthesizer により再構成した 𝑔𝜙(𝑓𝜃(𝑥1)) を 𝛾 で混合したもの
• 初期段階で Synthesizer による合成音声の品質が十分でない時の学習を安定させる
ための項
• Critic 更新後,Synthesizer を更新
• 第 1 項 : 従来法と等しい損失
• 第 2 項 : ො
𝛼 の 2 乗に比例する項
• 混合した話者埋め込みによる音声特徴量と実在話者の音声特徴量との区別がつかな
くなるようにしたいというモチベーション
提案法
提案法
15
/28
• FastSpeech2 [7]
• 言語特徴量と話者埋め込みを Variance Adaptor に入力,
分散情報(ピッチ,エネルギー,音素継続長)を予測して
メルスペクトログラムを合成する Synthesizer
• 非自己回帰型のモデルで高速
• HiFi-GAN [8]
• メルスペクトログラムから音声を生成する,敵対的生成
ネットワーク (generative adversarial network: GAN) による
Vocoder
16
提案法
Synthesizer / Vocoder
[7] Y. Ren et al., 2021 [8] J. Kong et al., NIPS, 2020
/28
• イントロダクション
• 従来の多話者音声合成モデル
• 提案法
• 実験的評価
• 結論
17
/28
18
実験
実験条件
話者エンコーダの
学習用コーパス
CSJ コーパス [9]
日本語母語話者 1417 名(男性 947 名,女性 470 名),計 660 時間
Synthesizer のモデル Wataru-Nakata により公開されている FastSpeech 2
TTS の学習用コーパス
JVS コーパス [10] のパラレル発話データ
日本語母語話者 100 名(男性 49 名,女性 51 名),話者ごとに 100 文ずつ
TTS
学習データ 96 名(男性47 名,女性 49名)の 9600 発話のうちランダムにサンプリングした 9048 発話
評価データ 学習,検証データから除外した 4 名(男女 2 名ずつ)
検証データ 96 名(男性47 名,女性 49名)の 9600 発話のうち学習データで用いなかった 512 発話
ハイパーパラメータ 𝛾=0.1, 𝜆 = 0.01
Vocoder のモデル Wataru-Nakata により公開されているHiFi-GAN [11]
比較手法 Jia et al. の従来法,提案法
評価尺度
客観評価 客観:音声特徴量の予測性能
主観評価
①②合成音声の品質
③補間音声の自然性
④話者モーフィングの解釈性に関するスコアの root mean squared error (RMSE)
[9] K. Maekawa et al., SSPR, 2003 [10] S. Takamichi et al., AST, 2020 [11] J. Kong et al., NIPS, 2020
/28
• 評価話者 4 名(男女 2 名ずつ)の自然音声,合成音声に対して音素ごとのピッチ,
エネルギー,音素継続長を抽出,root mean squared error (RMSE)を計算
• ピッチ,エネルギーは継続時間で重みづけした RMSE も計算
• 全ての特徴量について,従来法より
良好な結果に
• 話者性の大きなファクターである pitch
で大幅な精度向上を確認
19
(𝑑𝑖 ∶ 音素継続長)
客観評価
/28
• 従来法と提案法それぞれによる合成音声を聴き,どちらの音声がより自然か
を選択
• 評価者数 25 名が手法ごとに 10 発話分を評価
• 提案法が総じて従来法に劣る結果に
• Synthesizer の損失関数における Critic の影響が原因?
20
実験
主観評価① 合成音声の自然性
太字 : p<0.05 の有意差
/28
• 自然音声を聴いた後に該当話者の合成音声を聴き,どちらの音声が該当話者
に類似しているか選択
• 評価者数 25 名が手法ごとに 10 発話分を評価
• 1 名を除き,提案法の方が話者類似性は高
いという結果に
• 話者埋め込み空間の解釈性向上により Synthesizer
が話者性を上手く捉えることが可能になったこと
を示唆
21
実験
主観評価② 合成音声の話者類似性
太字 : p<0.05 の有意差
/28
• 評価話者の自然音声 (VOICEACTRESS100_001) 男性:青,女性:赤
• 従来法 vs 提案法 (jvs010)
jvs005 jvs010 jvs060 jvs078
音声サンプル①②
22
音声サンプルはこちらから試聴できます.
従来法 提案法
/28
• 評価話者 2 名の埋め込みを 𝛼 = 0.5 の割合で混合,従来法と提案法それぞれに
よる合成音声を聴き,どちらの音声がより自然かを選択
• 話者埋め込み空間の頑健性の変化を知りたいというモチベーション
• 評価者数 25 名が手法ごとに 10 発話分を評価
• 一部の話者の組について自然性の改善を確認
• 異性間 (jvs078 to jvs060) でも自然な補間音声
が合成可能
23
実験
主観評価③ 補間音声の自然性
太字 : p<0.05 の有意差
/28
• 評価話者の自然音声 (VOICEACTRESS100_001) 男性:青,女性:赤
• 従来法 vs 提案法
jvs005 jvs010 jvs060 jvs078
音声サンプル③
24
音声サンプルはこちらから試聴できます.
jvs005 to jvs078 jvs078 to jvs060
従来法
提案法
/28
• 評価話者 2 名の埋め込みを 𝛼 = 0, 0.25, 0.5, 0.75, 1 の割合で混合,受聴者は
評価話者の音声を聴いた後に混合した合成音声を聴き,混合率 𝛼 を予想
• 評価者数 50 名が手法ごとに 20 発話分を評価
• 予想結果と真の混合率との RMSE を計算,
手法間で比較
• 全ての組で提案法が従来法に勝る結果に
• 自然な話者モーフィングが可能な Synthesizer
を学習できたと推察
25
実験
主観評価④ 話者モーフィングの解釈性
/28
• 評価話者の自然音声 (VOICEACTRESS100_001) 男性:青,女性:赤
• 従来法 vs 提案法 (jvs005 to jvs078)
jvs005 jvs010 jvs060 jvs078
音声サンプル④
26
音声サンプルはこちらから試聴できます.
α=0 α=0.25 α=0.5 α=0.75 α=1
従来法
提案法
/28
• イントロダクション
• 従来の多話者音声合成モデル
• 提案法
• 実験的評価
• 結論
27
/28
結論
• 目的 : 話者埋め込み空間の解釈性向上
• 未知話者でも話者性を抽出できるようなモデルの構築
• 提案法 : Adversarial Regularizer を考慮した敵対学習による多話者 TTS
• 2 名の話者埋め込みを混合,得られたメルスペクトログラムから混合率を推定するネット
ワークを導入,Synthesizer と敵対学習
• 結果 : 合成音声の話者類似性の改善を確認
• 今後の展望
• 話者埋め込みのより良い補間方法を検討
• ハイパーパラメータのチューニング,Critic のモデル改善
28
結論

Más contenido relacionado

La actualidad más candente

Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
 

La actualidad más candente (20)

Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
 
スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離
 
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
 
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
 
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
 
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
 
[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders
[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders
[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders
 
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
音響メディア信号処理における独立成分分析の発展と応用, History of independent component analysis for sou...
 

Similar a Nakai22sp03 presentation

日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討
Kosuke Futamata
 
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
Takaaki Saeki
 

Similar a Nakai22sp03 presentation (14)

日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
 
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
 
seminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptxseminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptx
 
Saito19asj_s
Saito19asj_sSaito19asj_s
Saito19asj_s
 
Jacet2014ykondo_final
Jacet2014ykondo_finalJacet2014ykondo_final
Jacet2014ykondo_final
 
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
 
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
 
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
 
miyoshi17sp07
miyoshi17sp07miyoshi17sp07
miyoshi17sp07
 
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
 

Más de Yuki Saito

Más de Yuki Saito (20)

hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdf
 
fujii22apsipa_asc
fujii22apsipa_ascfujii22apsipa_asc
fujii22apsipa_asc
 
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfnakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
 
saito22research_talk_at_NUS
saito22research_talk_at_NUSsaito22research_talk_at_NUS
saito22research_talk_at_NUS
 
Saito21asj Autumn Meeting
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn Meeting
 
Interspeech2020 reading
Interspeech2020 readingInterspeech2020 reading
Interspeech2020 reading
 
Saito20asj_autumn
Saito20asj_autumnSaito20asj_autumn
Saito20asj_autumn
 
Saito20asj s slide_published
Saito20asj s slide_publishedSaito20asj s slide_published
Saito20asj s slide_published
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
 
Une18apsipa
Une18apsipaUne18apsipa
Une18apsipa
 
Saito18sp03
Saito18sp03Saito18sp03
Saito18sp03
 
Saito18asj_s
Saito18asj_sSaito18asj_s
Saito18asj_s
 
Saito17asjA
Saito17asjASaito17asjA
Saito17asjA
 
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
 
miyoshi2017asj
miyoshi2017asjmiyoshi2017asj
miyoshi2017asj
 
saito2017asj_tts
saito2017asj_ttssaito2017asj_tts
saito2017asj_tts
 
saito2017asj_vc
saito2017asj_vcsaito2017asj_vc
saito2017asj_vc
 
Saito2017icassp
Saito2017icasspSaito2017icassp
Saito2017icassp
 
Slp201702
Slp201702Slp201702
Slp201702
 
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズムDNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
 

Nakai22sp03 presentation

  • 2. /28 目次 • イントロダクション • 従来の多話者音声合成モデル • 提案法 • 実験的評価 • 結論 1 イントロダクション
  • 3. /28 イントロダクション • テキスト音声合成 (Text to Speech: TTS) • テキストから人間の自然音声に近い音声を合成する技術 • 既に社会にも広く浸透 →音声アシスタント,スマートスピーカーなど 近年は Deep Neural Network (DNN) [1]による学習モデルが主流に • 多話者音声合成 [2] • 複数の話者に対して音声合成を行う TTS • それぞれの話者が持つ固有の特徴(話者埋め込み)をうまく捉えることが重要 • 多様な話者埋め込みをどう学習,解釈すべきかが本研究の関心 2 イントロダクション [1] Y. Ren et al., ICLR, 2021 [2] N. Hojo et al., IEICE Trans., 2018
  • 4. /28 本発表の概要 • 従来法 : Speaker Encoder で事前学習した話者埋め込みによる多話者音声合成 • Synthesizer, Vocoder と独立に学習することで少ないデータセットでも高品質な音声合成 が可能に • 問題点 : Synthesizer に対して埋め込み空間の解釈性の高さが保証されない • 未知話者を入力とした際に話者性を捉えた音声を合成できないという懸念 • 提案法 : Adversarial Regularizer を考慮した敵対学習による埋め込み空間の解 釈性の向上 • 2 名の話者埋め込みを混合,得られたメルスペクトログラムから混合率を推定するネット ワークを導入,Synthesizer と敵対学習 • 結果 : 合成音声の話者類似性の改善を確認 3 イントロダクション
  • 6. /28 • テキストから抽出された言語特徴 量から音素継続長,音響特徴量を 学習 • 学習したモデルから音素継続長, 音響特徴量を予測 • 多話者音声合成では話者埋め込み も入力として用いる DNN音声合成 5 従来の多話者音声合成モデル [3] [3] 山本, 高道, Pythonで学ぶ音声合成 機械学習実践シリーズ, 2021
  • 7. /28 • 3 つの独立した DNN から構成される ① Speaker Encoder • メルスペクトログラムから識別的タスクにより話者埋め込みを抽出 ② Synthesizer • テキストから得られる言語特徴量と話者埋め込みからメルスペクトログラムを合成 ③ Vocoder • メルスペクトログラムから音声を合成 6 従来の多話者音声合成モデル 従来の多話者音声合成モデル [4] [4] Y. Jia et al., NIPS, 2018
  • 8. /28 • 自然音声から変換したメルスペクトログラムを入力とし,固定次元の話者埋め 込みを学習する • Generalized end-to-end (GE2E) 損失 [5] を用いた識別的な学習タスクにより, 同じ話者による埋め込みは対応する話者のセントロイドの近くに,異なる話者 のセントロイドから遠くに分布するように学習 7 Speaker Encoder 従来の多話者音声合成モデル [5] G. Heigold, ICASSP, 2016
  • 10. /28 • Speaker Encoder と Synthesizer は独立に学習するため,話者埋め 込み空間が Synthesizer にとって解釈性が高いとは限らない →埋め込み空間の解釈性が低い場合,未知話者の特徴を上手く抽出できない 可能性がある • 提案法では,話者埋め込み空間を上手く捉えられるような Synthesizer の構築を目的とする 9 提案法 従来法の問題点
  • 11. /28 • 画像生成の文脈での技術 • 特徴空間の解釈性の向上が モチベーションの敵対学習 • Encoder 𝑓𝜃, Decoder 𝑔𝜙, Critic 𝑑𝜔 からなる ① 異なるデータ 𝑥1, 𝑥2 を Encoder に入力,抽出された特徴量 𝑧1, 𝑧2を 𝛼 ∶ 1 − 𝛼 の割合で混合 ( 𝛼 ∈ 0, 0.5 ) • 𝑧𝑖 = 𝑓𝜃 𝑥𝑖 (𝑖 = 1, 2) ② 混合した特徴量を Decoder に与え,データを出力 • ො 𝑥𝛼 = 𝑔𝜙(𝛼𝑧1 + (1 − 𝛼)𝑧2) ③ Critic は入力された合成データから混合率 𝛼 を推定 10 提案法 Adversarial Regularizer [6] [6] D. Berthelot et al., ICLR, 2019
  • 12. /28 • 話者埋め込み空間を上手く捉えられるような Synthesizer の構築がモチベーション • Speaker Encoder は Synthesizer とは独立に事前学習し,パラメータは更新しない 11 提案法 提案法
  • 13. /28 ① 異なる話者による発話を 1つずつサンプリング,メルスペクトログラム 𝑥1, 𝑥2 を Speaker Encoder に入力 12 提案法 提案法
  • 15. /28 ③ Critic は入力 ො 𝑥𝛼 から混合率 𝛼 を推定 • モデルの更新は Critic → Synthesizer の順で行う 14 提案法 提案法
  • 16. /28 • Critic は以下の損失関数でパラメータを更新 • 第 1 項 : 真の 𝛼 と Critic が推定した ො 𝛼 との二乗誤差 • 第 2 項 : 入力 𝑥1 と Synthesizer により再構成した 𝑔𝜙(𝑓𝜃(𝑥1)) を 𝛾 で混合したもの • 初期段階で Synthesizer による合成音声の品質が十分でない時の学習を安定させる ための項 • Critic 更新後,Synthesizer を更新 • 第 1 項 : 従来法と等しい損失 • 第 2 項 : ො 𝛼 の 2 乗に比例する項 • 混合した話者埋め込みによる音声特徴量と実在話者の音声特徴量との区別がつかな くなるようにしたいというモチベーション 提案法 提案法 15
  • 17. /28 • FastSpeech2 [7] • 言語特徴量と話者埋め込みを Variance Adaptor に入力, 分散情報(ピッチ,エネルギー,音素継続長)を予測して メルスペクトログラムを合成する Synthesizer • 非自己回帰型のモデルで高速 • HiFi-GAN [8] • メルスペクトログラムから音声を生成する,敵対的生成 ネットワーク (generative adversarial network: GAN) による Vocoder 16 提案法 Synthesizer / Vocoder [7] Y. Ren et al., 2021 [8] J. Kong et al., NIPS, 2020
  • 19. /28 18 実験 実験条件 話者エンコーダの 学習用コーパス CSJ コーパス [9] 日本語母語話者 1417 名(男性 947 名,女性 470 名),計 660 時間 Synthesizer のモデル Wataru-Nakata により公開されている FastSpeech 2 TTS の学習用コーパス JVS コーパス [10] のパラレル発話データ 日本語母語話者 100 名(男性 49 名,女性 51 名),話者ごとに 100 文ずつ TTS 学習データ 96 名(男性47 名,女性 49名)の 9600 発話のうちランダムにサンプリングした 9048 発話 評価データ 学習,検証データから除外した 4 名(男女 2 名ずつ) 検証データ 96 名(男性47 名,女性 49名)の 9600 発話のうち学習データで用いなかった 512 発話 ハイパーパラメータ 𝛾=0.1, 𝜆 = 0.01 Vocoder のモデル Wataru-Nakata により公開されているHiFi-GAN [11] 比較手法 Jia et al. の従来法,提案法 評価尺度 客観評価 客観:音声特徴量の予測性能 主観評価 ①②合成音声の品質 ③補間音声の自然性 ④話者モーフィングの解釈性に関するスコアの root mean squared error (RMSE) [9] K. Maekawa et al., SSPR, 2003 [10] S. Takamichi et al., AST, 2020 [11] J. Kong et al., NIPS, 2020
  • 20. /28 • 評価話者 4 名(男女 2 名ずつ)の自然音声,合成音声に対して音素ごとのピッチ, エネルギー,音素継続長を抽出,root mean squared error (RMSE)を計算 • ピッチ,エネルギーは継続時間で重みづけした RMSE も計算 • 全ての特徴量について,従来法より 良好な結果に • 話者性の大きなファクターである pitch で大幅な精度向上を確認 19 (𝑑𝑖 ∶ 音素継続長) 客観評価
  • 21. /28 • 従来法と提案法それぞれによる合成音声を聴き,どちらの音声がより自然か を選択 • 評価者数 25 名が手法ごとに 10 発話分を評価 • 提案法が総じて従来法に劣る結果に • Synthesizer の損失関数における Critic の影響が原因? 20 実験 主観評価① 合成音声の自然性 太字 : p<0.05 の有意差
  • 22. /28 • 自然音声を聴いた後に該当話者の合成音声を聴き,どちらの音声が該当話者 に類似しているか選択 • 評価者数 25 名が手法ごとに 10 発話分を評価 • 1 名を除き,提案法の方が話者類似性は高 いという結果に • 話者埋め込み空間の解釈性向上により Synthesizer が話者性を上手く捉えることが可能になったこと を示唆 21 実験 主観評価② 合成音声の話者類似性 太字 : p<0.05 の有意差
  • 23. /28 • 評価話者の自然音声 (VOICEACTRESS100_001) 男性:青,女性:赤 • 従来法 vs 提案法 (jvs010) jvs005 jvs010 jvs060 jvs078 音声サンプル①② 22 音声サンプルはこちらから試聴できます. 従来法 提案法
  • 24. /28 • 評価話者 2 名の埋め込みを 𝛼 = 0.5 の割合で混合,従来法と提案法それぞれに よる合成音声を聴き,どちらの音声がより自然かを選択 • 話者埋め込み空間の頑健性の変化を知りたいというモチベーション • 評価者数 25 名が手法ごとに 10 発話分を評価 • 一部の話者の組について自然性の改善を確認 • 異性間 (jvs078 to jvs060) でも自然な補間音声 が合成可能 23 実験 主観評価③ 補間音声の自然性 太字 : p<0.05 の有意差
  • 25. /28 • 評価話者の自然音声 (VOICEACTRESS100_001) 男性:青,女性:赤 • 従来法 vs 提案法 jvs005 jvs010 jvs060 jvs078 音声サンプル③ 24 音声サンプルはこちらから試聴できます. jvs005 to jvs078 jvs078 to jvs060 従来法 提案法
  • 26. /28 • 評価話者 2 名の埋め込みを 𝛼 = 0, 0.25, 0.5, 0.75, 1 の割合で混合,受聴者は 評価話者の音声を聴いた後に混合した合成音声を聴き,混合率 𝛼 を予想 • 評価者数 50 名が手法ごとに 20 発話分を評価 • 予想結果と真の混合率との RMSE を計算, 手法間で比較 • 全ての組で提案法が従来法に勝る結果に • 自然な話者モーフィングが可能な Synthesizer を学習できたと推察 25 実験 主観評価④ 話者モーフィングの解釈性
  • 27. /28 • 評価話者の自然音声 (VOICEACTRESS100_001) 男性:青,女性:赤 • 従来法 vs 提案法 (jvs005 to jvs078) jvs005 jvs010 jvs060 jvs078 音声サンプル④ 26 音声サンプルはこちらから試聴できます. α=0 α=0.25 α=0.5 α=0.75 α=1 従来法 提案法
  • 29. /28 結論 • 目的 : 話者埋め込み空間の解釈性向上 • 未知話者でも話者性を抽出できるようなモデルの構築 • 提案法 : Adversarial Regularizer を考慮した敵対学習による多話者 TTS • 2 名の話者埋め込みを混合,得られたメルスペクトログラムから混合率を推定するネット ワークを導入,Synthesizer と敵対学習 • 結果 : 合成音声の話者類似性の改善を確認 • 今後の展望 • 話者埋め込みのより良い補間方法を検討 • ハイパーパラメータのチューニング,Critic のモデル改善 28 結論