SlideShare una empresa de Scribd logo
1 de 16
Descargar para leer sin conexión
©Yuki Saito, 2019/03/07
DNN音声合成に向けた
主観的話者間類似度を考慮した
DNN話者埋め込み
◎ 齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東大院・情報理工)
日本音響学会 2019年春季研究発表会 3-10-7
/151
本発表の概要
 研究背景
– DNN音声合成の高品質化 & 多様化 [Shen et al., 2018] [Wang et al., 2018]
– クラウドソーシングによる音声収集 & 評価 (例: [Takamichi et al., 2018])
 目的: ユーザの評価を明示的に取り入れた音声合成技術の実現
– 本発表: ユーザの主観的印象に基づく話者表現の学習法
 従来法: 話者認識に基づくDNN話者埋め込み (例: 𝑑-vector)
– 主観的話者間類似度を完全に無視した学習
 提案法: 主観的話者間類似度に基づくDNN話者埋め込み
– 大規模クラウドソーシングで収集した主観スコアでDNNを学習
 結果: 主観的話者間類似度と強い相関を持つ話者埋め込みを学習
[Variani et al., 2014]
/152
従来法: 話者認識に基づくDNN話者埋め込み
 𝑑-vector: 話者認識DNNのボトルネック特徴量 [Variani et al., 2014]
– 連続的な表現 (未知話者の音声合成も可能) [Saito et al., 2018] [中村 他, 2019]
– 識別的な話者空間 ≠ ユーザの主観的印象と対応付けられた話者空間
• 主観的に類似した話者が話者空間で近接する保証なし
1
0
0
0
0
⋯
Speaker
codes
Speech
params.
⋯
Softmax
cross-entropy
𝐿SCE 𝒄, 𝒄
𝑑-vector
𝒄 𝒄
/153
 提案法
 主観的話者間類似度に基づく
 DNN話者埋め込み
/154
クラウドソーシングを用いた
話者間類似度の大規模主観スコアリング
 話者対の音声を提示し, その主観的な類似度を評価
– 本発表では, JNAS [Itou et al., 1999] の女性話者153名を利用
• 話者毎に異なる発話 (テキスト非依存の話者間類似度を評価)
– 4,060名のワーカーが, 全話者対からランダム抽出された34対を評価
• 評価スコア: -3 (似ていない) ~ +3 (似ている) の整数
• 1つの話者対を異なる10名以上が評価
提示話者対サンプル
/155
類似度スコアに基づく話者グラフを用いた
話者間類似度の可視化
話者の配置は類似度スコアを用いた多次元尺度構成法で決定
F051
F146B
F048
特定の話者に
類似した話者
多数の話者に
類似した話者F093
F127
/156
類似度スコア行列: 主観的話者間類似度の行列表現
 類似度スコア行列 𝐒 = 𝒔1, ⋯ , 𝒔𝑖, ⋯ , 𝒔 𝑁s
– 𝑁s 名の話者間類似度に関する主観評価スコアの平均値を格納
– 𝒔𝑖 = 𝑠𝑖,1, ⋯ , 𝑠𝑖,𝑗, ⋯ , 𝑠𝑖,𝑁s
⊤
: 𝑖 番目の話者の類似度スコアベクトル
• 𝑠𝑖,𝑗: 𝑖 番目と 𝑗 番目の話者の主観的類似度 −𝑣 ≤ 𝑠𝑖,𝑗 ≤ 𝑣
3
2
1
0
−1
−2
−3
(a) 類似度スコア行列
(153名の日本人女性話者)
(b) (a) の部分行列
(13名の日本人女性話者)
類似度スコア行列を用いたDNN話者埋め込みの学習法を2つ提案
/157
提案法1: 類似度スコアベクトル埋め込み
Output
vector
𝐿SIM
vec
𝒔, 𝒔
𝒔
Sim. score
vector
𝒔
⋯
Sim. score
matrix
𝐒
Speech
params.
𝐿SIM
(vec)
𝒔, 𝒔 =
1
𝑁𝑠
𝒔 − 𝒔 ⊤
𝒔 − 𝒔
 入力された音声から当該話者の類似度スコアベクトルを予測
– DNNの出力と類似度スコアベクトルの mean squared error 最小化
主観的話者間類似度を考慮したソフトラベルを用いた話者埋め込みの学習
/158
提案法2-1: 類似度スコア行列埋め込み
Spk.
1
𝒅1
Spk.
𝑁s
𝒅 𝑁𝐬
⋯
𝐃⊤ 𝐃
⋯
Gram matrix
𝐊 𝐃
Calc.
kernel
𝑘 ⋅
𝐿SIM
mat
⋅
𝑁s
𝑁s
1
1
⋯
⋯
𝑁s1
⋯
1
𝑁s
𝑘 𝒅1, 𝒅 𝑵s
𝑠1,𝑁s𝐒
Sim. score
matrix
 話者間類似度スコアを話者埋め込みのグラム行列で表現
– 話者埋め込みグラム行列と類似度スコア行列の差のノルムで定式化*
*行列の対角成分は計算から除外 ( 𝐊D と 𝐒 は 𝐊 と 𝐒 から対角成分を除いた行列)
学習では 𝐿SCE 𝒄, 𝒄 + 𝜔s 𝐿SIM
(mat)
𝐃, 𝐒 を最小化 (同一話者内での変動を抑制)
𝐿SIM
(mat)
𝐃, 𝐒 =
1
𝑍s
𝐊 𝐃 − 𝐒 𝐹
2
/159
提案法2-2: 類似話者対のみを考慮した
類似度スコア行列埋め込み
Spk.
1
𝒅1
Spk.
𝑁s
𝒅 𝑁𝐬
⋯
𝐃⊤ 𝐃
⋯
Gram matrix
𝐊 𝐃
Calc.
kernel
𝑘 ⋅
𝐿SIM
mat−re
⋅
𝑁s
𝑁s
1
⋯
⋯
𝑁s1
⋯
1
𝑁s
𝑘 𝒅1, 𝒅 𝑵s
𝑠1,𝑁s𝐒
Sim. score
matrix
 行列 𝐒 の値で損失の計算に用いる要素をフィルタリング
– 少なくとも類似話者対の埋め込みが近づくような損失を最小化*
*行列の対角成分は計算から除外 ( 𝐊D と 𝐒 は 𝐊 と 𝐒 から対角成分を除いた行列)
𝐿SIM
(mat−re)
𝐃, 𝐒 =
1
𝑍s
′ 𝐖 ⊙ 𝐊D − 𝐒 𝐹
2
𝐖: 話者グラフの隣接行列 (類似話者対に対する要素のみが1)
𝐖
1
⋅⋅
/1510
考察
 関連研究との比較
– 単一話者の印象 (例: 印象語の対) と音響モデルを対応づけ
• HMM音声合成 [Tachibana et al., 2006], GMM音声変換 [Ohta et al., 2007]
– 提案法: 話者間の印象 (主観的類似度) と音響モデルを対応付け
• 話者—聴者間の関係もモデル化可能 (例: 感情表現—知覚の差)
 類似度スコア行列埋め込み ≃ 話者間類似度での Deep Clustering
– 埋め込みの内積計算をカーネル関数で一般化
 類似話者対のみを用いた学習 ≃ 音声からの話者グラフ推定
– → グラフ信号処理・ニューラルネットを取り入れた音声合成
[Lorenzo-Trueba et al., 2018]
[Hershey et al., 2016]
/1511
 実験的評価
/15
実験条件
12
データセット JNAS [Itou et al., 1999] 女性話者 153名, 16 [kHz]
スコアリング用発話 話者毎に異なる5発話
評価値
-3 (似ていない) ~ +3 (似ている) の整数
(話者埋め込みDNN学習時には -1 ~ +1 に正規化)
評価者数 / 設問数
4,060名 / 全話者対からランダムに抽出された34対
(1つの話者対を少なくとも異なる10名が評価)
DNN学習 / 評価 話者毎に約130発話 / 約15発話
DNNアーキテクチャ
(詳細は原稿参照)
入力: 1—39次メルケプストラム (±2フレーム結合)
出力: 140話者に対する予測結果
カーネル関数 シグモイドカーネル 𝑘 𝒅𝑖, 𝒅𝑗 = tanh 𝒅𝑖
⊤
𝒅𝑗
比較手法
(1) Conv. : 話者認識に基づく埋め込み
(2) Prop. (vec): 類似度スコアベクトル埋め込み
(3) Prop. (mat): 類似度スコア行列埋め込み
(4) Prop. (mat-re): 同上 (類似話者対のみ)
/15
 Closed: 学習に用いた140名, Open: Closed 以外の13名
13
話者埋め込みと話者間類似度スコアの散布図・相関
(1) Conv. (2) Prop. (vec) (3) Prop. (mat) (4) Prop. (mat-re)
0.0 1.0−1.0
1.0
0.0
−1.0
Value of kernel 𝑘 𝒅𝑖, 𝒅𝑗
Similarityscore𝑠𝑖,𝑗
(a)Closed-Closed(b)Closed-Open
提案法により, 主観的類似度と高い相関を持つ話者埋め込みが学習可能
/15
 Closed: 学習に用いた140名, Open: Closed 以外の13名
14
話者埋め込みと話者間類似度スコアの散布図・相関
(1) Conv. (2) Prop. (vec) (3) Prop. (mat) (4) Prop. (mat-re)
0.0 1.0−1.0
1.0
0.0
Value of kernel 𝑘 𝒅𝑖, 𝒅𝑗
Similarityscore𝑠𝑖,𝑗
(a)Closed-Closed(b)Closed-Open
提案法により, 主観的類似度と高い相関を持つ話者埋め込みが学習可能
/1515
まとめ
 目的: 主観的話者間類似度と対応付けされた話者表現の学習
 提案法: 主観的話者間類似度を考慮したDNN話者埋め込み
– 大規模クラウドソーシングで収集した主観スコアでDNNを学習
– 類似度スコアベクトル埋め込み & 行列埋め込み
 結果: 類似度スコアと強い相関を持つ話者埋め込みを学習
 今後: 提案法の話者埋め込みを用いた多人数話者DNN音声合成
– 話者モーフィング
– 学習データ収集 (active learning)
– 話者のランダムサンプリング

Más contenido relacionado

La actualidad más candente

saito2017asj_vc
saito2017asj_vcsaito2017asj_vc
saito2017asj_vcYuki Saito
 
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズムDNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズムYuki Saito
 
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...KoueiYamaoka
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現NU_I_TODALAB
 
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成Shinnosuke Takamichi
 
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムDNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムShinnosuke Takamichi
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討Shinnosuke Takamichi
 
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)KoueiYamaoka
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相Takuya Yoshioka
 
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)貴史 益子
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Shinnosuke Takamichi
 
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用Shinnosuke Takamichi
 
saito2017asj_tts
saito2017asj_ttssaito2017asj_tts
saito2017asj_ttsYuki Saito
 
Saito21asj Autumn Meeting
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn MeetingYuki Saito
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価Shinnosuke Takamichi
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割Shinnosuke Takamichi
 
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”Shinnosuke Takamichi
 
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embeddingShinnosuke Takamichi
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響NU_I_TODALAB
 

La actualidad más candente (20)

saito2017asj_vc
saito2017asj_vcsaito2017asj_vc
saito2017asj_vc
 
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズムDNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
 
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成
 
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムDNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
 
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
 
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
 
saito2017asj_tts
saito2017asj_ttssaito2017asj_tts
saito2017asj_tts
 
miyoshi17sp07
miyoshi17sp07miyoshi17sp07
miyoshi17sp07
 
Saito21asj Autumn Meeting
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn Meeting
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
 
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
 
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 

Más de Yuki Saito

hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdfYuki Saito
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
 
fujii22apsipa_asc
fujii22apsipa_ascfujii22apsipa_asc
fujii22apsipa_ascYuki Saito
 
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfnakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfYuki Saito
 
saito22research_talk_at_NUS
saito22research_talk_at_NUSsaito22research_talk_at_NUS
saito22research_talk_at_NUSYuki Saito
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversionYuki Saito
 
Nishimura22slp03 presentation
Nishimura22slp03 presentationNishimura22slp03 presentation
Nishimura22slp03 presentationYuki Saito
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)Yuki Saito
 
Saito20asj s slide_published
Saito20asj s slide_publishedSaito20asj s slide_published
Saito20asj s slide_publishedYuki Saito
 
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会Yuki Saito
 
miyoshi2017asj
miyoshi2017asjmiyoshi2017asj
miyoshi2017asjYuki Saito
 
Saito2017icassp
Saito2017icasspSaito2017icassp
Saito2017icasspYuki Saito
 

Más de Yuki Saito (16)

hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdf
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
fujii22apsipa_asc
fujii22apsipa_ascfujii22apsipa_asc
fujii22apsipa_asc
 
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfnakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
 
saito22research_talk_at_NUS
saito22research_talk_at_NUSsaito22research_talk_at_NUS
saito22research_talk_at_NUS
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
 
Nishimura22slp03 presentation
Nishimura22slp03 presentationNishimura22slp03 presentation
Nishimura22slp03 presentation
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
 
Saito2103slp
Saito2103slpSaito2103slp
Saito2103slp
 
Saito20asj s slide_published
Saito20asj s slide_publishedSaito20asj s slide_published
Saito20asj s slide_published
 
Une18apsipa
Une18apsipaUne18apsipa
Une18apsipa
 
Saito18asj_s
Saito18asj_sSaito18asj_s
Saito18asj_s
 
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
 
miyoshi2017asj
miyoshi2017asjmiyoshi2017asj
miyoshi2017asj
 
Saito2017icassp
Saito2017icasspSaito2017icassp
Saito2017icassp
 
Slp201702
Slp201702Slp201702
Slp201702
 

Saito19asj_s

  • 1. ©Yuki Saito, 2019/03/07 DNN音声合成に向けた 主観的話者間類似度を考慮した DNN話者埋め込み ◎ 齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東大院・情報理工) 日本音響学会 2019年春季研究発表会 3-10-7
  • 2. /151 本発表の概要  研究背景 – DNN音声合成の高品質化 & 多様化 [Shen et al., 2018] [Wang et al., 2018] – クラウドソーシングによる音声収集 & 評価 (例: [Takamichi et al., 2018])  目的: ユーザの評価を明示的に取り入れた音声合成技術の実現 – 本発表: ユーザの主観的印象に基づく話者表現の学習法  従来法: 話者認識に基づくDNN話者埋め込み (例: 𝑑-vector) – 主観的話者間類似度を完全に無視した学習  提案法: 主観的話者間類似度に基づくDNN話者埋め込み – 大規模クラウドソーシングで収集した主観スコアでDNNを学習  結果: 主観的話者間類似度と強い相関を持つ話者埋め込みを学習 [Variani et al., 2014]
  • 3. /152 従来法: 話者認識に基づくDNN話者埋め込み  𝑑-vector: 話者認識DNNのボトルネック特徴量 [Variani et al., 2014] – 連続的な表現 (未知話者の音声合成も可能) [Saito et al., 2018] [中村 他, 2019] – 識別的な話者空間 ≠ ユーザの主観的印象と対応付けられた話者空間 • 主観的に類似した話者が話者空間で近接する保証なし 1 0 0 0 0 ⋯ Speaker codes Speech params. ⋯ Softmax cross-entropy 𝐿SCE 𝒄, 𝒄 𝑑-vector 𝒄 𝒄
  • 5. /154 クラウドソーシングを用いた 話者間類似度の大規模主観スコアリング  話者対の音声を提示し, その主観的な類似度を評価 – 本発表では, JNAS [Itou et al., 1999] の女性話者153名を利用 • 話者毎に異なる発話 (テキスト非依存の話者間類似度を評価) – 4,060名のワーカーが, 全話者対からランダム抽出された34対を評価 • 評価スコア: -3 (似ていない) ~ +3 (似ている) の整数 • 1つの話者対を異なる10名以上が評価 提示話者対サンプル
  • 7. /156 類似度スコア行列: 主観的話者間類似度の行列表現  類似度スコア行列 𝐒 = 𝒔1, ⋯ , 𝒔𝑖, ⋯ , 𝒔 𝑁s – 𝑁s 名の話者間類似度に関する主観評価スコアの平均値を格納 – 𝒔𝑖 = 𝑠𝑖,1, ⋯ , 𝑠𝑖,𝑗, ⋯ , 𝑠𝑖,𝑁s ⊤ : 𝑖 番目の話者の類似度スコアベクトル • 𝑠𝑖,𝑗: 𝑖 番目と 𝑗 番目の話者の主観的類似度 −𝑣 ≤ 𝑠𝑖,𝑗 ≤ 𝑣 3 2 1 0 −1 −2 −3 (a) 類似度スコア行列 (153名の日本人女性話者) (b) (a) の部分行列 (13名の日本人女性話者) 類似度スコア行列を用いたDNN話者埋め込みの学習法を2つ提案
  • 8. /157 提案法1: 類似度スコアベクトル埋め込み Output vector 𝐿SIM vec 𝒔, 𝒔 𝒔 Sim. score vector 𝒔 ⋯ Sim. score matrix 𝐒 Speech params. 𝐿SIM (vec) 𝒔, 𝒔 = 1 𝑁𝑠 𝒔 − 𝒔 ⊤ 𝒔 − 𝒔  入力された音声から当該話者の類似度スコアベクトルを予測 – DNNの出力と類似度スコアベクトルの mean squared error 最小化 主観的話者間類似度を考慮したソフトラベルを用いた話者埋め込みの学習
  • 9. /158 提案法2-1: 類似度スコア行列埋め込み Spk. 1 𝒅1 Spk. 𝑁s 𝒅 𝑁𝐬 ⋯ 𝐃⊤ 𝐃 ⋯ Gram matrix 𝐊 𝐃 Calc. kernel 𝑘 ⋅ 𝐿SIM mat ⋅ 𝑁s 𝑁s 1 1 ⋯ ⋯ 𝑁s1 ⋯ 1 𝑁s 𝑘 𝒅1, 𝒅 𝑵s 𝑠1,𝑁s𝐒 Sim. score matrix  話者間類似度スコアを話者埋め込みのグラム行列で表現 – 話者埋め込みグラム行列と類似度スコア行列の差のノルムで定式化* *行列の対角成分は計算から除外 ( 𝐊D と 𝐒 は 𝐊 と 𝐒 から対角成分を除いた行列) 学習では 𝐿SCE 𝒄, 𝒄 + 𝜔s 𝐿SIM (mat) 𝐃, 𝐒 を最小化 (同一話者内での変動を抑制) 𝐿SIM (mat) 𝐃, 𝐒 = 1 𝑍s 𝐊 𝐃 − 𝐒 𝐹 2
  • 10. /159 提案法2-2: 類似話者対のみを考慮した 類似度スコア行列埋め込み Spk. 1 𝒅1 Spk. 𝑁s 𝒅 𝑁𝐬 ⋯ 𝐃⊤ 𝐃 ⋯ Gram matrix 𝐊 𝐃 Calc. kernel 𝑘 ⋅ 𝐿SIM mat−re ⋅ 𝑁s 𝑁s 1 ⋯ ⋯ 𝑁s1 ⋯ 1 𝑁s 𝑘 𝒅1, 𝒅 𝑵s 𝑠1,𝑁s𝐒 Sim. score matrix  行列 𝐒 の値で損失の計算に用いる要素をフィルタリング – 少なくとも類似話者対の埋め込みが近づくような損失を最小化* *行列の対角成分は計算から除外 ( 𝐊D と 𝐒 は 𝐊 と 𝐒 から対角成分を除いた行列) 𝐿SIM (mat−re) 𝐃, 𝐒 = 1 𝑍s ′ 𝐖 ⊙ 𝐊D − 𝐒 𝐹 2 𝐖: 話者グラフの隣接行列 (類似話者対に対する要素のみが1) 𝐖 1 ⋅⋅
  • 11. /1510 考察  関連研究との比較 – 単一話者の印象 (例: 印象語の対) と音響モデルを対応づけ • HMM音声合成 [Tachibana et al., 2006], GMM音声変換 [Ohta et al., 2007] – 提案法: 話者間の印象 (主観的類似度) と音響モデルを対応付け • 話者—聴者間の関係もモデル化可能 (例: 感情表現—知覚の差)  類似度スコア行列埋め込み ≃ 話者間類似度での Deep Clustering – 埋め込みの内積計算をカーネル関数で一般化  類似話者対のみを用いた学習 ≃ 音声からの話者グラフ推定 – → グラフ信号処理・ニューラルネットを取り入れた音声合成 [Lorenzo-Trueba et al., 2018] [Hershey et al., 2016]
  • 13. /15 実験条件 12 データセット JNAS [Itou et al., 1999] 女性話者 153名, 16 [kHz] スコアリング用発話 話者毎に異なる5発話 評価値 -3 (似ていない) ~ +3 (似ている) の整数 (話者埋め込みDNN学習時には -1 ~ +1 に正規化) 評価者数 / 設問数 4,060名 / 全話者対からランダムに抽出された34対 (1つの話者対を少なくとも異なる10名が評価) DNN学習 / 評価 話者毎に約130発話 / 約15発話 DNNアーキテクチャ (詳細は原稿参照) 入力: 1—39次メルケプストラム (±2フレーム結合) 出力: 140話者に対する予測結果 カーネル関数 シグモイドカーネル 𝑘 𝒅𝑖, 𝒅𝑗 = tanh 𝒅𝑖 ⊤ 𝒅𝑗 比較手法 (1) Conv. : 話者認識に基づく埋め込み (2) Prop. (vec): 類似度スコアベクトル埋め込み (3) Prop. (mat): 類似度スコア行列埋め込み (4) Prop. (mat-re): 同上 (類似話者対のみ)
  • 14. /15  Closed: 学習に用いた140名, Open: Closed 以外の13名 13 話者埋め込みと話者間類似度スコアの散布図・相関 (1) Conv. (2) Prop. (vec) (3) Prop. (mat) (4) Prop. (mat-re) 0.0 1.0−1.0 1.0 0.0 −1.0 Value of kernel 𝑘 𝒅𝑖, 𝒅𝑗 Similarityscore𝑠𝑖,𝑗 (a)Closed-Closed(b)Closed-Open 提案法により, 主観的類似度と高い相関を持つ話者埋め込みが学習可能
  • 15. /15  Closed: 学習に用いた140名, Open: Closed 以外の13名 14 話者埋め込みと話者間類似度スコアの散布図・相関 (1) Conv. (2) Prop. (vec) (3) Prop. (mat) (4) Prop. (mat-re) 0.0 1.0−1.0 1.0 0.0 Value of kernel 𝑘 𝒅𝑖, 𝒅𝑗 Similarityscore𝑠𝑖,𝑗 (a)Closed-Closed(b)Closed-Open 提案法により, 主観的類似度と高い相関を持つ話者埋め込みが学習可能
  • 16. /1515 まとめ  目的: 主観的話者間類似度と対応付けされた話者表現の学習  提案法: 主観的話者間類似度を考慮したDNN話者埋め込み – 大規模クラウドソーシングで収集した主観スコアでDNNを学習 – 類似度スコアベクトル埋め込み & 行列埋め込み  結果: 類似度スコアと強い相関を持つ話者埋め込みを学習  今後: 提案法の話者埋め込みを用いた多人数話者DNN音声合成 – 話者モーフィング – 学習データ収集 (active learning) – 話者のランダムサンプリング