Saito19asj_s

©Yuki Saito, 2019/03/07
DNN音声合成に向けた
主観的話者間類似度を考慮した
DNN話者埋め込み
◎ 齋藤佑樹, 高道慎之介, 猿渡洋 (東大院・情報理工)
日本音響学会 2019年春季研究発表会 3-10-7

/151
本発表の概要
 研究背景
– DNN音声合成の高品質化 & 多様化 [Shen et al., 2018] [Wang et al., 2018]
– クラウドソーシングによる音声収集 & 評価 (例: [Takamichi et al., 2018])
 目的: ユーザの評価を明示的に取り入れた音声合成技術の実現
– 本発表: ユーザの主観的印象に基づく話者表現の学習法
 従来法: 話者認識に基づくDNN話者埋め込み (例: 𝑑-vector)
– 主観的話者間類似度を完全に無視した学習
 提案法: 主観的話者間類似度に基づくDNN話者埋め込み
– 大規模クラウドソーシングで収集した主観スコアでDNNを学習
 結果: 主観的話者間類似度と強い相関を持つ話者埋め込みを学習
[Variani et al., 2014]

/152
従来法: 話者認識に基づくDNN話者埋め込み
 𝑑-vector: 話者認識DNNのボトルネック特徴量 [Variani et al., 2014]
– 連続的な表現 (未知話者の音声合成も可能) [Saito et al., 2018] [中村他, 2019]
– 識別的な話者空間 ≠ ユーザの主観的印象と対応付けられた話者空間
• 主観的に類似した話者が話者空間で近接する保証なし
1
0
0
0
0
⋯
Speaker
codes
Speech
params.
⋯
Softmax
cross-entropy
𝐿SCE 𝒄, 𝒄
𝑑-vector
𝒄 𝒄

/153
 提案法
 主観的話者間類似度に基づく
 DNN話者埋め込み

/154
クラウドソーシングを用いた
話者間類似度の大規模主観スコアリング
 話者対の音声を提示し, その主観的な類似度を評価
– 本発表では, JNAS [Itou et al., 1999] の女性話者153名を利用
• 話者毎に異なる発話 (テキスト非依存の話者間類似度を評価)
– 4,060名のワーカーが, 全話者対からランダム抽出された34対を評価
• 評価スコア: －3 (似ていない) ～＋3 (似ている) の整数
• 1つの話者対を異なる10名以上が評価
提示話者対サンプル

/155
類似度スコアに基づく話者グラフを用いた
話者間類似度の可視化
話者の配置は類似度スコアを用いた多次元尺度構成法で決定
F051
F146B
F048
特定の話者に
類似した話者
多数の話者に
類似した話者F093
F127

/156
類似度スコア行列: 主観的話者間類似度の行列表現
 類似度スコア行列 𝐒 = 𝒔1, ⋯ , 𝒔𝑖, ⋯ , 𝒔 𝑁s
– 𝑁s 名の話者間類似度に関する主観評価スコアの平均値を格納
– 𝒔𝑖 = 𝑠𝑖,1, ⋯ , 𝑠𝑖,𝑗, ⋯ , 𝑠𝑖,𝑁s
⊤
: 𝑖 番目の話者の類似度スコアベクトル
• 𝑠𝑖,𝑗: 𝑖 番目と 𝑗 番目の話者の主観的類似度 −𝑣 ≤ 𝑠𝑖,𝑗 ≤ 𝑣
3
2
1
0
−1
−2
−3
(a) 類似度スコア行列
（153名の日本人女性話者）
(b) (a) の部分行列
（13名の日本人女性話者）
類似度スコア行列を用いたDNN話者埋め込みの学習法を2つ提案

/157
提案法1: 類似度スコアベクトル埋め込み
Output
vector
𝐿SIM
vec
𝒔, 𝒔
𝒔
Sim. score
vector
𝒔
⋯
Sim. score
matrix
𝐒
Speech
params.
𝐿SIM
(vec)
𝒔, 𝒔 =
1
𝑁𝑠
𝒔 − 𝒔 ⊤
𝒔 − 𝒔
 入力された音声から当該話者の類似度スコアベクトルを予測
– DNNの出力と類似度スコアベクトルの mean squared error 最小化
主観的話者間類似度を考慮したソフトラベルを用いた話者埋め込みの学習

/158
提案法2-1: 類似度スコア行列埋め込み
Spk.
1
𝒅1
Spk.
𝑁s
𝒅 𝑁𝐬
⋯
𝐃⊤ 𝐃
⋯
Gram matrix
𝐊 𝐃
Calc.
kernel
𝑘 ⋅
𝐿SIM
mat
⋅
𝑁s
𝑁s
1
1
⋯
⋯
𝑁s1
⋯
1
𝑁s
𝑘 𝒅1, 𝒅 𝑵s
𝑠1,𝑁s𝐒
Sim. score
matrix
 話者間類似度スコアを話者埋め込みのグラム行列で表現
– 話者埋め込みグラム行列と類似度スコア行列の差のノルムで定式化*
*行列の対角成分は計算から除外 ( 𝐊D と 𝐒 は 𝐊 と 𝐒 から対角成分を除いた行列)
学習では 𝐿SCE 𝒄, 𝒄 + 𝜔s 𝐿SIM
(mat)
𝐃, 𝐒 を最小化 (同一話者内での変動を抑制)
𝐿SIM
(mat)
𝐃, 𝐒 =
1
𝑍s
𝐊 𝐃 − 𝐒 𝐹
2

/159
提案法2-2: 類似話者対のみを考慮した
類似度スコア行列埋め込み
Spk.
1
𝒅1
Spk.
𝑁s
𝒅 𝑁𝐬
⋯
𝐃⊤ 𝐃
⋯
Gram matrix
𝐊 𝐃
Calc.
kernel
𝑘 ⋅
𝐿SIM
mat−re
⋅
𝑁s
𝑁s
1
⋯
⋯
𝑁s1
⋯
1
𝑁s
𝑘 𝒅1, 𝒅 𝑵s
𝑠1,𝑁s𝐒
Sim. score
matrix
 行列 𝐒 の値で損失の計算に用いる要素をフィルタリング
– 少なくとも類似話者対の埋め込みが近づくような損失を最小化*
*行列の対角成分は計算から除外 ( 𝐊D と 𝐒 は 𝐊 と 𝐒 から対角成分を除いた行列)
𝐿SIM
(mat−re)
𝐃, 𝐒 =
1
𝑍s
′ 𝐖 ⊙ 𝐊D − 𝐒 𝐹
2
𝐖: 話者グラフの隣接行列 (類似話者対に対する要素のみが1)
𝐖
1
⋅⋅

/1510
考察
 関連研究との比較
– 単一話者の印象 (例: 印象語の対) と音響モデルを対応づけ
• HMM音声合成 [Tachibana et al., 2006], GMM音声変換 [Ohta et al., 2007]
– 提案法: 話者間の印象 (主観的類似度) と音響モデルを対応付け
• 話者—聴者間の関係もモデル化可能 (例: 感情表現—知覚の差)
 類似度スコア行列埋め込み ≃ 話者間類似度での Deep Clustering
– 埋め込みの内積計算をカーネル関数で一般化
 類似話者対のみを用いた学習 ≃ 音声からの話者グラフ推定
– → グラフ信号処理・ニューラルネットを取り入れた音声合成
[Lorenzo-Trueba et al., 2018]
[Hershey et al., 2016]

/15
実験条件
12
データセット JNAS [Itou et al., 1999] 女性話者 153名, 16 [kHz]
スコアリング用発話話者毎に異なる5発話
評価値
－3 (似ていない) ～＋3 (似ている) の整数
(話者埋め込みDNN学習時には－1 ～＋1 に正規化)
評価者数 / 設問数
4,060名 / 全話者対からランダムに抽出された34対
(1つの話者対を少なくとも異なる10名が評価)
DNN学習 / 評価話者毎に約130発話 / 約15発話
DNNアーキテクチャ
(詳細は原稿参照)
入力: 1—39次メルケプストラム (±2フレーム結合)
出力: 140話者に対する予測結果
カーネル関数シグモイドカーネル 𝑘 𝒅𝑖, 𝒅𝑗 = tanh 𝒅𝑖
⊤
𝒅𝑗
比較手法
(1) Conv. : 話者認識に基づく埋め込み
(2) Prop. (vec): 類似度スコアベクトル埋め込み
(3) Prop. (mat): 類似度スコア行列埋め込み
(4) Prop. (mat-re): 同上 (類似話者対のみ)

/15
 Closed: 学習に用いた140名, Open: Closed 以外の13名
13
話者埋め込みと話者間類似度スコアの散布図・相関
(1) Conv. (2) Prop. (vec) (3) Prop. (mat) (4) Prop. (mat-re)
0.0 1.0−1.0
1.0
0.0
−1.0
Value of kernel 𝑘 𝒅𝑖, 𝒅𝑗
Similarityscore𝑠𝑖,𝑗
(a)Closed-Closed(b)Closed-Open
提案法により, 主観的類似度と高い相関を持つ話者埋め込みが学習可能

/15
 Closed: 学習に用いた140名, Open: Closed 以外の13名
14
話者埋め込みと話者間類似度スコアの散布図・相関
(1) Conv. (2) Prop. (vec) (3) Prop. (mat) (4) Prop. (mat-re)
0.0 1.0−1.0
1.0
0.0
Value of kernel 𝑘 𝒅𝑖, 𝒅𝑗
Similarityscore𝑠𝑖,𝑗
(a)Closed-Closed(b)Closed-Open
提案法により, 主観的類似度と高い相関を持つ話者埋め込みが学習可能

/1515
まとめ
 目的: 主観的話者間類似度と対応付けされた話者表現の学習
 提案法: 主観的話者間類似度を考慮したDNN話者埋め込み
– 大規模クラウドソーシングで収集した主観スコアでDNNを学習
– 類似度スコアベクトル埋め込み & 行列埋め込み
 結果: 類似度スコアと強い相関を持つ話者埋め込みを学習
 今後: 提案法の話者埋め込みを用いた多人数話者DNN音声合成
– 話者モーフィング
– 学習データ収集 (active learning)
– 話者のランダムサンプリング

Saito19asj_s

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Más de Yuki Saito

Más de Yuki Saito (16)

Saito19asj_s