seminar-paper_ForeignAccentConv.pptx

Foreign Accent Conversion through Voice
Morphing

論文情報
 タイトル
 ” Foreign Accent Conversion through Voice Morphing”
 著者
Sandesh Aryal,Danie Felps,and Ricardo Gutierrez-Osuna
 掲載誌
INTERSPEECH2013

論文概要
 ‣スペクトルを二つに分解
 ケプストラムデコンポジションを用いてスペクトル詳細とス
ペクトルスロープに分解
 ‣特徴解析
 PDMを用いてスペクトルの特徴を解析
 ‣アクセント変換
 ネイティブ話者のスペクトル詳細と、ノンネイティブ話者の
スペクトルスロープを合成
 ‣客観評価と主観評価

本論文を紹介する理由
 スペクトル分解するという点が類似している
 ・スペクトルを分割する利点や欠点について知りたい
 ・パラメータの設定法などについて知りたい
 音声の評価(客観・主観)
 ・規模や妥当性の持たせ方について知りたい

論文見出し
 1.Introduction
 2.Related work
 3.Methods
 4.Experimental validation
 5.Results
 6.Discussion
 7.Acknoweledgements

1.Introduction
 ◇外国語を学習する際
 ・自分の声の理想の発音を聞くことは効果的(Felps.D,et al.2009)
 ・個人性などの情報を取り除くことで、アクセント付き発話とアクセントなし発話の違いがわかりやすく
なる
 Aryalら
 ネイティブのアクセント情報をモーフィングし、話者の個人性は残す手法を提案

1.Introduction 手法概要
 学習者(learner) 教師(teacher)
 手法
 ①スペクトルを２つの成分に分解
 ・Broad Spectral …スペクトルスロープ
 ・Spectral detail…フォルマントポジション
 ②学習者のスペクトルスロープと
 二者のフォルマントポジションをモーフィング

1.Introduction 利用方法
 ◇初等学習者は理想的な発音と自分の発音の差が大きいため学習が困難な場合
がある
 このアプリケーションを用いると
 ・自分の声で正しい発音を確認可能
 ・混合比率によって段階的に学習可能

2.Related work 背景
 音声モーフィングの背景
 顔のランドマーク推定に比べて、音声のフォルマント推定は難しい
 フォルマントトラッキングは精度が悪いためフォルマントトラッキングを使わず、
直接スペクトルを加工する研究も複数ある

2.Related work スペクトル表現
 ◦Slaneyら
 ピッチとスペクトル形状にスペクトルを分割
 Dynamic programming とharmonic alignment
 ◦Ezzatら
 optical flowを用いてスペクトル特徴を表現
 ◦Shiga
 スペクトルをパルス分布で符号化
 Dynamic programmingやoptical flowに比べて速い

2.Related work 声質変換
 声質変換との違い
教師学習者
教師
発音
学習者
話者情報
学習者
話者情報
＋
教師
発音
声質変換提案手法
変換後の音声が別の人のよ
うに聞こえる可能性がある
学習者のその他の情報は保持するようにア
クセントに関わる部分だけの変換を行う

2.Related work Yanらの研究
 ◦Yanら
 フォルマントワーピングによるアクセント変換
 フォルマントトラッキングを採用
 アクセントの評価のみ
 本研究
 パルス符号を用いている → 特に無声音で頑健性が高い
 アクセントのみでなく、個人性などについても評価

3.1 Morphing through pulse density
modulation
 ◇PDM(Pulse density modulation)
 デルタシグマ変換を用いて対数スペクトル𝑥(𝑛)を変換
 𝑦 𝑛 = 𝑃𝐷𝑀[𝑥(𝑛)].
 𝑒 𝑛 = 𝑥 𝑛 − 𝑣𝑐𝑦 𝑛 − 1
 𝑟 𝑛 = 𝑒 𝑛 − 𝑟 𝑛 − 1
 𝑦 𝑛 = 𝑠𝑖𝑔𝑛(𝑟 𝑛 )
 初期値 𝑟 1 = 𝑒 1 = 𝑥 1 𝑎𝑛𝑑 𝑦 𝑛 = 0、 𝑛は周波数

modulationデルタシグマ変換

modulation
 PDM逆変換
 𝑥 𝑛 = 𝑃𝐷𝑀−1
[𝑦(𝑛)].DCT…discrete cosine transform
 𝑐 𝑛 = 𝐷𝐶𝑇 𝑦 𝑛
 𝑐 𝑛 = 0 ∀ 𝑛 > 𝑘
 𝑥 𝑛 = 𝐷𝐶𝑇−1 𝑐 𝑛 × 𝑣𝑐
 スペクトル𝑥1,𝑥2のモーフィングは
 𝑥𝑚 𝑛 = 𝑃𝐷𝑀−1
[ 1 − 𝛼 𝑃𝐷𝑀 𝑥1 𝑛 + 𝛼𝑃𝐷𝑀[𝑥2(𝑛)]]

3.2 Accent conversion through voice
morphing
 𝑥𝑖
𝐻
… Spectral detail , 𝑥𝑖
𝐿
… Broad spectral features
 𝑥𝑖
𝐻
= 𝐷𝐶𝑇−1
[𝐷𝐶𝑇 𝑥 𝑛 × 𝑙(𝑛)]
 𝑥𝑖
𝐿
= 𝐷𝐶𝑇−1
[𝐷𝐶𝑇 𝑥 𝑛 × (1 − 𝑙 𝑛 )]
 𝑙 𝑛 =
𝑛
𝛾
1 ≤ 𝑛 ≤ 𝛾
1 𝑛 > 𝛾
 𝑥𝑚 𝑛 = 𝑥1
𝐿
𝑛 + 𝑥𝑚
𝐻
𝑛
 𝑥𝑚
𝐻
𝑛 = 𝑃𝐷𝑀−1
[𝛼𝑃𝐷𝑀 𝑥1
𝐻
𝑛 + 1 − 𝛼 𝑃𝐷𝑀[𝑥2
𝐻
(𝑛)]]

morphing
 𝑥𝑖
𝐻
… Spectral detail
 𝑥𝑖
𝐿
… Broad spectral
features

morphing
 ＤＴＷ
 …Dynamic time warping
 ＤＦＷ
 …Dynamic frequency warping
 γ
 …リフタ係数

4.Experimental validation
 ◆使用音声 ARCTICコーパス
 インド人男性学習者 / アメリカ人男性教師
 ◆分析合成系 STRAIGHT
 [処理]
 ①DTWで時間ワーピング(教師音声を学習者音声に合わせる)
 ②声道長の影響を考慮してDFWで教師音声を学習者音声に合わせる
[Neuburg 1988]
 ③教師音声のピッチの輪郭をシフトする

4.Experimental validation
 実験内容
 ARCTIC’s A set の100文を使用
 リフタ係数γ=∈ 1,2,3, … 9,10,12,14 … 20,25,30, … 50
 モーフィング係数𝛼 =∈ 0,0.1,0.2 … 1 11×21通りの音声
 ３つの客観評価
 ①音質評価 ITU-Tを用いて評価
 ②話者の個人性 Linear discriminant analysis(LDA)
 ③アクセント評価 Forced alignment score(対数尤
度)

5.1 Object measures
 ①音質評価

 ②話者の個人性

 ③アクセント評価

5.1 Object measures ①音質評価
 リフタ係数大、モーフィング係数小のとき音質が良い
 リフタ係数が大きいときスペクトルがモーフィング元に忠実
 リフタ係数を大きくすると、𝑥𝑖
𝐿
がより多くのスペクトル情報をもち、𝑥𝑖
𝐻
は平
坦化する
 全体的なMOSは4.7(類似研究[Felps 2009]では4.1)

5.1 Object measures ②話者の個人性
 リフタ係数が小さいと、broad spectral featureは滑らかにな
り、モーフィング係数が大きいと教師話者の特徴が強く出る
𝐼𝐷 =
𝑢 𝑖[
𝑑 𝑦𝑢,𝑖, 𝜇𝐿
𝜎𝐿
−
𝑑(𝑦𝑢,𝑖, 𝜇𝑇)
𝜎𝑇
]
𝑑(𝜇𝐿, 𝜇𝑇)/(𝜎𝐿 + 𝜎𝑇)/2
𝑑(・)… ユークリッド距離,𝜎𝐿, 𝜎𝑇… 標準偏差
IDが０より大きいか小さいかでどちらに近い
か判断可能。点線は最尤決定境界

5.1 Object measures ③アクセント評価
 モーフィング係数増加外国語訛りを減少
 スペクトルスロープが学習者の個人性を多く持つときには、特
定のアクセントスコアを達成するために、モーフィング係数を
大きくする必要がある
HTK forced-alignment score:
𝐴𝐶𝐶 =
𝑢 𝑝(𝑆𝑢,𝑝 − 𝑆𝑢,𝑠𝑖𝑙)
𝑁𝑢𝑁𝑝
𝑆𝑢,𝑝 … 発話𝑢のphone pにおける対数尤度
𝑆𝑢,𝑠𝑖𝑙 …無音の際の対数尤度
𝑁𝑢 … テスト発話数, 𝑁𝑝phoneの大きさ

5.1 Object measures ②③比較
 “Sweet spot”
 学習者の個人性を維持しながら外国のアクセントを削減を達成できる場所

5.2 Subjective measures
 ５つのパラメーターセットを用いて主観評
価を行った

5.2 Subjective measures
 Accent
 被験者10人方言識別テストを通過したもの
 5パターン×１０発話に対して７段階評価
 0:全くアクセントがない 2:少し 4:かなり 6:完璧
 Quality
 被験者10人 50発話 MOSで５段階評価
 Identity
 被験者１０人強制選択テスト
 音声「V1 or V5 (ビープ音) V2-V4」
 声が互いに異なるペアを回答

5.2 Subjective measures 結果
 Accent
 V1~V5 単調増加
 V3で大きく増加
 Quality
 リフタ係数に対応して悪くなる
 Identity
 テスト設計より、V1とV5は測定不可能
 中間音(V2-V4)V2-V4は学習者に近いと判断された
客観評価の結果（参考）

6. Discussion
 ◆スペクトルをPDMを用いて特徴づけ、
 Broad spectral feature とSpectral detailに分解
 Broad spectral featureはリフタ係数γによって平坦具合が変わる
 ◆客観評価では、アクセント、音声品質、個人性について評価
 これらはトレードオフの関係にある
 例）高品質でかつ個人性を残す場合アクセントの評価が損なわれる

Future work
 合成音と生音声の違いの違和感除去
 話者性を自己生成音声とその録音音声の話者の知覚の違いを減らすためのフィルタリング
技術の調査
 コンピューター支援の音声トレーニング等で使用

seminar-paper_ForeignAccentConv.pptx

Recomendados

Recomendados

Más contenido relacionado

Similar a seminar-paper_ForeignAccentConv.pptx

Similar a seminar-paper_ForeignAccentConv.pptx (20)

Más de Natsumi KOBAYASHI

Más de Natsumi KOBAYASHI (20)

seminar-paper_ForeignAccentConv.pptx