SlideShare una empresa de Scribd logo
1 de 36
Foreign Accent Conversion through Voice
Morphing
論文情報
 タイトル
 ” Foreign Accent Conversion through Voice Morphing”
 著者
Sandesh Aryal,Danie Felps,and Ricardo Gutierrez-Osuna
 掲載誌
INTERSPEECH2013
論文概要
 ‣スペクトルを二つに分解
 ケプストラムデコンポジションを用いてスペクトル詳細とス
ペクトルスロープに分解
 ‣特徴解析
 PDMを用いてスペクトルの特徴を解析
 ‣アクセント変換
 ネイティブ話者のスペクトル詳細と、ノンネイティブ話者の
スペクトルスロープを合成
 ‣客観評価と主観評価
本論文を紹介する理由
 スペクトル分解するという点が類似している
 ・スペクトルを分割する利点や欠点について知りたい
 ・パラメータの設定法などについて知りたい
 音声の評価(客観・主観)
 ・規模や妥当性の持たせ方について知りたい
論文見出し
 1.Introduction
 2.Related work
 3.Methods
 4.Experimental validation
 5.Results
 6.Discussion
 7.Acknoweledgements
1.Introduction
1.Introduction
 ◇外国語を学習する際
 ・自分の声の理想の発音を聞くことは効果的(Felps.D,et al.2009)
 ・個人性などの情報を取り除くことで、アクセント付き発話とアクセントなし発話の違いがわかりやすく
なる
 Aryalら
 ネイティブのアクセント情報をモーフィングし、話者の個人性は残す手法を提案
1.Introduction 手法概要
 学習者(learner) 教師(teacher)
 手法
 ①スペクトルを2つの成分に分解
 ・Broad Spectral …スペクトルスロープ
 ・Spectral detail…フォルマントポジション
 ②学習者のスペクトルスロープと
 二者のフォルマントポジションをモーフィング
1.Introduction 利用方法
 ◇初等学習者は理想的な発音と自分の発音の差が大きいため学習が困難な場合
がある
 このアプリケーションを用いると
 ・自分の声で正しい発音を確認可能
 ・混合比率によって段階的に学習可能
2.Related work
2.Related work 背景
 音声モーフィングの背景
 顔のランドマーク推定に比べて、音声のフォルマント推定は難しい
 フォルマントトラッキングは精度が悪いためフォルマントトラッキングを使わず、
直接スペクトルを加工する研究も複数ある
2.Related work スペクトル表現
 ◦Slaneyら
 ピッチとスペクトル形状にスペクトルを分割
 Dynamic programming とharmonic alignment
 ◦Ezzatら
 optical flowを用いてスペクトル特徴を表現
 ◦Shiga
 スペクトルをパルス分布で符号化
 Dynamic programmingやoptical flowに比べて速い
2.Related work 声質変換
 声質変換との違い
教師 学習者
教師
発音
学習者
話者情報
学習者
話者情報
+
教師
発音
声質変換 提案手法
変換後の音声が別の人のよ
うに聞こえる可能性がある
学習者のその他の情報は保持するようにア
クセントに関わる部分だけの変換を行う
2.Related work Yanらの研究
 ◦Yanら
 フォルマントワーピングによるアクセント変換
 フォルマントトラッキングを採用
 アクセントの評価のみ
 本研究
 パルス符号を用いている → 特に無声音で頑健性が高い
 アクセントのみでなく、個人性などについても評価
3.Method
3.1 Morphing through pulse density
modulation
 ◇PDM(Pulse density modulation)
 デルタシグマ変換を用いて対数スペクトル𝑥(𝑛)を変換
 𝑦 𝑛 = 𝑃𝐷𝑀[𝑥(𝑛)].
 𝑒 𝑛 = 𝑥 𝑛 − 𝑣𝑐𝑦 𝑛 − 1
 𝑟 𝑛 = 𝑒 𝑛 − 𝑟 𝑛 − 1
 𝑦 𝑛 = 𝑠𝑖𝑔𝑛(𝑟 𝑛 )
 初期値 𝑟 1 = 𝑒 1 = 𝑥 1 𝑎𝑛𝑑 𝑦 𝑛 = 0、 𝑛は周波数
3.1 Morphing through pulse density
modulationデルタシグマ変換
3.1 Morphing through pulse density
modulation
 PDM逆変換
 𝑥 𝑛 = 𝑃𝐷𝑀−1
[𝑦(𝑛)].DCT…discrete cosine transform
 𝑐 𝑛 = 𝐷𝐶𝑇 𝑦 𝑛
 𝑐 𝑛 = 0 ∀ 𝑛 > 𝑘
 𝑥 𝑛 = 𝐷𝐶𝑇−1 𝑐 𝑛 × 𝑣𝑐
 スペクトル𝑥1,𝑥2のモーフィングは
 𝑥𝑚 𝑛 = 𝑃𝐷𝑀−1
[ 1 − 𝛼 𝑃𝐷𝑀 𝑥1 𝑛 + 𝛼𝑃𝐷𝑀[𝑥2(𝑛)]]
3.2 Accent conversion through voice
morphing
 𝑥𝑖
𝐻
… Spectral detail , 𝑥𝑖
𝐿
… Broad spectral features
 𝑥𝑖
𝐻
= 𝐷𝐶𝑇−1
[𝐷𝐶𝑇 𝑥 𝑛 × 𝑙(𝑛)]
 𝑥𝑖
𝐿
= 𝐷𝐶𝑇−1
[𝐷𝐶𝑇 𝑥 𝑛 × (1 − 𝑙 𝑛 )]
 𝑙 𝑛 =
𝑛
𝛾
1 ≤ 𝑛 ≤ 𝛾
1 𝑛 > 𝛾
 𝑥𝑚 𝑛 = 𝑥1
𝐿
𝑛 + 𝑥𝑚
𝐻
𝑛
 𝑥𝑚
𝐻
𝑛 = 𝑃𝐷𝑀−1
[𝛼𝑃𝐷𝑀 𝑥1
𝐻
𝑛 + 1 − 𝛼 𝑃𝐷𝑀[𝑥2
𝐻
(𝑛)]]
3.2 Accent conversion through voice
morphing
 𝑥𝑖
𝐻
… Spectral detail
 𝑥𝑖
𝐿
… Broad spectral
features
3.2 Accent conversion through voice
morphing
 DTW
 …Dynamic time warping
 DFW
 …Dynamic frequency warping
 γ
 …リフタ係数
4.Experimental validation
4.Experimental validation
 ◆使用音声 ARCTICコーパス
 インド人男性 学習者 / アメリカ人男性 教師
 ◆分析合成系 STRAIGHT
 [処理]
 ①DTWで時間ワーピング(教師音声を学習者音声に合わせる)
 ②声道長の影響を考慮してDFWで教師音声を学習者音声に合わせる
[Neuburg 1988]
 ③教師音声のピッチの輪郭をシフトする
4.Experimental validation
 実験内容
 ARCTIC’s A set の100文を使用
 リフタ係数γ=∈ 1,2,3, … 9,10,12,14 … 20,25,30, … 50
 モーフィング係数𝛼 =∈ 0,0.1,0.2 … 1 11×21通りの音声
 3つの客観評価
 ①音質評価 ITU-Tを用いて評価
 ②話者の個人性 Linear discriminant analysis(LDA)
 ③アクセント評価 Forced alignment score(対数尤
度)
5. Result
5.1 Object measures
 ①音質評価

 ②話者の個人性

 ③アクセント評価
5.1 Object measures ①音質評価
 リフタ係数大、モーフィング係数小のとき音質が良い
 リフタ係数が大きいときスペクトルがモーフィング元に忠実
 リフタ係数を大きくすると、𝑥𝑖
𝐿
がより多くのスペクトル情報をもち、𝑥𝑖
𝐻
は平
坦化する
 全体的なMOSは4.7(類似研究[Felps 2009]では4.1)
5.1 Object measures ②話者の個人性
 リフタ係数が小さいと、broad spectral featureは滑らかにな
り、モーフィング係数が大きいと教師話者の特徴が強く出る
𝐼𝐷 =
𝑢 𝑖[
𝑑 𝑦𝑢,𝑖, 𝜇𝐿
𝜎𝐿
−
𝑑(𝑦𝑢,𝑖, 𝜇𝑇)
𝜎𝑇
]
𝑑(𝜇𝐿, 𝜇𝑇)/(𝜎𝐿 + 𝜎𝑇)/2
𝑑(・)… ユークリッド距離,𝜎𝐿, 𝜎𝑇… 標準偏差
IDが0より大きいか小さいかでどちらに近い
か判断可能。点線は最尤決定境界
5.1 Object measures ③アクセント評価
 モーフィング係数増加 外国語訛りを減少
 スペクトルスロープが学習者の個人性を多く持つときには、特
定のアクセントスコアを達成するために、モーフィング係数を
大きくする必要がある
HTK forced-alignment score:
𝐴𝐶𝐶 =
𝑢 𝑝(𝑆𝑢,𝑝 − 𝑆𝑢,𝑠𝑖𝑙)
𝑁𝑢𝑁𝑝
𝑆𝑢,𝑝 … 発話𝑢のphone pにおける対数尤度
𝑆𝑢,𝑠𝑖𝑙 …無音の際の対数尤度
𝑁𝑢 … テスト発話数, 𝑁𝑝phoneの大きさ
5.1 Object measures ②③比較
 “Sweet spot”
 学習者の個人性を維持しながら外国のアクセントを削減を達成できる場所
5.2 Subjective measures
 5つのパラメーターセットを用いて主観評
価を行った
5.2 Subjective measures
 Accent
 被験者10人 方言識別テストを通過したもの
 5パターン×10発話 に対して7段階評価
 0:全くアクセントがない 2:少し 4:かなり 6:完璧
 Quality
 被験者10人 50発話 MOSで5段階評価
 Identity
 被験者10人 強制選択テスト
 音声 「V1 or V5 (ビープ音) V2-V4」
 声が互いに異なるペアを 回答
5.2 Subjective measures 結果
 Accent
 V1~V5 単調増加
 V3で大きく増加
 Quality
 リフタ係数に対応して悪くなる
 Identity
 テスト設計より、V1とV5は測定不可能
 中間音(V2-V4)V2-V4は学習者に近いと判断された
客観評価の結果(参考)
6. Discussion
6. Discussion
 ◆スペクトルをPDMを用いて特徴づけ、
 Broad spectral feature とSpectral detailに分解
 Broad spectral featureはリフタ係数γによって平坦具合が変わる
 ◆客観評価では、アクセント、音声品質、個人性について評価
 これらはトレードオフの関係にある
 例)高品質でかつ個人性を残す場合 アクセントの評価が損なわれる
Future work
 合成音と生音声の違いの違和感除去
 話者性を自己生成音声とその録音音声の話者の知覚の違いを減らすためのフィルタリング
技術の調査
 コンピューター支援の音声トレーニング等で使用

Más contenido relacionado

Similar a seminar-paper_ForeignAccentConv.pptx

深層学習を用いた文生成モデルの歴史と研究動向
深層学習を用いた文生成モデルの歴史と研究動向深層学習を用いた文生成モデルの歴史と研究動向
深層学習を用いた文生成モデルの歴史と研究動向Shunta Ito
 
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embeddingShinnosuke Takamichi
 
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成Shinnosuke Takamichi
 
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズムDNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズムYuki Saito
 
英語リスニング研究最前線:実験音声学からのアプローチ
英語リスニング研究最前線:実験音声学からのアプローチ英語リスニング研究最前線:実験音声学からのアプローチ
英語リスニング研究最前線:実験音声学からのアプローチKosuke Sugai
 
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...KCS Keio Computer Society
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentationYuki Saito
 
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...Deep Learning JP
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換NU_I_TODALAB
 
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価Akiva Miura
 
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...Naoaki Okazaki
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現NU_I_TODALAB
 
WordNetで作ろう! 言語横断検索サービス
WordNetで作ろう! 言語横断検索サービスWordNetで作ろう! 言語横断検索サービス
WordNetで作ろう! 言語横断検索サービスShintaro Takemura
 
[DL輪読会]DNN-based Source Enhancement to Increase Objective Sound Quality Asses...
[DL輪読会]DNN-based Source Enhancement to Increase Objective Sound Quality Asses...[DL輪読会]DNN-based Source Enhancement to Increase Objective Sound Quality Asses...
[DL輪読会]DNN-based Source Enhancement to Increase Objective Sound Quality Asses...Deep Learning JP
 
英語学習者のための発話自動採点システムの開発.
英語学習者のための発話自動採点システムの開発.英語学習者のための発話自動採点システムの開発.
英語学習者のための発話自動採点システムの開発.Yutaka Ishii
 
翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)
翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)
翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)Yusuke Oda
 
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 [最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 Yuki Arase
 
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...禎晃 山崎
 
Using continuous lexical embeddings to improve symbolicprosody prediction in ...
Using continuous lexical embeddings to improve symbolicprosody prediction in ...Using continuous lexical embeddings to improve symbolicprosody prediction in ...
Using continuous lexical embeddings to improve symbolicprosody prediction in ...浩気 西山
 

Similar a seminar-paper_ForeignAccentConv.pptx (20)

深層学習を用いた文生成モデルの歴史と研究動向
深層学習を用いた文生成モデルの歴史と研究動向深層学習を用いた文生成モデルの歴史と研究動向
深層学習を用いた文生成モデルの歴史と研究動向
 
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
 
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成
 
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズムDNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
 
英語リスニング研究最前線:実験音声学からのアプローチ
英語リスニング研究最前線:実験音声学からのアプローチ英語リスニング研究最前線:実験音声学からのアプローチ
英語リスニング研究最前線:実験音声学からのアプローチ
 
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentation
 
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
 
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
 
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
WordNetで作ろう! 言語横断検索サービス
WordNetで作ろう! 言語横断検索サービスWordNetで作ろう! 言語横断検索サービス
WordNetで作ろう! 言語横断検索サービス
 
[DL輪読会]DNN-based Source Enhancement to Increase Objective Sound Quality Asses...
[DL輪読会]DNN-based Source Enhancement to Increase Objective Sound Quality Asses...[DL輪読会]DNN-based Source Enhancement to Increase Objective Sound Quality Asses...
[DL輪読会]DNN-based Source Enhancement to Increase Objective Sound Quality Asses...
 
英語学習者のための発話自動採点システムの開発.
英語学習者のための発話自動採点システムの開発.英語学習者のための発話自動採点システムの開発.
英語学習者のための発話自動採点システムの開発.
 
翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)
翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)
翻訳精度の最大化による同時音声翻訳のための文分割法 (NLP2014)
 
4thNLPDL
4thNLPDL4thNLPDL
4thNLPDL
 
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 [最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
 
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
 
Using continuous lexical embeddings to improve symbolicprosody prediction in ...
Using continuous lexical embeddings to improve symbolicprosody prediction in ...Using continuous lexical embeddings to improve symbolicprosody prediction in ...
Using continuous lexical embeddings to improve symbolicprosody prediction in ...
 

Más de Natsumi KOBAYASHI

Más de Natsumi KOBAYASHI (20)

音声分析合成[7].pptx
音声分析合成[7].pptx音声分析合成[7].pptx
音声分析合成[7].pptx
 
音声分析合成[6].pptx
音声分析合成[6].pptx音声分析合成[6].pptx
音声分析合成[6].pptx
 
音声分析合成[5].pptx
音声分析合成[5].pptx音声分析合成[5].pptx
音声分析合成[5].pptx
 
音声分析合成[4].pptx
音声分析合成[4].pptx音声分析合成[4].pptx
音声分析合成[4].pptx
 
音声分析合成[3].pptx
音声分析合成[3].pptx音声分析合成[3].pptx
音声分析合成[3].pptx
 
音声分析合成[2].pptx
音声分析合成[2].pptx音声分析合成[2].pptx
音声分析合成[2].pptx
 
音声分析合成[1].pptx
音声分析合成[1].pptx音声分析合成[1].pptx
音声分析合成[1].pptx
 
seminar-text_3.pptx
seminar-text_3.pptxseminar-text_3.pptx
seminar-text_3.pptx
 
seminar-text_2.pptx
seminar-text_2.pptxseminar-text_2.pptx
seminar-text_2.pptx
 
seminar-text_1.pptx
seminar-text_1.pptxseminar-text_1.pptx
seminar-text_1.pptx
 
seminar-paper_mapping.pptx
seminar-paper_mapping.pptxseminar-paper_mapping.pptx
seminar-paper_mapping.pptx
 
seminar-paper_diarization.pptx
seminar-paper_diarization.pptxseminar-paper_diarization.pptx
seminar-paper_diarization.pptx
 
seminar-paper_VMusingCCA.pptx
seminar-paper_VMusingCCA.pptxseminar-paper_VMusingCCA.pptx
seminar-paper_VMusingCCA.pptx
 
seminar-paper_vtln.pptx
seminar-paper_vtln.pptxseminar-paper_vtln.pptx
seminar-paper_vtln.pptx
 
seminar-paper_karaoke.pptx
seminar-paper_karaoke.pptxseminar-paper_karaoke.pptx
seminar-paper_karaoke.pptx
 
論文紹介FaceSwap-dongyue.pptx
論文紹介FaceSwap-dongyue.pptx論文紹介FaceSwap-dongyue.pptx
論文紹介FaceSwap-dongyue.pptx
 
論文紹介D4C-morise.pptx
論文紹介D4C-morise.pptx論文紹介D4C-morise.pptx
論文紹介D4C-morise.pptx
 
論文紹介PIE-patrick.pptx
論文紹介PIE-patrick.pptx論文紹介PIE-patrick.pptx
論文紹介PIE-patrick.pptx
 
論文紹介Morphing-hui.pptx
論文紹介Morphing-hui.pptx論文紹介Morphing-hui.pptx
論文紹介Morphing-hui.pptx
 
論文紹介Morphing-morise.pptx
論文紹介Morphing-morise.pptx論文紹介Morphing-morise.pptx
論文紹介Morphing-morise.pptx
 

seminar-paper_ForeignAccentConv.pptx

  • 1. Foreign Accent Conversion through Voice Morphing
  • 2. 論文情報  タイトル  ” Foreign Accent Conversion through Voice Morphing”  著者 Sandesh Aryal,Danie Felps,and Ricardo Gutierrez-Osuna  掲載誌 INTERSPEECH2013
  • 3. 論文概要  ‣スペクトルを二つに分解  ケプストラムデコンポジションを用いてスペクトル詳細とス ペクトルスロープに分解  ‣特徴解析  PDMを用いてスペクトルの特徴を解析  ‣アクセント変換  ネイティブ話者のスペクトル詳細と、ノンネイティブ話者の スペクトルスロープを合成  ‣客観評価と主観評価
  • 4. 本論文を紹介する理由  スペクトル分解するという点が類似している  ・スペクトルを分割する利点や欠点について知りたい  ・パラメータの設定法などについて知りたい  音声の評価(客観・主観)  ・規模や妥当性の持たせ方について知りたい
  • 5. 論文見出し  1.Introduction  2.Related work  3.Methods  4.Experimental validation  5.Results  6.Discussion  7.Acknoweledgements
  • 7. 1.Introduction  ◇外国語を学習する際  ・自分の声の理想の発音を聞くことは効果的(Felps.D,et al.2009)  ・個人性などの情報を取り除くことで、アクセント付き発話とアクセントなし発話の違いがわかりやすく なる  Aryalら  ネイティブのアクセント情報をモーフィングし、話者の個人性は残す手法を提案
  • 8. 1.Introduction 手法概要  学習者(learner) 教師(teacher)  手法  ①スペクトルを2つの成分に分解  ・Broad Spectral …スペクトルスロープ  ・Spectral detail…フォルマントポジション  ②学習者のスペクトルスロープと  二者のフォルマントポジションをモーフィング
  • 9. 1.Introduction 利用方法  ◇初等学習者は理想的な発音と自分の発音の差が大きいため学習が困難な場合 がある  このアプリケーションを用いると  ・自分の声で正しい発音を確認可能  ・混合比率によって段階的に学習可能
  • 11. 2.Related work 背景  音声モーフィングの背景  顔のランドマーク推定に比べて、音声のフォルマント推定は難しい  フォルマントトラッキングは精度が悪いためフォルマントトラッキングを使わず、 直接スペクトルを加工する研究も複数ある
  • 12. 2.Related work スペクトル表現  ◦Slaneyら  ピッチとスペクトル形状にスペクトルを分割  Dynamic programming とharmonic alignment  ◦Ezzatら  optical flowを用いてスペクトル特徴を表現  ◦Shiga  スペクトルをパルス分布で符号化  Dynamic programmingやoptical flowに比べて速い
  • 13. 2.Related work 声質変換  声質変換との違い 教師 学習者 教師 発音 学習者 話者情報 学習者 話者情報 + 教師 発音 声質変換 提案手法 変換後の音声が別の人のよ うに聞こえる可能性がある 学習者のその他の情報は保持するようにア クセントに関わる部分だけの変換を行う
  • 14. 2.Related work Yanらの研究  ◦Yanら  フォルマントワーピングによるアクセント変換  フォルマントトラッキングを採用  アクセントの評価のみ  本研究  パルス符号を用いている → 特に無声音で頑健性が高い  アクセントのみでなく、個人性などについても評価
  • 16. 3.1 Morphing through pulse density modulation  ◇PDM(Pulse density modulation)  デルタシグマ変換を用いて対数スペクトル𝑥(𝑛)を変換  𝑦 𝑛 = 𝑃𝐷𝑀[𝑥(𝑛)].  𝑒 𝑛 = 𝑥 𝑛 − 𝑣𝑐𝑦 𝑛 − 1  𝑟 𝑛 = 𝑒 𝑛 − 𝑟 𝑛 − 1  𝑦 𝑛 = 𝑠𝑖𝑔𝑛(𝑟 𝑛 )  初期値 𝑟 1 = 𝑒 1 = 𝑥 1 𝑎𝑛𝑑 𝑦 𝑛 = 0、 𝑛は周波数
  • 17. 3.1 Morphing through pulse density modulationデルタシグマ変換
  • 18. 3.1 Morphing through pulse density modulation  PDM逆変換  𝑥 𝑛 = 𝑃𝐷𝑀−1 [𝑦(𝑛)].DCT…discrete cosine transform  𝑐 𝑛 = 𝐷𝐶𝑇 𝑦 𝑛  𝑐 𝑛 = 0 ∀ 𝑛 > 𝑘  𝑥 𝑛 = 𝐷𝐶𝑇−1 𝑐 𝑛 × 𝑣𝑐  スペクトル𝑥1,𝑥2のモーフィングは  𝑥𝑚 𝑛 = 𝑃𝐷𝑀−1 [ 1 − 𝛼 𝑃𝐷𝑀 𝑥1 𝑛 + 𝛼𝑃𝐷𝑀[𝑥2(𝑛)]]
  • 19. 3.2 Accent conversion through voice morphing  𝑥𝑖 𝐻 … Spectral detail , 𝑥𝑖 𝐿 … Broad spectral features  𝑥𝑖 𝐻 = 𝐷𝐶𝑇−1 [𝐷𝐶𝑇 𝑥 𝑛 × 𝑙(𝑛)]  𝑥𝑖 𝐿 = 𝐷𝐶𝑇−1 [𝐷𝐶𝑇 𝑥 𝑛 × (1 − 𝑙 𝑛 )]  𝑙 𝑛 = 𝑛 𝛾 1 ≤ 𝑛 ≤ 𝛾 1 𝑛 > 𝛾  𝑥𝑚 𝑛 = 𝑥1 𝐿 𝑛 + 𝑥𝑚 𝐻 𝑛  𝑥𝑚 𝐻 𝑛 = 𝑃𝐷𝑀−1 [𝛼𝑃𝐷𝑀 𝑥1 𝐻 𝑛 + 1 − 𝛼 𝑃𝐷𝑀[𝑥2 𝐻 (𝑛)]]
  • 20. 3.2 Accent conversion through voice morphing  𝑥𝑖 𝐻 … Spectral detail  𝑥𝑖 𝐿 … Broad spectral features
  • 21. 3.2 Accent conversion through voice morphing  DTW  …Dynamic time warping  DFW  …Dynamic frequency warping  γ  …リフタ係数
  • 23. 4.Experimental validation  ◆使用音声 ARCTICコーパス  インド人男性 学習者 / アメリカ人男性 教師  ◆分析合成系 STRAIGHT  [処理]  ①DTWで時間ワーピング(教師音声を学習者音声に合わせる)  ②声道長の影響を考慮してDFWで教師音声を学習者音声に合わせる [Neuburg 1988]  ③教師音声のピッチの輪郭をシフトする
  • 24. 4.Experimental validation  実験内容  ARCTIC’s A set の100文を使用  リフタ係数γ=∈ 1,2,3, … 9,10,12,14 … 20,25,30, … 50  モーフィング係数𝛼 =∈ 0,0.1,0.2 … 1 11×21通りの音声  3つの客観評価  ①音質評価 ITU-Tを用いて評価  ②話者の個人性 Linear discriminant analysis(LDA)  ③アクセント評価 Forced alignment score(対数尤 度)
  • 26. 5.1 Object measures  ①音質評価   ②話者の個人性   ③アクセント評価
  • 27. 5.1 Object measures ①音質評価  リフタ係数大、モーフィング係数小のとき音質が良い  リフタ係数が大きいときスペクトルがモーフィング元に忠実  リフタ係数を大きくすると、𝑥𝑖 𝐿 がより多くのスペクトル情報をもち、𝑥𝑖 𝐻 は平 坦化する  全体的なMOSは4.7(類似研究[Felps 2009]では4.1)
  • 28. 5.1 Object measures ②話者の個人性  リフタ係数が小さいと、broad spectral featureは滑らかにな り、モーフィング係数が大きいと教師話者の特徴が強く出る 𝐼𝐷 = 𝑢 𝑖[ 𝑑 𝑦𝑢,𝑖, 𝜇𝐿 𝜎𝐿 − 𝑑(𝑦𝑢,𝑖, 𝜇𝑇) 𝜎𝑇 ] 𝑑(𝜇𝐿, 𝜇𝑇)/(𝜎𝐿 + 𝜎𝑇)/2 𝑑(・)… ユークリッド距離,𝜎𝐿, 𝜎𝑇… 標準偏差 IDが0より大きいか小さいかでどちらに近い か判断可能。点線は最尤決定境界
  • 29. 5.1 Object measures ③アクセント評価  モーフィング係数増加 外国語訛りを減少  スペクトルスロープが学習者の個人性を多く持つときには、特 定のアクセントスコアを達成するために、モーフィング係数を 大きくする必要がある HTK forced-alignment score: 𝐴𝐶𝐶 = 𝑢 𝑝(𝑆𝑢,𝑝 − 𝑆𝑢,𝑠𝑖𝑙) 𝑁𝑢𝑁𝑝 𝑆𝑢,𝑝 … 発話𝑢のphone pにおける対数尤度 𝑆𝑢,𝑠𝑖𝑙 …無音の際の対数尤度 𝑁𝑢 … テスト発話数, 𝑁𝑝phoneの大きさ
  • 30. 5.1 Object measures ②③比較  “Sweet spot”  学習者の個人性を維持しながら外国のアクセントを削減を達成できる場所
  • 31. 5.2 Subjective measures  5つのパラメーターセットを用いて主観評 価を行った
  • 32. 5.2 Subjective measures  Accent  被験者10人 方言識別テストを通過したもの  5パターン×10発話 に対して7段階評価  0:全くアクセントがない 2:少し 4:かなり 6:完璧  Quality  被験者10人 50発話 MOSで5段階評価  Identity  被験者10人 強制選択テスト  音声 「V1 or V5 (ビープ音) V2-V4」  声が互いに異なるペアを 回答
  • 33. 5.2 Subjective measures 結果  Accent  V1~V5 単調増加  V3で大きく増加  Quality  リフタ係数に対応して悪くなる  Identity  テスト設計より、V1とV5は測定不可能  中間音(V2-V4)V2-V4は学習者に近いと判断された 客観評価の結果(参考)
  • 35. 6. Discussion  ◆スペクトルをPDMを用いて特徴づけ、  Broad spectral feature とSpectral detailに分解  Broad spectral featureはリフタ係数γによって平坦具合が変わる  ◆客観評価では、アクセント、音声品質、個人性について評価  これらはトレードオフの関係にある  例)高品質でかつ個人性を残す場合 アクセントの評価が損なわれる
  • 36. Future work  合成音と生音声の違いの違和感除去  話者性を自己生成音声とその録音音声の話者の知覚の違いを減らすためのフィルタリング 技術の調査  コンピューター支援の音声トレーニング等で使用