Enviar búsqueda
Cargar
miyoshi17sp07
•
2 recomendaciones
•
1,139 vistas
Y
Yuki Saito
Seguir
Presentation at IEICE-SP 201707
Leer menos
Leer más
Ciencias
Denunciar
Compartir
Denunciar
Compartir
1 de 23
Descargar ahora
Descargar para leer sin conexión
Recomendados
miyoshi2017asj
miyoshi2017asj
Yuki Saito
saito2017asj_tts
saito2017asj_tts
Yuki Saito
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
Shinnosuke Takamichi
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
Shinnosuke Takamichi
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
Shinnosuke Takamichi
saito2017asj_vc
saito2017asj_vc
Yuki Saito
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Yuki Saito
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
Recomendados
miyoshi2017asj
miyoshi2017asj
Yuki Saito
saito2017asj_tts
saito2017asj_tts
Yuki Saito
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
Shinnosuke Takamichi
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
Shinnosuke Takamichi
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
Shinnosuke Takamichi
saito2017asj_vc
saito2017asj_vc
Yuki Saito
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Yuki Saito
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
Shinnosuke Takamichi
Nakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
音声認識の基礎
音声認識の基礎
Akinori Ito
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
Yuki Saito
Saito17asjA
Saito17asjA
Yuki Saito
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
貴史 益子
Saito20asj_autumn
Saito20asj_autumn
Yuki Saito
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
KoueiYamaoka
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Shinnosuke Takamichi
Saito18sp03
Saito18sp03
Yuki Saito
音声の認識と合成
音声の認識と合成
Akinori Ito
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
KoueiYamaoka
Saito19asj_s
Saito19asj_s
Yuki Saito
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
KCS Keio Computer Society
音声合成の基礎
音声合成の基礎
Akinori Ito
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
NU_I_TODALAB
Saito21asj Autumn Meeting
Saito21asj Autumn Meeting
Yuki Saito
日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発
Ken IshiKen
seminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptx
Natsumi KOBAYASHI
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio
Deep Learning JP
Más contenido relacionado
La actualidad más candente
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
Shinnosuke Takamichi
Nakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
音声認識の基礎
音声認識の基礎
Akinori Ito
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
Yuki Saito
Saito17asjA
Saito17asjA
Yuki Saito
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
貴史 益子
Saito20asj_autumn
Saito20asj_autumn
Yuki Saito
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
KoueiYamaoka
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Shinnosuke Takamichi
Saito18sp03
Saito18sp03
Yuki Saito
音声の認識と合成
音声の認識と合成
Akinori Ito
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
KoueiYamaoka
Saito19asj_s
Saito19asj_s
Yuki Saito
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
KCS Keio Computer Society
音声合成の基礎
音声合成の基礎
Akinori Ito
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
NU_I_TODALAB
Saito21asj Autumn Meeting
Saito21asj Autumn Meeting
Yuki Saito
日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発
Ken IshiKen
La actualidad más candente
(20)
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
Nakai22sp03 presentation
Nakai22sp03 presentation
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
音情報処理における特徴表現
音情報処理における特徴表現
音声認識の基礎
音声認識の基礎
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
Saito17asjA
Saito17asjA
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
Saito20asj_autumn
Saito20asj_autumn
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Saito18sp03
Saito18sp03
音声の認識と合成
音声の認識と合成
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
Saito19asj_s
Saito19asj_s
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
音声合成の基礎
音声合成の基礎
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
Saito21asj Autumn Meeting
Saito21asj Autumn Meeting
日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発
Similar a miyoshi17sp07
seminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptx
Natsumi KOBAYASHI
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio
Deep Learning JP
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
Hiroyuki Miyoshi
A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会
正志 坪坂
Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principle
Yusuke Matsubara
Effective search space reduction for spell correction using character neural ...
Effective search space reduction for spell correction using character neural ...
浩気 西山
日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討
Kosuke Futamata
GMMに基づく固有声変換のための変調スペクトル制約付きトラジェクトリ学習・適応
GMMに基づく固有声変換のための変調スペクトル制約付きトラジェクトリ学習・適応
Shinnosuke Takamichi
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
ICASSP読み会2020
ICASSP読み会2020
Yuki Saito
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
Yuki Tomo
Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
読解支援@2015 05-15
読解支援@2015 05-15
sekizawayuuki
Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介
Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介
Kosuke Futamata
Chainer with natural language processing hands on
Chainer with natural language processing hands on
Ogushi Masaya
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
Toshihiko Yamasaki
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
NU_I_TODALAB
Similar a miyoshi17sp07
(17)
seminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptx
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会
Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principle
Effective search space reduction for spell correction using character neural ...
Effective search space reduction for spell correction using character neural ...
日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討
GMMに基づく固有声変換のための変調スペクトル制約付きトラジェクトリ学習・適応
GMMに基づく固有声変換のための変調スペクトル制約付きトラジェクトリ学習・適応
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
ICASSP読み会2020
ICASSP読み会2020
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
Interspeech2022 参加報告
Interspeech2022 参加報告
読解支援@2015 05-15
読解支援@2015 05-15
Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介
Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介
Chainer with natural language processing hands on
Chainer with natural language processing hands on
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
Más de Yuki Saito
hirai23slp03.pdf
hirai23slp03.pdf
Yuki Saito
fujii22apsipa_asc
fujii22apsipa_asc
Yuki Saito
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
Yuki Saito
saito22research_talk_at_NUS
saito22research_talk_at_NUS
Yuki Saito
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito
Nishimura22slp03 presentation
Nishimura22slp03 presentation
Yuki Saito
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
Saito2103slp
Saito2103slp
Yuki Saito
Interspeech2020 reading
Interspeech2020 reading
Yuki Saito
Saito20asj s slide_published
Saito20asj s slide_published
Yuki Saito
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
Yuki Saito
Une18apsipa
Une18apsipa
Yuki Saito
Saito18asj_s
Saito18asj_s
Yuki Saito
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
Yuki Saito
Saito2017icassp
Saito2017icassp
Yuki Saito
Slp201702
Slp201702
Yuki Saito
Más de Yuki Saito
(16)
hirai23slp03.pdf
hirai23slp03.pdf
fujii22apsipa_asc
fujii22apsipa_asc
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
saito22research_talk_at_NUS
saito22research_talk_at_NUS
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Nishimura22slp03 presentation
Nishimura22slp03 presentation
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
Saito2103slp
Saito2103slp
Interspeech2020 reading
Interspeech2020 reading
Saito20asj s slide_published
Saito20asj s slide_published
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
Une18apsipa
Une18apsipa
Saito18asj_s
Saito18asj_s
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
Saito2017icassp
Saito2017icassp
Slp201702
Slp201702
miyoshi17sp07
1.
©Yuki Saito, 2017/07/27 コンテキスト事後確率の Sequence-to-Sequence
学習を用いた音声変換と Dual Learning の評価 三好 裕之, ○ 齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東京大学) 2017年7月 音声(SP)研究会 7月27日(木)SP-3
2.
/22 音声変換: 音声の言語情報を保持しつつ,
非言語情報を変換 統計的パラメトリック音声変換 – 音声特徴量を統計モデルによりモデル化 & 変換 • Deep Neural Network (DNN) 音声変換 [Desai et al., 2009] テキスト依存音声変換 [Kain et al., 1998] – 入力音声 → テキスト → 出力音声 – 音声認識 (Automatic Speech Recognition) + 音声合成 (Text-To-Speech) – ノンパラレルデータを用いた学習も可能 – テキストへのマッピングにより音声特徴量の時間解像度が低下 1 研究分野: テキスト依存音声変換 音声変換: Voice Conversion (VC) Output speech Input speech
3.
/22 従来法: コンテキスト事後確率の複写に基づく音声変換 –
コンテキスト事後確率を利用し, フレーム単位での変換を実現 – 話者性の再現精度が低下 • 入力音声のコンテキスト事後確率の複写が原因 本発表 – (1) 事後確率の Sequence-to-Sequence (Seq2Seq) 学習 • 事後確率の可変長変換により, 話者性の変換精度を改善 – (2) 音声認識・合成モデルの dual learning • 音声合成時の誤差を考慮し, 複数のモデルを同時に学習 結果 – Seq2Seq 学習により話者性が改善 – Dual learning により音質・話者性が改善 2 本発表の概要
4.
/223 目次 研究背景 従来のテキスト依存音声変換
提案法 – コンテキスト事後確率の Seq2Seq 学習 – 音声認識・合成モデルの dual learning 実験的評価 まとめ
5.
/224 テキスト依存音声変換における 話者非依存の音声認識モデル学習 Linguistic feats. 𝒍 𝑥 Cross-entropy (認識誤差)
最小化 ASR [Kain et al., 1998] Posterior probs. 𝒑 𝑥 a i u 継続長の異なる様々な音声特徴量を用いて学習 Frame Source speech feats. 𝒙
6.
/225 テキスト依存音声変換における 目的話者依存の音声合成モデル学習 [Kain et al.,
1998]Mean squared error 最小化 Generated speech feats.𝒚 Frame Target speech feats. 𝒚 𝒑 𝑦 TTSASR (fixed) 𝒑 𝑦 Posterior probs.
7.
/226 コンテキスト事後確率の複写に基づく音声変換 [Sun et al.,
2016] Frame Source speech feats. 𝒙 COPY Converted speech feats.𝒚 TTSASR Posterior probs. 𝒑 𝑥 入力音声特徴量のコンテキスト事後確率を複写し, 合成音声特徴量を推定 𝒑 𝑥
8.
/227 従来法の問題点 ① 事後確率に含まれる話速・音韻性の違いを無視した変換
② 音声認識・合成モデルの個別学習 – 認識精度の改善 ≠ 合成音声の品質改善 a r a y a r a y 0 1 話速の違い 音韻性の違い Frame y r y raa
9.
/228 目次 研究背景 従来のテキスト依存音声変換
提案法 – コンテキスト事後確率の Seq2Seq 学習 – 音声認識・合成モデルの dual learning 実験的評価 まとめ
10.
/229 Sequence-to-Sequence (Seq2Seq) 学習
Encoder-Decoder [Ilya et al., 2014] による Seq2Seq 学習 コンテキスト事後確率の Seq2Seq 学習における問題点 – 系列長が大きい場合に変換の失敗が伝播 [Wang et al., 2016] – 継続長 (フレーム数) の決定が困難 本発表における制約 – 事後確率変換の単位は音素ごと – 事後確率の継続長は既知 雨 が 降る It rains 入力系列 出力系列 Encoder Decoder
11.
/2210 事後確率変換モデル学習 Frame 𝑪 𝒑 𝑥 Posterior
conversion 𝑪 ⋅ 𝒍 𝑦 Mean squared error (変換誤差) 最小化 Cross-entropy 最小化 (事後確率推定誤差の影響を軽減) Source posterior probs. 𝒑 𝑦𝒑 𝑥
12.
/2211 コンテキスト事後確率の Seq2Seq 学習を用いた音声変換 FrameSource speech feats. 𝒙 ASR 𝒚 Converted speech feats. TTS Posterior probs. 𝒑
𝑥 𝑪 ⋅ CONVERSION 𝒑 𝑦
13.
/2212 Seq2Seq 学習の効果: 事後確率の違いを考慮した変換 Estimated (Seq2Seq)Target
speakerSource speaker 0 1 コンテキスト事後確率の可変長変換を実現!
14.
/2213 𝒍 𝑥 Cross-entropy 最小化 ASR 𝒑 𝑥 Frame Source speech feats.
𝒙 音声認識・合成モデルの Dual Learning Generated speech feats.𝒙 TTS [He et al., 2016] Input to TTS Mean squared error 最小化 音声合成時の誤差も考慮しつつ, 認識モデルを学習!
15.
/2214 考察 系列のアライメント単位に関する考察 – テキスト依存音声変換:
コンテキスト単位 • 可変長の系列変換が可能だが, 時間の量子化が発生 – 従来の事後確率複写による変換 [Sun et al., 2016]: フレーム単位 • 時間の量子化は緩和されるが, 系列長が固定 – 提案法: フレーム単位 • Seq2Seq 学習により, 可変長の系列変換を実現 Dual learning に関する考察 – 所望のクラスラベルを用いた自己符号化に類似 – 潜在変数を用いた variational auto-encoder に拡張可能 [Kingma et al., 2014]
16.
/2215 目次 研究背景 従来のテキスト依存音声変換
提案法 – コンテキスト事後確率の Seq2Seq 学習 – 音声認識・合成モデルの dual learning 実験的評価 まとめ
17.
/22 実験条件 入出力話者 女性話者 → 男性話者 (話速が大きく異なる話者の組を選択) データセット
ATR 音素バランス503文 (16 kHz サンプリング) 学習 / 評価データ A-I セット 450文×8名 / Jセット 53文 スペクトル特徴量 24次元のメルケプストラム & 動的特徴量 (計72次元) コンテキスト 224次元 (quin-phone) 音声認識モデルのコスト関数: 音素グループ毎の識別誤差の和 音声認識モデル Bi-directional LSTM (output activation: softmax) 音声合成モデル Bi-directional LSTM (output activation: linear) 事後確率変換モデル Encoder: Bi-directional LSTM Decoder: Uni-directional LSTM 16
18.
/2217 Seq2Seq 学習の有効性に関する客観評価 評価指標:
自然音声 / 合成音声のメルケプストラム歪み – アライメント法: DTW (従来法) / Seq2Seq 学習 (提案法) – 提案法において継続長は既知 → 理想条件の下での評価値 Proposed Conventional 4.0 4.5 5.0 6.0 6.55.5 改善 Seq2Seq 学習により, DTWに起因する歪みの増加を回避! メルケプストラム歪み [dB]
19.
/22 Seq2Seq 学習の有効性に関する主観評価結果 (音声変換の品質) プリファレンススコア
(評価者数7名) 18 0.0 0.2 0.4 0.6 1.00.8 エラーバーは95%信頼区間 改善 改善 0.0 0.2 0.4 0.6 1.00.8 Proposed Conventional (b) 音質 (a) 話者性 Proposed Conventional 改善 劣化
20.
/2219 音声認識・合成モデルの Dual Learning に関する客観評価
評価指標: 認識・合成を通じた特徴量復元による歪み – (1) 音声認識・合成モデルを通じて入力音声特徴量を復元 – (2) 入力音声特徴量 / 復元結果のメルケプストラム歪みを計算 Dual learning 個別学習 4.0 4.5 5.0 6.0 6.55.5 改善 メルケプストラム歪み [dB] Dual learning により, 歪みの軽減した音声特徴量を生成!
21.
/22 プリファレンススコア (評価者数7名) 20 0.0
0.2 0.4 0.6 1.00.8 エラーバーは95%信頼区間 0.0 0.2 0.4 0.6 1.00.8 Dual learning 個別学習 Dual learning 個別学習 音声認識・合成モデルの Dual Learning に関する主観評価 (音声変換の品質) 改善 改善 (a) 話者性 (b) 音質
22.
/2221 目次 研究背景 従来のテキスト依存音声変換
提案法 – コンテキスト事後確率の Seq2Seq 学習 – 音声認識・合成モデルの dual learning 実験的評価 まとめ
23.
/22 まとめ 目的: テキスト依存音声変換の品質改善
提案法 – (1) コンテキスト事後確率の Seq2Seq 学習 – (2) 音声認識・合成モデルの dual learning 結果 – Seq2Seq 学習による話者性の改善 – Dual learning による音質・話者性の改善 • 事後確率モデルも含めた dual learning による改善は見られず 今後の予定 – Seq2Seq 学習を行う場合の系列長決定法に関する調査 22
Descargar ahora