Enviar búsqueda
Cargar
miyoshi2017asj
•
0 recomendaciones
•
556 vistas
Y
Yuki Saito
Seguir
ASJ 2017 seq2seq vc
Leer menos
Leer más
Ciencias
Vista de diapositivas
Denunciar
Compartir
Vista de diapositivas
Denunciar
Compartir
1 de 13
Descargar ahora
Descargar para leer sin conexión
Recomendados
miyoshi17sp07
miyoshi17sp07
Yuki Saito
saito2017asj_tts
saito2017asj_tts
Yuki Saito
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
Shinnosuke Takamichi
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
Shinnosuke Takamichi
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
Shinnosuke Takamichi
saito2017asj_vc
saito2017asj_vc
Yuki Saito
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
Shinnosuke Takamichi
Recomendados
miyoshi17sp07
miyoshi17sp07
Yuki Saito
saito2017asj_tts
saito2017asj_tts
Yuki Saito
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
Shinnosuke Takamichi
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
Shinnosuke Takamichi
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
Shinnosuke Takamichi
saito2017asj_vc
saito2017asj_vc
Yuki Saito
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
Shinnosuke Takamichi
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Yuki Saito
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
KCS Keio Computer Society
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
貴史 益子
音声認識の基礎
音声認識の基礎
Akinori Ito
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
KoueiYamaoka
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
NU_I_TODALAB
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Shinnosuke Takamichi
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
KoueiYamaoka
日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発
Ken IshiKen
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
NU_I_TODALAB
音声合成の基礎
音声合成の基礎
Akinori Ito
Saito21asj Autumn Meeting
Saito21asj Autumn Meeting
Yuki Saito
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio
Deep Learning JP
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
Nakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?
NU_I_TODALAB
Saito19asj_s
Saito19asj_s
Yuki Saito
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
Takaaki Saeki
hirai23slp03.pdf
hirai23slp03.pdf
Yuki Saito
Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
fujii22apsipa_asc
fujii22apsipa_asc
Yuki Saito
Más contenido relacionado
La actualidad más candente
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Yuki Saito
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
KCS Keio Computer Society
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
貴史 益子
音声認識の基礎
音声認識の基礎
Akinori Ito
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
KoueiYamaoka
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
NU_I_TODALAB
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Shinnosuke Takamichi
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
KoueiYamaoka
日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発
Ken IshiKen
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
NU_I_TODALAB
音声合成の基礎
音声合成の基礎
Akinori Ito
Saito21asj Autumn Meeting
Saito21asj Autumn Meeting
Yuki Saito
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio
Deep Learning JP
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
Nakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?
NU_I_TODALAB
Saito19asj_s
Saito19asj_s
Yuki Saito
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
Takaaki Saeki
La actualidad más candente
(19)
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
音声認識の基礎
音声認識の基礎
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
音声合成の基礎
音声合成の基礎
Saito21asj Autumn Meeting
Saito21asj Autumn Meeting
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Nakai22sp03 presentation
Nakai22sp03 presentation
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?
Saito19asj_s
Saito19asj_s
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
Más de Yuki Saito
hirai23slp03.pdf
hirai23slp03.pdf
Yuki Saito
Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
fujii22apsipa_asc
fujii22apsipa_asc
Yuki Saito
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
Yuki Saito
saito22research_talk_at_NUS
saito22research_talk_at_NUS
Yuki Saito
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito
Nishimura22slp03 presentation
Nishimura22slp03 presentation
Yuki Saito
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
Saito2103slp
Saito2103slp
Yuki Saito
Interspeech2020 reading
Interspeech2020 reading
Yuki Saito
Saito20asj_autumn
Saito20asj_autumn
Yuki Saito
ICASSP読み会2020
ICASSP読み会2020
Yuki Saito
Saito20asj s slide_published
Saito20asj s slide_published
Yuki Saito
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
Yuki Saito
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
Yuki Saito
Une18apsipa
Une18apsipa
Yuki Saito
Saito18sp03
Saito18sp03
Yuki Saito
Saito18asj_s
Saito18asj_s
Yuki Saito
Saito17asjA
Saito17asjA
Yuki Saito
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
Yuki Saito
Más de Yuki Saito
(20)
hirai23slp03.pdf
hirai23slp03.pdf
Interspeech2022 参加報告
Interspeech2022 参加報告
fujii22apsipa_asc
fujii22apsipa_asc
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
saito22research_talk_at_NUS
saito22research_talk_at_NUS
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Nishimura22slp03 presentation
Nishimura22slp03 presentation
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
Saito2103slp
Saito2103slp
Interspeech2020 reading
Interspeech2020 reading
Saito20asj_autumn
Saito20asj_autumn
ICASSP読み会2020
ICASSP読み会2020
Saito20asj s slide_published
Saito20asj s slide_published
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
Une18apsipa
Une18apsipa
Saito18sp03
Saito18sp03
Saito18asj_s
Saito18asj_s
Saito17asjA
Saito17asjA
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
miyoshi2017asj
1.
1 ⽇日本⾳音響学会 2017年年春季研究発表会 講演番号: 1-‐‑‒6-‐‑‒15 コンテキスト事後確率率率の Sequence-‐‑‒to-‐‑‒Sequence学習を⽤用いた ⾳音声変換 2017/3/15 ☆
三好 裕之(東⼤大),齋藤 佑樹, ⾼高道 慎之介,猿渡 洋(東⼤大院・情報理理⼯工)
2.
本発表の概要 1/12⽇日本⾳音響学会 春季研究発表会 2017/3/15 Ø
テキスト⾮非依存⾳音声変換:テキストを必要とせず,⾳音声特徴量量を変換 ⾼高精度度な変換が可能 だが ⾳音声の同⼀一発話内容のパラレルデータが必要 n ⾳音声変換の⼿手法 Ø テキスト依存⾳音声変換:テキストを経由し変換(⾳音声認識識と⾳音声合成) パラレルデータが不不要 だが 時間の量量⼦子化などにより変換精度度は低い ⾳音声から推定されるテキストの事後確率率率を経由して⾳音声変換を⾏行行う⼿手法 パラレルデータが不不要かつ時間の量量⼦子化を緩和 だが コンテキスト事後確率率率を複写するため,話速や⾳音韻性の変換は困難 n 従来法:コンテキスト事後確率率率の複写に基づく⾳音声変換 [Sun et al., 2016] n 提案法:コンテキスト事後確率率率の Sequence-‐‑‒to-‐‑‒Sequence 変換 部分的に含まれるパラレルデータを利利⽤用することで,事後確率率率を変換 → 話速や⾳音韻性の変換が可能 [Kain et al., 1998] [Toda et al., 2007]
3.
従来の⾳音響モデル学習: コンテキスト事後確率率率の複写に基づく⾳音声変換 [Sun et
al., 2016] 2/12⽇日本⾳音響学会 春季研究発表会 2017/3/15 n 学習時 n 変換時 あ ら ゆ る LSTM time ⼊入⼒力力 ⾳音声特徴量量 ⾳音声認識識 コンテキスト 事後確率率率 す べ て 出⼒力力 ⾳音声特徴量量 LSTM ⾳音声合成 コンテキスト事後確率率率 各時間の事後確率率率を 濃淡で表現 0 1 LSTM time ⼊入⼒力力 ⾳音声特徴量量 コンテキスト 事後確率率率 予測 ⾳音声特徴量量 LSTM copy げ ん じ つ あ ら ゆ る time
4.
従来の⾳音響モデル学習の問題点 (コンテキスト事後確率率率の違い) 3/12⽇日本⾳音響学会 春季研究発表会 2017/3/15 コンテキスト事後確率率率を複写するため, ⾳音韻性,話速の変換に対応できない ⾳音韻性が異異なる 話速が異異なる
5.
解決⽅方法:コンテキスト事後確率率率の可変⻑⾧長変換 4/12⽇日本⾳音響学会 春季研究発表会 2017/3/15 ⼊入⼒力力コンテキスト事後確率率率から出⼒力力コンテキスト事後確率率率への可変⻑⾧長変換を⾏行行う. →
従来法の問題点である⾳音韻性や話速の問題点を解決 ?? LSTM LSTM ⼊入⼒力力 ⾳音声特徴量量 コンテキスト 事後確率率率 出⼒力力 ⾳音声特徴量量
6.
提案する⼿手法 5/12⽇日本⾳音響学会 春季研究発表会 2017/3/15 コンテキスト事後確率率率の Sequence-‐‑‒to-‐‑‒Sequence
学習を⽤用いた⾳音声変換
7.
制約 Sequence-‐‑‒to-‐‑‒Sequence 変換 6/12⽇日本⾳音響学会 春季研究発表会
2017/3/15 Ø コンテキスト事後確率率率の Sequence-‐‑‒to-‐‑‒Sequence 変換 ー ⼊入⼒力力コンテキスト事後確率率率から出⼒力力コンテキスト事後確率率率への変換の問題点 ・⽣生成するフレーム数が⼤大きい場合,変換の失敗が伝播 [Wang et al., 2016] ・継続⻑⾧長(フレーム数)の決定が困難 n コンテキスト事後確率率率の変換単位は⾳音素ごと n コンテキスト事後確率率率の継続⻑⾧長は 既知(出⼒力力系列列の⻑⾧長さを決めておく) ⾬雨 が 降降る It rains⼊入⼒力力系列列 出⼒力力系列列 Ø Sequence-‐‑‒to-‐‑‒Sequence 変換:可変⻑⾧長変換を可能にする変換⼿手法 Ø 系列列変換の中で最も単純な encoder-‐‑‒decoder モデル[Ilya et al., 2014]:
8.
提案⼿手法:コンテキスト事後確率率率の Sequence-‐‑‒to-‐‑‒Sequence 学習に基づく⾳音声変換 7/12⽇日本⾳音響学会 春季研究発表会
2017/3/15 ⾳音声のパラレルデータが部分的に含まれると想定し,その事後確率率率を可変⻑⾧長変換 LSTM LSTM ⼊入⼒力力 ⾳音声特徴量量 コンテキスト 事後確率率率 出⼒力力 ⾳音声特徴量量 ⾳音声認識識 Sequence-‐‑‒to-‐‑‒Sequence 変換 ⾳音声合成 (学習のコスト関数) = (変換誤差) + (⽬目標⾳音素との分類誤差)
9.
コンテキスト事後確率率率変換の例例 8/12⽇日本⾳音響学会 春季研究発表会 2017/3/15 変換を 学習 0 1 コンテキスト事後確率率率の 可変⻑⾧長変換が可能 ⼊入⼒力力 コンテキスト事後確率率率 出⼒力力 コンテキスト事後確率率率 フレーム Sequence-‐‑‒to-‐‑‒Sequence後の コンテキスト事後確率率率
10.
実験条件 9/12⽇日本⾳音響学会 春季研究発表会 2017/3/15 ⼊入出⼒力力話者
⼊入⼒力力:⽇日本⼈人⼥女女性,出⼒力力:⽇日本⼈人男性 (話速の⼤大きく異異なる話者を選択) データセット ATR ⾳音素バランス503⽂文 (16 kHz サンプリング) 学習 / 評価データ AーI セット 450⽂文 × 8⼈人 / Jセット 53⽂文 スペクトル特徴量量 24次元のメルケプストラムと動的特徴量量(合計72次元) コンテキスト 224次元 (quin-‐‑‒phone) ⾳音声認識識のコスト関数は先⾏行行・当該・後続⾳音素グループ毎の cross-‐‑‒entropy の和 ⾳音声認識識モデル Bidirectional LSTM ,出⼒力力層の活性化関数は softmax ⾳音声合成モデル Bidirectional LSTM ,出⼒力力層の活性化関数は線形関数 事後確率率率変換モデル Bidirectional LSTM (encoder), LSTM (decoder)
11.
実験的評価:客観的指標 10/12⽇日本⾳音響学会 春季研究発表会 2017/3/15 客観的指標 改善
12.
実験的評価:主観的指標 11/12⽇日本⾳音響学会 春季研究発表会 2017/3/15 改善 劣劣化 主観的指標 ⾳音質劣劣化の原因 事後確率率率変換の際に ⾳音素誤りを散⾒見見 変換元
変換先
13.
結論論 12/12⽇日本⾳音響学会 春季研究発表会 2017/3/15 Ø
コンテキスト事後確率率率に Sequence-‐‑‒to-‐‑‒Sequence 変換を ⽤用いることで,事後確率率率に含まれる話者性の変換を可能にした. Ø コンテキスト事後確率率率の変換により,話者性は向上したが, ⾳音素誤りによる⾳音質の劣劣化に改善の余地がみられた. Ø 事後確率率率変換と,⾳音声認識識・合成の同時最適化を検討して, 上記の問題を解決する.
Descargar ahora