SlideShare una empresa de Scribd logo
1 de 23
Descargar para leer sin conexión
©Yuki Saito, 2017/07/27
コンテキスト事後確率の
Sequence-to-Sequence 学習を用いた音声変換と
Dual Learning の評価
三好 裕之, ○ 齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東京大学)
2017年7月 音声(SP)研究会 7月27日(木)SP-3
/22
 音声変換: 音声の言語情報を保持しつつ, 非言語情報を変換
 統計的パラメトリック音声変換
– 音声特徴量を統計モデルによりモデル化 & 変換
• Deep Neural Network (DNN) 音声変換 [Desai et al., 2009]
 テキスト依存音声変換 [Kain et al., 1998]
– 入力音声 → テキスト → 出力音声
– 音声認識 (Automatic Speech Recognition) + 音声合成 (Text-To-Speech)
– ノンパラレルデータを用いた学習も可能
– テキストへのマッピングにより音声特徴量の時間解像度が低下
1
研究分野: テキスト依存音声変換
音声変換:
Voice Conversion (VC)
Output
speech
Input
speech
/22
 従来法: コンテキスト事後確率の複写に基づく音声変換
– コンテキスト事後確率を利用し, フレーム単位での変換を実現
– 話者性の再現精度が低下
• 入力音声のコンテキスト事後確率の複写が原因
 本発表
– (1) 事後確率の Sequence-to-Sequence (Seq2Seq) 学習
• 事後確率の可変長変換により, 話者性の変換精度を改善
– (2) 音声認識・合成モデルの dual learning
• 音声合成時の誤差を考慮し, 複数のモデルを同時に学習
 結果
– Seq2Seq 学習により話者性が改善
– Dual learning により音質・話者性が改善
2
本発表の概要
/223
目次
 研究背景
 従来のテキスト依存音声変換
 提案法
– コンテキスト事後確率の Seq2Seq 学習
– 音声認識・合成モデルの dual learning
 実験的評価
 まとめ
/224
テキスト依存音声変換における
話者非依存の音声認識モデル学習
Linguistic
feats.
𝒍 𝑥
Cross-entropy (認識誤差) 最小化
ASR
[Kain et al., 1998]
Posterior
probs.
𝒑 𝑥
a
i
u
継続長の異なる様々な音声特徴量を用いて学習
Frame
Source
speech
feats. 𝒙
/225
テキスト依存音声変換における
目的話者依存の音声合成モデル学習
[Kain et al., 1998]Mean squared error 最小化
Generated
speech
feats.𝒚
Frame
Target
speech
feats. 𝒚 𝒑 𝑦
TTSASR (fixed)
𝒑 𝑦
Posterior
probs.
/226
コンテキスト事後確率の複写に基づく音声変換
[Sun et al., 2016]
Frame
Source
speech
feats. 𝒙
COPY
Converted
speech
feats.𝒚
TTSASR
Posterior
probs.
𝒑 𝑥
入力音声特徴量のコンテキスト事後確率を複写し,
合成音声特徴量を推定
𝒑 𝑥
/227
従来法の問題点
 ① 事後確率に含まれる話速・音韻性の違いを無視した変換
 ② 音声認識・合成モデルの個別学習
– 認識精度の改善 ≠ 合成音声の品質改善
a
r
a
y
a
r
a
y
0
1
話速の違い 音韻性の違い
Frame y r y raa
/228
目次
 研究背景
 従来のテキスト依存音声変換
 提案法
– コンテキスト事後確率の Seq2Seq 学習
– 音声認識・合成モデルの dual learning
 実験的評価
 まとめ
/229
Sequence-to-Sequence (Seq2Seq) 学習
 Encoder-Decoder [Ilya et al., 2014] による Seq2Seq 学習
 コンテキスト事後確率の Seq2Seq 学習における問題点
– 系列長が大きい場合に変換の失敗が伝播 [Wang et al., 2016]
– 継続長 (フレーム数) の決定が困難
 本発表における制約
– 事後確率変換の単位は音素ごと
– 事後確率の継続長は既知
雨 が 降る It rains
入力系列 出力系列
Encoder Decoder
/2210
事後確率変換モデル学習
Frame
𝑪 𝒑 𝑥
Posterior conversion
𝑪 ⋅
𝒍 𝑦
Mean squared error
(変換誤差) 最小化
Cross-entropy 最小化
(事後確率推定誤差の影響を軽減)
Source
posterior
probs.
𝒑 𝑦𝒑 𝑥
/2211
コンテキスト事後確率の
Seq2Seq 学習を用いた音声変換
FrameSource
speech
feats. 𝒙
ASR
𝒚
Converted
speech
feats.
TTS
Posterior
probs.
𝒑 𝑥
𝑪 ⋅
CONVERSION
𝒑 𝑦
/2212
Seq2Seq 学習の効果:
事後確率の違いを考慮した変換
Estimated (Seq2Seq)Target speakerSource speaker
0
1
コンテキスト事後確率の可変長変換を実現!
/2213
𝒍 𝑥
Cross-entropy
最小化
ASR
𝒑 𝑥
Frame
Source
speech
feats. 𝒙
音声認識・合成モデルの Dual Learning
Generated
speech
feats.𝒙
TTS
[He et al., 2016]
Input to TTS
Mean squared error 最小化
音声合成時の誤差も考慮しつつ, 認識モデルを学習!
/2214
考察
 系列のアライメント単位に関する考察
– テキスト依存音声変換: コンテキスト単位
• 可変長の系列変換が可能だが, 時間の量子化が発生
– 従来の事後確率複写による変換 [Sun et al., 2016]: フレーム単位
• 時間の量子化は緩和されるが, 系列長が固定
– 提案法: フレーム単位
• Seq2Seq 学習により, 可変長の系列変換を実現
 Dual learning に関する考察
– 所望のクラスラベルを用いた自己符号化に類似
– 潜在変数を用いた variational auto-encoder に拡張可能
[Kingma et al., 2014]
/2215
目次
 研究背景
 従来のテキスト依存音声変換
 提案法
– コンテキスト事後確率の Seq2Seq 学習
– 音声認識・合成モデルの dual learning
 実験的評価
 まとめ
/22
実験条件
入出力話者
女性話者 → 男性話者
(話速が大きく異なる話者の組を選択)
データセット ATR 音素バランス503文 (16 kHz サンプリング)
学習 / 評価データ A-I セット 450文×8名 / Jセット 53文
スペクトル特徴量 24次元のメルケプストラム & 動的特徴量 (計72次元)
コンテキスト
224次元 (quin-phone)
音声認識モデルのコスト関数:
音素グループ毎の識別誤差の和
音声認識モデル Bi-directional LSTM (output activation: softmax)
音声合成モデル Bi-directional LSTM (output activation: linear)
事後確率変換モデル
Encoder: Bi-directional LSTM
Decoder: Uni-directional LSTM
16
/2217
Seq2Seq 学習の有効性に関する客観評価
 評価指標: 自然音声 / 合成音声のメルケプストラム歪み
– アライメント法: DTW (従来法) / Seq2Seq 学習 (提案法)
– 提案法において継続長は既知 → 理想条件の下での評価値
Proposed
Conventional
4.0 4.5 5.0 6.0 6.55.5
改善
Seq2Seq 学習により, DTWに起因する歪みの増加を回避!
メルケプストラム歪み [dB]
/22
Seq2Seq 学習の有効性に関する主観評価結果
(音声変換の品質)
 プリファレンススコア (評価者数7名)
18
0.0 0.2 0.4 0.6 1.00.8
エラーバーは95%信頼区間
改善
改善
0.0 0.2 0.4 0.6 1.00.8
Proposed
Conventional
(b) 音質
(a) 話者性
Proposed
Conventional
改善
劣化
/2219
音声認識・合成モデルの
Dual Learning に関する客観評価
 評価指標: 認識・合成を通じた特徴量復元による歪み
– (1) 音声認識・合成モデルを通じて入力音声特徴量を復元
– (2) 入力音声特徴量 / 復元結果のメルケプストラム歪みを計算
Dual learning
個別学習
4.0 4.5 5.0 6.0 6.55.5
改善
メルケプストラム歪み [dB]
Dual learning により, 歪みの軽減した音声特徴量を生成!
/22
 プリファレンススコア (評価者数7名)
20
0.0 0.2 0.4 0.6 1.00.8
エラーバーは95%信頼区間
0.0 0.2 0.4 0.6 1.00.8
Dual learning
個別学習
Dual learning
個別学習
音声認識・合成モデルの
Dual Learning に関する主観評価 (音声変換の品質)
改善
改善
(a) 話者性
(b) 音質
/2221
目次
 研究背景
 従来のテキスト依存音声変換
 提案法
– コンテキスト事後確率の Seq2Seq 学習
– 音声認識・合成モデルの dual learning
 実験的評価
 まとめ
/22
まとめ
 目的: テキスト依存音声変換の品質改善
 提案法
– (1) コンテキスト事後確率の Seq2Seq 学習
– (2) 音声認識・合成モデルの dual learning
 結果
– Seq2Seq 学習による話者性の改善
– Dual learning による音質・話者性の改善
• 事後確率モデルも含めた dual learning による改善は見られず
 今後の予定
– Seq2Seq 学習を行う場合の系列長決定法に関する調査
22

Más contenido relacionado

La actualidad más candente

日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”Shinnosuke Takamichi
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentationYuki Saito
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討Shinnosuke Takamichi
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現NU_I_TODALAB
 
音声認識の基礎
音声認識の基礎音声認識の基礎
音声認識の基礎Akinori Ito
 
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNAYuki Saito
 
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)貴史 益子
 
Saito20asj_autumn
Saito20asj_autumnSaito20asj_autumn
Saito20asj_autumnYuki Saito
 
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)KoueiYamaoka
 
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムDNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムShinnosuke Takamichi
 
音声の認識と合成
音声の認識と合成音声の認識と合成
音声の認識と合成Akinori Ito
 
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...KoueiYamaoka
 
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...KCS Keio Computer Society
 
音声合成の基礎
音声合成の基礎音声合成の基礎
音声合成の基礎Akinori Ito
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用NU_I_TODALAB
 
Saito21asj Autumn Meeting
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn MeetingYuki Saito
 
日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発Ken IshiKen
 

La actualidad más candente (20)

日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentation
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
音声認識の基礎
音声認識の基礎音声認識の基礎
音声認識の基礎
 
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
 
Saito17asjA
Saito17asjASaito17asjA
Saito17asjA
 
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
 
Saito20asj_autumn
Saito20asj_autumnSaito20asj_autumn
Saito20asj_autumn
 
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2)
 
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムDNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
 
Saito18sp03
Saito18sp03Saito18sp03
Saito18sp03
 
音声の認識と合成
音声の認識と合成音声の認識と合成
音声の認識と合成
 
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
 
Saito19asj_s
Saito19asj_sSaito19asj_s
Saito19asj_s
 
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
 
音声合成の基礎
音声合成の基礎音声合成の基礎
音声合成の基礎
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
 
Saito21asj Autumn Meeting
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn Meeting
 
日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発
 

Similar a miyoshi17sp07

seminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptxseminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptxNatsumi KOBAYASHI
 
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audioDeep Learning JP
 
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」Hiroyuki Miyoshi
 
A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会正志 坪坂
 
Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principleSegmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principleYusuke Matsubara
 
Effective search space reduction for spell correction using character neural ...
Effective search space reduction for spell correction using character neural ...Effective search space reduction for spell correction using character neural ...
Effective search space reduction for spell correction using character neural ...浩気 西山
 
日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討Kosuke Futamata
 
GMMに基づく固有声変換のための変調スペクトル制約付きトラジェクトリ学習・適応
GMMに基づく固有声変換のための変調スペクトル制約付きトラジェクトリ学習・適応GMMに基づく固有声変換のための変調スペクトル制約付きトラジェクトリ学習・適応
GMMに基づく固有声変換のための変調スペクトル制約付きトラジェクトリ学習・適応Shinnosuke Takamichi
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術NU_I_TODALAB
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020Yuki Saito
 
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...Yuki Tomo
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
 
読解支援@2015 05-15
読解支援@2015 05-15読解支援@2015 05-15
読解支援@2015 05-15sekizawayuuki
 
Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介
Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介
Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介Kosuke Futamata
 
Chainer with natural language processing hands on
Chainer with natural language processing hands onChainer with natural language processing hands on
Chainer with natural language processing hands onOgushi Masaya
 
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生Toshihiko Yamasaki
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換NU_I_TODALAB
 

Similar a miyoshi17sp07 (17)

seminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptxseminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptx
 
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio
 
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
 
A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会
 
Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principleSegmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principle
 
Effective search space reduction for spell correction using character neural ...
Effective search space reduction for spell correction using character neural ...Effective search space reduction for spell correction using character neural ...
Effective search space reduction for spell correction using character neural ...
 
日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討
 
GMMに基づく固有声変換のための変調スペクトル制約付きトラジェクトリ学習・適応
GMMに基づく固有声変換のための変調スペクトル制約付きトラジェクトリ学習・適応GMMに基づく固有声変換のための変調スペクトル制約付きトラジェクトリ学習・適応
GMMに基づく固有声変換のための変調スペクトル制約付きトラジェクトリ学習・適応
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020
 
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
読解支援@2015 05-15
読解支援@2015 05-15読解支援@2015 05-15
読解支援@2015 05-15
 
Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介
Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介
Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介
 
Chainer with natural language processing hands on
Chainer with natural language processing hands onChainer with natural language processing hands on
Chainer with natural language processing hands on
 
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
 

Más de Yuki Saito

hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdfYuki Saito
 
fujii22apsipa_asc
fujii22apsipa_ascfujii22apsipa_asc
fujii22apsipa_ascYuki Saito
 
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfnakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfYuki Saito
 
saito22research_talk_at_NUS
saito22research_talk_at_NUSsaito22research_talk_at_NUS
saito22research_talk_at_NUSYuki Saito
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversionYuki Saito
 
Nishimura22slp03 presentation
Nishimura22slp03 presentationNishimura22slp03 presentation
Nishimura22slp03 presentationYuki Saito
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)Yuki Saito
 
Interspeech2020 reading
Interspeech2020 readingInterspeech2020 reading
Interspeech2020 readingYuki Saito
 
Saito20asj s slide_published
Saito20asj s slide_publishedSaito20asj s slide_published
Saito20asj s slide_publishedYuki Saito
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationYuki Saito
 
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会Yuki Saito
 
Saito2017icassp
Saito2017icasspSaito2017icassp
Saito2017icasspYuki Saito
 

Más de Yuki Saito (16)

hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdf
 
fujii22apsipa_asc
fujii22apsipa_ascfujii22apsipa_asc
fujii22apsipa_asc
 
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfnakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
 
saito22research_talk_at_NUS
saito22research_talk_at_NUSsaito22research_talk_at_NUS
saito22research_talk_at_NUS
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
 
Nishimura22slp03 presentation
Nishimura22slp03 presentationNishimura22slp03 presentation
Nishimura22slp03 presentation
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
 
Saito2103slp
Saito2103slpSaito2103slp
Saito2103slp
 
Interspeech2020 reading
Interspeech2020 readingInterspeech2020 reading
Interspeech2020 reading
 
Saito20asj s slide_published
Saito20asj s slide_publishedSaito20asj s slide_published
Saito20asj s slide_published
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
 
Une18apsipa
Une18apsipaUne18apsipa
Une18apsipa
 
Saito18asj_s
Saito18asj_sSaito18asj_s
Saito18asj_s
 
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
 
Saito2017icassp
Saito2017icasspSaito2017icassp
Saito2017icassp
 
Slp201702
Slp201702Slp201702
Slp201702
 

miyoshi17sp07