SlideShare a Scribd company logo
1 of 43
名古屋大学 情報基盤センター / JST さきがけ
WaveNetが音声合成研究に
与える影響
戸田 智基
2018年1月21日
昨年1年間の引用数:185(2018/1/21時点)
音声波形
a r a y u rsil u g e N j i ts u
音素系列
あらゆる 現実無音
単語系列
音声波形を合成するには・・・
文 「あらゆる現実を全て自分の方へ・・・」
• 音声波形の特徴を上手く捉えなければいけない・・・
• 長期に渡る依存関係をどう捉えるか?
• 揺らぎ成分をどう捉えるか?
これら長年の研究課題を解決する技術が2016年9月に提案された!
WaveNet [van den Oord; ’16b] !
概説する内容
1. 従来の代表的な枠組み
2. WaveNet
3. WaveNetの改良
4. WaveNetの応用例
5. WaveNetに対する期待
内容
WaveNetの凄さをお伝えできればと思います!
※サンプルRNNには触れません・・・すみません・・・
概説する内容
1. 従来の代表的な枠組み
2. WaveNet
3. WaveNetの改良
4. WaveNetの応用例
5. WaveNetに対する期待
内容
WaveNetの凄さをお伝えできればと思います!
従来の代表的な枠組み
• 音声波形のパラメータ化
• 波形素片選択&接続
音声波形
短時間フレーム分析
音声パラメータ系列
波形合成処理
ソースフィルタモデル 確率モデルなど
音声波形
ラベリング
波形素片データベース
素片選択&波形接続
素片系列(離散記号列)の選択
波形素片に分解(離散記号化)
1. 従来技術:1
パラメータ化:ソースフィルタモデル
• 音声の生成過程を数理的にモデル化
スペクトル包絡
励振源波形
パルス列
白色雑音
再合成音声波形
合成フィルタ
)(zH
励振源生成部 共振付与部
][*][][ nenhnx 
基本周波数&有声無声
音声パラメータ
][ne
音源信号 * 共振特性 ⇒ 音声波形
1. 従来技術:2
• 確率的手法(線形予測分析 [Itakura; ’68],メル一般化ケプストラム分析 [徳田; ’92])
• 確率的生成モデルのパラメータ推定問題として定式化
• 決定論的手法(STRAIGHT [Kawahara; ’99],WORLD [Morise; ’16],aQHM [Pantazis; ’11])
• 音声信号を正確に表現/再現するパラメータを推定
音声分析技術
e[n]:音源信号
(ガウス雑音)
H(z):共振モデル
(スペクトル包絡)
x[n]:音声信号
(観測データ)
推定
x[n]:音声信号
(観測データ)
基本周波数の抽出
音源信号の
周期成分を除去
共振特性
(スペクトル包絡)
1. 従来技術:3
• 過去の値から現在の値を線形式で予測
• 分析フレーム内にて予測誤差 の二乗和が最小となる
ように線形予測係数を決定 (= FIRフィルタ係数を推定)
• ガウス過程の最尤推定問題として定式化可能
線形予測分析(最尤法)
過去D点の値から
n
現在の値を予測
x[n]x[n-1]x[n-D] ・・・
線形予測係数:
予測値:
[Itakura; ’68]
N
音声波形 FIRフィルタ 予測誤差
1. 従来技術:4
• 誤差信号に逆フィルタを適用することで観測データを生成
• 既に生成された過去の音声波形 を用いて次式の正規分布
からランダムサンプリングする処理と等価
• IIRフィルタのインパルス応答を十分に長い区間で打ち切ればFIRフィルタ
として近似可能
f
dB
1
)( 
zA
自己回帰モデル
音声波形IIRフィルタ予測誤差
N
FIRフィルタ
1. 従来技術:5
解決すべき課題(2016年当初)
• 音声波形のパラメータ化
• フレーム分析における定常性の仮定 [Tokuda; ’15]
• ガウス性の仮定
• 時間構造のモデル化 [Maia; ’13] [Juvela; ’16]
• 揺らぎ成分のモデル化
• 確率的手法では特に励振源パラメータ
• 決定論的手法では特にスペクトルパラメータ [Toda; ’07] [Takamichi; ’16]
• 波形素片選択&接続
• 乏しい柔軟性
• 素片選択関数の設計
2016年当初,決定打は無かった(と思っています)・・・
1. 従来技術:6
概説する内容
1. 従来の代表的な枠組み
2. WaveNet
3. WaveNetの改良
4. WaveNetの応用例
5. WaveNetに対する期待
内容
WaveNetの凄さをお伝えできればと思います!
WaveNetの登場(2016年9月)
WaveNet (deep CNN)
• Dilated causal convolutions
• Residual & skip connections
• Gated activations
長期履歴の使用(例えば,過去3,000サンプル以上)
ランダム
生成
非線形予測
自己回帰モデル(マルコフモデル)
補助特徴量
th
[van den Oord; ’16b]
波形量子化による
離散記号列化
• 多層畳み込みニューラルネットワーク(CNN)を用いた時間波形に対する
確率的生成モデルの実現
の予測分布
2. WaveNet:1
離散記号系列モデリング
• 音声波形を離散記号系列として表現
• μ-law量子化により 16bit 音声波形を256種類の離散記号化
• 距離の概念の消失
• 高次マルコフモデル(=離散記号系列に対する自己回帰モデル)により
離散記号系列の出力確率をモデル化
• 各時刻にて256クラスの分類問題として定式化
a, a, b, c, a, d, d, …
μ-law
量子化
16 bit 音声波形 8 bit 音声波形
離散記号系列
(クラス数256)
記号化
過去全てのサンプルに依存 過去L個のサンプルのみに依存
2. WaveNet:2
[van den Oord; ’16b]
Dilated Causal Convolutions
• 長期の過去のサンプルを考慮した畳み込みの実現
Input
Hidden layer
(dilation = 1)
Hidden layer
(dilation = 2)
Output
(dilation = 4)
3 layers
8×1 の畳み込みを 2×1 の畳み込み3回で実現
2×1の畳み込みの例
チャネル数
特徴量の抽出
過去8サンプル使用
過去4サンプル使用
過去2サンプル使用
2. WaveNet:3
[van den Oord; ’16b]
Stacked Dilated Causal Convolutions
• Dilated Causal Convolution層の積み上げも利用
3 layers
3 layers
Input
Hidden layer
(dilation = 1)
Hidden layer
(dilation = 2)
Hidden layer
(dilation = 4)
Hidden layer
(dilation = 1)
Hidden layer
(dilation = 2)
Output
(dilation = 4)
特徴量の抽出
過去15サンプル使用
過去11サンプル使用
過去9サンプル使用
過去2サンプル使用
過去4サンプル使用
過去8サンプル使用
2. WaveNet:4
ネットワーク構造
Inputs
Residual
block
Toskip
connection
To next residual block
Output
補助特徴量
+
例:10層×3スタック
Residual block1 × 1
Residual block1 × 1
Residual block1 × 1
Residual block1 × 1
Causal
2 ×1 dilated
Gated
1 × 1
1×1
+
+
ReLU
Softmax
1×1
ReLU
1×1
Skip connections [He; ’16]
Gated
activation
[van den Oord; ’16a]
Residual
connection
[He; ’16]
• 各層で抽出された特徴量を用いて出力確率分布を予測
, ,
( )
,
( )
2. WaveNet:5
学習処理と生成処理
• 学習処理
• 離散記号列に対する尤度最大化(=交差エントロピー最小化)
• 生成処理
• 自己回帰モデルとして1サンプルずつランダムサンプリング
既に生成された過去L個のサンプル
時刻 n における予測確率分布(256クラス離散分布)
2. WaveNet:6
生成処理の例
• 既に生成されたシンボル列を用いて次のシンボルを予測しサンプリング
3 layers
3 layers
2. WaveNet:7
生成処理の例
• 既に生成されたシンボル列を用いて次のシンボルを予測しサンプリング
3 layers
3 layers
2. WaveNet:7
生成処理の例
• 既に生成されたシンボル列を用いて次のシンボルを予測しサンプリング
3 layers
3 layers
2. WaveNet:7
生成処理の例
• 既に生成されたシンボル列を用いて次のシンボルを予測しサンプリング
3 layers
3 layers
2. WaveNet:7
生成処理の例
• 既に生成されたシンボル列を用いて次のシンボルを予測しサンプリング
3 layers
3 layers
2. WaveNet:7
生成処理の例
• 既に生成されたシンボル列を用いて次のシンボルを予測しサンプリング
3 layers
3 layers
2. WaveNet:7
生成処理の例
• 既に生成されたシンボル列を用いて次のシンボルを予測しサンプリング
3 layers
3 layers
2. WaveNet:7
生成処理の例
• 既に生成されたシンボル列を用いて次のシンボルを予測しサンプリング
3 layers
3 layers
2. WaveNet:7
従来の枠組みとの比較
• 音声波形のパラメータ化と比べると・・・
• 定常性の仮定 必要 ⇒ 不要!
• ガウス性の仮定 必要 ⇒ 不要!
• 励振源のモデル化 困難 ⇒ 不要!
• 時間構造のモデル化 困難 ⇒ 可能!
• 揺らぎのモデル化 困難 ⇒ 可能!
• 波形素片選択&接続と比べると・・・
• 柔軟性 欠如 ⇒ 保持!
• 最適化 困難 ⇒ 自動!
• 合成処理 選択 ⇒ ランダム生成!
• 最小単位 素片 ⇒ 波形サンプル!
2. WaveNet:8
概説する内容
1. 従来の代表的な枠組み
2. WaveNet
3. WaveNetの改良
4. WaveNetの応用例
5. WaveNetに対する期待
内容
WaveNetの凄さをお伝えできればと思います!
ノイズシェイピング
• 音声波形の離散記号列化に伴い発生する誤差への対処
• 量子化誤差と予測誤差が発生
• 誤差が聴感上目立たないように誤差の周波数特性を制御
• 予測誤差および量子化誤差に対する適用 [橘; ’17]
• 量子化誤差に対する適用 [吉村; ’17]
次のセッションにて発表あり!
Frequency
Power
音声
誤差
Frequency
Power
音声
誤差
聴覚マスキングにより
目立たなくなる
3. WaveNetの改良:1
帯域分割処理
• 高サンプリング周波数&低演算量の実現
• 1/M 倍の長さの音声波形に分割してモデル化
[Okamoto; ’17]
48 kHz サンプリング音声波形 :
単側波帯変調分析フィルタリング
↓M ↓M ↓M
: /
( )
: /
( )
: /
( )
WaveNet 1 WaveNet 2 WaveNet B
学習処理
48 kHz サンプリング音声波形 :
単側波帯変調合成フィルタリング
↑M ↑M ↑M
: /
( )
: /
( )
: /
( )
WaveNet 1 WaveNet 2 WaveNet B
合成処理
フィルタ特性を工夫することでWaveNetのモデル化精度が向上する傾向あり
3. WaveNetの改良:2
高品質化:16 bit量子化波形のモデル化
• 混合離散化ロジスティック分布 [Salimans; ’17] による量子化波形の確率密度
モデリング
• サンプリング周波数の変更(16 kHz から 22.05 kHz へ)
• Dilated causal convolutions における dilation を 2l から 3l へ
[van den Oord; ’17b]
: : :
(単一)離散化ロジスティック分布の例
0 2 4-2
0
1
0 2 4-2
0
1
0 2 4-2
0
1
3. WaveNetの改良:3
高速化:パラレルWaveNet
• Inverse-autoregressive flows [Kingma; ’16] の導入(IIRフィルタ ⇒ FIRフィルタ)
• 雑音源 : に対するフィルタリングにより音声波形 : を一括生成
[van den Oord; ’17b]
各時刻 n におけるフィルタリングパラメータを
雑音源 からWaveNet で推定
Input noise
Hidden layer
(dilation = 1)
Hidden layer
(dilation = 2)
Output
(dilation = 4)
雑音源波形を生成
※実際はスタックさせることで長期の依存関係をモデル化
3. WaveNetの改良:4
確率密度蒸留によるパラレルWaveNet学習
• 通常のWaveNetを教師としてパラレルWaveNet(生徒)を学習
• 生徒WaveNet : と教師WaveNet : の出力確率密度分布間の
KLダイバージェンスの最小化
[van den Oord; ’17b]
: : : : :
音声波形 : に依存 雑音源 : にのみ依存
雑音源波形 :
生成音声波形 : (と確率分布)
生成音声波形の確率分布
教師WaveNet
生徒WaveNet
生徒WaveNetの
出力から計算可能
生徒WaveNetで生成された
波形に対する生徒/教師
WaveNetの出力確率分布を
用いて計算可能
※この他にもスペクトル
距離など様々な尺度を
同時に考慮して学習
3. WaveNetの改良:5
概説する内容
1. 従来の代表的な枠組み
2. WaveNet
3. WaveNetの改良
4. WaveNetの応用例
5. WaveNetに対する期待
目次
WaveNetの凄さをお伝えできればと思います!
WaveNetボコーダ
• ソースフィルタモデルの代わりにWaveNetで波形合成
• 音声パラメータから波形を生成するボコーダとして利用
• 音声パラメータ操作による音声加工処理が可能
• 既存のシステムに対して容易に適用可能
• 現状の結果
• 話者依存モデルにおいて自然音声と遜色ない合成音声を生成可能
• 話者非依存モデルの有効性も確認
[Tamamori; ’17] [Hayashi; ’17]
音声パラメータ系列を
補助特徴量として入力
WaveNet
ボコーダ
合成音声波形
次のセッションにて発表あり!
4. WaveNetの応用例:1
テキスト音声合成&声質変換
• WaveNetボコーダの適用
• 音声パラメータ系列モデリング+WaveNetボコーダ [Arik; ’17] [Shen; ’17]
[Kobayashi; ’17]
• 変換処理/合成処理もWaveNetに統合
• コンテキスト情報から合成音声波形を生成 [van den Oord; ’16b]
• 入力音声パラメータ系列から変換音声波形を生成 [Niwa; ’17]
音声パラメータ
系列
音声波形
既存の合成法
/変換法
入力特徴量系列 WaveNet 音声波形既存の分析法
次のセッションにて発表あり!
WaveNet
ボコーダ
4. WaveNetの応用例:2
• 狭帯域音声から広帯域音声を推定 [Gu; ’17]
• Dilated non-causal convolutionsを利用
• 雑音環境下の音声からクリーン音声を推定
• Dilated non-causal convolutionsを利用 [Rethage; ’17]
• Dilated causal convolutionsも事前分布モデリングに利用 [Qian; ’17]
帯域拡張/音声強調
4. WaveNetの応用例:3
狭帯域音声波形 :
広帯域音声波形 :
雑音環境下音声波形 :
クリーン音声波形 :
推定されたクリーン音声波形 :
クリーン音声波形 :
ベイズ推定
分析/変換/合成:VQ-VAE
• Dilated convolutionsにより音声波形の長期依存関係を捉える離散記号列
への符号化を実現
• 韻律特徴も込みで符号化を実現
• 言語記号との対応の良い離散記号列を抽出
• WaveNetによる事前分布も構築可能
• 話者性情報を与えることで話者性と言語情報を分離可能
• 韻律特徴も込みで声質変換を実現
[van den Oord; ’17a]
4. WaveNetの応用例:4
音声波形
潜在ベクトル系列
ベクトル
量子化
離散記号列
再合成音声波形
エンコーダ デコーダ
埋め込み
ベクトルセット
WaveNetによる
事前分布
話者情報
概説する内容
1. 従来の代表的な枠組み
2. WaveNet
3. WaveNetの改良
4. WaveNetの応用例
5. WaveNetに対する期待
内容
WaveNetの凄さをお伝えできればと思います!
WaveNetにより何が解けたのか?
• ソースフィルタモデルの近似が不要となった!
• 音声に限らず様々な波形に対しても適用可能
• 部分的ではなく完全なランダム生成が可能となった!
• 揺らぎ成分を高精度にモデル化可能
• 長期に渡る音声波形の依存関係をモデル化できるようになった!
• ランダム生成しても音声らしい波形を生成可能
• 時間構造もモデル化できるようになった!
• 波形素片選択&接続の利点を保持した確率的生成モデルの実現
• 音声分野への新規参入のハードルが下がった!
• 音声に関する専門的な知識が無くても利用可能
5. WaveNetへの期待:1
WaveNetに対する期待
• 汎用ボコーダの実現
• できれば物理的制約を捉えて欲しい・・・
• 汎用波形生成器の実現
• 制御性能を保持した枠組みを実現したい・・・
• 高速化,演算量低減,短遅延処理の実現
• リアルタイムアプリケーションを実現したい・・・
• 音声合成研究のさらなる活性化,裾野の拡大
• 小学生が夏休みの宿題で音声合成システムを作る時代が来るかも・・・
WaveNetは機械学習分野からの素晴らしいプレゼント!
次は音声研究者の腕の見せどころ(専門知識を活かして
改善できる可能性はあると思います)!
5. WaveNetへの期待:2
[Arik; ’17] S. Arik, M. Chrzanowski, A. Coates, G. Diamos, A. Gibiansky, Y. Kang, X. Li, J. Miller, A. Ng, J.
Raiman, S. Sengupta, M. Shoeybi. Deep Voice: real-time neural text-to-speech. arXiv preprint,
arXiv:1702.07825, 2017.
[Gu; ’17] Y. Gu, Z. Ling. Waveform modeling using stacked dilated convolutional neural networks for speech
bandwidth extension. Proc. INTERSPEECH, pp. 1123–1127, 2017.
[Hayashi; ’17] T. Hayashi, A. Tamamori, K. Kobayashi, K. Takeda, T. Toda. An investigation of multi-speaker
training for WaveNet vocoder. Proc. IEEE ASRU, pp. 712–718, 2017.
[He; ’16] K. He, X. Zhang, S. Ren, J. Sun. Deep residual learning for image recognition. Proc. CVPR, pp. 770–
778, 2016.
[Itakura; ’68] F. Itakura, S. Saito. Analysis synthesis telephony based upon the maximum likelihood method.
Proc. ICA, C-5-5, pp. C17–20, 1968.
[Juvela; ’16] L. Juvela, B. Bollepalli, M. Airaksinen, P. Alku. High-pitched excitation generation for glottal
vocoding in statistical parametric speech synthesis using a deep neural network. Proc. IEEE ICASSP, pp.
5120–5124, 2016.
[Kawahara; ’99] H. Kawahara, I. Masuda-Katsuse, A. Cheveign′e. Restructuring speech representations
using a pitch-adaptive timefrequency smoothing and an instantaneous-frequency-based F0 extraction:
Possible role of a repetitive structure in sounds. Speech Communication, Vol. 27, No. 3–4, pp. 187–207,
1999.
[Kingma; ’16] D.P. Kingma, T. Salimans, M. Welling. Improving variational inference with inverse
autoregressive flow. arXiv preprint, arXiv:1606.04934, 2016.
参考文献
References: 1
[Kobayashi; ’17] K. Kobayashi, T. Hayashi, A. Tamamori, T. Toda. Statistical voice conversion with WaveNet-
based waveform generation. Proc. INTERSPEECH, pp. 1138–1142, 2017.
[Maia; ’13] R. Maia, M. Akamine, M. Gales. Complex cepstrum for statistical parametric speech synthesis.
Speech Communication, Vol. 55, No. 5, pp. 606–618, 2013.
[Morise; ’16] M. Morise, F. Yokomori, K. Ozawa. WORLD: a vocoderbased high-quality speech synthesis
system for real-time applications. IEICE trans. inf. & syst., Vol. E99-D, No. 7, pp. 1877–1884, 2016.
[Niwa; ’17] J. Niwa,T. Yoshimura,K. Hashimoto,K. Oura,Y. Nankaku,K. Tokuda. WaveNet-based voice
conversion. 音講論, 1-8-15, pp. 207–208, Sep. 2017.
[Okamoto; ’17] T. Okamoto, K. Tachibana, T. Toda, Y. Shiga, H. Kawai. Subband WaveNet with overlapped
single-sideband filterbanks. Proc. IEEE ASRU, pp. 698–704, 2017.
[Pantazis; ’11] Y. Pantazis, O. Rosec, Y. Stylianou. Adaptive AM–FM signal decomposition with application to
speech analysis. IEEE Trans. on Audio, Speech, & Lang. Process., Vol. 19, No. 2, pp. 290–300, 2011.
[Qian; ’17] K. Qian, Y. Zhang, S. Chang, X. Yang, D. Florêncio, M. Hasegawa-Johnson. Speech enhancement
using bayesian WaveNet. Proc. INTERSPEECH, pp. 2013–2017, 2017.
[Rethage; ’17] D. Rethage, J. Pons, X. Serra. A WaveNet for speech denoising. arXiv preprint,
arXiv:1706.07162, 2017
[Salimans; ’17] T. Salimans, A. Karpathy, X. Chen, D.P. Kingma. PixelCNN++: improving the pixelCNN with
discretized logistic mixture likelihood and other modifications. arXiv preprint, arXiv:1701.05517, 2017.
[Shen; ’17] J. Shen, R. Pang, R.J. Weiss, M. Schuster, N. Jaitly, Z. Yang, Z. Chen, Y. Zhang, Y. Wang, R. Skerry-
Ryan, R.A. Saurous, Y. Agiomyrgiannakis, Y. Wu. Natural TTS synthesis by conditioning WaveNet on mel
spectrogram predictions. arXiv preprint, arXiv:1712.05884, 2017.
[Takamichi; ’16] S. Takamichi, T. Toda, A.W. Black, G. Neubig, S. Sakti, S. Nakamura. Post-filters to modify
the modulation spectrum for statistical parametric speech synthesis. IEEE/ACM Trans. Audio, Speech &
Lang. Process., Vol. 24, No. 4, pp. 755–767, 2016.
References: 2
[橘; ’17] 橘 健太郎, 戸田 智基, 志賀 芳則, 河井 恒. WaveNetにおける音声波形量子化法の評価. 音講
論, 1-Q-28, pp. 291–294, Mar. 2017.
[Tamamori; ’17] A. Tamamori, T. Hayashi, K. Kobayashi, K. Takeda, T. Toda. Speaker-dependent WaveNet
vocoder. Proc. INTERSPEECH, pp. 1118–1122, 2017.
[Toda; ’07] T. Toda, A.W. Black, K. Tokuda. Voice conversion based on maximum likelihood estimation of
spectral parameter trajectory. IEEE Trans. Audio, Speech & Lang. Process., Vol. 15, No. 8, pp. 2222–2235,
2007.
[Tokuda; ’15] K. Tokuda, H. Zen. Directly modeling speech waveforms by neural networks for statistical
parametric speech synthesis. Proc. IEEE ICASSP, pp. 4215–4219, 2015
[徳田; ’92] 徳田 恵一, 小林 隆夫, 千葉 健司, 今井 聖. メル一般化ケプス トラム分析による音声のスペク
トル推定. 信学論(A), Vol. J75-A, No. 7, pp. 1124–1134, 1992.
[van den Oord; ’16a] A. van den Oord, N. Kalchbrenner, O. Vinyals, L. Espeholt, A. Graves, K. Kavukcuoglu.
Conditional image generation with PixelCNN decoders. arXiv preprint, arXiv:1606.05328, 2016.
[van den Oord; ’16b] A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N.
Kalchbrenner, A. Senior, K. Kavukcuoglu. Wavenet: a generative model for raw audio. arXiv preprint,
arXiv:1609.03499, 2016.
[van den Oord; ’17a] A. van den Oord, O. Vinyals, K. Kavukcuoglu. Neural discrete representation learning.
arXiv preprint, arXiv:1711.00937, 2017.
[van den Oord; ’17b] A. van den Oord, Y. Li, I. Babuschkin, K. Simonyan, O. Vinyals, K. Kavukcuoglu, G. van
den Driessche, E. Lockhart, L.C. Cobo, F. Stimberg, N. Casagrande, D. Grewe, S. Noury, S. Dieleman, E. Elsen,
N. Kalchbrenner, H. Zen, A. Graves, H. King, T. Walters, D. Belov, D. Hassabis. Parallel WaveNet: fast high-
fidelity speech synthesis. arXiv preprint, arXiv:1711.10433, 2017.
[吉村; ’17] 吉村 建慶, 橋本 佳, 大浦 圭一郎, 南角 吉彦, 徳田 恵一. WaveNetにおけるメルケプストラム
に基づくノイズシェーピング量子化法の適用. 音講論, 1-8-8, pp. 193–194, Sep. 2017.
References: 3

More Related Content

What's hot

Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversionYuki Saito
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調Yuma Koizumi
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術Yuma Koizumi
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~Yui Sudo
 
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...Deep Learning JP
 
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech RecognitionYosukeKashiwagi1
 
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)Daichi Kitamura
 
敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワークNU_I_TODALAB
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析Shinnosuke Takamichi
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
 
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価Daichi Kitamura
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法Shinnosuke Takamichi
 
論文紹介:Temporal Action Segmentation: An Analysis of Modern Techniques
論文紹介:Temporal Action Segmentation: An Analysis of Modern Techniques論文紹介:Temporal Action Segmentation: An Analysis of Modern Techniques
論文紹介:Temporal Action Segmentation: An Analysis of Modern TechniquesToru Tamaki
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選Yusuke Uchida
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイcvpaper. challenge
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)Shinnosuke Takamichi
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離NU_I_TODALAB
 
微分可能な信号処理に基づく音声合成器を用いた DNN 音声パラメータ推定の検討
微分可能な信号処理に基づく音声合成器を用いた DNN 音声パラメータ推定の検討微分可能な信号処理に基づく音声合成器を用いた DNN 音声パラメータ推定の検討
微分可能な信号処理に基づく音声合成器を用いた DNN 音声パラメータ推定の検討Yuta Matsunaga
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)Yuki Saito
 

What's hot (20)

Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
 
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
 
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
 
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
 
敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 
論文紹介:Temporal Action Segmentation: An Analysis of Modern Techniques
論文紹介:Temporal Action Segmentation: An Analysis of Modern Techniques論文紹介:Temporal Action Segmentation: An Analysis of Modern Techniques
論文紹介:Temporal Action Segmentation: An Analysis of Modern Techniques
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離
 
微分可能な信号処理に基づく音声合成器を用いた DNN 音声パラメータ推定の検討
微分可能な信号処理に基づく音声合成器を用いた DNN 音声パラメータ推定の検討微分可能な信号処理に基づく音声合成器を用いた DNN 音声パラメータ推定の検討
微分可能な信号処理に基づく音声合成器を用いた DNN 音声パラメータ推定の検討
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
 

Similar to WaveNetが音声合成研究に与える影響

Thesis introduction audo_signal_processing
Thesis introduction audo_signal_processingThesis introduction audo_signal_processing
Thesis introduction audo_signal_processingMakotoShirasu
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査Tomoki Hayashi
 
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成Shinnosuke Takamichi
 
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...Deep Learning JP
 
Icassp2018 発表参加報告 FFTNet, Tactron2紹介
Icassp2018 発表参加報告 FFTNet, Tactron2紹介Icassp2018 発表参加報告 FFTNet, Tactron2紹介
Icassp2018 発表参加報告 FFTNet, Tactron2紹介Kentaro Tachibana
 
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...Yui Sudo
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~nlab_utokyo
 
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...Deep Learning JP
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告Shinnosuke Takamichi
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法Deep Learning JP
 
ICASSP2019 音声&音響読み会 テーマ発表音声生成
ICASSP2019 音声&音響読み会 テーマ発表音声生成ICASSP2019 音声&音響読み会 テーマ発表音声生成
ICASSP2019 音声&音響読み会 テーマ発表音声生成Kentaro Tachibana
 
LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要Kenji Urai
 
日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"
日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"
日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"Shinnosuke Takamichi
 
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...Deep Learning JP
 
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...Deep Learning JP
 
Proof summit2014mizar
Proof summit2014mizarProof summit2014mizar
Proof summit2014mizarAlcor80UMa
 
第64回情報科学談話会(岡﨑 直観 准教授)
第64回情報科学談話会(岡﨑 直観 准教授) 第64回情報科学談話会(岡﨑 直観 准教授)
第64回情報科学談話会(岡﨑 直観 准教授) gsis gsis
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...Daichi Kitamura
 

Similar to WaveNetが音声合成研究に与える影響 (20)

Thesis introduction audo_signal_processing
Thesis introduction audo_signal_processingThesis introduction audo_signal_processing
Thesis introduction audo_signal_processing
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
 
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成
 
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
 
Icassp2018 発表参加報告 FFTNet, Tactron2紹介
Icassp2018 発表参加報告 FFTNet, Tactron2紹介Icassp2018 発表参加報告 FFTNet, Tactron2紹介
Icassp2018 発表参加報告 FFTNet, Tactron2紹介
 
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
 
hosokawa m
hosokawa mhosokawa m
hosokawa m
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
 
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
【DL輪読会】“Gestalt Principles Emerge When Learning Universal Sound Source Separa...
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
 
ICASSP2019 音声&音響読み会 テーマ発表音声生成
ICASSP2019 音声&音響読み会 テーマ発表音声生成ICASSP2019 音声&音響読み会 テーマ発表音声生成
ICASSP2019 音声&音響読み会 テーマ発表音声生成
 
LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要
 
日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"
日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"
日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"
 
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
 
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
 
Proof summit2014mizar
Proof summit2014mizarProof summit2014mizar
Proof summit2014mizar
 
第64回情報科学談話会(岡﨑 直観 准教授)
第64回情報科学談話会(岡﨑 直観 准教授) 第64回情報科学談話会(岡﨑 直観 准教授)
第64回情報科学談話会(岡﨑 直観 准教授)
 
MIRU2014 tutorial deeplearning
MIRU2014 tutorial deeplearningMIRU2014 tutorial deeplearning
MIRU2014 tutorial deeplearning
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
 

More from NU_I_TODALAB

異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例NU_I_TODALAB
 
The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022NU_I_TODALAB
 
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知NU_I_TODALAB
 
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...NU_I_TODALAB
 
Interactive voice conversion for augmented speech production
Interactive voice conversion for augmented speech productionInteractive voice conversion for augmented speech production
Interactive voice conversion for augmented speech productionNU_I_TODALAB
 
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトCREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトNU_I_TODALAB
 
Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?NU_I_TODALAB
 
Weakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-AttentionWeakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-AttentionNU_I_TODALAB
 
Statistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modelingStatistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modelingNU_I_TODALAB
 
音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識NU_I_TODALAB
 
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法NU_I_TODALAB
 
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークEnd-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークNU_I_TODALAB
 
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法NU_I_TODALAB
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元NU_I_TODALAB
 
Hands on Voice Conversion
Hands on Voice ConversionHands on Voice Conversion
Hands on Voice ConversionNU_I_TODALAB
 
Advanced Voice Conversion
Advanced Voice ConversionAdvanced Voice Conversion
Advanced Voice ConversionNU_I_TODALAB
 
Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法NU_I_TODALAB
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換NU_I_TODALAB
 
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...NU_I_TODALAB
 
喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法NU_I_TODALAB
 

More from NU_I_TODALAB (20)

異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
 
The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022
 
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知
 
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
 
Interactive voice conversion for augmented speech production
Interactive voice conversion for augmented speech productionInteractive voice conversion for augmented speech production
Interactive voice conversion for augmented speech production
 
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトCREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
 
Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?
 
Weakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-AttentionWeakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-Attention
 
Statistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modelingStatistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modeling
 
音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識
 
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
 
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークEnd-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
 
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
 
Hands on Voice Conversion
Hands on Voice ConversionHands on Voice Conversion
Hands on Voice Conversion
 
Advanced Voice Conversion
Advanced Voice ConversionAdvanced Voice Conversion
Advanced Voice Conversion
 
Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
 
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
 
喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法
 

WaveNetが音声合成研究に与える影響

  • 1. 名古屋大学 情報基盤センター / JST さきがけ WaveNetが音声合成研究に 与える影響 戸田 智基 2018年1月21日 昨年1年間の引用数:185(2018/1/21時点)
  • 2. 音声波形 a r a y u rsil u g e N j i ts u 音素系列 あらゆる 現実無音 単語系列 音声波形を合成するには・・・ 文 「あらゆる現実を全て自分の方へ・・・」 • 音声波形の特徴を上手く捉えなければいけない・・・ • 長期に渡る依存関係をどう捉えるか? • 揺らぎ成分をどう捉えるか? これら長年の研究課題を解決する技術が2016年9月に提案された! WaveNet [van den Oord; ’16b] !
  • 3. 概説する内容 1. 従来の代表的な枠組み 2. WaveNet 3. WaveNetの改良 4. WaveNetの応用例 5. WaveNetに対する期待 内容 WaveNetの凄さをお伝えできればと思います! ※サンプルRNNには触れません・・・すみません・・・
  • 4. 概説する内容 1. 従来の代表的な枠組み 2. WaveNet 3. WaveNetの改良 4. WaveNetの応用例 5. WaveNetに対する期待 内容 WaveNetの凄さをお伝えできればと思います!
  • 5. 従来の代表的な枠組み • 音声波形のパラメータ化 • 波形素片選択&接続 音声波形 短時間フレーム分析 音声パラメータ系列 波形合成処理 ソースフィルタモデル 確率モデルなど 音声波形 ラベリング 波形素片データベース 素片選択&波形接続 素片系列(離散記号列)の選択 波形素片に分解(離散記号化) 1. 従来技術:1
  • 7. • 確率的手法(線形予測分析 [Itakura; ’68],メル一般化ケプストラム分析 [徳田; ’92]) • 確率的生成モデルのパラメータ推定問題として定式化 • 決定論的手法(STRAIGHT [Kawahara; ’99],WORLD [Morise; ’16],aQHM [Pantazis; ’11]) • 音声信号を正確に表現/再現するパラメータを推定 音声分析技術 e[n]:音源信号 (ガウス雑音) H(z):共振モデル (スペクトル包絡) x[n]:音声信号 (観測データ) 推定 x[n]:音声信号 (観測データ) 基本周波数の抽出 音源信号の 周期成分を除去 共振特性 (スペクトル包絡) 1. 従来技術:3
  • 8. • 過去の値から現在の値を線形式で予測 • 分析フレーム内にて予測誤差 の二乗和が最小となる ように線形予測係数を決定 (= FIRフィルタ係数を推定) • ガウス過程の最尤推定問題として定式化可能 線形予測分析(最尤法) 過去D点の値から n 現在の値を予測 x[n]x[n-1]x[n-D] ・・・ 線形予測係数: 予測値: [Itakura; ’68] N 音声波形 FIRフィルタ 予測誤差 1. 従来技術:4
  • 9. • 誤差信号に逆フィルタを適用することで観測データを生成 • 既に生成された過去の音声波形 を用いて次式の正規分布 からランダムサンプリングする処理と等価 • IIRフィルタのインパルス応答を十分に長い区間で打ち切ればFIRフィルタ として近似可能 f dB 1 )(  zA 自己回帰モデル 音声波形IIRフィルタ予測誤差 N FIRフィルタ 1. 従来技術:5
  • 10. 解決すべき課題(2016年当初) • 音声波形のパラメータ化 • フレーム分析における定常性の仮定 [Tokuda; ’15] • ガウス性の仮定 • 時間構造のモデル化 [Maia; ’13] [Juvela; ’16] • 揺らぎ成分のモデル化 • 確率的手法では特に励振源パラメータ • 決定論的手法では特にスペクトルパラメータ [Toda; ’07] [Takamichi; ’16] • 波形素片選択&接続 • 乏しい柔軟性 • 素片選択関数の設計 2016年当初,決定打は無かった(と思っています)・・・ 1. 従来技術:6
  • 11. 概説する内容 1. 従来の代表的な枠組み 2. WaveNet 3. WaveNetの改良 4. WaveNetの応用例 5. WaveNetに対する期待 内容 WaveNetの凄さをお伝えできればと思います!
  • 12. WaveNetの登場(2016年9月) WaveNet (deep CNN) • Dilated causal convolutions • Residual & skip connections • Gated activations 長期履歴の使用(例えば,過去3,000サンプル以上) ランダム 生成 非線形予測 自己回帰モデル(マルコフモデル) 補助特徴量 th [van den Oord; ’16b] 波形量子化による 離散記号列化 • 多層畳み込みニューラルネットワーク(CNN)を用いた時間波形に対する 確率的生成モデルの実現 の予測分布 2. WaveNet:1
  • 13. 離散記号系列モデリング • 音声波形を離散記号系列として表現 • μ-law量子化により 16bit 音声波形を256種類の離散記号化 • 距離の概念の消失 • 高次マルコフモデル(=離散記号系列に対する自己回帰モデル)により 離散記号系列の出力確率をモデル化 • 各時刻にて256クラスの分類問題として定式化 a, a, b, c, a, d, d, … μ-law 量子化 16 bit 音声波形 8 bit 音声波形 離散記号系列 (クラス数256) 記号化 過去全てのサンプルに依存 過去L個のサンプルのみに依存 2. WaveNet:2 [van den Oord; ’16b]
  • 14. Dilated Causal Convolutions • 長期の過去のサンプルを考慮した畳み込みの実現 Input Hidden layer (dilation = 1) Hidden layer (dilation = 2) Output (dilation = 4) 3 layers 8×1 の畳み込みを 2×1 の畳み込み3回で実現 2×1の畳み込みの例 チャネル数 特徴量の抽出 過去8サンプル使用 過去4サンプル使用 過去2サンプル使用 2. WaveNet:3 [van den Oord; ’16b]
  • 15. Stacked Dilated Causal Convolutions • Dilated Causal Convolution層の積み上げも利用 3 layers 3 layers Input Hidden layer (dilation = 1) Hidden layer (dilation = 2) Hidden layer (dilation = 4) Hidden layer (dilation = 1) Hidden layer (dilation = 2) Output (dilation = 4) 特徴量の抽出 過去15サンプル使用 過去11サンプル使用 過去9サンプル使用 過去2サンプル使用 過去4サンプル使用 過去8サンプル使用 2. WaveNet:4
  • 16. ネットワーク構造 Inputs Residual block Toskip connection To next residual block Output 補助特徴量 + 例:10層×3スタック Residual block1 × 1 Residual block1 × 1 Residual block1 × 1 Residual block1 × 1 Causal 2 ×1 dilated Gated 1 × 1 1×1 + + ReLU Softmax 1×1 ReLU 1×1 Skip connections [He; ’16] Gated activation [van den Oord; ’16a] Residual connection [He; ’16] • 各層で抽出された特徴量を用いて出力確率分布を予測 , , ( ) , ( ) 2. WaveNet:5
  • 17. 学習処理と生成処理 • 学習処理 • 離散記号列に対する尤度最大化(=交差エントロピー最小化) • 生成処理 • 自己回帰モデルとして1サンプルずつランダムサンプリング 既に生成された過去L個のサンプル 時刻 n における予測確率分布(256クラス離散分布) 2. WaveNet:6
  • 26. 従来の枠組みとの比較 • 音声波形のパラメータ化と比べると・・・ • 定常性の仮定 必要 ⇒ 不要! • ガウス性の仮定 必要 ⇒ 不要! • 励振源のモデル化 困難 ⇒ 不要! • 時間構造のモデル化 困難 ⇒ 可能! • 揺らぎのモデル化 困難 ⇒ 可能! • 波形素片選択&接続と比べると・・・ • 柔軟性 欠如 ⇒ 保持! • 最適化 困難 ⇒ 自動! • 合成処理 選択 ⇒ ランダム生成! • 最小単位 素片 ⇒ 波形サンプル! 2. WaveNet:8
  • 27. 概説する内容 1. 従来の代表的な枠組み 2. WaveNet 3. WaveNetの改良 4. WaveNetの応用例 5. WaveNetに対する期待 内容 WaveNetの凄さをお伝えできればと思います!
  • 28. ノイズシェイピング • 音声波形の離散記号列化に伴い発生する誤差への対処 • 量子化誤差と予測誤差が発生 • 誤差が聴感上目立たないように誤差の周波数特性を制御 • 予測誤差および量子化誤差に対する適用 [橘; ’17] • 量子化誤差に対する適用 [吉村; ’17] 次のセッションにて発表あり! Frequency Power 音声 誤差 Frequency Power 音声 誤差 聴覚マスキングにより 目立たなくなる 3. WaveNetの改良:1
  • 29. 帯域分割処理 • 高サンプリング周波数&低演算量の実現 • 1/M 倍の長さの音声波形に分割してモデル化 [Okamoto; ’17] 48 kHz サンプリング音声波形 : 単側波帯変調分析フィルタリング ↓M ↓M ↓M : / ( ) : / ( ) : / ( ) WaveNet 1 WaveNet 2 WaveNet B 学習処理 48 kHz サンプリング音声波形 : 単側波帯変調合成フィルタリング ↑M ↑M ↑M : / ( ) : / ( ) : / ( ) WaveNet 1 WaveNet 2 WaveNet B 合成処理 フィルタ特性を工夫することでWaveNetのモデル化精度が向上する傾向あり 3. WaveNetの改良:2
  • 30. 高品質化:16 bit量子化波形のモデル化 • 混合離散化ロジスティック分布 [Salimans; ’17] による量子化波形の確率密度 モデリング • サンプリング周波数の変更(16 kHz から 22.05 kHz へ) • Dilated causal convolutions における dilation を 2l から 3l へ [van den Oord; ’17b] : : : (単一)離散化ロジスティック分布の例 0 2 4-2 0 1 0 2 4-2 0 1 0 2 4-2 0 1 3. WaveNetの改良:3
  • 31. 高速化:パラレルWaveNet • Inverse-autoregressive flows [Kingma; ’16] の導入(IIRフィルタ ⇒ FIRフィルタ) • 雑音源 : に対するフィルタリングにより音声波形 : を一括生成 [van den Oord; ’17b] 各時刻 n におけるフィルタリングパラメータを 雑音源 からWaveNet で推定 Input noise Hidden layer (dilation = 1) Hidden layer (dilation = 2) Output (dilation = 4) 雑音源波形を生成 ※実際はスタックさせることで長期の依存関係をモデル化 3. WaveNetの改良:4
  • 32. 確率密度蒸留によるパラレルWaveNet学習 • 通常のWaveNetを教師としてパラレルWaveNet(生徒)を学習 • 生徒WaveNet : と教師WaveNet : の出力確率密度分布間の KLダイバージェンスの最小化 [van den Oord; ’17b] : : : : : 音声波形 : に依存 雑音源 : にのみ依存 雑音源波形 : 生成音声波形 : (と確率分布) 生成音声波形の確率分布 教師WaveNet 生徒WaveNet 生徒WaveNetの 出力から計算可能 生徒WaveNetで生成された 波形に対する生徒/教師 WaveNetの出力確率分布を 用いて計算可能 ※この他にもスペクトル 距離など様々な尺度を 同時に考慮して学習 3. WaveNetの改良:5
  • 33. 概説する内容 1. 従来の代表的な枠組み 2. WaveNet 3. WaveNetの改良 4. WaveNetの応用例 5. WaveNetに対する期待 目次 WaveNetの凄さをお伝えできればと思います!
  • 34. WaveNetボコーダ • ソースフィルタモデルの代わりにWaveNetで波形合成 • 音声パラメータから波形を生成するボコーダとして利用 • 音声パラメータ操作による音声加工処理が可能 • 既存のシステムに対して容易に適用可能 • 現状の結果 • 話者依存モデルにおいて自然音声と遜色ない合成音声を生成可能 • 話者非依存モデルの有効性も確認 [Tamamori; ’17] [Hayashi; ’17] 音声パラメータ系列を 補助特徴量として入力 WaveNet ボコーダ 合成音声波形 次のセッションにて発表あり! 4. WaveNetの応用例:1
  • 35. テキスト音声合成&声質変換 • WaveNetボコーダの適用 • 音声パラメータ系列モデリング+WaveNetボコーダ [Arik; ’17] [Shen; ’17] [Kobayashi; ’17] • 変換処理/合成処理もWaveNetに統合 • コンテキスト情報から合成音声波形を生成 [van den Oord; ’16b] • 入力音声パラメータ系列から変換音声波形を生成 [Niwa; ’17] 音声パラメータ 系列 音声波形 既存の合成法 /変換法 入力特徴量系列 WaveNet 音声波形既存の分析法 次のセッションにて発表あり! WaveNet ボコーダ 4. WaveNetの応用例:2
  • 36. • 狭帯域音声から広帯域音声を推定 [Gu; ’17] • Dilated non-causal convolutionsを利用 • 雑音環境下の音声からクリーン音声を推定 • Dilated non-causal convolutionsを利用 [Rethage; ’17] • Dilated causal convolutionsも事前分布モデリングに利用 [Qian; ’17] 帯域拡張/音声強調 4. WaveNetの応用例:3 狭帯域音声波形 : 広帯域音声波形 : 雑音環境下音声波形 : クリーン音声波形 : 推定されたクリーン音声波形 : クリーン音声波形 : ベイズ推定
  • 37. 分析/変換/合成:VQ-VAE • Dilated convolutionsにより音声波形の長期依存関係を捉える離散記号列 への符号化を実現 • 韻律特徴も込みで符号化を実現 • 言語記号との対応の良い離散記号列を抽出 • WaveNetによる事前分布も構築可能 • 話者性情報を与えることで話者性と言語情報を分離可能 • 韻律特徴も込みで声質変換を実現 [van den Oord; ’17a] 4. WaveNetの応用例:4 音声波形 潜在ベクトル系列 ベクトル 量子化 離散記号列 再合成音声波形 エンコーダ デコーダ 埋め込み ベクトルセット WaveNetによる 事前分布 話者情報
  • 38. 概説する内容 1. 従来の代表的な枠組み 2. WaveNet 3. WaveNetの改良 4. WaveNetの応用例 5. WaveNetに対する期待 内容 WaveNetの凄さをお伝えできればと思います!
  • 39. WaveNetにより何が解けたのか? • ソースフィルタモデルの近似が不要となった! • 音声に限らず様々な波形に対しても適用可能 • 部分的ではなく完全なランダム生成が可能となった! • 揺らぎ成分を高精度にモデル化可能 • 長期に渡る音声波形の依存関係をモデル化できるようになった! • ランダム生成しても音声らしい波形を生成可能 • 時間構造もモデル化できるようになった! • 波形素片選択&接続の利点を保持した確率的生成モデルの実現 • 音声分野への新規参入のハードルが下がった! • 音声に関する専門的な知識が無くても利用可能 5. WaveNetへの期待:1
  • 40. WaveNetに対する期待 • 汎用ボコーダの実現 • できれば物理的制約を捉えて欲しい・・・ • 汎用波形生成器の実現 • 制御性能を保持した枠組みを実現したい・・・ • 高速化,演算量低減,短遅延処理の実現 • リアルタイムアプリケーションを実現したい・・・ • 音声合成研究のさらなる活性化,裾野の拡大 • 小学生が夏休みの宿題で音声合成システムを作る時代が来るかも・・・ WaveNetは機械学習分野からの素晴らしいプレゼント! 次は音声研究者の腕の見せどころ(専門知識を活かして 改善できる可能性はあると思います)! 5. WaveNetへの期待:2
  • 41. [Arik; ’17] S. Arik, M. Chrzanowski, A. Coates, G. Diamos, A. Gibiansky, Y. Kang, X. Li, J. Miller, A. Ng, J. Raiman, S. Sengupta, M. Shoeybi. Deep Voice: real-time neural text-to-speech. arXiv preprint, arXiv:1702.07825, 2017. [Gu; ’17] Y. Gu, Z. Ling. Waveform modeling using stacked dilated convolutional neural networks for speech bandwidth extension. Proc. INTERSPEECH, pp. 1123–1127, 2017. [Hayashi; ’17] T. Hayashi, A. Tamamori, K. Kobayashi, K. Takeda, T. Toda. An investigation of multi-speaker training for WaveNet vocoder. Proc. IEEE ASRU, pp. 712–718, 2017. [He; ’16] K. He, X. Zhang, S. Ren, J. Sun. Deep residual learning for image recognition. Proc. CVPR, pp. 770– 778, 2016. [Itakura; ’68] F. Itakura, S. Saito. Analysis synthesis telephony based upon the maximum likelihood method. Proc. ICA, C-5-5, pp. C17–20, 1968. [Juvela; ’16] L. Juvela, B. Bollepalli, M. Airaksinen, P. Alku. High-pitched excitation generation for glottal vocoding in statistical parametric speech synthesis using a deep neural network. Proc. IEEE ICASSP, pp. 5120–5124, 2016. [Kawahara; ’99] H. Kawahara, I. Masuda-Katsuse, A. Cheveign′e. Restructuring speech representations using a pitch-adaptive timefrequency smoothing and an instantaneous-frequency-based F0 extraction: Possible role of a repetitive structure in sounds. Speech Communication, Vol. 27, No. 3–4, pp. 187–207, 1999. [Kingma; ’16] D.P. Kingma, T. Salimans, M. Welling. Improving variational inference with inverse autoregressive flow. arXiv preprint, arXiv:1606.04934, 2016. 参考文献 References: 1
  • 42. [Kobayashi; ’17] K. Kobayashi, T. Hayashi, A. Tamamori, T. Toda. Statistical voice conversion with WaveNet- based waveform generation. Proc. INTERSPEECH, pp. 1138–1142, 2017. [Maia; ’13] R. Maia, M. Akamine, M. Gales. Complex cepstrum for statistical parametric speech synthesis. Speech Communication, Vol. 55, No. 5, pp. 606–618, 2013. [Morise; ’16] M. Morise, F. Yokomori, K. Ozawa. WORLD: a vocoderbased high-quality speech synthesis system for real-time applications. IEICE trans. inf. & syst., Vol. E99-D, No. 7, pp. 1877–1884, 2016. [Niwa; ’17] J. Niwa,T. Yoshimura,K. Hashimoto,K. Oura,Y. Nankaku,K. Tokuda. WaveNet-based voice conversion. 音講論, 1-8-15, pp. 207–208, Sep. 2017. [Okamoto; ’17] T. Okamoto, K. Tachibana, T. Toda, Y. Shiga, H. Kawai. Subband WaveNet with overlapped single-sideband filterbanks. Proc. IEEE ASRU, pp. 698–704, 2017. [Pantazis; ’11] Y. Pantazis, O. Rosec, Y. Stylianou. Adaptive AM–FM signal decomposition with application to speech analysis. IEEE Trans. on Audio, Speech, & Lang. Process., Vol. 19, No. 2, pp. 290–300, 2011. [Qian; ’17] K. Qian, Y. Zhang, S. Chang, X. Yang, D. Florêncio, M. Hasegawa-Johnson. Speech enhancement using bayesian WaveNet. Proc. INTERSPEECH, pp. 2013–2017, 2017. [Rethage; ’17] D. Rethage, J. Pons, X. Serra. A WaveNet for speech denoising. arXiv preprint, arXiv:1706.07162, 2017 [Salimans; ’17] T. Salimans, A. Karpathy, X. Chen, D.P. Kingma. PixelCNN++: improving the pixelCNN with discretized logistic mixture likelihood and other modifications. arXiv preprint, arXiv:1701.05517, 2017. [Shen; ’17] J. Shen, R. Pang, R.J. Weiss, M. Schuster, N. Jaitly, Z. Yang, Z. Chen, Y. Zhang, Y. Wang, R. Skerry- Ryan, R.A. Saurous, Y. Agiomyrgiannakis, Y. Wu. Natural TTS synthesis by conditioning WaveNet on mel spectrogram predictions. arXiv preprint, arXiv:1712.05884, 2017. [Takamichi; ’16] S. Takamichi, T. Toda, A.W. Black, G. Neubig, S. Sakti, S. Nakamura. Post-filters to modify the modulation spectrum for statistical parametric speech synthesis. IEEE/ACM Trans. Audio, Speech & Lang. Process., Vol. 24, No. 4, pp. 755–767, 2016. References: 2
  • 43. [橘; ’17] 橘 健太郎, 戸田 智基, 志賀 芳則, 河井 恒. WaveNetにおける音声波形量子化法の評価. 音講 論, 1-Q-28, pp. 291–294, Mar. 2017. [Tamamori; ’17] A. Tamamori, T. Hayashi, K. Kobayashi, K. Takeda, T. Toda. Speaker-dependent WaveNet vocoder. Proc. INTERSPEECH, pp. 1118–1122, 2017. [Toda; ’07] T. Toda, A.W. Black, K. Tokuda. Voice conversion based on maximum likelihood estimation of spectral parameter trajectory. IEEE Trans. Audio, Speech & Lang. Process., Vol. 15, No. 8, pp. 2222–2235, 2007. [Tokuda; ’15] K. Tokuda, H. Zen. Directly modeling speech waveforms by neural networks for statistical parametric speech synthesis. Proc. IEEE ICASSP, pp. 4215–4219, 2015 [徳田; ’92] 徳田 恵一, 小林 隆夫, 千葉 健司, 今井 聖. メル一般化ケプス トラム分析による音声のスペク トル推定. 信学論(A), Vol. J75-A, No. 7, pp. 1124–1134, 1992. [van den Oord; ’16a] A. van den Oord, N. Kalchbrenner, O. Vinyals, L. Espeholt, A. Graves, K. Kavukcuoglu. Conditional image generation with PixelCNN decoders. arXiv preprint, arXiv:1606.05328, 2016. [van den Oord; ’16b] A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. Senior, K. Kavukcuoglu. Wavenet: a generative model for raw audio. arXiv preprint, arXiv:1609.03499, 2016. [van den Oord; ’17a] A. van den Oord, O. Vinyals, K. Kavukcuoglu. Neural discrete representation learning. arXiv preprint, arXiv:1711.00937, 2017. [van den Oord; ’17b] A. van den Oord, Y. Li, I. Babuschkin, K. Simonyan, O. Vinyals, K. Kavukcuoglu, G. van den Driessche, E. Lockhart, L.C. Cobo, F. Stimberg, N. Casagrande, D. Grewe, S. Noury, S. Dieleman, E. Elsen, N. Kalchbrenner, H. Zen, A. Graves, H. King, T. Walters, D. Belov, D. Hassabis. Parallel WaveNet: fast high- fidelity speech synthesis. arXiv preprint, arXiv:1711.10433, 2017. [吉村; ’17] 吉村 建慶, 橋本 佳, 大浦 圭一郎, 南角 吉彦, 徳田 恵一. WaveNetにおけるメルケプストラム に基づくノイズシェーピング量子化法の適用. 音講論, 1-8-8, pp. 193–194, Sep. 2017. References: 3