WaveNetが音声合成研究に与える影響

名古屋大学情報基盤センター／ JST さきがけ
WaveNetが音声合成研究に
与える影響
戸田智基
2018年1月21日
昨年1年間の引用数：185（2018/1/21時点）

音声波形
a r a y u rsil u g e N j i ts u
音素系列
あらゆる現実無音
単語系列
音声波形を合成するには・・・
文「あらゆる現実を全て自分の方へ・・・」
• 音声波形の特徴を上手く捉えなければいけない・・・
• 長期に渡る依存関係をどう捉えるか？
• 揺らぎ成分をどう捉えるか？
これら長年の研究課題を解決する技術が2016年9月に提案された！
WaveNet [van den Oord; ’16b] !

概説する内容
1. 従来の代表的な枠組み
2. WaveNet
3. WaveNetの改良
4. WaveNetの応用例
5. WaveNetに対する期待
内容
WaveNetの凄さをお伝えできればと思います！
※サンプルRNNには触れません・・・すみません・・・

概説する内容
2. WaveNet
3. WaveNetの改良
内容

従来の代表的な枠組み
• 音声波形のパラメータ化
• 波形素片選択＆接続
音声波形
短時間フレーム分析
音声パラメータ系列
波形合成処理
ソースフィルタモデル確率モデルなど
音声波形
ラベリング
波形素片データベース
素片選択＆波形接続
素片系列（離散記号列）の選択
波形素片に分解（離散記号化）
1. 従来技術：1

パラメータ化：ソースフィルタモデル
• 音声の生成過程を数理的にモデル化
スペクトル包絡
励振源波形
パルス列
白色雑音
再合成音声波形
合成フィルタ
)(zH
励振源生成部共振付与部
][*][][ nenhnx 
基本周波数&有声無声
音声パラメータ
][ne
音源信号＊共振特性 ⇒ 音声波形
1. 従来技術：2

• 確率的手法（線形予測分析 [Itakura; ’68]，メル一般化ケプストラム分析 [徳田; ’92]）
• 確率的生成モデルのパラメータ推定問題として定式化
• 決定論的手法（STRAIGHT [Kawahara; ’99]，WORLD [Morise; ’16]，aQHM [Pantazis; ’11]）
• 音声信号を正確に表現／再現するパラメータを推定
音声分析技術
e[n]：音源信号
（ガウス雑音）
H(z)：共振モデル
（スペクトル包絡）
x[n]：音声信号
（観測データ）
推定
x[n]：音声信号
（観測データ）
基本周波数の抽出
音源信号の
周期成分を除去
共振特性
（スペクトル包絡）
1. 従来技術：3

• 過去の値から現在の値を線形式で予測
• 分析フレーム内にて予測誤差の二乗和が最小となる
ように線形予測係数を決定（＝ FIRフィルタ係数を推定）
• ガウス過程の最尤推定問題として定式化可能
線形予測分析（最尤法）
過去D点の値から
n
現在の値を予測
x[n]x[n-1]x[n-D] ・・・
線形予測係数：
予測値：
[Itakura; ’68]
N
音声波形 FIRフィルタ予測誤差
1. 従来技術：4

• 誤差信号に逆フィルタを適用することで観測データを生成
• 既に生成された過去の音声波形を用いて次式の正規分布
からランダムサンプリングする処理と等価
• IIRフィルタのインパルス応答を十分に長い区間で打ち切ればFIRフィルタ
として近似可能
f
dB
1
)( 
zA
自己回帰モデル
音声波形IIRフィルタ予測誤差
N
FIRフィルタ
1. 従来技術：5

解決すべき課題（2016年当初）
• 音声波形のパラメータ化
• フレーム分析における定常性の仮定 [Tokuda; ’15]
• ガウス性の仮定
• 時間構造のモデル化 [Maia; ’13] [Juvela; ’16]
• 揺らぎ成分のモデル化
• 確率的手法では特に励振源パラメータ
• 決定論的手法では特にスペクトルパラメータ [Toda; ’07] [Takamichi; ’16]
• 波形素片選択＆接続
• 乏しい柔軟性
• 素片選択関数の設計
2016年当初，決定打は無かった（と思っています）・・・
1. 従来技術：6

WaveNetの登場（2016年9月）
WaveNet (deep CNN)
• Dilated causal convolutions
• Residual & skip connections
• Gated activations
長期履歴の使用（例えば，過去3,000サンプル以上）
ランダム
生成
非線形予測
自己回帰モデル（マルコフモデル）
補助特徴量
th
[van den Oord; ’16b]
波形量子化による
離散記号列化
• 多層畳み込みニューラルネットワーク（CNN）を用いた時間波形に対する
確率的生成モデルの実現
の予測分布
2. WaveNet：1

離散記号系列モデリング
• 音声波形を離散記号系列として表現
• μ-law量子化により 16bit 音声波形を256種類の離散記号化
• 距離の概念の消失
• 高次マルコフモデル（＝離散記号系列に対する自己回帰モデル）により
離散記号系列の出力確率をモデル化
• 各時刻にて256クラスの分類問題として定式化
a, a, b, c, a, d, d, …
μ-law
量子化
16 bit 音声波形 8 bit 音声波形
離散記号系列
（クラス数256）
記号化
過去全てのサンプルに依存過去L個のサンプルのみに依存
2. WaveNet：2

Dilated Causal Convolutions
• 長期の過去のサンプルを考慮した畳み込みの実現
Input
Hidden layer
(dilation = 1)
Hidden layer
(dilation = 2)
Output
(dilation = 4)
3 layers
8×1 の畳み込みを 2×1 の畳み込み3回で実現
2×1の畳み込みの例
チャネル数
特徴量の抽出
過去8サンプル使用
2. WaveNet：3

Stacked Dilated Causal Convolutions
• Dilated Causal Convolution層の積み上げも利用
3 layers
3 layers
Input
Hidden layer
(dilation = 1)
Hidden layer
(dilation = 2)
Hidden layer
(dilation = 4)
Hidden layer
(dilation = 1)
Hidden layer
(dilation = 2)
Output
(dilation = 4)
特徴量の抽出
2. WaveNet：4

ネットワーク構造
Inputs
Residual
block
Toskip
connection
To next residual block
Output
補助特徴量
＋
例：10層×3スタック
Residual block1 × 1
Causal
2 ×1 dilated
Gated
1 × 1
1×1
＋
＋
ReLU
Softmax
1×1
ReLU
1×1
Skip connections [He; ’16]
Gated
activation
[van den Oord; ’16a]
Residual
connection
[He; ’16]
• 各層で抽出された特徴量を用いて出力確率分布を予測
, ,
( )
,
( )
2. WaveNet：5

学習処理と生成処理
• 学習処理
• 離散記号列に対する尤度最大化（＝交差エントロピー最小化）
• 生成処理
• 自己回帰モデルとして1サンプルずつランダムサンプリング
既に生成された過去L個のサンプル
時刻 n における予測確率分布（256クラス離散分布）
2. WaveNet：6

生成処理の例
• 既に生成されたシンボル列を用いて次のシンボルを予測しサンプリング
3 layers
3 layers
2. WaveNet：7

従来の枠組みとの比較
• 音声波形のパラメータ化と比べると・・・
• 定常性の仮定必要 ⇒ 不要！
• ガウス性の仮定必要 ⇒ 不要！
• 励振源のモデル化困難 ⇒ 不要！
• 時間構造のモデル化困難 ⇒ 可能！
• 揺らぎのモデル化困難 ⇒ 可能！
• 波形素片選択＆接続と比べると・・・
• 柔軟性欠如 ⇒ 保持！
• 最適化困難 ⇒ 自動！
• 合成処理選択 ⇒ ランダム生成！
• 最小単位素片 ⇒ 波形サンプル！
2. WaveNet：8

ノイズシェイピング
• 音声波形の離散記号列化に伴い発生する誤差への対処
• 量子化誤差と予測誤差が発生
• 誤差が聴感上目立たないように誤差の周波数特性を制御
• 予測誤差および量子化誤差に対する適用 [橘; ’17]
• 量子化誤差に対する適用 [吉村; ’17]
次のセッションにて発表あり！
Frequency
Power
音声
誤差
Frequency
Power
音声
誤差
聴覚マスキングにより
目立たなくなる
3. WaveNetの改良：1

帯域分割処理
• 高サンプリング周波数＆低演算量の実現
• 1/M 倍の長さの音声波形に分割してモデル化
[Okamoto; ’17]
48 kHz サンプリング音声波形 :
単側波帯変調分析フィルタリング
↓M ↓M ↓M
: /
( )
: /
( )
: /
( )
WaveNet 1 WaveNet 2 WaveNet B
学習処理
48 kHz サンプリング音声波形 :
単側波帯変調合成フィルタリング
↑M ↑M ↑M
: /
( )
: /
( )
: /
( )
WaveNet 1 WaveNet 2 WaveNet B
合成処理
フィルタ特性を工夫することでWaveNetのモデル化精度が向上する傾向あり

高品質化：16 bit量子化波形のモデル化
• 混合離散化ロジスティック分布 [Salimans; ’17] による量子化波形の確率密度
モデリング
• サンプリング周波数の変更（16 kHz から 22.05 kHz へ）
• Dilated causal convolutions における dilation を 2l から 3l へ
: : :
（単一）離散化ロジスティック分布の例
0 2 4-2
0
1
0 2 4-2
0
1
0 2 4-2
0
1

高速化：パラレルWaveNet
• Inverse-autoregressive flows [Kingma; ’16] の導入（IIRフィルタ ⇒ FIRフィルタ）
• 雑音源 : に対するフィルタリングにより音声波形 : を一括生成
各時刻 n におけるフィルタリングパラメータを
雑音源からWaveNet で推定
Input noise
Hidden layer
(dilation = 1)
Hidden layer
(dilation = 2)
Output
(dilation = 4)
雑音源波形を生成
※実際はスタックさせることで長期の依存関係をモデル化

確率密度蒸留によるパラレルWaveNet学習
• 通常のWaveNetを教師としてパラレルWaveNet（生徒）を学習
• 生徒WaveNet : と教師WaveNet : の出力確率密度分布間の
KLダイバージェンスの最小化
: : : : :
音声波形 : に依存雑音源 : にのみ依存
雑音源波形 :
生成音声波形 : （と確率分布）
生成音声波形の確率分布
教師WaveNet
生徒WaveNet
生徒WaveNetの
出力から計算可能
生徒WaveNetで生成された
波形に対する生徒／教師
WaveNetの出力確率分布を
用いて計算可能
※この他にもスペクトル
距離など様々な尺度を
同時に考慮して学習

概説する内容
2. WaveNet
3. WaveNetの改良
目次

WaveNetボコーダ
• ソースフィルタモデルの代わりにWaveNetで波形合成
• 音声パラメータから波形を生成するボコーダとして利用
• 音声パラメータ操作による音声加工処理が可能
• 既存のシステムに対して容易に適用可能
• 現状の結果
• 話者依存モデルにおいて自然音声と遜色ない合成音声を生成可能
• 話者非依存モデルの有効性も確認
[Tamamori; ’17] [Hayashi; ’17]
音声パラメータ系列を
補助特徴量として入力
WaveNet
ボコーダ
合成音声波形
4. WaveNetの応用例：1

テキスト音声合成&声質変換
• WaveNetボコーダの適用
• 音声パラメータ系列モデリング＋WaveNetボコーダ [Arik; ’17] [Shen; ’17]
[Kobayashi; ’17]
• 変換処理／合成処理もWaveNetに統合
• コンテキスト情報から合成音声波形を生成 [van den Oord; ’16b]
• 入力音声パラメータ系列から変換音声波形を生成 [Niwa; ’17]
音声パラメータ
系列
音声波形
既存の合成法
／変換法
入力特徴量系列 WaveNet 音声波形既存の分析法
WaveNet
ボコーダ

• 狭帯域音声から広帯域音声を推定 [Gu; ’17]
• Dilated non-causal convolutionsを利用
• 雑音環境下の音声からクリーン音声を推定
• Dilated non-causal convolutionsを利用 [Rethage; ’17]
• Dilated causal convolutionsも事前分布モデリングに利用 [Qian; ’17]
帯域拡張／音声強調
狭帯域音声波形 :
広帯域音声波形 :
雑音環境下音声波形 :
クリーン音声波形 :
推定されたクリーン音声波形 :
クリーン音声波形 :
ベイズ推定

分析／変換／合成：VQ-VAE
• Dilated convolutionsにより音声波形の長期依存関係を捉える離散記号列
への符号化を実現
• 韻律特徴も込みで符号化を実現
• 言語記号との対応の良い離散記号列を抽出
• WaveNetによる事前分布も構築可能
• 話者性情報を与えることで話者性と言語情報を分離可能
• 韻律特徴も込みで声質変換を実現
[van den Oord; ’17a]
音声波形
潜在ベクトル系列
ベクトル
量子化
離散記号列
再合成音声波形
エンコーダデコーダ
埋め込み
ベクトルセット
WaveNetによる
事前分布
話者情報

WaveNetにより何が解けたのか？
• ソースフィルタモデルの近似が不要となった！
• 音声に限らず様々な波形に対しても適用可能
• 部分的ではなく完全なランダム生成が可能となった！
• 揺らぎ成分を高精度にモデル化可能
• 長期に渡る音声波形の依存関係をモデル化できるようになった！
• ランダム生成しても音声らしい波形を生成可能
• 時間構造もモデル化できるようになった！
• 波形素片選択＆接続の利点を保持した確率的生成モデルの実現
• 音声分野への新規参入のハードルが下がった！
• 音声に関する専門的な知識が無くても利用可能
5. WaveNetへの期待：1

WaveNetに対する期待
• 汎用ボコーダの実現
• できれば物理的制約を捉えて欲しい・・・
• 汎用波形生成器の実現
• 制御性能を保持した枠組みを実現したい・・・
• 高速化，演算量低減，短遅延処理の実現
• リアルタイムアプリケーションを実現したい・・・
• 音声合成研究のさらなる活性化，裾野の拡大
• 小学生が夏休みの宿題で音声合成システムを作る時代が来るかも・・・
WaveNetは機械学習分野からの素晴らしいプレゼント！
次は音声研究者の腕の見せどころ（専門知識を活かして
改善できる可能性はあると思います）！
5. WaveNetへの期待：2

[Arik; ’17] S. Arik, M. Chrzanowski, A. Coates, G. Diamos, A. Gibiansky, Y. Kang, X. Li, J. Miller, A. Ng, J.
Raiman, S. Sengupta, M. Shoeybi. Deep Voice: real-time neural text-to-speech. arXiv preprint,
arXiv:1702.07825, 2017.
[Gu; ’17] Y. Gu, Z. Ling. Waveform modeling using stacked dilated convolutional neural networks for speech
bandwidth extension. Proc. INTERSPEECH, pp. 1123–1127, 2017.
[Hayashi; ’17] T. Hayashi, A. Tamamori, K. Kobayashi, K. Takeda, T. Toda. An investigation of multi-speaker
training for WaveNet vocoder. Proc. IEEE ASRU, pp. 712–718, 2017.
[He; ’16] K. He, X. Zhang, S. Ren, J. Sun. Deep residual learning for image recognition. Proc. CVPR, pp. 770–
778, 2016.
[Itakura; ’68] F. Itakura, S. Saito. Analysis synthesis telephony based upon the maximum likelihood method.
Proc. ICA, C-5-5, pp. C17–20, 1968.
[Juvela; ’16] L. Juvela, B. Bollepalli, M. Airaksinen, P. Alku. High-pitched excitation generation for glottal
vocoding in statistical parametric speech synthesis using a deep neural network. Proc. IEEE ICASSP, pp.
5120–5124, 2016.
[Kawahara; ’99] H. Kawahara, I. Masuda-Katsuse, A. Cheveign′e. Restructuring speech representations
using a pitch-adaptive timefrequency smoothing and an instantaneous-frequency-based F0 extraction:
Possible role of a repetitive structure in sounds. Speech Communication, Vol. 27, No. 3–4, pp. 187–207,
1999.
[Kingma; ’16] D.P. Kingma, T. Salimans, M. Welling. Improving variational inference with inverse
autoregressive flow. arXiv preprint, arXiv:1606.04934, 2016.
参考文献
References: 1

[Kobayashi; ’17] K. Kobayashi, T. Hayashi, A. Tamamori, T. Toda. Statistical voice conversion with WaveNet-
based waveform generation. Proc. INTERSPEECH, pp. 1138–1142, 2017.
[Maia; ’13] R. Maia, M. Akamine, M. Gales. Complex cepstrum for statistical parametric speech synthesis.
Speech Communication, Vol. 55, No. 5, pp. 606–618, 2013.
[Morise; ’16] M. Morise, F. Yokomori, K. Ozawa. WORLD: a vocoderbased high-quality speech synthesis
system for real-time applications. IEICE trans. inf. & syst., Vol. E99-D, No. 7, pp. 1877–1884, 2016.
[Niwa; ’17] J. Niwa，T. Yoshimura，K. Hashimoto，K. Oura，Y. Nankaku，K. Tokuda. WaveNet-based voice
conversion. 音講論, 1-8-15, pp. 207–208, Sep. 2017.
[Okamoto; ’17] T. Okamoto, K. Tachibana, T. Toda, Y. Shiga, H. Kawai. Subband WaveNet with overlapped
single-sideband filterbanks. Proc. IEEE ASRU, pp. 698–704, 2017.
[Pantazis; ’11] Y. Pantazis, O. Rosec, Y. Stylianou. Adaptive AM–FM signal decomposition with application to
speech analysis. IEEE Trans. on Audio, Speech, & Lang. Process., Vol. 19, No. 2, pp. 290–300, 2011.
[Qian; ’17] K. Qian, Y. Zhang, S. Chang, X. Yang, D. Florêncio, M. Hasegawa-Johnson. Speech enhancement
using bayesian WaveNet. Proc. INTERSPEECH, pp. 2013–2017, 2017.
[Rethage; ’17] D. Rethage, J. Pons, X. Serra. A WaveNet for speech denoising. arXiv preprint,
arXiv:1706.07162, 2017
[Salimans; ’17] T. Salimans, A. Karpathy, X. Chen, D.P. Kingma. PixelCNN++: improving the pixelCNN with
discretized logistic mixture likelihood and other modifications. arXiv preprint, arXiv:1701.05517, 2017.
[Shen; ’17] J. Shen, R. Pang, R.J. Weiss, M. Schuster, N. Jaitly, Z. Yang, Z. Chen, Y. Zhang, Y. Wang, R. Skerry-
Ryan, R.A. Saurous, Y. Agiomyrgiannakis, Y. Wu. Natural TTS synthesis by conditioning WaveNet on mel
spectrogram predictions. arXiv preprint, arXiv:1712.05884, 2017.
[Takamichi; ’16] S. Takamichi, T. Toda, A.W. Black, G. Neubig, S. Sakti, S. Nakamura. Post-filters to modify
the modulation spectrum for statistical parametric speech synthesis. IEEE/ACM Trans. Audio, Speech &
Lang. Process., Vol. 24, No. 4, pp. 755–767, 2016.
References: 2

[橘; ’17] 橘健太郎, 戸田智基, 志賀芳則, 河井恒. WaveNetにおける音声波形量子化法の評価. 音講
論, 1-Q-28, pp. 291–294, Mar. 2017.
[Tamamori; ’17] A. Tamamori, T. Hayashi, K. Kobayashi, K. Takeda, T. Toda. Speaker-dependent WaveNet
vocoder. Proc. INTERSPEECH, pp. 1118–1122, 2017.
[Toda; ’07] T. Toda, A.W. Black, K. Tokuda. Voice conversion based on maximum likelihood estimation of
spectral parameter trajectory. IEEE Trans. Audio, Speech & Lang. Process., Vol. 15, No. 8, pp. 2222–2235,
2007.
[Tokuda; ’15] K. Tokuda, H. Zen. Directly modeling speech waveforms by neural networks for statistical
parametric speech synthesis. Proc. IEEE ICASSP, pp. 4215–4219, 2015
[徳田; ’92] 徳田恵一, 小林隆夫, 千葉健司, 今井聖. メル一般化ケプストラム分析による音声のスペク
トル推定. 信学論(A), Vol. J75-A, No. 7, pp. 1124–1134, 1992.
[van den Oord; ’16a] A. van den Oord, N. Kalchbrenner, O. Vinyals, L. Espeholt, A. Graves, K. Kavukcuoglu.
Conditional image generation with PixelCNN decoders. arXiv preprint, arXiv:1606.05328, 2016.
[van den Oord; ’16b] A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N.
Kalchbrenner, A. Senior, K. Kavukcuoglu. Wavenet: a generative model for raw audio. arXiv preprint,
arXiv:1609.03499, 2016.
[van den Oord; ’17a] A. van den Oord, O. Vinyals, K. Kavukcuoglu. Neural discrete representation learning.
arXiv preprint, arXiv:1711.00937, 2017.
[van den Oord; ’17b] A. van den Oord, Y. Li, I. Babuschkin, K. Simonyan, O. Vinyals, K. Kavukcuoglu, G. van
den Driessche, E. Lockhart, L.C. Cobo, F. Stimberg, N. Casagrande, D. Grewe, S. Noury, S. Dieleman, E. Elsen,
N. Kalchbrenner, H. Zen, A. Graves, H. King, T. Walters, D. Belov, D. Hassabis. Parallel WaveNet: fast high-
fidelity speech synthesis. arXiv preprint, arXiv:1711.10433, 2017.
[吉村; ’17] 吉村建慶, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一. WaveNetにおけるメルケプストラム
に基づくノイズシェーピング量子化法の適用. 音講論, 1-8-8, pp. 193–194, Sep. 2017.
References: 3

WaveNetが音声合成研究に与える影響

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to WaveNetが音声合成研究に与える影響

Similar to WaveNetが音声合成研究に与える影響 (20)

More from NU_I_TODALAB

More from NU_I_TODALAB (20)

WaveNetが音声合成研究に与える影響