More Related Content Similar to 複数話者WaveNetボコーダに関する調査 (20) More from Tomoki Hayashi (7) 複数話者WaveNetボコーダに関する調査2. 2
音声合成技術の可能性
音声合成: 人工的に人間の発話を生成する技術
様々な場面において音声合成技術の活用が拡大
音声合成技術には2つの重要な要素が存在
1. 自然性: 人間の発話に近いかを表現
2. 柔軟性: 柔軟に音声の性質を変化させられるかを表現
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
電話での自動応答 対話インターフェース公共の場での
アナウンス
現代の生活に必要不可欠な技術
3. 3
従来の音声合成方式
1. 波形接続型音声合成
音声を細かく分解した断片を接続して音声を生成
自然性 高 柔軟性 低
2. パラメトリック音声合成
音声特徴量とボコーダを利用して音声を生成
柔軟性 高 自然性 低
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
Database
select concatenate
Fundamental freq.
Spectrum env.
Aperiodicity
Feature
extract
Vocoder
Feature
transform
4. 4
従来の音声合成方式
1. 波形接続型音声合成
音声を細かく分解した断片を接続して音声を生成
自然性 高 柔軟性 低
2. パラメトリック音声合成
音声特徴量とボコーダを利用して音声を生成
柔軟性 高 自然性 低
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
Database
select concatenate
Fundamental freq.
Spectrum env.
Aperiodicity
Feature
extract
Vocoder
Feature
transform
自然性と柔軟性はトレードオフの関係
5. 5
深層学習の台頭
WaveNet [Van Den Oord+, 2016]
直接波形を推定する自己回帰型生成モデル
波形接続型音声合成をも上回る品質を達成
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
Speech sample 1 Speech sample 2 Piano sample
WaveNetの高い時間波形モデリング能力に着目
パラメトリック音声合成の知見との融合
6. 6
我々のこれまでの研究
話者依存WaveNet Vocoder [Tamamori+, 2017]
WaveNetをボコーダとして利用
既存の高品質ボコーダを上回る音質を達成
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
Feature
extract
Mel-cepstrum
𝐹0
Aperiodicity
Feature
transformation
Speech parametersSpeech signal
Contional
WaveNet
Synthesized signal
高い話者依存性を持つために
様々な話者の音声の合成ができるかは未知
7. 7
本研究の貢献
WaveNetボコーダの改良及び調査
下記の三点を実験的に明らかに
1. 不特定話者モデル >> WORLD / STRAIGHT
2. 180発話学習 特定話者モデル >> WORLD
3. 320発話学習 特定話者モデル ≒ 不特定話者モデル
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
貢献1: 特徴量及び前処理の改善による品質の向上
特徴量抽出部の改善及び正規化の導入
ノイズシェーピングによる聴覚マスキングの導入
貢献2: 学習話者数及び学習データ量の影響を調査
複数話者発話を利用した不特定話者モデルを構築
学習データと合成品質の関係を明らかに
9. 9
WaveNet
波形 𝐱 = {𝑥1, 𝑥2, … , 𝑥 𝑁}の結合確率
有限長で過去のサンプルの影響を打ち切り
WaveNet 3つのキーポイント
1. Dilated causal convolution: 広い受容野の確保
2. Quantized waveform: 分類問題として最適化
3. Residual and skip connection: Deepなモデルを実現
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
WaveNetでモデル化
受容野サイズ
Reference: Heiga Zen, Generative model-based TTS synthesis
10. 10
Dilated causal convolution
過去のサンプルにのみ依存した穴開きの畳込み
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
*Figure from van den Oord+, WaveNet: A generative model for raw audio, 2016.
𝑥 𝑛−16 𝑥 𝑛−2 𝑥 𝑛−1
𝑝(𝑥 𝑛|𝑥 𝑛−1, … , 𝑥 𝑛−16)
考慮可能なサンプル数が指数関数的に増加
非常に大きな受容野のサイズを確保可能
11. 11
量子化された波形の利用
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
Time
Amplitude
𝜇-rawアルゴリズムで波形を8 bitのone-hotへ変換
クラス分類問題として音声波形を推定
*Figure from Heiga Zen, Generative model-based TTS synthesis
12. 12
WaveNet
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
Residual block
Residual block
Residual block
Residual block
⋮
ReLU
ReLU
Softmax
1×1
1×1
Inputs
Causal
Skip connection
2 × 1 dilated
Gated
1 × 1
1 × 1
Residual block
To skip connection
To next residual block
+
+
Outputs
30
13. 13
Conditional WaveNet
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
Residual block
Residual block
Residual block
Residual block
⋮
ReLU
ReLU
Softmax
1×1
1×1
Inputs
Causal
Skip connection
2 × 1 dilated
Gated
1 × 1
1 × 1
Residual block
Toskipconnection
To next residual block
+
+
Outputs
Auxiliary
features
1 × 1
1 × 1
1 × 1
1 × 1
+
Linguistic feature,
speaker-code,
and F0 are used.
17. 17
特徴量抽出の流れ
1. WORLD分析により3種類の特徴量を抽出
基本周波数: 1次元
メルケプストラム 0-24次: 25次元
非周期性指標: 1次元
2. 基本周波数をバイナリ情報と連続F0に変換
有声無声区間情報: 1次元
連続F0: 1次元
3. 抽出した特徴量を連結し28次元特徴量へ
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
22. 22
時間分解能の修正
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
時間波形と同じ時間分解能を持つように複製
*Figure from A. Tamamori, 音声生成過程を考慮したWaveNetに基づく音声波形合成法, 2016.
24. 24
ノイズシェーピング [Tachibana+ 2017]
予測誤差によるノイズのパワーを音声のパワーが
強い帯域へ集中させる技術
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
周波数
パワー
音声
予測誤差による
ノイズ
高域のノイズが聴覚上知覚されやすい
25. 25
ノイズシェーピング [Tachibana+ 2017]
予測誤差によるノイズのパワーを音声のパワーが
強い帯域へ集中させる技術
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
周波数
パワー
音声
時不変聴覚重み付けフィルタを適用
BEFORE
周波数
パワー
フィルタリングされた
音声
AFTER
26. 26
ノイズシェーピング [Tachibana+ 2017]
予測誤差によるノイズのパワーを音声のパワーが
強い帯域へ集中させる技術
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
周波数
パワー
音声
周波数
パワー
音声スペクトルがフラットな形状に
BEFORE AFTER
フィルタリングされた
音声
27. 27
ノイズシェーピング [Tachibana+ 2017]
予測誤差によるノイズのパワーを音声のパワーが
強い帯域へ集中させる技術
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
周波数
パワー
フィルタリングされた音声
フラットになった音声を利用して学習
ノイズ
28. 28
ノイズシェーピング [Tachibana+ 2017]
予測誤差によるノイズのパワーを音声のパワーが
強い帯域へ集中させる技術
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
周波数
パワー
フィルタリングされた
音声
BEFORE
ノイズ
時不変ノイズシェーピングフィルタを適用
(聴覚重み付けフィルタの逆フィルタ)
周波数
パワー
AFTER
ノイズ
復元音声
29. 29
ノイズシェーピング [Tachibana+ 2017]
予測誤差によるノイズのパワーを音声のパワーが
強い帯域へ集中させる技術
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
周波数
パワー
音声
周波数
パワー
音声
BEFORE AFTER
ノイズ
ノイズパワーが音声パワーが強い帯域へ集中
ノイズ
聴覚上ノイズが知覚されにくいように
31. 31
WaveNetの構造
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
Residual block
Residual block
Residual block
Residual block
⋮
ReLU
ReLU
Softmax
1×1
1×1
Quantized
waveform
Causal
Skip connection
2 × 1 dilated
Gated
1 × 1
1 × 1
Residual block
Toskipconnection
To next residual block
+
+
Outputs
auxiliaryfeatures
1 × 1
1 × 1
1 × 1
1 × 1
+
UV binary,
continuous F0,
mel-cepstrum,
and aperiodicity
#𝑐ℎ = 2048
#𝑐ℎ = 256
#𝑐ℎ = 256
#𝑐ℎ = 256
#𝑐ℎ = 256
#𝑐ℎ = 2048 #𝑐ℎ = 2048
#𝑙𝑎𝑦𝑒𝑟 = 30
#𝑑𝑖𝑚 = 256
#𝑑𝑖𝑚=28
#𝑑𝑖𝑚=256
32. 32
WaveNetの学習/デコード
WaveNetの学習
学習時にはFIRフィルタとして利用
観測信号 𝑥 𝑛−1−𝑅:𝑛−1を使ってො𝑥:𝑛を予測
交差エントロピーを最小化するように最適化
WaveNetのデコード
合成時にはARフィルタとしてデコード
予測された ො𝑥 𝑛−1−𝑅:𝑛−1を使ってො𝑥 𝑛を予測
予測された ො𝑥 𝑛−𝑅:𝑛を使ってො𝑥 𝑛+1を予測
以下繰り返し
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
33. 33
デコードの流れ
*Figure from van den Oord+, WaveNet: A generative model for raw audio, 2016.
332017/12/07 NECデータサイエンス研究所 共同研究インターンシップ 最終成果報告
35. 35
実験的評価
CMU-ARCTICデータベースを用いて評価
7人の話者の英語発声からなるデータベース
awbを除く6人の話者のデータを利用
bdl, rms, slt, clbの4人を評価話者として利用
各話者の1028発話を学習・40発話を評価に利用
以下の4種類のモデルを比較
1. SD: 単一の話者で学習した特定話者モデル
2. SI-CLOSE: 全ての話者で学習した不特定話者モデル
3. SI-OPEN: 評価話者以外で学習した不特定話者モデル
4. SC: 話者コード用いて学習した不特定話者モデル
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
37. 37
実験条件
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
Sampling rate 16,000 Hz
Shift size 5 msec
# training data
1 speaker (for SD)
6 speakers (for SI-CLOSE)
5 speakers (for SI-OPEN)
1028 utterances per speaker
# evaluation data
4 speakers
104 utterances per speaker
# iterations
200,000 (for SD)
400,000 (for SI / SC)
Learning rate 0.01 with halving w.r.t. 50,000 iters
Batch size 20,000
Optimization algorithm Adam
43. 43
音声サンプル
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
Method BDL RMS CLB SLT
RAW
STRAIGHT
SD
SC
SI-CLOSE
SI-OPEN
52. 52
日本語の音声をデコード
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -
Male Sample 1 Sample 2 Sample 4 Sample 5
RAW
WaveNet
Vocoder
Female Sample 1 Sample 2 Sample 4 Sample 5
RAW
WaveNet
Vocoder
他言語でもボコーダとして機能することを確認
英語音声で学習したモデルで日本語をデコード
54. 54
まとめと今後の課題
まとめ
WaveNetボコーダの改良
学習データに関する調査を実施
下記の三点を実験的に明らかに
1. 不特定話者WNV >> WORLD / STRAIGHT
2. 180発話学習 特定話者WNV >> WORLD
3. 320発話学習 特定話者WNV ≒ 不特定話者WNV
今後の課題
合成の高速化に向けたネットワーク構造の改善
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -