複数話者WaveNetボコーダに関する調査

1
複数話者WaveNetボコーダに
関する調査
林知樹, 小林和弘, 玉森聡, 武田一哉, 戸田智基
名古屋大学
2018/01/21 SP研究会 - An investigation of multi-speaker WaveNet vocoder -

2
音声合成技術の可能性
 音声合成: 人工的に人間の発話を生成する技術
 様々な場面において音声合成技術の活用が拡大
 音声合成技術には2つの重要な要素が存在
1. 自然性: 人間の発話に近いかを表現
2. 柔軟性: 柔軟に音声の性質を変化させられるかを表現
電話での自動応答対話インターフェース公共の場での
アナウンス
現代の生活に必要不可欠な技術

3
従来の音声合成方式
1. 波形接続型音声合成
 音声を細かく分解した断片を接続して音声を生成
 自然性高  柔軟性低
2. パラメトリック音声合成
 音声特徴量とボコーダを利用して音声を生成
 柔軟性高  自然性低
Database
select concatenate
Fundamental freq.
Spectrum env.
Aperiodicity
Feature
extract
Vocoder
Feature
transform

4
従来の音声合成方式
1. 波形接続型音声合成
 音声を細かく分解した断片を接続して音声を生成
 自然性高  柔軟性低
2. パラメトリック音声合成
 音声特徴量とボコーダを利用して音声を生成
 柔軟性高  自然性低
Database
select concatenate
Fundamental freq.
Spectrum env.
Aperiodicity
Feature
extract
Vocoder
Feature
transform
自然性と柔軟性はトレードオフの関係

5
深層学習の台頭
 WaveNet [Van Den Oord+, 2016]
 直接波形を推定する自己回帰型生成モデル
 波形接続型音声合成をも上回る品質を達成
Speech sample 1 Speech sample 2 Piano sample
WaveNetの高い時間波形モデリング能力に着目
パラメトリック音声合成の知見との融合

6
我々のこれまでの研究
 話者依存WaveNet Vocoder [Tamamori+, 2017]
 WaveNetをボコーダとして利用
 既存の高品質ボコーダを上回る音質を達成
Feature
extract
Mel-cepstrum
𝐹0
Aperiodicity
Feature
transformation
Speech parametersSpeech signal
Contional
WaveNet
Synthesized signal
高い話者依存性を持つために
様々な話者の音声の合成ができるかは未知

7
本研究の貢献
 WaveNetボコーダの改良及び調査
 下記の三点を実験的に明らかに
1. 不特定話者モデル >> WORLD / STRAIGHT
2. 180発話学習特定話者モデル >> WORLD
3. 320発話学習特定話者モデル ≒ 不特定話者モデル
貢献1: 特徴量及び前処理の改善による品質の向上
 特徴量抽出部の改善及び正規化の導入
 ノイズシェーピングによる聴覚マスキングの導入
貢献2: 学習話者数及び学習データ量の影響を調査
 複数話者発話を利用した不特定話者モデルを構築
 学習データと合成品質の関係を明らかに

8
WaveNet

9
WaveNet
 波形 𝐱 = {𝑥1, 𝑥2, … , 𝑥 𝑁}の結合確率
 有限長で過去のサンプルの影響を打ち切り
 WaveNet 3つのキーポイント
1. Dilated causal convolution: 広い受容野の確保
2. Quantized waveform: 分類問題として最適化
3. Residual and skip connection: Deepなモデルを実現
WaveNetでモデル化
受容野サイズ
Reference: Heiga Zen, Generative model-based TTS synthesis

10
Dilated causal convolution
 過去のサンプルにのみ依存した穴開きの畳込み
*Figure from van den Oord+, WaveNet: A generative model for raw audio, 2016.
𝑥 𝑛−16 𝑥 𝑛−2 𝑥 𝑛−1
𝑝(𝑥 𝑛|𝑥 𝑛−1, … , 𝑥 𝑛−16)
考慮可能なサンプル数が指数関数的に増加
非常に大きな受容野のサイズを確保可能

11
量子化された波形の利用
Time
Amplitude
 𝜇-rawアルゴリズムで波形を8 bitのone-hotへ変換
クラス分類問題として音声波形を推定
*Figure from Heiga Zen, Generative model-based TTS synthesis

12
WaveNet
Residual block
Residual block
Residual block
Residual block
⋮
ReLU
ReLU
Softmax
1×1
1×1
Inputs
Causal
Skip connection
2 × 1 dilated
Gated
1 × 1
1 × 1
Residual block
To skip connection
To next residual block
+
+
Outputs
30

13
Conditional WaveNet
Residual block
Residual block
Residual block
Residual block
⋮
ReLU
ReLU
Softmax
1×1
1×1
Inputs
Causal
Skip connection
2 × 1 dilated
Gated
1 × 1
1 × 1
Residual block
Toskipconnection
+
+
Outputs
Auxiliary
features
1 × 1
1 × 1
1 × 1
1 × 1
+
Linguistic feature,
speaker-code,
and F0 are used.

14
WaveNet Vocoder

15
システムの概要

16
特徴量抽出

17
特徴量抽出の流れ
1. WORLD分析により3種類の特徴量を抽出
 基本周波数: 1次元
 メルケプストラム 0-24次: 25次元
 非周期性指標: 1次元
2. 基本周波数をバイナリ情報と連続F0に変換
 有声無声区間情報: 1次元
 連続F0: 1次元
3. 抽出した特徴量を連結し28次元特徴量へ

18
連続F0への変換
線形補間
ローパスフィルタ
時間 [フレーム]
基本周波数[Hz]

19
正規化処理

20
正規化処理
 特徴量の各次元が平均0・分散1になるように正規化
 特徴量次元間でスケールを統一
 学習データ全体で計算した統計量により正規化
 複数話者を用いる場合でも全ての話者で統計量を計算
 合成時には学習時に計算した統計量を利用

21
時間分解能の修正

22
時間分解能の修正
 時間波形と同じ時間分解能を持つように複製
*Figure from A. Tamamori, 音声生成過程を考慮したWaveNetに基づく音声波形合成法, 2016.

23
ノイズシェーピング

24
ノイズシェーピング [Tachibana+ 2017]
 予測誤差によるノイズのパワーを音声のパワーが
強い帯域へ集中させる技術
周波数
パワー
音声
予測誤差による
ノイズ
高域のノイズが聴覚上知覚されやすい

25
周波数
パワー
音声
時不変聴覚重み付けフィルタを適用
BEFORE
周波数
パワー
フィルタリングされた
音声
AFTER

26
周波数
パワー
音声
周波数
パワー
音声スペクトルがフラットな形状に
BEFORE AFTER
音声

27
周波数
パワー
フィルタリングされた音声
フラットになった音声を利用して学習
ノイズ

28
周波数
パワー
音声
BEFORE
ノイズ
時不変ノイズシェーピングフィルタを適用
(聴覚重み付けフィルタの逆フィルタ)
周波数
パワー
AFTER
ノイズ
復元音声

29
周波数
パワー
音声
周波数
パワー
音声
BEFORE AFTER
ノイズ
ノイズパワーが音声パワーが強い帯域へ集中
ノイズ
聴覚上ノイズが知覚されにくいように

30
WaveNet

31
WaveNetの構造
Residual block
Residual block
Residual block
Residual block
⋮
ReLU
ReLU
Softmax
1×1
1×1
Quantized
waveform
Causal
Skip connection
2 × 1 dilated
Gated
1 × 1
1 × 1
Residual block
Toskipconnection
+
+
Outputs
auxiliaryfeatures
1 × 1
1 × 1
1 × 1
1 × 1
+
UV binary,
continuous F0,
mel-cepstrum,
and aperiodicity
#𝑐ℎ = 2048
#𝑐ℎ = 256
#𝑐ℎ = 256
#𝑐ℎ = 256
#𝑐ℎ = 256
#𝑐ℎ = 2048 #𝑐ℎ = 2048
#𝑙𝑎𝑦𝑒𝑟 = 30
#𝑑𝑖𝑚 = 256
#𝑑𝑖𝑚=28
#𝑑𝑖𝑚=256

32
WaveNetの学習/デコード
WaveNetの学習
 学習時にはFIRフィルタとして利用
 観測信号 𝑥 𝑛−1−𝑅:𝑛−1を使ってො𝑥:𝑛を予測
 交差エントロピーを最小化するように最適化
WaveNetのデコード
 合成時にはARフィルタとしてデコード
 予測された ො𝑥 𝑛−1−𝑅:𝑛−1を使ってො𝑥 𝑛を予測
 予測された ො𝑥 𝑛−𝑅:𝑛を使ってො𝑥 𝑛+1を予測
 以下繰り返し

33
デコードの流れ
*Figure from van den Oord+, WaveNet: A generative model for raw audio, 2016.
332017/12/07 NECデータサイエンス研究所共同研究インターンシップ最終成果報告

34
実験的評価

35
実験的評価
 CMU-ARCTICデータベースを用いて評価
 7人の話者の英語発声からなるデータベース
 awbを除く6人の話者のデータを利用
 bdl, rms, slt, clbの4人を評価話者として利用
 各話者の1028発話を学習・40発話を評価に利用
 以下の4種類のモデルを比較
1. SD: 単一の話者で学習した特定話者モデル
2. SI-CLOSE: 全ての話者で学習した不特定話者モデル
3. SI-OPEN: 評価話者以外で学習した不特定話者モデル
4. SC: 話者コード用いて学習した不特定話者モデル

36
主観評価
 平均オピニオン評価(MOS)による主観評価を実施
 9人の成人男性による自然性の5段階評価
 Score: 1 (bad), 2 (poor), 3 (fair), 4 (good), 5 (excellent)
 各被験者の評価発話数は120
 比較対象としてSTRAIGHTによる音声を利用
 F0 / 0-24次メルケプ / 5次元非周期性指標を入力

37
実験条件
Sampling rate 16,000 Hz
Shift size 5 msec
# training data
1 speaker (for SD)
6 speakers (for SI-CLOSE)
5 speakers (for SI-OPEN)
1028 utterances per speaker
# evaluation data
4 speakers
104 utterances per speaker
# iterations
200,000 (for SD)
400,000 (for SI / SC)
Learning rate 0.01 with halving w.r.t. 50,000 iters
Batch size 20,000
Optimization algorithm Adam

38
主観評価結果

39
主観評価結果
特定話者モデルは生音声と有意差なし

40
主観評価結果
先行研究からの大幅な品質向上

41
主観評価結果
評価話者を学習に利用せずとも従来手法を上回る

42
主観評価結果
話者コードの利用は自然性の向上に影響せず

43
音声サンプル
Method BDL RMS CLB SLT
RAW
STRAIGHT
SD
SC
SI-CLOSE
SI-OPEN

44
学習データ量の影響の調査
 幅広い応用のためには限られたデータ量で
高品質な合成処理を行う必要性アリ
 学習データ量と合成品質の関係を調査
 各モデルを学習データ量を変化させて構築
 対数軸上で等間隔になるようにデータを量を変化
 学習発話数: 100 -> 180 -> 320 -> 560 -> 1028

45
学習データ量に関する主観評価
 平均オピニオン評価(MOS)による主観評価を実施
 SI-OPENと学習データ量を変化させたSDを比較
 5人の成人男性による自然性の5段階評価
 Score: 1 (bad), 2 (poor), 3 (fair), 4 (good), 5 (excellent)
 各被験者の評価発話数は160
 追加の比較対象としてWORLDによる音声を利用
 F0と非圧縮のスペクトル成分と非周期成分を利用

46

47
学習データ量に比例して自然性が向上

48
評価話者なし不特定話者モデル >> フルWORLD

49
180発話学習特定話者モデル >> フルWORLD

50
320発話学習特定モデル ≒ 評価話者不特定モデル

51
学習データ量別の音声サンプル
SPK 100 180 320 560 1028 RAW
BDL
SLT

52
日本語の音声をデコード
Male Sample 1 Sample 2 Sample 4 Sample 5
RAW
WaveNet
Vocoder
Female Sample 1 Sample 2 Sample 4 Sample 5
RAW
WaveNet
Vocoder
他言語でもボコーダとして機能することを確認
 英語音声で学習したモデルで日本語をデコード

53
まとめと今後の課題

54
まとめと今後の課題
まとめ
 WaveNetボコーダの改良
 学習データに関する調査を実施
 下記の三点を実験的に明らかに
1. 不特定話者WNV >> WORLD / STRAIGHT
2. 180発話学習特定話者WNV >> WORLD
3. 320発話学習特定話者WNV ≒ 不特定話者WNV
今後の課題
 合成の高速化に向けたネットワーク構造の改善

55
今すぐ試せます！
 Kan-bayashi/PytorchWaveNetVocoder
 コマンド一発でモデル構築可能
 サンプルも公開中
 学習済みモデルも公開中
E2E-ASR toolkit epsnet/espnetも興味がある方は是非

複数話者WaveNetボコーダに関する調査

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 複数話者WaveNetボコーダに関する調査

Similar to 複数話者WaveNetボコーダに関する調査 (20)

More from Tomoki Hayashi

More from Tomoki Hayashi (7)

複数話者WaveNetボコーダに関する調査