Más contenido relacionado
La actualidad más candente (20)
Similar a 日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding (18)
Más de Shinnosuke Takamichi (20)
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
- 3. • 単語からF0情報を推定する neural network の bottleneck 特徴量として
韻律コンテキストを獲得
→未知語の韻律コンテキスト抽出は困難 & 韻律情報に過不足あり
従来法:Prosody-aware word embedding
[Ijima et al., 2017]
Bi-directional LSTM
Bi-directional LSTM
連続F0系列
F0情報
あらゆる 現実単語列
あらゆる 現実 …テキスト
単語分割
音声合成器
韻律コンテキスト
F0 information F0 information
3/14日本音響学会 2018年春季研究発表会
- 4. 従来法:F0情報の抽出
テキスト
部屋 を 出る とき に は,…
リサンプリング
連続 F0 系列
固定長 F0 系列
離散コサイン変換
(DCT)
F0情報
単語の文字数に関係なくDCT
の固定次数成分を
F0情報として利用
↓
利用するF0情報の過不足
4/14日本音響学会 2018年春季研究発表会
- 6. • Subword 分割 [Senrich et al., 2016][Kudo, 2017]
- 言語モデル尤度に基づいて,低頻出語を部分文字列に分解する手法
- 未知語に対しても,既知 subword への分割により韻律コンテキスト抽出可能
• 複数アクセント句にまたがる subword を生成すると,embedding 性能が低下
→ アクセント句をまたぐ文字列を言語モデルの計算から除外して
subword 分割を学習
アクセント句境界を考慮した subword 分割
生文 本当な / のかも / しれない
Subword 本当 なの かもしれない
Subword(アクセント句
を考慮)
本当 な の かも しれない
6/14日本音響学会 2018年春季研究発表会
東京オリンピック
未知語
東京 / オリ / ン / ピ / ッ /ク
Subword
系列への分割 既知 subword
- 7. • Subword の韻律コンテキストを教師なし抽出
Prosody-aware subword embedding
Bi-directional LSTM
Bi-directional LSTM
連続F0系列
F0情報
ふ る いSubword
ふ る いテキスト
リサンプリング &
変調フィルタリング
Subword 分割
音声合成器
韻律コンテキスト
7/14日本音響学会 2018年春季研究発表会
- 8. • 変調フィルタリング:変調スペクトル [Takamichi et al., 2016] へのフィルタリング
• 日本語はモーラ等時性言語 & モーラ毎に変化する高低アクセント
→モーラ数で決まる高低以外は不要
Subword 内モーラ数を考慮した変調フィルタリング
Filtering
DFT
IDFT
Continuous F0
Target
|𝑌 𝑓 |
|𝑌′
𝑓 |
he ya
he ya
Filter 𝐶 = [𝐶 0 , … , 𝐶 𝑓 , … , 𝐶 𝑇 ]
𝐶 𝑓 =
1 (𝑓 ≤ 𝑓𝑡ℎ or 𝑓 ≥ 𝑇 − 𝑓𝑡ℎ
0 otherwise
𝑓𝑡ℎ =
0 𝑚 = 1
𝑚 + 1
2
otherwise
For 𝑚-mora subword
𝑌′(𝑓) = 𝑌 𝑓 𝐶 𝑓
変調スペクトル
各モーラ位置の高
低情報を保存
8/14日本音響学会 2018年春季研究発表会
- 10. 10/14
実験条件
Subword embedding の
訓練データ
新聞記事読み上げコーパス(JNAS) 15,676文
JSUTコーパス [Sonobe et al., 2017] 5,390文
音響モデルの訓練データ JSUTコーパス 5,390文
テストデータ JSUTコーパス 600文
Subword 語彙数 4,000
リサンプリング後の系列長 64
Subword-F0アライメント Fast_align [Dyer et al., 2013] による subword-音素アライメント
Julius [Kawahara et al., 2000] による音素-F0アライメント
Embedding モデル 4,000 – 256 (bi-directional LSTM) – 64 (ReLU) – 256 (bi-
directional LSTM) – 64 (linear)
音響モデル Feed-Forward, 394 – 512×3 (ReLU) – 94 (linear)
入力コンテキスト 394次元(音素,音素内継続長,subword 内継続長,前後及び
当該 subword の韻律コンテキスト)
音声特徴量 連続F0,有声/無声,40次元のメルケプストラム,5帯域の平均
非周期成分,及びこれらの動的特徴量
最適化手法 Adam [Kingma et al., 2014]
日本音響学会 2018年春季研究発表会
- 11. • 評価対象
- Conventional:DCT [Ijima et al., 2017]
- Proposed:変調フィルタリング
- Proposed (acc):変調フィルタリング + アクセント句の考慮
客観評価(連続対数F0の予測精度)
変調フィルタリングによる改善
アクセント句の考慮による改善
Subword 内モーラ数及び、アクセント句境界の考慮による、
F0予測精度の改善を確認
Root mean squared error
連続対数F0は平均0,分散1に正規化
日本音響学会 2018年春季研究発表会 11/14
- 12. • 評価対象
- Conventional:DCT [Ijima et al., 2017]
- Proposed:変調フィルタリング
- Proposed (acc):変調フィルタリング + アクセント句の考慮
主観評価
(合成音声の自然性に関するプリファレンスABテスト)
有意差なし
エラーバーは95%信頼区間
改善
改善
アクセント句境界の考慮による、音質改善を確認
12/14日本音響学会 2018年春季研究発表会
- 13. 13/14
• 目的:未知語・未知アクセントを含む言語の音声合成
- 辞書・規則を利用しない韻律コンテキストの自動抽出
• 提案法:日本語韻律構造を考慮したProsody-aware subword embedding
- Subword 内モーラを考慮した変調フィルタリング
- アクセント句境界を考慮した subword 分割
• 実験結果:日本共通語において提案法の有効性を確認
- 変調フィルタリング及び、アクセント句境界の考慮による、F0 予測精度の改善
- アクセント句境界の考慮による、音質改善
• 今後の予定:日本語多方言音声合成への適用(発表予定)
- 多方言音声合成に向けたモデリング
まとめ
日本音響学会 2018年春季研究発表会