Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.
ICASSP’19音声&音響読み会

ICASSP’19概要・テーマ発表:音声生成

Sat. 08, 2019

橘健太郎

DeNA Co., Ltd.

アジェンダ

● ICASSP’19の概要

● テキスト音声合成

○ テキスト音声合成とは?

○ ICASSPでの最新動向

● 声質変換

○ 声質変換とは?

○ ICASSPでの最新動向

● まとめ



2
ICASSP ‘19 概要(1/3)

● International Conference on Acoustic, Speech and Signal Processing
(ICASSP)

● 特に音声に強い信号処理のトップカンファレン...
ICASSP ‘19 概要(2/3)

● 会場内
● スポンサー
4
メイン会場
 ポスター会場 チョットセマカッタ

GAFA中心で、日本始めアジアIT企業も

ICASSP ‘19 概要(3/3)

● 計数

○ Acceptance率 49.1 % (1,725 / 3,510 件)

○ 24 topics



● 特に音声に係るtopic

○ Audio and Acoustic Sign...
テキスト音声合成(text-to-speech; TTS)のモジュール構成

● Text-to-speech: テキストを音声に変化するシステム
6
https://www.slideshare.net/f2forest/nips2017-s...
Vocoderの仕組み

● 人間の発声メカニズムをモデル化

7
図は https://ahcweb01.naist.jp/lecture/2017/sp/material/lecture3.pdf より引用
Vocoderの仕組み

8
音響特徴量
図は https://ahcweb01.naist.jp/lecture/2017/sp/material/lecture3.pdf より引用
Vocoderの仕組み

● 有声音と無声音から音源信号を生成

9
図は https://ahcweb01.naist.jp/lecture/2017/sp/material/lecture3.pdf より一部引用
= 包絡
= 包絡
3つパ...
音声分析

10
図は https://ahcweb01.naist.jp/lecture/2017/sp/material/lecture3.pdf より引用
フレーム
Vocoderの進化

● 従来のvocoder
○ Harmonic plus noise model [Stylianous, 96]
○ STRAIGHT [Kawahara+, 99]
○ WORLD [Morise+, 16]
● N...
音声合成の最新動向

● TTS関連発表: 24件

○ End-to-end TTS

■ 音素長さを調整などの可制御性、声質の制御などの多様性に言
及した

○ Neural vocoder

■ トピックは処理コスト削減が注目されており、...
最近のneural vocoder
13https://www.slideshare.net/jyamagis/
● 高速化の手段
1. 簡単なAR
2. segmentの単位で同時生成
最近のneural vocoder
14https://www.slideshare.net/jyamagis/ より引用
・モデル学習が難しい
・Flow系よりは低速
・一気にサンプル生成できるが
モデル学習が難しい
・品質が他の手法と比べる...
サンプル音声

● WaveGlow
https://nv-adlr.github.io/WaveGlow
● LPCNet
https://people.xiph.org/~jm/demo/lpcnet/
● NSF model
https:...
続いて、声質変換

16
一般的な声質変換手順(one-to-one)

17
音声分析

声質
(スペクトル包絡)
声の高さ
(F0)
かすれ具合
(非周期性指標)
パラメータ

変換

音声生成

目標話者
元話者

一般的な声質変換手順(one-to-one)

18
音声分析

声質
(スペクトル包絡)
声の高さ
(F0)
かすれ具合
(非周期性指標)
パラメータ

変換

音声生成

目標話者
元話者

「こんにちは」

「今日はいい天気ですね」 

...
一般的な声質変換手順(one-to-one)

19
音声分析

声質
(スペクトル包絡)
声の高さ
(F0)
かすれ具合
(非周期性指標)
パラメータ

変換

音声生成

目標話者
元話者

変換時
スペクトル包絡
F0
非周期性指標
スペ...
声質変換のタスクと代表手法

20
one-to-one
many-to-one
many-to-many
パラレルデータ ノンパラレルデータ
おはよう
こんにちは
こんばんは
元気ですか?
お疲れ様
いい天気ですね
暑いです
寒いです
代表手...
Many-to-one声質変換:音素事後確率(ppg)に基づく手法 [Sun+, ‘16]

21
複数話者
コーパス
音素認識学習
音素認識
モデル
音声特徴量
抽出
音素認識
マッピング学習
PPG
スペクトル包
絡
話者に寄らない
話者性...
声質変換のタスクと代表手法

22
one-to-one
many-to-one
many-to-many
パラレルデータ ノンパラレルデータ
おはよう
こんにちは
こんばんは
元気ですか?
お疲れ様
いい天気ですね
暑いです
寒いです
代表的...
Many-to-many 声質変換:VAEに基づく手法 [Saito+, ‘18]
23図は https://www.slideshare.net/YukiSaito8/saito18sp03 から引用
音素情報を表現

話者情報を表現

音素...
声質変換の最新動向

● VC関連発表:13件

○ VocoderにWaveNet vocoderが導入され、全体品質が上がっている
[Polyak+ ‘19] [Tobing+, ‘19]など

○ Seq2seqアルゴリズムを用いた手法で...
従来の課題:特徴量のアライメントエラー

DTWエラーをモデル学習で修正できない!
モデル側ではアライメントエラーによる品質劣化が防げない! 25
音声
分析

元話者

目標話者

おはよう
おはよう
音
声
特
徴
量
音
声
特
徴
量
...
特徴量のアライメントエラーの解決法

26
「こんにちは」

「今日はいい天気ですね」 

「お疲れ様です」

・

・



「こんにちは」

「今日はいい天気ですね」 

「お疲れ様です」

事前にアライメントするから、モデル学習時にはアラ...
サンプル音声

● ATTS2S-VC: SEQUENCE-TO-SEQUENCE VOICE CONVERSION WITH
ATTENTION AND CONTEXT PRESERVATION MECHANISMS [Tanaka+ ‘19...
まとめ

● ICASSP’19から音声合成・声質変換の最新動向を説明
● 音声合成
○ End-to-end TTSでの多様性向上、neural vocoderの実用化に向け
ての研究が盛ん
● 声質変換
○ WaveNet導入により全体的な...
参考文献
[Stylianous, ‘96] Y. Stylianous, “Harmonic plus noise models for speech, combined with statistical methods,
for speec...
参考文献
[Desai+, ‘10] S. Desai et al., “Spectral mapping using artificial neural networks for voice conversion. IEEE
Transact...
Próxima SlideShare
Cargando en…5
×

ICASSP2019 音声&音響読み会 テーマ発表音声生成

1.113 visualizaciones

Publicado el

ICASSP2019 音声&音響読み会 テーマ発表音声生成の資料です。

Publicado en: Datos y análisis
  • Sé el primero en comentar

ICASSP2019 音声&音響読み会 テーマ発表音声生成

  1. 1. ICASSP’19音声&音響読み会
 ICASSP’19概要・テーマ発表:音声生成
 Sat. 08, 2019
 橘健太郎
 DeNA Co., Ltd.

  2. 2. アジェンダ
 ● ICASSP’19の概要
 ● テキスト音声合成
 ○ テキスト音声合成とは?
 ○ ICASSPでの最新動向
 ● 声質変換
 ○ 声質変換とは?
 ○ ICASSPでの最新動向
 ● まとめ
 
 2
  3. 3. ICASSP ‘19 概要(1/3)
 ● International Conference on Acoustic, Speech and Signal Processing (ICASSP)
 ● 特に音声に強い信号処理のトップカンファレンス
 ● キーワード:音声認識・生成・分離・検知・対話、音声・動画像符号化など
 ○ 会期:2019/05/12-17
 ● 会場:Brighton, UK
 3 •Brighton: UKの南海岸沿い
 •会場前には海岸が広がる

  4. 4. ICASSP ‘19 概要(2/3)
 ● 会場内 ● スポンサー 4 メイン会場
 ポスター会場 チョットセマカッタ
 GAFA中心で、日本始めアジアIT企業も

  5. 5. ICASSP ‘19 概要(3/3)
 ● 計数
 ○ Acceptance率 49.1 % (1,725 / 3,510 件)
 ○ 24 topics
 
 ● 特に音声に係るtopic
 ○ Audio and Acoustic Signal Processing(AASP): 205件
 ○ Spoken Language processing(SLP):313件
 ■ 音声認識・合成、声質変換、話者認証・認識など
 
 ● AASP+SLPの発表状況
 ○ 国別
 1.United States 146件
 2.China 72件
 3.Japan 65件
 
 5 所属別
 1. Google 19件
 2. Microsoft 15件
 2. NTT 15件
 4. Johns Hopkins Univ. 13件
 5. Tencent 12件

  6. 6. テキスト音声合成(text-to-speech; TTS)のモジュール構成
 ● Text-to-speech: テキストを音声に変化するシステム 6 https://www.slideshare.net/f2forest/nips2017-speech-audio-86474213
  7. 7. Vocoderの仕組み
 ● 人間の発声メカニズムをモデル化
 7 図は https://ahcweb01.naist.jp/lecture/2017/sp/material/lecture3.pdf より引用
  8. 8. Vocoderの仕組み
 8 音響特徴量 図は https://ahcweb01.naist.jp/lecture/2017/sp/material/lecture3.pdf より引用
  9. 9. Vocoderの仕組み
 ● 有声音と無声音から音源信号を生成
 9 図は https://ahcweb01.naist.jp/lecture/2017/sp/material/lecture3.pdf より一部引用 = 包絡
= 包絡 3つパラメータから音声を生成することが出来る
  10. 10. 音声分析
 10 図は https://ahcweb01.naist.jp/lecture/2017/sp/material/lecture3.pdf より引用 フレーム
  11. 11. Vocoderの進化
 ● 従来のvocoder ○ Harmonic plus noise model [Stylianous, 96] ○ STRAIGHT [Kawahara+, 99] ○ WORLD [Morise+, 16] ● Neural vocoderの登場
 ○ vocoderをneural netsで表現
 ■ WaveNet [Oord+, 16] ■ SampleRNN [Mehri+, 17] ■ WaveRNN [Kalchbrenner+, 18] 11 ● 分析エラーによる品質劣化
 ● 品質面が不十分な点がある
 ● 非常に高品質
 ● 計算コストが非常に掛かる

  12. 12. 音声合成の最新動向
 ● TTS関連発表: 24件
 ○ End-to-end TTS
 ■ 音素長さを調整などの可制御性、声質の制御などの多様性に言 及した
 ○ Neural vocoder
 ■ トピックは処理コスト削減が注目されており、実用化に向かっている
 ■ LPCNet [Valin+, 19] : original WaveNetの1/10の計算量 https://people.xiph.org/~jm/demo/lpcnet/ 
 ■ WaveGlow [Prenger+, 19] : WNの約4,700倍高速(520/0.11 kHz) 🤔
 https://nv-adlr.github.io/WaveGlow 
 Parallel WaveNetは500 kHZ 
 ■ NSF model [Wang+, ‘19] : WNの100倍高速 https://nii-yamagishilab.github.io/samples-nsf/nsf-v1.html 
 ■ 学習が難しい、時間がかかる(4GPUx1ヶ月)など、問題はまだある
 ○ 音声合成で生成した音声を音声認識のdata augmentationとして用いる手法も出てきてお り、新たな用途も広がっている
 12
  13. 13. 最近のneural vocoder 13https://www.slideshare.net/jyamagis/ ● 高速化の手段 1. 簡単なAR 2. segmentの単位で同時生成
  14. 14. 最近のneural vocoder 14https://www.slideshare.net/jyamagis/ より引用 ・モデル学習が難しい ・Flow系よりは低速 ・一気にサンプル生成できるが モデル学習が難しい ・品質が他の手法と比べると少 し劣る ・学習しやすいモデル構造 ・frame単位で生成が可能
  15. 15. サンプル音声
 ● WaveGlow https://nv-adlr.github.io/WaveGlow ● LPCNet https://people.xiph.org/~jm/demo/lpcnet/ ● NSF model https://nii-yamagishilab.github.io/samples-nsf/nsf-v1.html 15
  16. 16. 続いて、声質変換
 16
  17. 17. 一般的な声質変換手順(one-to-one)
 17 音声分析
 声質 (スペクトル包絡) 声の高さ (F0) かすれ具合 (非周期性指標) パラメータ
 変換
 音声生成
 目標話者
元話者

  18. 18. 一般的な声質変換手順(one-to-one)
 18 音声分析
 声質 (スペクトル包絡) 声の高さ (F0) かすれ具合 (非周期性指標) パラメータ
 変換
 音声生成
 目標話者
元話者
 「こんにちは」
 「今日はいい天気ですね」 
 「お疲れ様です」
 ・
 ・
 ・
 「こんにちは」
 「今日はいい天気ですね」 
 「お疲れ様です」
 ・
 ・
 ・
 ・
 ・
 ・ スペクトル包絡のみ対応関係を パラレルデータにより学習 イントネーションや息継ぎの位置も 合わせると高精度に変換出来やす い 学習時
  19. 19. 一般的な声質変換手順(one-to-one)
 19 音声分析
 声質 (スペクトル包絡) 声の高さ (F0) かすれ具合 (非周期性指標) パラメータ
 変換
 音声生成
 目標話者
元話者
 変換時 スペクトル包絡 F0 非周期性指標 スペクトル包絡 F0 非周期性指標 線形変換 声質だけを変換する
  20. 20. 声質変換のタスクと代表手法
 20 one-to-one many-to-one many-to-many パラレルデータ ノンパラレルデータ おはよう こんにちは こんばんは 元気ですか? お疲れ様 いい天気ですね 暑いです 寒いです 代表手法:NN手法だと見当たらない 
 
 代表的な手法:NN手法だと見当たら ない
 代表的な手法:DNNに基づく手法 [Desai+, ‘14]
 
 代表的な手法:Cycle-GANに基づく手法 [Kaneko+, ‘16]
 
 代表的な手法:ppgに基づく手法 [Sun+, ‘16] 
 
 代表的な手法:VAEに基づく手法 [Saito+, ‘18]、StarGAN-VC [Kameoka+, 18] 
 代表手法はNNベースの手法を中心に挙げています . 音素事後確率(ppg)を用いること で、元話者の発話内容だけを抽 出し、誰でも目的話者になれる 学習データ
元話者と目標話者の関係性

  21. 21. Many-to-one声質変換:音素事後確率(ppg)に基づく手法 [Sun+, ‘16]
 21 複数話者 コーパス 音素認識学習 音素認識 モデル 音声特徴量 抽出 音素認識 マッピング学習 PPG スペクトル包 絡 話者に寄らない 話者性を除去 Training stage Conversion stage 目標話者 コーパス マッピング モデル スペクトル予測 音素認識 音声生成 音声特徴量 抽出 元話者 コーパス F0 非周期性指標 スペクトル 包絡 PPG スペクトル包絡へのマッ ピングを学習 元話者の話者性は 除去
  22. 22. 声質変換のタスクと代表手法
 22 one-to-one many-to-one many-to-many パラレルデータ ノンパラレルデータ おはよう こんにちは こんばんは 元気ですか? お疲れ様 いい天気ですね 暑いです 寒いです 代表的な手法:NN手法だと見当たらな い
 
 代表的な手法:NN手法だと見当たら ない
 
 代表的な手法:DNNに基づく手法 [Desai+, ‘14]
 
 代表的な手法:Cycle-GANに基づく手法 [Kaneko+, ‘16]
 
 代表的な手法:ppgに基づく手法 [Sun+, ‘16] 
 
 代表的な手法:VAEに基づく手法 [Saito+, ‘18]、StarGAN-VC [Kameoka+, ‘18] 
 代表手法はNNベースの手法を中心に挙げています . 学習データ
元話者と目標話者の関係性
 Autoencoderを用いるものが多 く、発話内容・話者情報を分離し て制御することで、どんな声でも 作り出せる

  23. 23. Many-to-many 声質変換:VAEに基づく手法 [Saito+, ‘18] 23図は https://www.slideshare.net/YukiSaito8/saito18sp03 から引用 音素情報を表現
 話者情報を表現
 音素以外の共有 情報を表現

  24. 24. 声質変換の最新動向
 ● VC関連発表:13件
 ○ VocoderにWaveNet vocoderが導入され、全体品質が上がっている [Polyak+ ‘19] [Tobing+, ‘19]など
 ○ Seq2seqアルゴリズムを用いた手法で、one-to-one声質変換で品質 向上が進んでいる [Tanaka+, ‘19], [Zhang+, ‘19]
 ■ 盛り上がっている印象
 24 こちらの課題について取り上げる
  25. 25. 従来の課題:特徴量のアライメントエラー
 DTWエラーをモデル学習で修正できない! モデル側ではアライメントエラーによる品質劣化が防げない! 25 音声 分析
 元話者
 目標話者
 おはよう おはよう 音 声 特 徴 量 音 声 特 徴 量 音 声 特 徴 量 音 声 特 徴 量 音 声 特 徴 量 音 声 特 徴 量 音 声 特 徴 量 音 声 特 徴 量 音 声 特 徴 量 Dynamic Time Warping
 (DTW)を用いて対応づけ
 音 声 特 徴 量 音 声 特 徴 量 音 声 特 徴 量 音 声 特 徴 量 音 声 特 徴 量 音 声 特 徴 量 時刻 DTW後の系列に対して、 マッピングをモデル学習 t1 t2 t3 t4 t5 t6 t1 t2 t3 t4 t5 t6 t8 t9t7 長さが異なる!
  26. 26. 特徴量のアライメントエラーの解決法
 26 「こんにちは」
 「今日はいい天気ですね」 
 「お疲れ様です」
 ・
 ・
 
 「こんにちは」
 「今日はいい天気ですね」 
 「お疲れ様です」
 事前にアライメントするから、モデル学習時にはアライメントエラーは防 げない アライメントも学習するようにしたろ! Seq2seqアルゴリズムを用いて音素同士のアライメントを学習 [Miyoshi+, ‘17] ・音声長も目的話者のものに変換される! 
 ・音素事後確率(ppg)を経由して、変換する 
 ppg ppgを経由する → 音声認識モデルが必要 音声認識モデルために、大量の学習データが 必要 元話者と目標話者のみのデータから学習する アルゴリズムが提案 (ICASSPで2件発表 [Tanaka+, ‘19], [Zhang+, ‘19])
  27. 27. サンプル音声
 ● ATTS2S-VC: SEQUENCE-TO-SEQUENCE VOICE CONVERSION WITH ATTENTION AND CONTEXT PRESERVATION MECHANISMS [Tanaka+ ‘19] ○ http://www.kecl.ntt.co.jp/people/tanaka.ko/projects/atts2svc/index.html ● IMPROVING SEQUENCE-TO-SEQUENCE VOICE CONVERSION BY ADDING TEXT-SUPERVISION [Zhang+ ‘19] ○ https://jxzhanggg.github.io/Text-supervised-Seq2SeqVC/ ● ともにパラレルデータ1,000文 27
  28. 28. まとめ
 ● ICASSP’19から音声合成・声質変換の最新動向を説明 ● 音声合成 ○ End-to-end TTSでの多様性向上、neural vocoderの実用化に向け ての研究が盛ん ● 声質変換 ○ WaveNet導入により全体的な品質が上がってきている ○ One-to-oneで、高品質なモデルが出てきた 28
  29. 29. 参考文献 [Stylianous, ‘96] Y. Stylianous, “Harmonic plus noise models for speech, combined with statistical methods, for speech and speaker modification,” Ph.D thesis, Ecole Nationale Superieure des Telecommunications, 1996. [Kawahara+, ‘99] H. Kawahara et al., “Restructuring speech representations using a pitch-adaptive time–frequency smoothing and an instantaneous-frequency-based F0 extraction: Possible role of a repetitive structure in sounds,” Speech communication, 27(3-4), 187-207. [Morise+, ‘16] M. Morise et al., “WORLD: a vocoder-based high-quality speech synthesis system for real-time applications, IEICE transactions on information and systems,” vol. E99-D, no. 7, pp. 1877-1884, 2016. [Oord+, ‘16] A. van den Oord et al., “WAVENET: A GENERATIVE MODEL FOR RAW AUDIO,” arXiv preprint, arXiv:1609.03499, 2016. [Mehri+, ‘17] S. Mehri et al., “SampleRNN: An Unconditional End-to-End Neural Audio Generation Model,” in Proc. ICLR, 2017. [Kalchbrenner+, ‘18] N. Kalchbrenner et al., “Efficient Neural Audio Synthesis”, in Proc. ICML, 2018. [Valin+, ‘19] Valin et al, “LPCNET: IMPROVING NEURAL SPEECH SYNTHESIS THROUGH LINEAR PREDICTION,” in Proc. ICASSP 2019. [Prenger+, ‘19] R. Prenger et al., “WAVEGLOW: A FLOW-BASED GENERATIVE NETWORK FOR SPEECH SYNTHESIS” in Proc. ICASSP 2019. [Wang+ ‘19] S. Wang et al., “NEURAL SOURCE-FILTER-BASEDWAVEFORM MODEL FOR STATISTICAL PARAMETRIC SPEECH SYNTHESIS,” in Proc. ICASSP 2019. 29
  30. 30. 参考文献 [Desai+, ‘10] S. Desai et al., “Spectral mapping using artificial neural networks for voice conversion. IEEE Transactions on Audio, Speech, and Language Processing,” 18(5), 954-964, 2010. [Sun+, ‘16] L. Sun et al., “Phonetic posteriorgrams for many-to-one voice conversion without parallel data training,” in Proc ICME, 2016. [Kaneko+, ‘16] T. Kaneko et al., “CycleGAN-VC Parallel-Data-Free Voice Conversion Using Cycle-Consistent Adversarial Networks,” in Proc. EUSIPCO 2016. [Saito+, ‘18] Y. Saito et al., “Non-parallel voice conversion using variational autoencoders conditioned by phonetic posteriorgrams and d-vectors,” in Proc. ICASSP, 2018. [Kameoka+, ‘18] H. Kameoka et al., “StarGAN-VC Non-parallel many-to-many voice conversion with star generatiave adversarial networks,” arXiv preprint, arXiv:1806.02169,, 2018. [Miyoshi+, ‘17] H. Miyoshi et al., “Voice Conversion Using Sequence-to-Sequence Learning of Context Posterior Probabilities,” in Proc INTERSPEECH 2017. [Polyak+ ‘19] A. Polyak et al., “Attention-Based WaveNet Autoencoder for Universal Voice Conversion”, in Proc. ICASSP, 2019. [Tobing+, ‘19] P. Lumban Tobing, “VOICE CONVERSION WITH CYCLIC RECURRENT NEURAL NETWORK AND FINE-TUNED WAVENET VOCODER,” in Proc. ICASSP, 2019. [Tanaka+, ‘19] K. Tanaka et al., “ATTS2S-VC: SEQUENCE-TO-SEQUENCE VOICE CONVERSION WITH ATTENTION AND CONTEXT PRESERVATION MECHANISMS, ” in Proc. ICASSP, 2019. [Zhang+, ‘19] J. Zhang et al., “IMPROVING SEQUENCE-TO-SEQUENCE VOICE CONVERSION BY ADDING TEXT-SUPERVISION,” in Proc. ICASSP, 2019. 30

×