SlideShare a Scribd company logo
1 of 25
名古屋大学 情報基盤センター / JST,さきがけ
音声信号の分析と加工
音声を自在に変換するには?
戸田 智基
2017年3月15日
+ 音声変換 =
音声変換とは?
出力音声入力音声
音声変換
• 入力音声に対して,発話内容を保持しつつ,他の所望の情報を意図的に
変換する処理を施す技術
Q1.音声変換はどのように実現されるのか?
Q2.音声変換は一体何の役に立つのか?
はじめに
例えば,他の所望の話者によって
発声されたように変換する!
概説する内容
1.音声変換の仕組みや用途
2.音声変換の要素技術
3.音声変換の応用例
4.技術的課題と将来の展望
目次
音声変換の面白さと奥深さをお伝えできればと思います!
概説する内容
目次
1.音声変換の仕組みや用途
Q1.「どのように実現されるのか? 」
Q2.「一体何の役に立つのか? 」
2.音声変換の要素技術
3.音声変換の応用例
4.技術的課題と将来の展望
こんにちはこんにちはこんにちは
こんにちは!
• 物理的な生成過程
• 音声に埋め込まれる情報
音声の生成
言語情報
パラ言語情報
非言語情報
音声信号意図
音韻成分
声質成分
身体的制約
非言語情報は
限定される.
音源生成 調音 音声信号
声帯振動による
周期信号の生成
声道形状に応じた
共振特性の付与
1.仕組みや用途:1
共振特性音源信号の特徴
時間
周波数
基本周波数&有声無声 スペクトル包絡
周波数
パワー
Q1.音声変換はどう実現されるのか?
出力音声入力音声
変換
処理
変換音声
パラメータ 合成
処理
分析
処理
音声
パラメータ
音声変換 = 信号処理 + 変換処理
1.仕組みや用途:2
身体的制約を
超えた音源生成
身体的制約を
超えた調音
所望の身体的制約下での
音声生成過程を実現!
Q2.音声変換は何の役に立つのか?
音源生成 調音
物理的な生成過程 + 音声変換 ⇒ 音声生成機能拡張
音声信号
音声変換
変換音声信号
こんにちはこんにちはこんにちは
こんにちは!
正常な発声器官を仮想的に移植!一部の発声器官の
機能を消失しても・・・
非言語情報も
意図的に制御可能!
1.仕組みや用途:3
1.音声変換の仕組みや用途
2.音声変換の要素技術
A.音声信号の分析技術
B.音声信号の合成技術
C.音声パラメータの変換技術
3.音声変換の応用例
4.技術的課題と将来の展望
変換
処理
変換音声
パラメータ 合成
処理
分析
処理
音声
パラメータ
概説する内容
目次
• 確率的分析法(線形予測分析 [板倉 他],メル一般化ケプストラム分析 [徳田 他])
• 確率的生成モデルのパラメータ推定問題として定式化
• 決定的分析法(STRAIGHT [河原 他],WORLD [森勢 他],aQHM [Stylianou et al.])
• 音声信号を正確に表現/再現するパラメータを推定
A.音声信号の分析技術
音声信号 ⇒ 音源信号 * 共振特性
e[n]:音源信号
(ガウス雑音)
H(z):共振モデル
(スペクトル包絡)
x[n]:音声信号
(観測データ)
推定
x[n]:音声信号
(観測データ)
基本周波数の抽出
音源信号の
周期成分を除去
共振特性
(スペクトル包絡)
2.要素技術:1
A.音声信号の分析技術の比較
• 確率的分析法
• 利点:音声信号の揺らぎを確率的に表現可能
• 欠点:モデリングによる近似誤差
• 決定的分析法
• 利点:高い表現力を持つ高精度な音声パラメータの抽出可能
• 欠点:音声信号の揺らぎ成分の取り扱いが困難
雑音環境下における性能や分析速度や計算量も重要!
2.要素技術:2
スペクトル包絡
励振源波形
パルス列
白色雑音
再合成音声波形
合成フィルタ
)(zH
励振源生成部 共振付与部
][*][][ nenhnx 
基本周波数&有声無声
音声パラメータ(音声波形 から抽出)
][ne
ボコーダ:音源信号 * 共振特性 ⇒ 音声波形
B.音声信号の合成技術
歪んだ音声パラメータ
への対応も重要!
• 利点:音声波形の特徴を容易に制御可能
• 欠点:モデリングによる近似誤差
2.要素技術:3
C.音声パラメータの変換法:規則を活用
リアルタイム
音声変換ソフト(Herium)
名城大学 坂野秀樹先生作
音源パラメータ(基本周波数)
間隔を短くすると
長くすると
高い声になる!
低い声になる!
時間
時間
時間
周波数軸を
伸ばすと
縮めると
太い声に(声道長が
長く)なる!
周波数
パワー
周波数
パワー
周波数
パワー
共振パラメータ(スペクトル包絡)
子供っぽい声に
(声道長が短く)なる!
入力音声パラメータ
規則に基づく変換処理
(時不変な変換関数)
変換音声パラメータ
2.要素技術:4
C.音声パラメータの変換法:統計的手法
学習データ
入力音声パラメータ
統計的な変換処理
(非線形変換関数)
変換音声パラメータ
• 回帰問題として音声パラメータ変換処理を定式化
• 声質変換(Voice Conversion)技術として進展
フレーム単位の変換 [阿部 他]
代表点の対応
付け [阿部 他]
確率モデルの
導入 [Stylianou et al.]
高精度化
 DNN/RNN
 事例ベース
所望の特徴を変換する
変換関数が得られるように
学習データを設計
1990 1995 2000 2005 2010 2015
系列単位の変換 [戸田 他]
確率的変動/揺らぎ成分の
モデル化 [戸田 他][高道 他]
回帰問題ではあるが誤差最小が良いとは限らない!
音声信号の確率的変動/揺らぎ成分を消失させ,
変換音声の音質劣化を招く傾向あり!
2.要素技術:5
C.音声パラメータの変換法の比較
• 規則に基づく変換法
• 利点:高品質な変換処理
• 欠点:変換音声の特徴は限定的
• 統計的手法に基づく変換法
• 利点:所望の特徴を持つ音声へと変換可能
• 欠点:複雑な変換処理による品質劣化
リアルタイム
統計的音声変換ソフト
奈良先端科学技術大学院大学
小林和弘さん作
2.要素技術:6
※ http://licca.takaratomy.co.jp/official/profile/
1.音声変換の仕組みや用途
2.音声変換の要素技術
3.音声変換の応用例
4.技術的課題と将来の展望
概説する内容
目次
音声変換の応用例
• 統計的音声変換における学習データを適切に設計することで
様々な変換処理を実現可能
• 例:音声生成機能拡張 [戸田 他]
• 音声入力の利点(瞬時性)を活用
• リアルタイム音声変換処理を音声コミュニケーション拡張に適用
身体的制約を
超える発声補助
環境的制約を
超える通話
能力的制約を
超える表現獲得
不可能を可能として未知の体験をもたらす応用例が存在!
発声障碍者
の音声を
より自然な
音声へ
聞きとれないほど
微弱な音声を
より明瞭な
音声へ
現時点での
歌声を
若返った歌声へ
年老いた歌声へ
3.応用例
概説する内容
目次
1.音声変換の仕組みや用途
2.音声変換の要素技術
3.音声変換の応用例
4.技術的課題と将来の展望
A.変換音声の品質改善
B.手法の評価
C.人の適応能力の活用
A.変換音声の品質改善
• 音声信号の確率的揺らぎを如何に再現するか?
• DNN/RNNの生成学習 [Chen et al.]や敵対的学習 [齋藤 他][金子 他]
• 波形合成(ボコーダ)処理による劣化を如何に抑えるか?
• 波形加工処理による脱ボコーダ [小林 他]
出力音声入力音声
学習
データ
波形加工
処理
統計的
変換処理
学習データ
分析
処理
音声
パラメータ
加工パラメータ
4.課題と展望:1
A.高品質波形生成モデルの登場
• ニューラルネットワークを用いた非線形自己回帰モデルによる波形生成法
(WaveNet [van den Oord et al., 2016],Sample RNN [Mehri et al., 2017])
• 音声波形を離散シンボル系列として表現(=波形接続型方式)
• 離散シンボル系列の確率分布をモデル化(=確率的生成モデル方式)
• 音声信号の揺らぎ成分を高精度に表現可能!
• 信号処理と統計的変換処理を統合した統計的波形変換処理の実現へ!
出力音声入力音声
学習
データ
統計的波形変換処理
学習データ
4.課題と展望:2
生成された過去の
音声波形シンボル系列
非線形自己回帰
モデル(CNN/RNN)
現時点の音声波形
シンボルをランダム生成
][ˆ nx]1[ˆ],2[ˆ,  nxnx
1 2 3 4 5
0
20
40
60
80
100
MOS on naturalness
Correctrate[%]on
speakersimilarity
Target
Source
Baseline
良い
良い
A
B
C
D
E
F
G
H
I
J
K
LM
N
O
P
Q
• 統計的音声変換手法の性能比較には共通の音声データセットを用いた
評価が必要不可欠
• Voice Conversion Challenge 2016 の開催 [Toda et al., 2016]
• タスク:話者変換(5話者⇒5話者,162文対で学習,別の54文を評価)
• データセット:DAPS [Mysore, 2015] を利用
• 参加チーム数:17
• 中国:4
• 日本:3
• インド:3
• 英国:2
• 香港:1
• 台湾:1
• シンガポール:1
• スペイン:1
• 米国:1
B.手法の評価
4.課題と展望:3
1 2 3 4 5
0
20
40
60
80
100
MOS on naturalness
Correctrate[%]on
speakersimilarity
Target
Source
Baseline
良い
良い
A
B
C
D
E
F
G
H
I
J
K
LM
N
O
P
Q
• 統計的音声変換手法の性能比較には共通の音声データセットを用いた
評価が必要不可欠
• Voice Conversion Challenge 2016 の開催 [Toda et al., 2016]
• タスク:話者変換(5話者⇒5話者,162文対で学習,別の54文を評価)
• データセット:DAPS [Mysore, 2015] を利用
• 参加チーム数:17
• 中国:4
• 日本:3
• インド:3
• 英国:2
• 香港:1
• 台湾:1
• シンガポール:1
• スペイン:1
• 米国:1
B.手法の評価
正解率 = 75%
MOS = 3.5
4.課題と展望:3
1 2 3 4 5
0
20
40
60
80
100
MOS on naturalness
Correctrate[%]on
speakersimilarity
Target
Source
Baseline
良い
良い
A
B
C
D
E
F
G
H
I
J
K
LM
N
O
P
Q
• 統計的音声変換手法の性能比較には共通の音声データセットを用いた
評価が必要不可欠
• Voice Conversion Challenge 2016 の開催 [Toda et al., 2016]
• タスク:話者変換(5話者⇒5話者,162文対で学習,別の54文を評価)
• データセット:DAPS [Mysore, 2015] を利用
• 参加チーム数:17
• 中国:4
• 日本:3
• インド:3
• 英国:2
• 香港:1
• 台湾:1
• シンガポール:1
• スペイン:1
• 米国:1
B.手法の評価
正解率 = 75%
MOS = 3.5
4.課題と展望:3
ユーザによる入力調整
聴覚フィードバック
C.人の適応能力の活用
出力音声入力音声
統計的
変換処理
学習
データ
変換音声
パラメータ 合成
処理
分析
処理
音声
パラメータ
入力動作
分析
処理
動作
パラメータ
• 人とシステムが協調することでより良い出力音声の生成を実現
• 補助入力情報としてユーザの動作信号を活用する枠組みの構築
• 人が持つ高い適応能力を最大限に活用する枠組みの構築
• 共創的音声生成機能拡張の実現へ(JSTさきがけ 2016.12~2020.03)
4.課題と展望:4
まとめ
1.音声変換の仕組みや用途
2.音声変換の要素技術
3.音声変換の応用例
4.技術的課題と将来の展望
音声変換の面白さと奥深さを
感じて頂けたら幸いです!
まとめ
まとめ
1.音声変換の仕組みや用途
2.音声変換の要素技術
3.音声変換の応用例
4.技術的課題と将来の展望
音声変換の面白さと奥深さを
感じて頂けたら幸いです!
音声変換技術は危険性を含んでいます!
• なりすましの助長
• 変換音声自動検出技術と変換技術はイタチごっこ
音声変換技術の普及に向け正しい社会的認知を得ることが必要です.
音声変換技術を「包丁」として認めてもらうための
研究活動ならびに社会活動が重要な課題となります.
まとめ
+ 音声変換 =

More Related Content

What's hot

Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
 

What's hot (20)

統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
 
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトCREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
 
Interactive voice conversion for augmented speech production
Interactive voice conversion for augmented speech productionInteractive voice conversion for augmented speech production
Interactive voice conversion for augmented speech production
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
 
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
 
変調スペクトルを考慮したHMM音声合成
変調スペクトルを考慮したHMM音声合成変調スペクトルを考慮したHMM音声合成
変調スペクトルを考慮したHMM音声合成
 
自称・世界一わかりやすい音声認識入門
自称・世界一わかりやすい音声認識入門自称・世界一わかりやすい音声認識入門
自称・世界一わかりやすい音声認識入門
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
 
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークEnd-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
 
音声合成の基礎
音声合成の基礎音声合成の基礎
音声合成の基礎
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
 
ボコーダ波形生成における励振源の群遅延操作に向けた声帯音源特性の解析
ボコーダ波形生成における励振源の群遅延操作に向けた声帯音源特性の解析ボコーダ波形生成における励振源の群遅延操作に向けた声帯音源特性の解析
ボコーダ波形生成における励振源の群遅延操作に向けた声帯音源特性の解析
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
 
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio
 

More from NU_I_TODALAB

More from NU_I_TODALAB (17)

異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離
 
The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022
 
敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク
 
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知
 
Weakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-AttentionWeakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-Attention
 
Statistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modelingStatistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modeling
 
音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識
 
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
 
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
 
Hands on Voice Conversion
Hands on Voice ConversionHands on Voice Conversion
Hands on Voice Conversion
 
Advanced Voice Conversion
Advanced Voice ConversionAdvanced Voice Conversion
Advanced Voice Conversion
 
Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法
 
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
 
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
 
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
 

音声信号の分析と加工 - 音声を自在に変換するには?