Más contenido relacionado Más de Kitamura Laboratory (20) 周波数双方向再帰に基づく深層パーミュテーション解決法3. 3
• ブラインド音源分離 (blind source separation: BSS)
– 混合系 が未知の条件で分離系 を推定
– 優決定BSS(マイク数≧分離したい音源の数)
• 混合系が正方行列にできるので逆行列が定義可能
• 線形分離が可能なため分離音の音質が良い
• 本研究では,優決定BSSについて取り扱う
– 高音質であり,様々な分野に適用可能
ブラインド音源分離
例. 独立成分分析(ICA) [Comon, 1994]
例. 独立ベクトル分析 (IVA) [Hiroe, 2006], [Kim+, 2006]
例. 独立低ランク行列分析 (ILRMA) [Kitamura+, 2016]
混合系
BSS
分離系
4. 4
BSSの歴史
周波数領域独立成分分析 (FDICA) フルランク空間共分散分析 (FCA)
[Smaragdis, 1998] [Duong+, 2010]
パーミュテーション問題発生
独立ベクトル分析 (IVA) [Hiroe, 2006],
[Kim+, 2006]
補助関数IVA(AuxIVA)
[Ono, 2011]
独立低ランク行列分析(ILRMA)
[Kitamura+, 2016]
局所周波数領域に基づく深層パーミュ
テーション解決法 [Yamaji+, 2020]
パーミュテーション問題
を回避する手法
パーミュテーション問題を
解決する手法
提案手法
周波数間相関に基づく解決法
DOAに基づく解決法
[Saruwatari+, 2006]
[Murata+, 2001],
[Sawada+, 2004]
教師あり手法
教師なし手法
MLPを用いた深層パーミュテーション
解決法 [Hasuike+, 2022]
8. 8
パーミュテーション問題を回避する手法
• 独立ベクトル分析(IVA)
– 各信号源は全周波数成分の
強弱が同期すると仮定
• 独立低ランク行列分析(ILRMA)
– 各信号源は時間周波数構造が
低ランクな構造(繰り返しを多分
に含む)を持つと仮定
Time
Frequency
IVAの音源モデル
M
icrophone Frequency
ILRMAの音源モデル
Time M
icrophone
独立ベクトル分析 (IVA) [Hiroe, 2006],
[Kim+, 2006]
補助関数IVA(AuxIVA)
[Ono, 2011]
独立低ランク行列分析(ILRMA)
[Kitamura+, 2016]
パーミュテーション問題
を避ける手法
15. 15
前処理(従来手法[Hasuike+, 2022] と共通)
• パーミュテーション不整合信号 に対して正規化処理を
行う [Sawada+, 2007]
– 同一音源の成分の相関を強調できる
– DNNの入力の値を区間 [0,1] に制限できる
Frequency
Time
Frequency
Time
Frequency
Time
Frequency
Time
Frequency
Frequency
Frequency
Time
Frequency
Time
Time
Time
17. 17
推定パーミュテーション行列の導出(従来手法[Hasuike+, 2022] と共通)
• DNNの出力値(確率値)を用いて,推定パーミュテーショ
ン行列 を作成
– 確率値をパーミュテーション行列の係数とする
– 2音源の場合,2つのパーミュテーション行列を足し合わせて推
定パーミュテーション行列を作成
推定パーミュテーション
行列へ変換
Frequency
1.0
0.1
0.9
0.1
0.5
0.0
0.9
Frequency
0.0
0.1
0.9
0.9
0.1
0.5
1.0
19. 19
損失の導出方法(従来手法[Hasuike+, 2022] と共通)
• 損失関数の設計
– 推定分離信号と完全分離信号との間で平均二乗誤差(mean
squared error: MSE)を導入
– 分離信号の順序は予測の対象としないため,順序不変学習
(permutation invariant training: PIT)[Yu+, 2017] を導入
Frequency
Time Time
Frequency
Time Time
Frequency
Frequency
MSE & PIT
22. 22
• 比較手法
– 局所時間に基づく深層パーミュテーション解決法 [Yamaji+, 2020]
– MLPを用いた深層パーミュテーション解決法 [Hasuike+, 2022]
– 提案手法
• 評価指標
– SDR(Source-to-distortion ratio)[Vincent+, 2006]
• 実験データ
– SiSEC2011より男女の音声及びドラムとギターの音楽信号
実験条件
音響の種類 音響信号 ファイル名 信号長 [s]
音声
男性 dev2_male4_inst_src_2 10.0
女性 dev3_female4_inst_src_2 10.0
音楽
ドラム dev1_wdrums_src_3 11.0
ギター Dev1_wdrums_src_2 11.0
23. 23
• 学習データ
– 音声信号及び音楽信号の時間周波数信号を周波数ビン単位
でランダムにシャッフルしたデータ
– シャッフルパターンは150
• テストデータ
– 学習データとは重複しない10パターン
を用いてランダムに入れ替えたデータ
• 2つのモデル作成
– 音声モデル:男女の音声信号(2種類)を用いて作成
– 音楽モデル:ギターとドラムの音楽信号(2種類)を用いて作成
• 2種類のテスト条件:in-domainとout-of-domain
– In-domain: 学習データとテストデータの音源が同じ
– Out-of-domain: 学習データとテストデータの音源が異なる
実験条件
ランダムに
シャッフル
ランダムに
シャッフル
ランダムに
シャッフル
25. 25
実験結果(in-domainデータセット)
• BiLSTM手法においてSDRの改善が見られた
• MLP手法ではSDRの改善が見られず,パーミュテーショ
ン問題を解決できていない
テストデータ
パターン
観測信号 従来手法
提案手法
MLP BiLSTM
1 -6.25 3.60 -8.45 44.5
2 -6.85 4.65 -7.45 44.5
3 -5.40 3.60 -9.10 44.5
4 -6.45 3.55 -6.20 44.5
5 -6.60 4.70 -7.95 44.5
6 -6.45 4.65 -8.50 44.5
7 -6.35 3.60 -6.80 44.5
8 -5.50 4.65 -8.45 44.5
9 -5.85 3.60 -7.65 44.5
10 -5.55 4.65 -7.70 44.5
音声信号のin-domainに対するSDR値 [dB] 音楽信号のin-domainに対するSDR値 [dB]
テストデータ
パターン
観測信号 従来手法
提案手法
MLP BiLSTM
1 -0.95 2.95 1.80 64.75
2 2.00 2.95 -0.20 64.75
3 0.55 2.95 2.75 155.00
4 1.25 2.95 2.25 64.75
5 -1.00 2.95 -1.25 66.65
6 -1.00 2.95 -1.40 61.15
7 -0.85 2.95 -1.95 66.65
8 -0.15 2.95 2.10 64.75
9 0.60 2.95 0.70 64.75
10 -0.35 2.95 -0.80 61.15
26. 26
実験結果(out-of-domainデータセット)
テストデータ
パターン
観測信号 従来手法
提案手法
MLP BiLSTM
1 -0.95 5.05 4.85 3.35
2 2.00 5.05 -0.50 1.75
3 0.55 5.05 2.55 3.35
4 1.25 11.35 0.40 3.35
5 -1.00 11.35 0.50 3.35
6 -1.00 11.35 2.05 3.35
7 -0.85 11.35 0.30 3.35
8 -0.15 5.05 -0.40 3.35
9 0.60 5.05 -0.35 3.35
10 -0.35 5.05 -1.25 1.75
音声信号のout-of-domainに
対するSDR値 [dB]
音楽信号のout-of-domainに
対するSDR値 [dB]
テストデータ
パターン
観測信号 従来手法
提案手法
MLP BiLSTM
1 -6.25 -8.00 -4.45 33.55
2 -6.85 -5.85 -5.00 22.85
3 -5.40 -7.20 -6.25 33.85
4 -6.45 -7.60 -6.60 23.50
5 -6.60 -7.40 -5.90 22.00
6 -6.45 -7.25 -4.95 24.05
7 -6.35 -1.40 -5.65 23.60
8 -5.50 -7.65 -6.70 26.65
9 -5.85 -6.40 -4.75 25.15
10 -5.55 -7.90 -5.45 24.05
• 音楽信号のout-of-domainに対してBiLSTM手法はSDR
の改善が見られた
• 音声信号のout-of-domainに対してBiLSTM手法でSDR
値の改善は見られたものの従来手法が優勢
27. 27
0 1
1 2
2 3
3 4
4 5
5
0
4
4
2
2
3
3
1
1
0
0
Frequency
[kHz]
Time [s]
実験結果(音声信号のout-of-domain)
観測信号 従来手法
BiLSTM手法
MLP手法
29. 29
0 1
1 2
2 3
3 4
4 5
5
0
4
4
2
2
3
3
1
1
0
0
Frequency
[kHz]
Time [s]
実験結果(音楽信号のout-of-domain)
観測信号 従来手法
BiLSTM手法
MLP手法
32. 32
まとめ
• 目的
– 周波数ビン単位のパーミュテーション問題の解決
– 省サンプルデータで汎用性が高いモデルの作成
• 提案手法
– 周波数方向再帰の基づく深層パーミュテーション解決法を提案
– DNNの出力をパーミュテーション行列の係数とし,足し合わせ
ることで推定パーミュテーション行列を作成
• 結果
– 省サンプルデータで周波数ビン単位のパーミュテーション問題
を解決できた
Notas del editor 【0:10】
初めに,音源分離について説明します.
特定の音声を抽出したり,雑音,楽器音等の音の分離を行ったりすることを音源分離と呼びます.
音源分離の応用先としては,音声認識,AIスピーカー,補聴器の高機能化,ノイズキャンセリング等があります.
【0:25】
ブラインド音源分離について説明します.
ブラインド音源分離とは混合系Aが未知の条件で分離系Wを推定する手法でありBSSと呼ばれます.
BSSには,優決定BSSと呼ばれる条件があり.優決定BSSとはマイク数が分離したい音源の数以上であることを指します.
一般的に,優決定BSSは線形な分離が可能であるため,人工的な雑音等の歪みが少なく,音源分離に続く処理に対して悪影響を及ぼしにくいです.
そのため,様々な分野に応用可能となっています.
本研究ではこの優決定BSSについて取り扱います.
【1:00】
これまで様々なBSSの手法が提案されてきました.
周波数領域独立成分分析FDICAやフルランク空間共分散分析FCAを適用した際にはパーミュテーション問題が発生します.
パーミュテーション問題については後ほど詳しく説明します.
パーミュテーション問題を回避する手法と解決する手法が提案されてきました.
パーミュテーション問題を解決する手法として周波数間相関に基づく手法やDOAに基づく手法が提案されました.
2020年以降には,教師あり手法として深層学習を用いた手法が提案されました.
本発表では,新たな教師ありのパーミュテーション解決法を提案します. 【1:40】
こちらは本発表の目次になります. 【1:40】
まず,従来手法について説明します. 【1:45】
FDICAやFCAで生じるパーミュテーション問題について説明します.
この図は奥行きが周波数で横軸が時間を示しています.
FDICAは各周波数成分に対して独立なICAを行います.各周波数ごとに赤色と青色の音源が分離されていきますが,ICAは出力の順番を問わないためFDICAに適用した際に周波数毎に順番がバラバラになってしまう問題が生じます.
これは,一般的にパーミュテーション問題と呼ばれ,この問題を解決するような手法が現在求められています.
ここで,Y1とY2のように周波数ごとに成分がバラバラになっている信号を今後パーミュテーション不整合信号と定義します.
私はこのパーミュテーション問題に対して現在広い分野で用いられている深層学習(DNN)を用いて解決する手法を新たに提案します.
【2:40】
パーミュテーション問題を回避する手法について説明します.
独立ベクトル分析IVAや独立低ランク行列分析ILRMAは音源モデルに従って分離を行います.
IVAでは,各信号源は全周波数成分の強弱が同期すると仮定し分離を行います.
一方でILRMAでは,各信号源は時間周波数構造が低ランクな構造を持つと仮定し分離を行います.
これらの手法はパーミュテーション問題を回避しながら,分離行列を求めます. 【3:00】
しかしながら,こちらのボーカル,ドラム,ギターのように音源ごとに時間周波数構造は異なります.
音源モデルが音源に適していない場合,IVAやILRMAのBSSの精度は低下します.
このように,様々な音源に適応するような万能な音源モデルを作成することは困難です.
一方で,パーミュテーション問題の解決のみを行うモデルであれば,様々な音源に適応するモデルを作成できる可能性があると考えています.
これが,深層学習を用いてパーミュテーション問題を解決することの動機であり,深層パーミュテーション解決法が提案されました. 【3:40】
局所時間周波数構造に基づく深層パーミュテーション解決法では,パーミュテーション不整合信号のパワースペクトログラムを用意します.
その後,参照周波数成分と近傍の周波数成分が一致しているかどうかを判断します.
推定結果が1の場合は参照周波数と近傍の周波数が異なる音源であることを示し,0の場合は同一音源であることを示します.
【4:00】
しかし,この手法は入力音源が増えるとアルゴリズムが複雑化します.
例えば3音源の場合,参照周波数成分と近傍の周波数成分の値が異なる音源であるとDNNが予測した場合に,どの組み合わせと一致するかが一意に定まりません.
こちらの図では,一番上のDNNの予測が「1」であり,異なる音源といった予測結果になっていますが,どの音源の組み合わせと一致するのかがわかりません.
そのため,音源数分の組み合わせの処理を行う必要があり,処理がかなり複雑になるといった問題点があります.
そこで,私は新たに3音源以上になっても一般性をかけない深層パーミュテーション解決法を過去に提案しました. 【5:00】
こちらの手法は以前私が提案した,多層パーセプロトン(MLP)を用いた深層パーミュテーション解決法です.
パーミュテーション不整合信号を並び替えるような,パーミュテーション行列をMLPを用いて予測します.
予測した推定パーミュテーション行列をパーミュテーション不整合信号の間で行列積をとることで分離信号を求めます.
ただ,この手法では後に実験結果で示すようにブロックパーミュテーション問題にしか適用できないことが問題点として挙げられます.
【5:15】
ここからは提案手法について説明します. 【5:20】
# パーミュテーション行列の逆行列を推定を行います.これは,同じくパーミュテーション行列となるので,今後パーミュテーション行列と定義して説明します.←この文言欲しいかも.
提案手法の概要です.
分かりやすさのために2音源の例を用いて,提案手法の概要を説明していきます.
ただ,3音源以上になっても同じ処理を考えることができます.
FDICAを適用した後,推定分離行列W_hatを得ます.
ただ,この行列はスケールとパーミュテーションの不定性が残っています.
こちらの行列Dはスケールの不定性を表し,行列Pはパーミュテーションの不正性を表しており,これはパーミュテーション行列です.
スケールの不定性を示す行列Dは,プロジェクションバック法を用いて解析可能です.
パーミュテーションの不定性を解決するには,行列Pの逆行列を求める必要があります.
2音源の場合,行列Pの逆行列はこちらの2つになります.
提案手法では,パーミュテーション不整合信号を並び替えるようなパーミュテーション行列を周波数方向再帰に基づくDNN用いて推定します.
【6:20】
提案手法における前処理について説明します.
前処理として,パーミュテーション不整合信号に対して正規化処理を行います.
正規化処理はこの式で表すことができ,行列に対する絶対値記号は要素ごとの絶対値,ドット付き指数乗は要素毎の指数乗,分数は要素ごとの商を表しています.
この処理を行うことで,同一音源の成分の相関を強調できるのと同時に,推定信号の値を0〜1の区間に限定することができ,DNNの学習が安定する効果があります.
【6:50】
DNNの構造について説明します.
正規化処理を行ったスペクトログラムから局所時間スペクトログラムを抽出したものをDNNの入力に用います.
各音源の周波数方向の関係性を明確に学習するために,周波数方向に対してBiLSTMを適用しました.
各BiLSTM層では,周波数ビンの順方向の特徴量と逆方向の特徴量を要素ごとに乗算しています.
3層のBiLSTM層の後は,次元を圧縮するために周波数ビン単位で全結合層を通しました.
出力層では,Softmax関数を用いて,各周波数成分の値が足して1になる制約を設けました. 【7:30】
パーミュテーション不整合信号を並び替えるために必要である,推定パーミュテーション行列を求める方法について説明します.
先ほど,DNNの出力として確率値を出力すると説明しました.
この確率値はパーミュテーション行列の係数として,用いられます.
2音源を並び替えるようなパーミュテーション行列は,先ほど説明したように2種類ありそれは,この図の[1.0 ,0.0, 0.0, 1.0]と[0.0, 1.0, 1.0 0.0]にあたります.
3音源となるとこのパーミュテーション行列の数は6種類となり,音源数の階乗分,増加していくこととなります.
DNNから出力された確率値を2つのパーミュテーション行列に係数としてかけ,それぞれの行列を足したものを推定パーミュテーション行列とします.
【8:20】
推定パーミュテーション行列を求めた後は,パーミュテーション不整合信号との間で行列積をとることで完全分離信号を求めることができます.
【8:30】
DNNの学習時には,推定分離信号と完全分離信号との間で平均二乗誤差MSEを導入し,損失を計上します.
その際に,分離信号全体の順序は予測の対象としないため,順序不変学習(PIT)を導入します.
PITとMSEを用いたLossの取得に関する式はこちらになります.
【8:50】
学習したDNNをテストデータに適用する際には,より精度を上げるために多数決処理を行います.
パーミュテーション問題は時不変であるため,複数の局所時間スペクトログラムをDNNの入力とすることで複数の推定結果を得ることができます.
複数の推定パーミュテーション行列に対して多数決処理を行うことで,最終的に1か0で形成されたパーミュテーション行列を導き出します. 【9:20】
実験についてです. 【9:25】
提案手法の性能を評価するために,従来の深層パーミュテーション解決法とMLPを用いた深層パーミュテーション解決法との比較実験を行いました.
実験データには,SiSEC2011より男女の音声およびドラムとギターの音楽信号の4種類を使用しました.
【9:40】
学習データには音声および音楽信号の時間周波数信号を周波数ビン単位でランダムにシャッフルしたデータを用いました.
シャッフルのパターンは150に設定しました.
テストデータには学習データとは重複しない10パターンを用いてランダムに信号を入れ替えたデータを用いました.
そして,音声と音楽の2つモデルを作成しました.
その後,学習データとテストデータに同じ音源を用いるin-domainと異なる音源を用いるout-of-domainでのテストを行いました. 【10:20】
In-domainは,この図が示すように,パーミュテーション問題が生じている音声信号をDNNで学習し,そのモデルを学習データとは重複しないパーミュテーションパターンを持つ音声信号に適用することを指します.
学習に音楽信号を用いた場合は,テストも音楽信号で行います.
一方で,out-of-domainは,この図が示すように,パーミュテーション問題が生じている音声信号をDNNで学習し,そのモデルを音楽信号に適用することを指します.
学習に音楽信号を用いた場合は,テストに音声信号を用いました.
【10:55】
こちらはin-domainデータセットに対する実験結果です.
提案手法が音声信号と音楽信号に対して高精度でパーミュテーション問題が解決できていることが分かります. 【11:10】
こちらはout-of-domainデータセットに対する実験結果です.
音声信号のout-of-domainに対する実験結果では,従来法が高精度でパーミュテーション問題を解決できているのに対し,音楽信号のout-of-domainに対する実験結果では,提案法が高精度でパーミュテーション問題を解決していることが分かります. 【11:30】
こちらは音声信号のout-of-domainデータセットに対するスペクトログラムです.
左上から観測信号,従来手法,MLP法,BiLSTM法を示しています.
MLP法は,全くパーミュテーション問題を解決できていないことがわかります. 【12:00】
続いて先ほどのスペクトログラムの重要な成分が含まれている低周波数領域に注目してみます.
BiLSTM法は,従来手法と比較すると低周波領域においてパーミュテーション問題を解決できていないことが確認できます. 【12:15】
こちらは音楽信号のout-of-domainデータセットに対するスペクトログラムです.
MLP法は,全くパーミュテーション問題を解決できていないのに対して,BiLSTM法はほとんど完璧に解決できていることがわかります. 【12:30】
低周波数領域を拡大した図がこちらになります.
この図を見ると,BiLSTM法が一番パーミュテーション問題を解決できていることがわかります.
パーミュテーション問題が生じている観測信号の音声はこちらになります.
続いてMLP法です.
続いて従来手法です.
続いて提案手法です.
音声を聞いてみると提案手法が一番パーミュテーション問題を解決できていることがわかります. 【13:40】
最後にまとめです. 低周波数領域を拡大した図がこちらになります.
この図を見ると,BiLSTM法が一番パーミュテーション問題を解決できていることがわかります.
【14:00】
こちらまとめになります.
以上で発表を終わります.
ご清聴ありがとうございました.