Más contenido relacionado La actualidad más candente (20) Más de Daichi Kitamura (6) 統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on statistical independence and low-rank matrix decomposition –Independent low-rank matrix analysis–1. Blind source separation based on statistical
independence and low-rank matrix decomposition
–Independent low-rank matrix analysis–
総合研究大学院大学 複合科学研究科 情報学専攻
博士後期課程3年
北村大地
2016年9月26日(月)
筑波大学 システム情報工学研究科
マルチメディア研究室 招待講演
統計的独立性と低ランク行列分解理論に基づく
ブラインド音源分離 –独立低ランク行列分析–
2. 講演概要
• 研究の背景
– 音源分離,前提条件,音楽信号の特徴,非負値行列因子分解
• 優決定条件BSSの発展とILRMA
– 優決定条件ブラインド音源分離
– FDICA,IVA,ISNMF,ILRMA
– ILRMAのコスト関数と補助関数法に基づく更新式
• 多チャネルNMFとしてのILRMAのアナロジー
– 多チャネルNMF
– ランク1空間モデル
• 比較実験と高残響下におけるILRMAの応用
• まとめと今後
• 参考文献
2
3. 講演概要
• 研究の背景
– 音源分離,前提条件,音楽信号の特徴,非負値行列因子分解
• 優決定条件BSSの発展とILRMA
– 優決定条件ブラインド音源分離
– FDICA,IVA,ISNMF,ILRMA
– ILRMAのコスト関数と補助関数法に基づく更新式
• 多チャネルNMFとしてのILRMAのアナロジー
– 多チャネルNMF
– ランク1空間モデル
• 比較実験と高残響下におけるILRMAの応用
• まとめと今後
• 参考文献
3
4. • 音源分離(audio source separation)
– 複数の音源が混合された信号を音源毎に分離する信号処理
– 音声認識,雑音抑圧,補聴器,会議アーカイブ etc.
• 音楽信号の音源分離
– ユーザによる既存音楽の再編集,自動採譜技術,
楽器演奏における教育支援,超臨場感音場再現の制御 等
• 観測信号から有意な因子を抽出する技術
– 知能情報学の一大トピック
研究の背景(1/4):音源分離
4
音楽CD
音源分離
実演奏の録音
5. 研究の背景(2/4):前提条件
• 混合される音源数と観測チャンネル数の関係
– 優決定条件(音源数 観測チャンネル数)における音源分離
– 劣決定条件(音源数 録音マイク数)における音源分離
– 「ブラインド」及び「教師あり」の2条件にも大別可能
5
音源信号 観測信号 分離信号
混合系 分離系 マイクロホンアレイ
問題の条件 ブラインド 教師あり
優決定
FDICA, IVA,
ILRMA 各手法の応用
劣決定
多チャネルNMF
TFマスク 等
教師ありNMF
ハイブリッド法
音楽CD
L-ch
R-ch
ステレオ信号(2-ch) モノラル録音
1-ch
モノラル信号(1-ch)
6. • 音楽信号の音源分離の特徴
– 芸術的作品 高品質かつ高精度な分離技術が必要
• 従来の音源分離手法では精度が不十分で芸術性を損なう
– ハーモニー スペクトルの重なりや時間的な同期が頻発
• 話者混合信号等と比較して音源間の統計的独立性が弱まる
– 離散的構造 限られた数の音高(ピッチ)の重ね合わせ
• 重なり合った音をパーツ単位に分割しその線形結合で表現できる
• 離散的構造を持つ信号の適切な表現
– 非負値行列因子分解の応用を考える
研究の背景(3/4):音楽信号の特徴
6
限られた数の音高(音の高さ)
限られた数の音価(音の長さ)
離散的なパーツの重ね合
わせで構成されている
7. 研究の背景(4/4):非負値行列因子分解
• 非負値行列因子分解(nonnegative matrix factorization: NMF)
– 非負制約付き低ランク近似分解(データの次元圧縮)
• 頻出するスペクトルパターン群を 本の基底ベクトルとして抽出
– 限られた数のパーツで時間周波数構造を表現
• 離散的な構造を持つ音楽信号の表現によく適合
7
Amplitude
Amplitude
混合された観測行列
(パワースペクトログラム)
基底行列
(スペクトルパターン)
アクティベーション行列
(時間的強度変化)
Time
: 周波数ビン数
: 時間フレーム数
: 基底数
Time
Frequency
Frequency
基底
[Lee, 1999], [Lee, 2000], etc.
8. 講演概要
• 研究の背景
– 音源分離,前提条件,音楽信号の特徴,非負値行列因子分解
• 優決定条件BSSの発展とILRMA
– 優決定条件ブラインド音源分離
– FDICA,IVA,ISNMF,ILRMA
– ILRMAのコスト関数と補助関数法に基づく更新式
• 多チャネルNMFとしてのILRMAのアナロジー
– 多チャネルNMF
– ランク1空間モデル
• 比較実験と高残響下におけるILRMAの応用
• まとめと今後
• 参考文献
8
9. 優決定条件ブラインド音源分離
• ブラインド音源分離(blind source separation: BSS)
– 混合系 が未知の条件で分離系 を推定
– マイク位置,マイク間隔,音源位置等の情報が不要
• 優決定条件BSS
– 統計的独立性に基づく手法が代表的
• 独立成分分析(ICA)[Comon, 1994]
• 独立ベクトル分析(IVA)[Hiroe, 2006], [Kim, 2006]
• BSSに利用可能な性質
– 音源毎の空間特徴の違い(音源位置の違い):空間モデル
– 音源毎の音色特徴の違い(スペクトルの違い):音源モデル 9
State-of-the-art
BSS
混合系 分離系
11. FDICAとDOAを用いた古典的なBSS(~2006)
11
• FDICA+DOAクラスタリング [Saruwatari, 2006]
– 推定分離フィルタからステアリングベクトルを逆算し音源の到来
方向(DOA)でクラスタリングすることでパーミュテーションを解く
– 音源モデル
• 具体的なモデルスペクトログラムは無し(ICAの非ガウス性制約のみ)
– 空間モデル
• 混合系はDOAクラスタリングで解決できるという仮定(制約)
推定された
音源成分の頻度
到来方向(DOA)
正面左 右
推定された
音源成分の頻度
到来方向(DOA)
正面左 右
DOA
クラスタリング
Source 1 Source 2
12. • FDICAで推定される分離フィルタとは?
– 周波数領域での瞬時混合を仮定
– 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ
– 適応ビームフォーマ(ABF)と本質的に等価 [Araki, 2003]
• ABF:妨害音のみがアクティブな時間の出力二乗誤差最小化
• 妨害音に対してヌル(感度0)を打つような空間分離
• ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要
– FDICAはブラインドな音源分離手法
• 混合系未知,アクティビティ検出不要
• 厳密な音源位置とマイク位置が既知の場合のビームフォーマがFDICA
の上限性能といえる
ICAによる信号源分離の音響学的なメカニズム
12
音源1
音源2
音源1の空間
分離フィルタ
音源1
混合系 但し,分離フィルタの
タップ長はフーリエ変換
の窓長と同じ
14. 周波数成分間の高次相関を用いたBSS(2006~)
• 独立ベクトル分析(independent vector analysis: IVA)
– FDICAの多変量拡張手法,パーミュテーション問題を回避
– 球対称な多変量(多次元)分布モデルの最尤推定
• ICAにおける音源の事前分布 を多次元分布 に拡張
• 球対称性:無相関な周波数成分間で同じ分散を持つ多変量分布
14
…
…
音源信号
混合行列
…
…
…
観測信号
分離行列
分離信号互いに
独立
周波数成分間
は無相関だが
依存性をもつ
共通の分散
を持つ
[Hiroe, 2006], [Kim, 2006], [Kim, 2007]
15. • FDICAとIVAの違いはscore functionのみ
– Score function: パラメタの対数尤度のgradient
– 「音源の事前分布が一次元か多次元か」のみ
• IVAの仮定する音源の事前分布
– ラプラス分布の例(音声信号のモデルとして一般的)
– 後者は (互いに無相関)の場合でも, が互いに依存
IVAの仮定する周波数成分間の依存性
15
周波数毎に独立な
事前分布
周波数間で高次相
関をもつ事前分布
分散共分散行列
16. • 図は [Kim, 2007] より引用
IVAの仮定する周波数成分間の依存性
16
x1とx2は互いに独立なラプラス分布
(条件付き分布はラプラス分布)
x1とx2は互いに無相関だが
依存関係がある
球対称
ラプラス分布
Higher-order correlation
Higher-order dependency
18. IVAとNMFを融合した新しいBSS(2016~)
• 独立低ランク行列分析(independent low-rank matrix analysis: ILRMA)
– 独立音源の詳細な時間周波数構造(のパワー)を低ランク行列
として捉えながら線形分離フィルタを学習
– 板倉斎藤擬距離基準NMFの事前分布を活用 18
濃淡は分散値
(信号のパワー)
Frequency
Time
Frequency
Time
Frequency
Time
Frequency
Basis
Basis
Time
IVAの
音源モデル
ILRMAの
音源モデル
全周波数で共通の
分散をもつ音源モデル
時間周波数で分散が
変動する音源モデル
基底数は任意
[Kitamura, 2015], [Kitamura, 2016]
21. • を複素スペクトログラムとする(STFTしたそのもの)
– 各時間周波数要素は複素要素 を 個足し合わせたもの
– 複素ガウス分布の線形結合なので も複素ガウス分布
• ガウス分布の再生性
• の複素ガウス分布の分散は
– 分散が時間周波数で変動する複素ガウス分布が生成モデル
板倉斎藤擬距離基準NMFにおける生成モデル
21
これらの複素ガウス分布は互いに独立(i.i.d.)
平均0,分散 の複素球対称ガウス分布とある時間
周波数要素
23. IVAとNMFを融合した新しいBSS(2016~)
• 独立低ランク行列分析(independent low-rank matrix analysis: ILRMA)
– 但し,IVAは共通分散だがスケールは周波数毎に不定なので,
フラットなスペクトルだけではなく任意の形状を表現可能 23
濃淡は分散値
(信号のパワー)
Frequency
Time
Frequency
Time
Frequency
Time
Frequency
Basis
Basis
Time
IVAの
音源モデル
ILRMAの
音源モデル
全周波数で共通の
分散をもつ音源モデル
時間周波数で分散が
変動する音源モデル
基底数は任意
(再掲)
24. ILRMAのコスト関数と更新則
• ILRMAのコスト(対数尤度)関数
• ILRMAはIVAを特種形として含む
– 基底数 のILRMAは本質的にIVAと等価
– 但し,一般的なIVAが球対称ラプラス分布の事前モデルである
のに対し,基底1本のILRMAは複素ガウス分布の事前モデル
– この違いはコスト関数の凸性の違いも導く
• 球対称ラプラス分布IVAはコスト関数が分離行列に対して凸
• 基底1本のILRMAは(NMF変数がgivenでも)分離行列に対して非凸
24
ISNMFのコスト関数
(音源モデルの推定に寄与)
IVAのコスト関数
(空間モデルの推定に寄与)
分離信号:
27. 講演概要
• 研究の背景
– 音源分離,前提条件,音楽信号の特徴,非負値行列因子分解
• 優決定条件BSSの発展とILRMA
– 優決定条件ブラインド音源分離
– FDICA,IVA,ISNMF,ILRMA
– ILRMAのコスト関数と補助関数法に基づく更新式
• 多チャネルNMFとしてのILRMAのアナロジー
– 多チャネルNMF
– ランク1空間モデル
• 比較実験と高残響下におけるILRMAの応用
• まとめと今後
• 参考文献
27
28. NMFの多チャネル信号への拡張
• 全音源の時間周波数構造をNMFでモデル化し,音源毎
の空間伝達特性(空間相関行列)を用いてクラスタリング
– 「NMFモデル」と「音源毎の空間相関行列」は同時に推定
28
提案者と年代
空間的な混合系と
音源モデル
各音源の
空間相関行列
音源のスペ
クトログラム
各変数の
最適化手法
Ozerov and
Fevotte, 2010
はランク1
はフルランク
NMF
EMで ,
NMF変数を推定
Arberet et al.,
2010
も もフル
ランク
NMF
EMで ,
NMF変数を推定
Ozerov et al.,
2011
はランク1
はフルランク
分割関数付き
のNMF
EMで ,
NMF変数を推定
Sawada et al.,
2013
フルランクの
分割関数付き
のNMF
乗算更新式で ,
NMF変数を推定
Kitamura et al.,
2016
ランク1の
分割関数付き
のNMF
反復射影で分離
行列 ,
乗算更新式で
NMF変数を推定
29. • 最も一般化された多チャネルNMF [Sawada, 2013]
NMFの多チャネル信号への拡張
29
時間周波数毎の
観測チャンネル間相関
多チャネル観測信号
音源周波数毎の
チャンネル間相関 基底行列 アクティベーション行列
空間モデル 音源モデル
クラスタリング関数
スペクトルパターン
強度変化
音源毎の空間的な違い 全音源の音色構造
多チャネル
ベクトル
瞬時空間(チャネル間)相関行列
30. • 空間相関行列 又は 空間共分散行列 [Duong, 2010]
– Duong modelとも呼ばれる
– 音源とマイク間の伝達系と音響的拡散度合を含む特徴量
– ステアリングベクトルの拡張
– 観測信号 中の 番目の音源成分のみを と表すとき
空間相関行列とは
30
Source image
時変な音源の分散(パワースペクトログラム)
マイクロホンへの伝達系
に寄与する時不変な成分
(空間相関行列)
音源毎の
空間共分散
観測の
空間共分散
観測の
生成モデル
多チャネル
Wiener filter
時変分散と音源毎の空間共分散
から音源分離が可能(劣決定も可)
時間周波数で分散共分散が
変動する多変量ガウス分布
31. • 空間相関行列は瞬時空間相関の期待値
– 「瞬時相関の期待値」のランクが1
– 時不変な空間基底:ステアリングベクトル
– 「瞬時相関の期待値」のランクが1より大きい(フルランク)
– ステアリングベクトルのような空間基底ではもはや表現不可
• 複数本の空間基底になる(空間基底の数=空間相関行列のランク)
– 周波数領域での瞬時混合仮定が成り立たない
空間相関行列のランク
31
音源毎の
空間共分散
伝達系が時不変な一つの空間基底でモデル化できる
ランク1
空間モデル
音響信号の拡散,音響放射特性の変動,残響
35. 各手法のモデルの比較
手法 空間モデル 音源モデル 推定対象
FDICA
ランク1空間モデル
パーミュテーション
ソルバ依存
なし
(時系列の非ガウス性
制約のみ)
周波数毎に独立な
ICAによる分離行列
IVA ランク1空間モデル
基底1本での表現
球対称多変量
ラプラス分布
分離行列
音源毎の
周波数共通分散
多チャネル
NMF
フルランク空間モデル
(周波数領域の瞬時
混合仮定は不要)
任意基底数のNMF
時間周波数分散変動
型複素ガウス分布
音源毎の
空間相関行列
全音源のNMF表現
ILRMA ランク1空間モデル
任意基底数のNMF
時間周波数分散変動
型複素ガウス分布
分離行列
全音源のNMF表現
35
36. 講演概要
• 研究の背景
– 音源分離,前提条件,音楽信号の特徴,非負値行列因子分解
• 優決定条件BSSの発展とILRMA
– 優決定条件ブラインド音源分離
– FDICA,IVA,ISNMF,ILRMA
– ILRMAのコスト関数と補助関数法に基づく更新式
• 多チャネルNMFとしてのILRMAのアナロジー
– 多チャネルNMF
– ランク1空間モデル
• 比較実験と高残響下におけるILRMAの応用
• まとめと今後
• 参考文献
36
39. 実験結果: fort_minor-remember_the_name
39
16
12
8
4
0
-4
-8
SDRimprovement[dB]
Sawada’s
MNMF
IVA Ozerov’s
MNMF
Ozerov’s
MNMF with
random
initialization
Sawada’s
MNMF
initialized by
proposed
method
Proposed
method
w/o
partitioning
function
Proposed
method
with
partitioning
function
Directional
clustering
Sawada’s
MNMF
IVA Ozerov’s
MNMF
Ozerov’s
MNMF with
random
initialization
Sawada’s
MNMF
initialized by
proposed
method
Proposed
method
w/o
partitioning
function
Proposed
method
with
partitioning
function
Directional
clustering
16
12
8
4
0
-4
-8
SDRimprovement[dB]
Violin synth. Vocals
Violin synth. Vocals
E2A
(300ms)
JR2
(470ms)
40. 実験結果: ultimate_nz_tour
40
E2A
(300ms)
JR2
(470ms)
Sawada’s
MNMF
IVA Ozerov’s
MNMF
Ozerov’s
MNMF with
random
initialization
Sawada’s
MNMF
initialized by
proposed
method
Proposed
method
w/o
partitioning
function
Proposed
method
with
partitioning
function
Directional
clustering
20
15
10
5
0
-5
SDRimprovement[dB]
Sawada’s
MNMF
IVA Ozerov’s
MNMF
Ozerov’s
MNMF with
random
initialization
Sawada’s
MNMF
initialized by
proposed
method
Proposed
method
w/o
partitioning
function
Proposed
method
with
partitioning
function
Directional
clustering
20
15
10
5
0
-5
SDRimprovement[dB]
Guitar Synth.
Guitar Synth.
41. Ozerov’s MNMF with
random initialization
実験結果: ultimate_nz_tour(収束の様子)
41
20
16
12
8
4
0
-4
SDRimprovement[dB]
300250200150100500
Iteration step
14
12
10
8
6
4
2
0
-2
-4
SDRimprovement[dB]
300250200150100500
Iteration step
IVA
Ozerov’s MNMF
Proposed method w/o
partitioning function
Proposed method with
partitioning function
Sawada’s MNMF initialized
by proposed method
Sawada’s MNMF
Guitar
Synth.
高速,頑健,高精度
な音源分離を達成
42. 音声音源分離実験の条件
• 実験条件
– 予備実験より,音声信号に対しては基底数を大きくすると音源
分離に失敗する事実を確認
• 音声信号の時間周波数構造がNMF表現に不向き?
42
音源信号 SiSECのライブ録音音声信号,2チャンネルで2話者の混合信号
窓長(FFT長) 256 ms,ハニング窓
シフト長 128 ms (1/4シフト)
基底数 1音源につき2本(ILRMA1),全音源で4本(ILRMA2)
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for
each source ( )
Number of bases for
each source ( )
16
12
8
4
0
-4
SDRimprovement[dB]
10987654321
16
12
8
4
0
-4
SDRimprovement[dB]
10987654321
Speaker 1 Speaker 2
43. 実験結果: female3_liverec_1m
43
130ms
250ms
Sawada’s
MNMF
IVA Ozerov’s
MNMF
Ozerov’s
MNMF with
random
initialization
Sawada’s
MNMF
initialized by
proposed
method
Proposed
method
w/o
partitioning
function
Proposed
method
with
partitioning
function
Directional
clustering
16
14
12
10
8
6
4
2
0
-2
-4
SDRimprovement[dB]
Sawada’s
MNMF
IVA Ozerov’s
MNMF
Ozerov’s
MNMF with
random
initialization
Sawada’s
MNMF
initialized by
proposed
method
Proposed
method
w/o
partitioning
function
Proposed
method
with
partitioning
function
Directional
clustering
16
14
12
10
8
6
4
2
0
-2
-4
SDRimprovement[dB]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
44. 実験結果: male3_liverec_1m
44
130ms
250ms
(a)
Sawada’s
MNMF
IVA Ozerov’s
MNMF
Ozerov’s
MNMF with
random
initialization
Sawada’s
MNMF
initialized by
proposed
method
Proposed
method
w/o
partitioning
function
Proposed
method
with
partitioning
function
Directional
clustering
14
12
10
8
6
4
2
0
-2
-4
SDRimprovement[dB]
Sawada’s
MNMF
IVA Ozerov’s
MNMF
Ozerov’s
MNMF with
random
initialization
Sawada’s
MNMF
initialized by
proposed
method
Proposed
method
w/o
partitioning
function
Proposed
method
with
partitioning
function
Directional
clustering
14
12
10
8
6
4
2
0
-2
-4
SDRimprovement[dB]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
46. • SiSECデータベース収録のプロ音楽信号
– ファイル名: bearlin-roads__snip_85_99,14 s(16kHzサンプル)
– 音源: acoustic_guit_main, bass, vocalsの3音源
– 実行環境: MATLAB 8.3, Intel Core i7-4790 (3.6 GHz)
– 更新回数: 200回
各手法の計算量の比較
46
IVA MNMF
ILRMA
(音源毎に基底数を固定)
ILRMA
(音源毎に基底数を可変)
91.6 4498.4 121.0 173.4
(単位は全てs)
12
10
8
6
4
2
0
-2
SDRimprovement[dB]
4003002001000
Iteration steps
IVA
MNMF
Rank-1 MNMF
Rank-1 MNMF
(基底数固定)
(基底数可変)
200回更新時(MNMF以外は十分収束)
48. 高残響下における応用手法
• 応用として余剰な観測チャンネルを用いることを提案
– 音源数 の 倍の観測チャンネルがある状況を仮定
• 通常のBSSでは事前に主成分分析(PCA)を用いて次元圧縮
• 提案手法ではPCAを用いずにそのままランク1多チャネルNMFで分離
– 各音源の直接音成分及び残響成分を別の独立成分として分離
– 分離後に同じ音源に属する成分同士を足し合わせて復元
48
音源信号
観測信号
Mixing
例: 音源数 ,観測チャンネル数 ( )
直接音
残響
直接音
残響
推定信号
再構成
分離された成分
BSS
[Kitamura, 2015]
51. 高残響下における音源分離実験
• 実験結果(曲名: ultimate nz tour, guitar and vocal)
51
– 初期値を変えて10回試
行した際の平均と標準
偏差を示したグラフ
– 各音源の残響成分を
含んだ状態での音源
分離を達成
– 実計算時間の比較に
おいても効率的な最適
化を保っていることが
確認できる
16
14
12
10
8
6
4
2
0
SDRimprovement[dB]
Source 1
Source 2
PCA +
2ch IVA
PCA +
2ch proposed
method
4ch proposed
method with
basis sharing
4ch
multichannel
NMF
PCA +
2ch IVA
PCA + 2ch
proposed method
4ch
multichannel
NMF
4ch proposed
method with
basis sharing
53.8 s 67.6 s 8307.1 s 330.97 s
注: 全て200回反復した場合の計算時間
52. 講演概要
• 研究の背景
– 音源分離,前提条件,音楽信号の特徴,非負値行列因子分解
• 優決定条件BSSの発展とILRMA
– 優決定条件ブラインド音源分離
– FDICA,IVA,ISNMF,ILRMA
– ILRMAのコスト関数と補助関数法に基づく更新式
• 多チャネルNMFとしてのILRMAのアナロジー
– 多チャネルNMF
– ランク1空間モデル
• 比較実験と高残響下におけるILRMAの応用
• まとめと今後
• 参考文献
52
54. 参考文献(1/3)
• [Lee, 1999]: D. D. Lee and H. S. Seung, “Learning the parts of objects by non-negative matrix
factorization,” Nature, vol. 401, pp. 788–791, 1999.
• [Lee, 2000]: D. D. Lee and H. S. Seung, “Algorithms for non-negative matrix factorization,” in
Proc. Adv. Neural Inform. Process. Syst., 2000, vol. 13, pp. 556–562.
• [Smaragdis, 1998]: P. Smaragdis, “Blind separation of convolved mixtures in the frequency
domain,” Neurocomputing, vol. 22, pp. 21–34, 1998.
• [Sawada, 2004]: H. Sawada, R. Mukai, S. Araki, and S.Makino, “Convolutive blind source
separation for more than two sources in the frequency domain,” in Proc. IEEE Int. Conf.
Acoust., Speech, Signal Process., 2004, pp. III-885–III-888.
• [Saruwatari, 2006]: H. Saruwatari, T. Kawamura, T. Nishikawa, A. Lee, and K. Shikano, “Blind
source separation based on a fast-convergence algorithm combining ICA and beamforming,”
IEEE Trans. Audio, Speech, Lang. Process., vol. 14, no. 2, pp. 666–678, Mar. 2006.
• [Araki, 2003]: S. Araki, S. Makino, Y. Hinamoto, R. Mukai, T. Nishikawa, and H. Saruwatari,
“Equivalence between frequency-domain blind source separation and frequency-domain
adaptive beamforming for convolutive mixtures,” EURASIP Journal on Advances in Signal
Process., vol. 2003, no. 11, pp. 1–10, 2003.
• [Hiroe, 2006]: A. Hiroe, “Solution of permutation problem in frequency domain ICA using
multivariate probability density functions,” in Proc. Int. Conf. Independent Compon. Anal. Blind
Source Separation, 2006, pp. 601–608.
54
55. 参考文献(2/3)
• [Kim, 2006]: T. Kim, T. Eltoft, and T.-W. Lee, “Independent vector analysis: An extension of
ICA to multivariate components,” in Proc. Int. Conf. Independent Compon. Anal. Blind Source
Separation, 2006, pp. 165–172.
• [Kim, 2007]: T. Kim, H. T. Attias, S.-Y. Lee, and T.-W. Lee, “Blind source separation exploiting
higher-order frequency dependencies,” IEEE Trans. Audio, Speech, Lang. Process., vol. 15,
no. 1, pp. 70–79, 2007.
• [Kitamura, 2015]: D. Kitamura, N. Ono, H. Sawada, H. Kameoka, and H. Saruwatari, “Efficient
multichannel nonnegative matrix factorization exploiting rank-1 spatial model,” in Proc. IEEE
Int. Conf. Acoust., Speech, Signal Process., 2015, pp. 276–280.
• [Kitamura, 2016]: D. Kitamura, H. Saruwatari, H. Kameoka, Y. Takahashi, K. Kondo and S.
Nakamura, “Determined blind source separation unifying independent vector analysis and
nonnegative matrix factorization,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 24,
no. 9, pp. 1626–1641, Spt. 2016.
• [Févotte, 2009]: C. Févotte, N. Bertin, and J.-L.Durrieu, “Nonnegative matrix factorization with
the Itakura-Saito divergence. With application to music analysis,” Neural Comput., vol. 21, no.
3, pp. 793–830, 2009.
• [Sawada, 2013]: H. Sawada, H.Kameoka, S.Araki, and N. Ueda, “Multichannel extensions of
non-negative matrix factorization with complex-valued data,” IEEE Trans. Audio, Speech,
Lang. Process., vol. 21, no. 5, pp. 971–982, May 2013.
55
56. 参考文献(3/3)
• [Duong, 2010]: N. Q. K. Duong, E. Vincent, and R. Gribonval, “Under-determined reverberant
audio source separation using a full-rank spatial covariance model,” IEEE Trans. Audio,
Speech, Lang. Process., vol. 18, no. 7, pp. 1830–1840, Sep. 2010.
• [Kitamura, 2015]: D. Kitamura, N. Ono, H. Sawada, H. Kameoka, and H. Saruwatari,
“Relaxation of rank-1 spatial constraint in overdetermined blind source separation,” in Proc.
Eur. Signal Process. Conf., 2015, pp. 1271–1275.
56
Notas del editor 音源分離においては,混合されている音源の数と観測チャンネルの数の関係がとても重要です.
観測チャンネルの数と音源の数が同じか観測チャンネルの数が多い場合を優決定条件,音源の数の方が多い場合を劣決定条件と呼びます.
優決定条件では,マイクロホンアレイなどを用いた状況が想定されており,劣決定条件では音楽CDのステレオ信号やモノラル信号などが音源分離の対象になります.
基本的に,優決定条件の方が高性能な音源分離が可能である為,研究計画としてはまず優決定条件について研究を進めていきます. この音楽信号の音源分離の特徴を簡単に説明します.
まず,音楽は芸術作品です.従って高品質かつ高精度な音源分離が求められます.従来の代表的な手法の精度では不十分で,芸術性を著しく損なう問題があります.
次に,音楽はハーモニーとなっています.そのため,音源毎のスペクトルの重なりや時間的な同期が多分に含まれています.そのため,音源間の統計的独立性が弱まるという特徴があります.
この統計的独立性というのは一つの重要な要素で,従来の手法ではこの性質を陽に使ってきましたが,それだけでは精度が劣化してしまう,という問題です.
しかし,良い特徴もあります.音楽は非常に離散的な構造を持っているという点です.すなわち,限られた数の音高と限られた数の音価という離散的なパーツの重ね合わせとなっており,音楽をパーツ単位に分割できれば,その線形結合でよく表現できるという性質です.
本研究課題では,このメリットを最大限活用して,上の二点を克服するような音源分離を目指します.また,工学は人の役にたつことが重要である為,計算時間や頑健性といった実用面も大変重要な要素と考えています.
この課題に対して,研究を通して様々なアプローチを模索していくことが目標となります. NMFは音源分離技術ではなく,これ単体で音源分離できるものではありません.
NMFは非負の制約付きの低ランク近似分解であり,観測行列を別の二つの行列TVの行列積で近似します.このとき,X,T,V全て非負の要素を持つ行列になります.
このような分解を施すと,基底行列と呼ばれるTには頻出するスペクトルパターンが基底として得られます.そしてアクティベーション行列と呼ばれるVには,それぞれの基底の時間的強度変化が得られます.
従って,複数の音源が混合された観測信号の時間周波数構造を,限られた数のパーツに分解することができます
音楽信号は限られた数の音高が重なり合って構成されていますので,このNMFによる表現は極めてよく適合します. 優決定条件では,ブラインド音源分,BSSと呼ばれる手法が長く研究されてきました.これは,混合系が未知の条件で分離系を推定する技術です.混合系を知る必要が無い為,マイクの位置や間隔,音源位置等の情報が不要というメリットがあり,音楽信号分離にも適しています.
マイクが音源の数だけ必要になりますので,音楽信号の場合は,生演奏の多重録音信号などに適用でき,本来得ることのできなかった楽器音単体の信号を得ることができます.
優決定条件におけるBSSでは,統計的独立性に基づく手法が代表的であり,独立成分分析,ICAや独立ベクトル分析,IVAなど,いくつかの種類がこれまでに提案されています.IVAと呼ばれる手法が現在のState-of-the-artな手法となっています.
音楽信号のBSSでは,音源毎の空間的な違いが利用可能です.すなわち音源のある位置の違いに基づいた分離です.
さらに音楽信号においては,音源毎の音色の違いも活用することができるはずです.音源固有のスペクトルパターンの違いも極めて重要な情報になります. 始めはFDICAです.これは周波数ビン毎にICAを適用し分離したあと,パーミュテーション問題を解くという流れです.
仮定している音源及び空間モデルはパーミュテーション解決法に依存します.いろいろな手法がありますが,ここでは DOAクラスタリングを用いた手法を取り上げます.
これは,分離フィルタからステアリングベクトルを逆算して,音源の到来方向,つまりDOAでクラスタリングすることでパーミュテーションを解きます.
仮定する音源モデルは特になく,具体的なモデルスペクトログラムが与えられません.
空間モデルはランク1空間近似に加え,「混合系がDOAクラスタリングで解決できる」という仮定をおいており,これは音源が接近していたり残響が強いと成り立たなくなってきます.
つまり,この手法は空間モデルに比較的強い制約を与えて分離している手法になります. それでは関連する従来手法について説明していきます.1つ目はIVAです.
これは周波数領域ICAを多変量に拡張したモデルです.周波数領域で取り扱う理由は,残響による畳み込み混合を取り扱う為になります.
IVAはこのように周波数方向にまとめたベクトルを定義し,音源のベクトルはそれぞれこのような球対称な多変量分布を仮定しています.この図はある2つの周波数ビンを2軸にとっていますが,どの周波数ビンを取ってきてもこのように球対称になるモデルです.
この球対称という性質から,周波数ベクトル内での高次相関が考慮されていることが特徴です.
このモデルで最尤推定した分散値が分離された信号そのものであり,そのような信号を出力する分離行列が周波数毎に推定されます. つまり,提案手法はIVAで空間的な違いを学習し,それで分離された信号の音色構造をNMFで学習します.
結果得られる音源モデルを空間的な違いの学習に再利用し,さらに高精度な分離信号が得られる,という反復です.
このプロセスをなんども更新することで,音源毎の明確な音色構造が捉えられ,独立性基準での分離性能の向上が期待できます. 優決定条件におけるNMFを用いた音源分離は,全音源の時間周波数構造をNMFでモデル化し,音源毎の空間相関行列と呼ばれる空間的な伝達特性を用いてクラスタリングする問題になります.
このNMFモデルと音源毎の空間相関行列は同時に推定します.
この表にこれまでの手法をまとめています.
Rsが音源毎の空間相関行列であり,TVは全音源のNMFモデルです.
従来手法には,音源毎の空間相関行列Rsがランク1かフルランクかという違いがあります.この空間相関行列のランクの違いについては後程解説します.
これまでの手法は皆空間相関行列Rsを直接推定するものでした.
私が前回の中間発表で提案した手法は,ランク1の空間相関行列でモデル化し,最適化においてはRsのインバースに相当する分離行列Wを推定することで非常に効率的なアルゴリズムとなっています.
今日の発表でもこの後簡単に説明させていただきます. 当然時間遅れも考慮されるべきですので,実際は時間周波数領域で先ほどと同じことを仮定します.
つまり,周波数毎に複素数の係数がかかるという伝達系を仮定しています.
この複素係数をまとめたベクトルをステアリングベクトルと呼びます.
全体の混合系は,ステアリングベクトルを並べた混合行列Aで表現でき,音源分離はこの逆行列を求める問題に帰着します.
物理的には,音源の伝達系が時不変で,残響がフーリエ変換の窓長より短い場合にランク1空間モデルは成り立ちます.
このようなランク1空間モデルを従来の多チャンネルNMFに導入します. 音楽信号の分離実験を行いました.こちらは実験条件です.二つの音楽信号をこのような配置で鳴らし,2チャンネルのマイクで録音しました.このときの残響時間は300msです.
評価値はSDRという値を用いています.これは音質と分離度合いを含む総合的な性能を示す尺度です. しかし,提案手法は高残響下においては問題が生じてきます.残響が強い場合,短時間フーリエ変換の窓長よりも長い残響が生じてきます.
このとき,残響成分がこのように次の時間フレームに漏れ出すため,チャンネル間相関行列がランク1ではなくなります.その結果,分離精度が劣化することが予想されます. そこで,提案手法の応用として,たくさんマイクがある場合を想定します.例えば,2つの音源に対して4つのマイクがあるような状況です.
通常のBSSでは,このような余剰チャンネルはPCAなどを用いて圧縮してしまいますが,ここではそのままランク1多チャンネルNMFを適用する手法を提案します.
これは,(クリック)このように,各音源の直接音成分と残響成分が分離されることを期待しています.分離後に同じ音源に属する成分同士を足し合わせてもとの信号を復元します. この時,各成分が音源毎にまとまるように,基底共有型ランク1多チャンネルNMFという新たな手法を提案しています.
この図のように,複数の成分であらかじめ音源モデルの基底行列Tを共有させておくことで,各成分が自動的に音源毎にまとまります.
これは「同じ音源の直接音と残響は同じスペクトルパターンを持っている」という仮定が成立する為です.
このような処理は,音源モデルが与えられて初めてできる応用手法になります. 先ほどと同様に音楽信号の分離実験を行いました.
今回は2音源で4チャンネルの観測信号を録音しました.但し,残響時間470msに対して128msの解析窓を用いている為,ランク1モデルは成り立っていないような条件です. コチラが結果の一例です.左から順に,従来通りPCAを用いたIVAとランク1多チャンネルNMF,多チャンネルNMF,基底共有型ランク1多チャンネルNMFです.
従来のPCAを用いる手法では,精度が不十分であることが分かります.また,多チャンネルNMFはフルランクの空間モデルを仮定しているため,分離できるポテンシャルは持っていますが精度は上がりませんでした.これは最適化が困難であることを示唆しています.
そして提案手法は非常に大きな改善を示していることが確認できます.
また,実計算時間を比較しても,多チャンネルNMFよりは格段に高速であることが分かります.