Más contenido relacionado La actualidad más candente (20) Similar a スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価 (8) Más de Daichi Kitamura (18) スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価2. 背景
• ブラインド音源分離(blind source separation: BSS)
– 混合系 (マイクや音源位置の部屋の形状等)が未知
• 優決定条件(マイク数≧音源数)のBSS
– 独立成分分析(ICA)[P. Comon, 1994]
– 周波数領域ICA(FDICA)[P. Smaragdis, 1998], [H. Saruwatari+, 2000], [H. Sawada+, 2004], ・・・
• 時間周波数領域の音源分離(パーミュテーション問題が発生)
– 独立ベクトル分析(IVA)[A. Hiroe, 2006], [T. Kim+, 2006], [T. Kim+, 2007], [N. Ono, 2011]
• ベクトル音源モデルでパーミュテーション問題を回避するFDICA
• 高速&安定な最適化アルゴリズムAuxIVA [N. Ono, 2011]
– 独立低ランク行列分析(ILRMA)[D. Kitamura+, 2016]
• 低ランク行列音源モデルでパーミュテーション問題を回避するFDICA 2
混合系 分離系
4. 本発表の概要
• 解決すべき問題
– IVAやILRMAでもパーミュテーション問題解決にしばしば失敗
• 統計モデル(音源モデル)の改良,DNN等の教師あり化,etc.
• 新たな手掛かり
– スペクトログラム無矛盾性(spectrogram consistency) [J. L. Roux+, 2010]
• 時間周波数領域の信号の近傍共起関係の一貫性
• Consistent IVA [K. Yatabe, 2020]
– IVAでスペクトログラム無矛盾性を考慮すると性能が向上
• Consistent ILRMA [豊島ら, 2020年秋ASJ]
– ILRMAでも同様に性能向上を確認
• 本発表の新規報告
– Consistent IVA/Consistent ILRMAにおける反復毎のプロジェ
クションバックの重要性を実験的に調査
• プロジェクションバック:周波数毎のスケールの補正処理[K. Matsuoka+, 2001]
– 実録音環境における分離性能の改善量を調査 4
12. スペクトログラム無矛盾BSS [K. Yatabe, 2020]
• IVAやILRMAの分離信号のスペクトログラム無矛盾性を
反復最適化で担保
– パーミュテーション問題発生=とても矛盾したスペクトログラム
– 周波数の滲みの強調によりパーミュテーション問題が緩和
12
13. ILRMAの概要
• 独立低ランク行列分析
(independent low-rank matrix analysis: ILRMA)[D. Kitamura+, 2016]
– FDICA+各音源のスペクトログラムの低ランク仮定
– 分離信号のパワースペクトログラム を非負値行列因子分
解(NMF)[D. Lee+, 1999] で低ランク近似しながら分離行列を推定
– 周波数毎の分離行列 とNMF低ランク音源モデル を
交互に反復最適化
– Consistent ILRMAは上記反復最適化の中で無矛盾性を担保 13
19. 実験条件(インパルス応答の畳み込み混合)
• 混合条件(2音源2マイク)
– RWCP E2Aインパルス応答
• 残響時間: = 300 ms
• 音源信号(ドライソース)
– SiSEC2011の音楽4曲の
楽器を組み合わせで10パターン
• その他の条件
19
窓関数 ハン窓
窓長 128, 256, 512, 768, 1024 ms
シフト長 窓長の1/4 (原稿には他の結果も掲載)
基底数 1音源あたり10本
初期値
単位行列
及び (0, 1) の一様乱数
反復回数 100回
試行回数 異なる乱数シードで5回
2m
5.66cm
50
音源1 音源2
50
21. 実験条件(実環境録音混合)
• 混合条件(2音源2マイク)
– SiSEC2011UND liverec信号(音源位置は様々)
• 残響時間: = 250 ms
• マイク間隔:1m
• 音源信号(ドライソース)
– 音楽12パターン及び音声(男女)12パターン
• その他の条件
21
窓関数 ハン窓
窓長 512 ms
シフト長 窓長の1/4
基底数 1音源あたり:10本(音楽) or 2本(音声)
初期値
単位行列
及び (0, 1) の一様乱数
反復回数 100回
試行回数 異なる乱数シードで5回
24. まとめ
• 本発表の概要
– Consistent BSSでのプロジェクションバック有無調査と実録音
での性能
• 明らかになったこと
– Consistent IVAでもConsistent ILRMAでもプロジェクション
バックは性能向上に大きく寄与(予想通り)
– 実録音でも従来のIVAやILRMAから性能向上
• 論文(open access)
– D. Kitamura and K. Yatabe, “Consistent independent low-rank matrix analysis for
determined blind source separation,” EURASIP J. Adv. in Signal Process., vol. 2020, no.
46, p. 35, 2020.
• MATLABソースコード(ILRMAとConsistent ILRMA)
– https://github.com/d-kitamura/ILRMA
– 本発表の原稿にURLの記載あり
24