スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価

スペクトログラム無矛盾性を用いた
独立低ランク行列分析の実験的評価
〇北村大地（香川高専）
矢田部浩平（早稲田大）
日本音響学会2021年春季研究発表会
第1会場電気音響／午前－前半(08:30～10:00)［音源分離 1］
1-1-2

背景
• ブラインド音源分離（blind source separation: BSS）
– 混合系（マイクや音源位置の部屋の形状等）が未知
• 優決定条件（マイク数≧音源数）のBSS
– 独立成分分析（ICA）[P. Comon, 1994]
– 周波数領域ICA（FDICA）[P. Smaragdis, 1998], [H. Saruwatari+, 2000], [H. Sawada+, 2004], ・・・
• 時間周波数領域の音源分離（パーミュテーション問題が発生）
– 独立ベクトル分析（IVA）[A. Hiroe, 2006], [T. Kim+, 2006], [T. Kim+, 2007], [N. Ono, 2011]
• ベクトル音源モデルでパーミュテーション問題を回避するFDICA
• 高速＆安定な最適化アルゴリズムAuxIVA [N. Ono, 2011]
– 独立低ランク行列分析（ILRMA）[D. Kitamura+, 2016]
• 低ランク行列音源モデルでパーミュテーション問題を回避するFDICA 2
混合系分離系

• FDICAに基づくBSSにおけるパーミュテーション問題
– 分離行列（は周波数インデクス）が周波数間で非依存
周波数毎に分離信号の順番がバラバラになる
優決定条件BSSの難しさ
3
分離
行列
音源1
音源2
観測1
観測2
パーミュテーション
の整合
分離信号1
分離信号2
Time

本発表の概要
• 解決すべき問題
– IVAやILRMAでもパーミュテーション問題解決にしばしば失敗
• 統計モデル（音源モデル）の改良，DNN等の教師あり化，etc.
• 新たな手掛かり
– スペクトログラム無矛盾性（spectrogram consistency） [J. L. Roux+, 2010]
• 時間周波数領域の信号の近傍共起関係の一貫性
• Consistent IVA [K. Yatabe, 2020]
– IVAでスペクトログラム無矛盾性を考慮すると性能が向上
• Consistent ILRMA [豊島ら, 2020年秋ASJ]
– ILRMAでも同様に性能向上を確認
• 本発表の新規報告
– Consistent IVA/Consistent ILRMAにおける反復毎のプロジェ
クションバックの重要性を実験的に調査
• プロジェクションバック：周波数毎のスケールの補正処理[K. Matsuoka+, 2001]
– 実録音環境における分離性能の改善量を調査 4

スペクトログラム無矛盾性
• 短時間フーリエ変換（STFT）で得られるスペクトログラム
には本来一貫した近傍共起関係がある
• 無矛盾なスペクトログラム
– 時間と周波数の両方向に滲んでいる（共起している）
– STFTの窓関数乗算やオーバーラップシフトが原因
矛盾（inconsistent）無矛盾（consistent）
5
Frequency
Frequency
Time Time

• 集合によるイメージ
時間信号の集合
スペクトログラム
（時間周波数信号）の集合
周波数
時間
時間
6
無矛盾なスペクト
ログラムの集合

STFT
逆STFT
7
STFTの完全再構成
条件を仮定
※
無矛盾なスペクト
ログラムの集合

矛盾したスペクトログラム
（共起関係に一貫性がない）
BSS等の何らかの
信号処理
8
条件を仮定
※

射影
逆STFT
9
条件を仮定
※

射影
逆STFT
10
STFT
条件を仮定
※
矛盾スペクトログラムは
「逆STFT→STFT」で
無矛盾スペクトログラム
に変換できる

• 矛盾したスペクトログラムは逆STFTしてSTFTすることで
無矛盾なスペクトログラムに変換可能
– 但しSTFTが完全再構成条件を満たす条件が必要
矛盾（inconsistent）無矛盾（consistent）
11

スペクトログラム無矛盾BSS [K. Yatabe, 2020]
• IVAやILRMAの分離信号のスペクトログラム無矛盾性を
反復最適化で担保
– パーミュテーション問題発生＝とても矛盾したスペクトログラム
– 周波数の滲みの強調によりパーミュテーション問題が緩和
12

ILRMAの概要
• 独立低ランク行列分析
（independent low-rank matrix analysis: ILRMA）[D. Kitamura+, 2016]
– FDICA＋各音源のスペクトログラムの低ランク仮定
– 分離信号のパワースペクトログラムを非負値行列因子分
解（NMF）[D. Lee+, 1999] で低ランク近似しながら分離行列を推定
– 周波数毎の分離行列とNMF低ランク音源モデルを
交互に反復最適化
– Consistent ILRMAは上記反復最適化の中で無矛盾性を担保 13

反復最適化アルゴリズムの比較
従来手法：ILRMA 提案手法：Consistent ILRMA
14

15
NMF低ランク
モデルの更新
分離行列の更新
（AuxIVA [N. Ono, 2011] と同様）

16
NMF低ランク
モデルの更新
分離信号を逆STFT→STFTし
無矛盾スペクトログラムに変換
分離信号の大きさを全周波数で
統一するスケール補正（プロジェ
クションバック）[K. Matsuoka+, 2001]

• 独立性最大化基準では分離信号のスケール（音量）は
決まらない
– 分離行列の乗算で周波数毎にスケールがバラバラになる
優決定条件BSSの難しさ
17
分離
行列
音源1
音源2
観測1
観測2
分離信号1
分離信号2
Time
プロジェクション
バック

18
NMF低ランク
モデルの更新
分離信号を逆STFT→STFTし
無矛盾スペクトログラムに変換
分離信号の大きさを全周波数で
統一するスケール補正（プロジェ
クションバック）[K. Matsuoka+, 2001]

実験条件（インパルス応答の畳み込み混合）
• 混合条件（2音源2マイク）
– RWCP E2Aインパルス応答
• 残響時間: = 300 ms
• 音源信号（ドライソース）
– SiSEC2011の音楽4曲の
楽器を組み合わせで10パターン
• その他の条件
19
窓関数ハン窓
窓長 128, 256, 512, 768, 1024 ms
シフト長窓長の1/4 （原稿には他の結果も掲載）
基底数 1音源あたり10本
初期値
単位行列
及び (0, 1) の一様乱数
反復回数 100回
試行回数異なる乱数シードで5回
2m
5.66cm
50
音源1 音源2
50

実験結果（インパルス応答の畳み込み混合）
20
Poor
Good

実験条件（実環境録音混合）
• 混合条件（2音源2マイク）
– SiSEC2011UND liverec信号（音源位置は様々）
• 残響時間： = 250 ms
• マイク間隔：1m
• 音源信号（ドライソース）
– 音楽12パターン及び音声（男女）12パターン
• その他の条件
21
窓関数ハン窓
窓長 512 ms
シフト長窓長の1/4
基底数 1音源あたり：10本（音楽） or 2本（音声）
初期値
単位行列
及び (0, 1) の一様乱数
反復回数 100回
試行回数異なる乱数シードで5回

実験結果（実環境録音混合，音楽信号）
22
Poor
Good

実験結果（実環境混合，音声信号）
23
Poor
Good

まとめ
• 本発表の概要
– Consistent BSSでのプロジェクションバック有無調査と実録音
での性能
• 明らかになったこと
– Consistent IVAでもConsistent ILRMAでもプロジェクション
バックは性能向上に大きく寄与（予想通り）
– 実録音でも従来のIVAやILRMAから性能向上
• 論文（open access）
– D. Kitamura and K. Yatabe, “Consistent independent low-rank matrix analysis for
determined blind source separation,” EURASIP J. Adv. in Signal Process., vol. 2020, no.
46, p. 35, 2020.
• MATLABソースコード（ILRMAとConsistent ILRMA）
– https://github.com/d-kitamura/ILRMA
– 本発表の原稿にURLの記載あり
24

スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価

Similar a スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価 (8)

Más de Daichi Kitamura

Más de Daichi Kitamura (18)

Último

Último (11)