Más contenido relacionado La actualidad más candente (20) Similar a Music signal separation using supervised nonnegative matrix factorization with orthogonality and maximum-divergence penalties (in Japanese) (6) Más de Daichi Kitamura (8) Music signal separation using supervised nonnegative matrix factorization with orthogonality and maximum-divergence penalties (in Japanese)1. Music Signal Separation Using Supervised
Nonnegative Matrix Factorization with Orthogonality
and Maximum-divergence Penalties
直交化及び距離最大化則条件を用いた
教師あり非負値行列因子分解による音楽信号分離
北村大地, 猿渡洋, 八木浩介, 鹿野清宏
(奈良先端科学技術大学院大学)
高橋祐, 近藤多伸
(ヤマハ株式会社)
2. 発表の流れ
• 研究背景
• 従来手法
– 非負値行列因子分解
– 教師あり非負値行列因子分解
– 従来手法の問題点
• 提案手法
– 罰則条件付き教師あり非負値行列因子分解
• 基底直交化罰則条件
• 基底間距離最大化罰則条件
• 評価実験
– 2音源混合信号
– 4音源混合信号
• まとめ 2
3. 発表の流れ
• 研究背景
• 従来手法
– 非負値行列因子分解
– 教師あり非負値行列因子分解
– 従来手法の問題点
• 提案手法
– 罰則条件付き教師あり非負値行列因子分解
• 基底直交化罰則条件
• 基底間距離最大化罰則条件
• 評価実験
– 2音源混合信号
– 4音源混合信号
• まとめ 3
5. 発表の流れ
• 研究背景
• 従来手法
– 非負値行列因子分解
– 教師あり非負値行列因子分解
– 従来手法の問題点
• 提案手法
– 罰則条件付き教師あり非負値行列因子分解
• 基底直交化罰則条件
• 基底間距離最大化罰則条件
• 評価実験
– 2音源混合信号
– 4音源混合信号
• まとめ 5
6. • 非負値行列因子分解 (nonnegative matrix factorization: NMF)
– スパース分解表現による特徴量抽出手法
• 分解された基底を音源毎に選別する教師無しNMFは非常に困難
従来手法: 非負値行列因子分解 [Lee, et al., 2012]
Amplitude
Amplitude
観測行列
(スペクトログラム)
基底行列
(頻出スペクトルパターン)
アクティベーション行列
(時間的なゲイン変化)
Time
Ω: 周波数ビン数
𝑇: 時間フレーム数
𝐾: 基底数
Time
Frequency
Frequency
6
パーツ,基底
7. 従来手法: 教師ありNMF (SNMF) [Smaragdis, et al., 2007]
• 分離したい目的音の教師 (サンプル) 音を事前に学習
– 学習プロセスで教師スペクトル基底 (dictionary) を作成
– 分離プロセスで目的音 と,非目的音 に分離
分離プロセス 最適化
学習プロセス
教師音から作成した教師スペクトル基底分離目的音の教師音
7
固定
音階情報等
目的音 非目的音混合音
8. 従来手法の問題点
• SNMFにおける基底共有問題
– 教師基底 とその他の基底 の間には特に制約が無い
– 目的音のスペクトルがその他の基底 に現れる可能性がある
– 推定した目的音には欠損が生じる
– コスト関数が混合信号 と の距離のみで定義さ
れているため
8
推定目的音 推定非目的音本来の目的信号
その他の基底 に教師と同じスペクトルが現れた場合
12. 発表の流れ
• 研究背景
• 従来手法
– 非負値行列因子分解
– 教師あり非負値行列因子分解
– 従来手法の問題点
• 提案手法
– 罰則条件付き教師あり非負値行列因子分解
• 基底直交化罰則条件
• 基底間距離最大化罰則条件
• 評価実験
– 2音源混合信号
– 4音源混合信号
• まとめ 12
16. 基底直交化罰則条件
• 教師基底 とその他の基底 の内積ができるだけ小さ
くなる を求める
– 類似した基底が現れると は大きな値になる
• 基底は全て周波数方向の総和が1になる制限を与える
– NMFにおけるスケールの任意性を無くすため
• コスト関数に付与する際に重み係数 を与える
16
通常のNMFは
スケールが任意
17. 基底間距離最大化罰則条件
• 教師基底 とできるだけ遠いその他の基底 を求める
– 類似した基底が現れると距離値は小さな値になる
• 基底は全て周波数方向の総和が1になる制限を与える
• コスト関数に付与する際に負号を反転した指数関数とし
重み係数 と感度パラメータ を与える
– NMF項と合わせて罰則項も最小化問題とするため
– 罰則項の最小値を0とするため 17
24. 発表の流れ
• 研究背景
• 従来手法
– 非負値行列因子分解
– 教師あり非負値行列因子分解
– 従来手法の問題点
• 提案手法
– 罰則条件付き教師あり非負値行列因子分解
• 基底直交化罰則条件
• 基底間距離最大化罰則条件
• 評価実験
– 2音源混合信号
– 4音源混合信号
• まとめ 24
25. • MIDI信号で作成したモノラル音源
• Clarinet, Oboe, Piano, Celloの4種類
• 2音源混合と4音源混合の信号で評価
– 2音源は全12パターン,4音源は全4パターンの平均評価値を算出
• 教師音は分離目的音の音域をカバーする同じMIDIの音階情報
実験条件
25
教師用
音源信号
目的音源の音域をカバーする2オクターブの24音階
26. • その他の実験条件
• 評価値はSDRを用いる [Vincent, 2006]
– 分離した目的音の音質や分離度合を含む総合的な品質の尺度
– 値が大きい方が良い
実験条件
観測信号 2音源混合及び4音源混合した信号
教師信号
目的音源と同じMIDI信号で音域をカバーす
る2オクターブの24音階からなる信号
距離規範 の全ての組み合わせ
基底数 教師基底 : 100, その他の基底 : 50
重み係数 実験的に調整して定めた値
比較手法 従来手法のSNMFと提案手法PSNMF
26
Notas del editor 音源分離技術とは,複数の音源が多重に混合されて録音された信号を,それぞれの音源毎に分離する信号処理技術です.
例えば音声と雑音の分離や,個々の音源の編集など様々な技術へと応用することができます.
この音源分離の代表的な手法は,このように時間と周波数で表現されたスペクトログラム上で,音源毎に分離するというものです.
例えばこのスペクトログラムを,最初の音と2番目の音のように分離することができれば,音源分離が達成されます. スペクトログラムから特徴量を抽出する手法として,非負値行列因子分解,通称NMFがあります.
NMFは,この式のように,スペクトログラムYを,別の二つの非負値行列FとGの行列積に近似して分解表現する手法です.
このとき,始めの行列の列ベクトルには,スペクトログラム中に頻出するスペクトルパターンが,観測行列Yを表すパーツ,基底として出現し,後ろの行列にはそれぞれのパーツの時間的なゲイン変化が行ベクトルに現れます.
従って,始めの分解行列Fを基底行列,後ろの行列Gをアクティベーション行列と呼びます.
この分解された基底が何の音源に対応するかが分かれば,音源分離ができますが,そのような基底の選別は非常に困難な逆問題になります. そこで,分解対象の教師情報を用いる教師ありNMF,SNMFが提案されました.
教師ありNMFでは分離したい目的音の教師音,サンプル音を事前に学習します.
例えば,この混合音からピアノを分解したいとき,ピアノの音階情報などが含まれる教師音を先にNMFで分解し,ピアノの教師スペクトル基底Fを作ります.
そして,作成した教師基底Fを用いて,分離プロセスで混合音源をFG+HUと分解します.
結果,FGにはピアノの音源が得られ,それ以外の音源はHUに現れます. しかし,従来のSNMFでは,基底共有という問題が生じてしまいます.
従来のSNMFでは,教師基底Fとその他の基底Hの間に何の制約もないため,目的音のスペクトル成分がその他の基底Hに現れる可能性もあります.
例えば,本来の目的信号がこの基底とこのアクティベーションで表現される時,目的音の信号なのでFは教師スペクトルを持っています.
ここで,同じ基底がHにも現れると,このようにアクティベーション間で取り合いになってしまいます.
従って,推定目的音であるFGだけを取り出すと,HUに取られた分だけ欠損が生じてしまいます.
これはコスト関数が混合信号YとFG+HUの距離のみで定義されており,目的成分が分散されても,コスト関数の値が変わらないことが原因です.
こちらは混合信号のスペクトログラムと,その中の目的音のみのスペクトログラムです.見比べるとわかりますが, このあたりが非目的音成分になっています.これをSNMFで分離すると, 先程の基底共有問題によって,分離信号には目的成分の欠損が生じてしまいます. 従来のSNMFでは,教師情報と同じスペクトル基底がその他の基底Hに現れることで,基底共有の問題が発生し,分離目的音の欠落が生じていました.
そこで,その他の基底Hが教師基底Fとできるだけ無相関になるような罰則条件をコスト関数に付与します.これを罰則条件付き教師ありNMF,PSNMFと呼びます.
教師あり手法では,教師基底は固定していますので,HがなるべくFと無相関になるように最適化していきます. 従来のSNMFの分解モデルはY=FG+HUです.
このコスト関数は従来のSNMFのものです.本研究では距離関数にβ-divergenceを用います.これはこの式で与えられます.
これは一般化された距離関数であり,βの値によってユークリッド距離,KLダイバージェンス,板倉斎藤擬距離を取ります. 提案手法のPSNMFも分解モデルは同じです.
コスト関数には,その他の基底を無相関にする罰則項をこのように付与します.
本研究においては,2種類の罰則項を提案します. 一つ目は基底直交化罰則条件です.
これは,教師基底Fとその他の基底Hの内積を求め,その値ができるだけ小さくなるようなHを求める手法です.
内積はフロベニウスノルムを用いてこのように与えられます.
もしHにFと類似した基底が現れると,この内積値は大きな値を取るため,これを避けることができます.
また,基底は全て周波数方向の総和が1になる制限を与えます.
NMF分解は行列の積になりますので,スケールの任意性があります.つまり,片方を小さな値にしてもう片方を大きくしても変わらないということです.
この罰則条件においてこのスケール任意性があると,Hのスケールを小さくするだけで内積値が下がりますので,このような制限を与えます.
最後に,この罰則項をコスト関数に付与する時には重み係数mu1を与えます. 二つ目は基底間距離最大化罰則条件です.
これは,教師基底Fとできるだけ遠いその他の基底Hを求める手法です.距離関数にはβ-divergenceを用います.
もしHとFが類似していると,距離値は小さくなります.
先程と同様に,基底は全て周波数方向の総和が1になる制限を与えます.
さらに,コスト関数に付与する時には最小化問題にするために符号を反転し,指数の肩に載せます.
重み係数mu2の他に感度パラメータλも与えます.
指数関数にする理由は,罰則項の最小値を0とする為です. この二つのコスト関数を最小化する変数G, H, Uを求めます.
この導出は,そのまま変数で微分するのは難しい為,補助関数を用います.
これは,それぞれのコスト関数の上限を与える補助関数を定義し,補助変数と目的変数を交互に最小化してコスト関数を間接的に最小化させる手法です.
この導出では,NMFのメインとなる距離関数の項と直交化罰則項に対して補助関数を設計する必要があります.
まずは距離の項の補助関数について説明します. この距離関数の項はβ-divergenceで書き直すとこのようになります.
式中の第二項と第三項はそれぞれβの値に応じて凸関数か凹関数になります.
凸関数の時にはこちらのイェンゼンの不等式,凹関数の時には接線不等式を用いて補助関数を設計できます.
補助関数JNMF+は複雑な形になりますので詳細は原稿をご参照ください. 次に直交化罰則項の補助関数を設計します.
こちらは常に変数に対して凸関数になっている為,イェンゼンの不等式だけで補助関数をこのように設計できます. 以上より,J1とJ2の補助関数J1+とJ2+ができましたので,これを各変数で微分して整理することで更新式を導出することができます. こちらが直交化罰則条件の更新式になります.その他の基底Hの式中のこの部分が直交化罰則に対応しています. こちらは距離最大化罰則条件の更新式になります.こちらも同様に,その他の基底Hの式中のこの部分が距離最大化罰則に対応しています.
アクティベーションGとUの更新式は先ほどと同じです. 実験ではMIDI信号でモノラルの音源を作成します.
用いた楽器はクラリネット,オーボエ,ピアノ,チェロの4種類で,それぞれこの楽譜の通りに演奏しています.
ここから,2楽器混合して1つを取り出すという2音源混合実験と,4つ全てを混合して1つを取り出す4音源混合実験を行いました.
それぞれの実験ですべての組み合わせに関して平均評価値を算出します.
また,教師信号は同じMIDI信号で作成した2オクターブの音階情報としています. その他の実験条件です.
距離関数のβの値は分離精度を大きく左右するため,0,1,2の3通りを行いました.
これらはそれぞれ板倉斎藤距離,KLダイバージェンス,ユークリッド距離に対応しています.
また距離最大化罰則における距離規範βmも同様に3種類とします.
教師基底数は100,その他の基底数は50に設定し,重み係数と感度パラメータは実験的に調整した値を用います.
従来のSNMFと提案手法のPSNMFを比較します.
評価値にはSDRを用いました.
これは,分離度合や品質を含む総合的な尺度であり,高い方が良い結果を示しています. これは2音源混合時の実験結果のグラフです.
グラフは左からβが0, 1, 2の時の結果です.
青が従来のSNMF,赤が直交化のPSNMF,緑が距離最大化のPSNMFで,最大化する距離規範のβmが0, 1, 2のときを示しています.
結果を見ると,全てのβにおいて従来手法から大きく改善されていることが分かります.
これは教師基底とその他の基底間で基底を共有する問題を防ぐことができたためです.
また,直交化と距離最大化に大きな性能差はありませんでした. 4音源混合の時の結果です.
非目的音源が多いので全体的な評価値は下がりますが,やはり提案手法は大きく改善されていることが確認できます. 最後に,チェロとオーボエの混合信号から分離した例を示します.
従来手法では基底共有問題により目的音の欠損が生じていましたが,PSNMFでは目的音の成分を抽出できていることが確認できます.
それでは音を鳴らしたいと思います.
始めにチェロとオーボエの混合信号です.
次にチェロのみの真の信号です.
そして,混合信号から従来手法でチェロを分離した信号です.基底共有が起こってかなり欠けているのが分かると思います.
最後にPSNMFです.欠落はほとんどなく,けし残り成分もほとんど聞こえないと思います. この問題の解決策として,私は過去に基底変形型教師ありNMFを提案しました.
これは教師音より得られるスペクトル基底に対して,変形項を導入し,目的音に適応させる分解手法です.
NMFの分解モデルはすべて非負の行列でしたが,この手法の分解モデルには正負の変形成分を表す項を導入しています.
ここに示した赤と黒のスペクトルはそれぞれ本物のピアノ音とMIDIデータによる人工的なピアノ音を示しており,基本周波数のピークで同じ高さに正規化しています.
このとき,倍音のピークには強度の違いや微妙な周波数のずれ等が生じており,このような教師音と目的音の差分を,正負の変形項で吸収するモデルです.
しかし,この提案手法は決定論的な変形・適応手法であり,初期値によってはうまく適応されない場合があります.
また,用意した教師音が目的音にあまり類似していない場合,うまく適応されないという問題もあります. ここで,分解した変数行列FとGをどのようにして求めるか,ということについてですが,NMFでは観測行列Yと近似行列FGの距離をコスト関数として定義します.
そして,この距離を最小化するFとGを求めることで,最適化できます.
例えば距離関数にユークリッド距離を用いた場合はコスト関数をこのように定義できます.
このとき,FとGの要素は全て0以上という非負の制約が与えられます.
これを最小化するFとGは,このような反復更新式によって求まります. このNMFを用いた音源分離についてですが,いま,分解したラージK本の基底がそれぞれどの音源に対応するかが分かれば,音源分離を実現することができます.
例えば,ピアノの基底とフルートの基底が存在している中で,ピアノの基底だけを選ぶことができれば,その基底と対応するアクティベーションを用いて,ピアノのみが含まれるスペクトログラムを再構成することができます.
このように,信号の持つなんらかの制約に基づいて基底を選別する「教師無し手法」が広く研究されていますが,これらは非常に困難な逆問題になります. 従来の教師ありNMFの問題点について説明します.
教師無しNMFによる音源分離は,非常に困難な逆問題であり,頑健に動作する手法は未だ提案されていません.
教師ありNMF,SNMFは目的音の教師情報を用いるため,頑健に動作しますが,新たに「基底共有」という問題が生じます.これについて詳しく説明します. SDR is the total evaluation score as the performance of separation.