SlideShare una empresa de Scribd logo
1 de 24
スペクトログラム無矛盾性を用いた
独立低ランク行列分析の実験的評価
〇北村大地(香川高専)
矢田部浩平(早稲田大)
日本音響学会2021年春季研究発表会
第1会場 電気音響/午前-前半(08:30~10:00)[音源分離 1]
1-1-2
背景
• ブラインド音源分離(blind source separation: BSS)
– 混合系 (マイクや音源位置の部屋の形状等)が未知
• 優決定条件(マイク数≧音源数)のBSS
– 独立成分分析(ICA)[P. Comon, 1994]
– 周波数領域ICA(FDICA)[P. Smaragdis, 1998], [H. Saruwatari+, 2000], [H. Sawada+, 2004], ・・・
• 時間周波数領域の音源分離(パーミュテーション問題が発生)
– 独立ベクトル分析(IVA)[A. Hiroe, 2006], [T. Kim+, 2006], [T. Kim+, 2007], [N. Ono, 2011]
• ベクトル音源モデルでパーミュテーション問題を回避するFDICA
• 高速&安定な最適化アルゴリズムAuxIVA [N. Ono, 2011]
– 独立低ランク行列分析(ILRMA)[D. Kitamura+, 2016]
• 低ランク行列音源モデルでパーミュテーション問題を回避するFDICA 2
混合系 分離系
• FDICAに基づくBSSにおけるパーミュテーション問題
– 分離行列 ( は周波数インデクス)が周波数間で非依存
周波数毎に分離信号の順番がバラバラになる
優決定条件BSSの難しさ
3
分離
行列
音源1
音源2
観測1
観測2
パーミュテーション
の整合
分離信号1
分離信号2
Time
本発表の概要
• 解決すべき問題
– IVAやILRMAでもパーミュテーション問題解決にしばしば失敗
• 統計モデル(音源モデル)の改良,DNN等の教師あり化,etc.
• 新たな手掛かり
– スペクトログラム無矛盾性(spectrogram consistency) [J. L. Roux+, 2010]
• 時間周波数領域の信号の近傍共起関係の一貫性
• Consistent IVA [K. Yatabe, 2020]
– IVAでスペクトログラム無矛盾性を考慮すると性能が向上
• Consistent ILRMA [豊島ら, 2020年秋ASJ]
– ILRMAでも同様に性能向上を確認
• 本発表の新規報告
– Consistent IVA/Consistent ILRMAにおける反復毎のプロジェ
クションバックの重要性を実験的に調査
• プロジェクションバック:周波数毎のスケールの補正処理[K. Matsuoka+, 2001]
– 実録音環境における分離性能の改善量を調査 4
スペクトログラム無矛盾性
• 短時間フーリエ変換(STFT)で得られるスペクトログラム
には本来一貫した近傍共起関係がある
• 無矛盾なスペクトログラム
– 時間と周波数の両方向に滲んでいる(共起している)
– STFTの窓関数乗算やオーバーラップシフトが原因
矛盾(inconsistent) 無矛盾(consistent)
5
Frequency
Frequency
Time Time
スペクトログラム無矛盾性
• 集合によるイメージ
時間信号の集合
スペクトログラム
(時間周波数信号)の集合
周波数
時間
時間
6
無矛盾なスペクト
ログラムの集合
スペクトログラム無矛盾性
• 集合によるイメージ
STFT
時間信号の集合
スペクトログラム
(時間周波数信号)の集合
逆STFT
7
STFTの完全再構成
条件を仮定
※
無矛盾なスペクト
ログラムの集合
スペクトログラム無矛盾性
• 集合によるイメージ
時間信号の集合
スペクトログラム
(時間周波数信号)の集合
矛盾したスペクトログラム
(共起関係に一貫性がない)
BSS等の何らかの
信号処理
8
STFTの完全再構成
条件を仮定
※
スペクトログラム無矛盾性
• 集合によるイメージ
時間信号の集合
スペクトログラム
(時間周波数信号)の集合
射影
逆STFT
9
STFTの完全再構成
条件を仮定
※
スペクトログラム無矛盾性
• 集合によるイメージ
時間信号の集合
スペクトログラム
(時間周波数信号)の集合
射影
逆STFT
10
STFT
STFTの完全再構成
条件を仮定
※
矛盾スペクトログラムは
「逆STFT→STFT」で
無矛盾スペクトログラム
に変換できる
スペクトログラム無矛盾性
• 矛盾したスペクトログラムは逆STFTしてSTFTすることで
無矛盾なスペクトログラムに変換可能
– 但しSTFTが完全再構成条件を満たす条件が必要
矛盾(inconsistent) 無矛盾(consistent)
11
スペクトログラム無矛盾BSS [K. Yatabe, 2020]
• IVAやILRMAの分離信号のスペクトログラム無矛盾性を
反復最適化で担保
– パーミュテーション問題発生=とても矛盾したスペクトログラム
– 周波数の滲みの強調によりパーミュテーション問題が緩和
12
ILRMAの概要
• 独立低ランク行列分析
(independent low-rank matrix analysis: ILRMA)[D. Kitamura+, 2016]
– FDICA+各音源のスペクトログラムの低ランク仮定
– 分離信号のパワースペクトログラム を非負値行列因子分
解(NMF)[D. Lee+, 1999] で低ランク近似しながら分離行列を推定
– 周波数毎の分離行列 とNMF低ランク音源モデル を
交互に反復最適化
– Consistent ILRMAは上記反復最適化の中で無矛盾性を担保 13
反復最適化アルゴリズムの比較
従来手法:ILRMA 提案手法:Consistent ILRMA
14
反復最適化アルゴリズムの比較
従来手法:ILRMA 提案手法:Consistent ILRMA
15
NMF低ランク
モデルの更新
分離行列の更新
(AuxIVA [N. Ono, 2011] と同様)
反復最適化アルゴリズムの比較
従来手法:ILRMA 提案手法:Consistent ILRMA
16
NMF低ランク
モデルの更新
分離行列の更新
(AuxIVA [N. Ono, 2011] と同様)
分離信号 を逆STFT→STFTし
無矛盾スペクトログラムに変換
分離信号の大きさを全周波数で
統一するスケール補正(プロジェ
クションバック)[K. Matsuoka+, 2001]
• 独立性最大化基準では分離信号のスケール(音量)は
決まらない
– 分離行列 の乗算で周波数毎にスケールがバラバラになる
優決定条件BSSの難しさ
17
分離
行列
音源1
音源2
観測1
観測2
分離信号1
分離信号2
Time
プロジェクション
バック
反復最適化アルゴリズムの比較
従来手法:ILRMA 提案手法:Consistent ILRMA
18
NMF低ランク
モデルの更新
分離行列の更新
(AuxIVA [N. Ono, 2011] と同様)
分離信号 を逆STFT→STFTし
無矛盾スペクトログラムに変換
分離信号の大きさを全周波数で
統一するスケール補正(プロジェ
クションバック)[K. Matsuoka+, 2001]
実験条件(インパルス応答の畳み込み混合)
• 混合条件(2音源2マイク)
– RWCP E2Aインパルス応答
• 残響時間: = 300 ms
• 音源信号(ドライソース)
– SiSEC2011の音楽4曲の
楽器を組み合わせで10パターン
• その他の条件
19
窓関数 ハン窓
窓長 128, 256, 512, 768, 1024 ms
シフト長 窓長の1/4 (原稿には他の結果も掲載)
基底数 1音源あたり10本
初期値
単位行列
及び (0, 1) の一様乱数
反復回数 100回
試行回数 異なる乱数シードで5回
2m
5.66cm
50
音源1 音源2
50
実験結果(インパルス応答の畳み込み混合)
20
Poor
Good
実験条件(実環境録音混合)
• 混合条件(2音源2マイク)
– SiSEC2011UND liverec信号(音源位置は様々)
• 残響時間: = 250 ms
• マイク間隔:1m
• 音源信号(ドライソース)
– 音楽12パターン及び音声(男女)12パターン
• その他の条件
21
窓関数 ハン窓
窓長 512 ms
シフト長 窓長の1/4
基底数 1音源あたり:10本(音楽) or 2本(音声)
初期値
単位行列
及び (0, 1) の一様乱数
反復回数 100回
試行回数 異なる乱数シードで5回
実験結果(実環境録音混合,音楽信号)
22
Poor
Good
実験結果(実環境混合,音声信号)
23
Poor
Good
まとめ
• 本発表の概要
– Consistent BSSでのプロジェクションバック有無調査と実録音
での性能
• 明らかになったこと
– Consistent IVAでもConsistent ILRMAでもプロジェクション
バックは性能向上に大きく寄与(予想通り)
– 実録音でも従来のIVAやILRMAから性能向上
• 論文(open access)
– D. Kitamura and K. Yatabe, “Consistent independent low-rank matrix analysis for
determined blind source separation,” EURASIP J. Adv. in Signal Process., vol. 2020, no.
46, p. 35, 2020.
• MATLABソースコード(ILRMAとConsistent ILRMA)
– https://github.com/d-kitamura/ILRMA
– 本発表の原稿にURLの記載あり
24

Más contenido relacionado

La actualidad más candente

独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...Daichi Kitamura
 
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...Daichi Kitamura
 
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...Daichi Kitamura
 
非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧Kitamura Laboratory
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)Daichi Kitamura
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...Daichi Kitamura
 
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...Daichi Kitamura
 
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価Kitamura Laboratory
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...Daichi Kitamura
 
音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析Kitamura Laboratory
 
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...Daichi Kitamura
 
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法Daichi Kitamura
 
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)Daichi Kitamura
 
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法Daichi Kitamura
 
Optimal divergence diversity for superresolution-based nonnegative matrix fac...
Optimal divergence diversity for superresolution-based nonnegative matrix fac...Optimal divergence diversity for superresolution-based nonnegative matrix fac...
Optimal divergence diversity for superresolution-based nonnegative matrix fac...Daichi Kitamura
 
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...Daichi Kitamura
 
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...Daichi Kitamura
 
Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...Daichi Kitamura
 

La actualidad más candente (20)

独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
 
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
 
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...
 
非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
 
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
 
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
 
音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析
 
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
Efficient multichannel nonnegative matrix factorization with rank-1 spatial m...
 
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
 
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
 
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
 
Optimal divergence diversity for superresolution-based nonnegative matrix fac...
Optimal divergence diversity for superresolution-based nonnegative matrix fac...Optimal divergence diversity for superresolution-based nonnegative matrix fac...
Optimal divergence diversity for superresolution-based nonnegative matrix fac...
 
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
 
ILRMA 20170227 danwakai
ILRMA 20170227 danwakaiILRMA 20170227 danwakai
ILRMA 20170227 danwakai
 
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
 
Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...
 
Kameoka2017 ieice03
Kameoka2017 ieice03Kameoka2017 ieice03
Kameoka2017 ieice03
 

Más de Kitamura Laboratory

付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定Kitamura Laboratory
 
STEM教育を目的とした動画像処理による二重振り子の軌跡推定
STEM教育を目的とした動画像処理による二重振り子の軌跡推定STEM教育を目的とした動画像処理による二重振り子の軌跡推定
STEM教育を目的とした動画像処理による二重振り子の軌跡推定Kitamura Laboratory
 
ギタータブ譜からのギターリフ抽出アルゴリズム
ギタータブ譜からのギターリフ抽出アルゴリズムギタータブ譜からのギターリフ抽出アルゴリズム
ギタータブ譜からのギターリフ抽出アルゴリズムKitamura Laboratory
 
時間微分スペクトログラムに基づくブラインド音源分離
時間微分スペクトログラムに基づくブラインド音源分離時間微分スペクトログラムに基づくブラインド音源分離
時間微分スペクトログラムに基づくブラインド音源分離Kitamura Laboratory
 
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...Kitamura Laboratory
 
周波数双方向再帰に基づく深層パーミュテーション解決法
周波数双方向再帰に基づく深層パーミュテーション解決法周波数双方向再帰に基づく深層パーミュテーション解決法
周波数双方向再帰に基づく深層パーミュテーション解決法Kitamura Laboratory
 
Heart rate estimation of car driver using radar sensors and blind source sepa...
Heart rate estimation of car driver using radar sensors and blind source sepa...Heart rate estimation of car driver using radar sensors and blind source sepa...
Heart rate estimation of car driver using radar sensors and blind source sepa...Kitamura Laboratory
 
DNN-based frequency-domain permutation solver for multichannel audio source s...
DNN-based frequency-domain permutation solver for multichannel audio source s...DNN-based frequency-domain permutation solver for multichannel audio source s...
DNN-based frequency-domain permutation solver for multichannel audio source s...Kitamura Laboratory
 
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価Kitamura Laboratory
 
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討Kitamura Laboratory
 
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測Kitamura Laboratory
 
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離Kitamura Laboratory
 
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離Kitamura Laboratory
 
Linear multichannel blind source separation based on time-frequency mask obta...
Linear multichannel blind source separation based on time-frequency mask obta...Linear multichannel blind source separation based on time-frequency mask obta...
Linear multichannel blind source separation based on time-frequency mask obta...Kitamura Laboratory
 
Prior distribution design for music bleeding-sound reduction based on nonnega...
Prior distribution design for music bleeding-sound reduction based on nonnega...Prior distribution design for music bleeding-sound reduction based on nonnega...
Prior distribution design for music bleeding-sound reduction based on nonnega...Kitamura Laboratory
 
Blind audio source separation based on time-frequency structure models
Blind audio source separation based on time-frequency structure modelsBlind audio source separation based on time-frequency structure models
Blind audio source separation based on time-frequency structure modelsKitamura Laboratory
 
独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測Kitamura Laboratory
 
独立低ランク行列分析を用いたインタラクティブ音源分離システム
独立低ランク行列分析を用いたインタラクティブ音源分離システム独立低ランク行列分析を用いたインタラクティブ音源分離システム
独立低ランク行列分析を用いたインタラクティブ音源分離システムKitamura Laboratory
 
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用Kitamura Laboratory
 
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用Kitamura Laboratory
 

Más de Kitamura Laboratory (20)

付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
付け爪センサによる生体信号を用いた深層学習に基づく心拍推定
 
STEM教育を目的とした動画像処理による二重振り子の軌跡推定
STEM教育を目的とした動画像処理による二重振り子の軌跡推定STEM教育を目的とした動画像処理による二重振り子の軌跡推定
STEM教育を目的とした動画像処理による二重振り子の軌跡推定
 
ギタータブ譜からのギターリフ抽出アルゴリズム
ギタータブ譜からのギターリフ抽出アルゴリズムギタータブ譜からのギターリフ抽出アルゴリズム
ギタータブ譜からのギターリフ抽出アルゴリズム
 
時間微分スペクトログラムに基づくブラインド音源分離
時間微分スペクトログラムに基づくブラインド音源分離時間微分スペクトログラムに基づくブラインド音源分離
時間微分スペクトログラムに基づくブラインド音源分離
 
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and...
 
周波数双方向再帰に基づく深層パーミュテーション解決法
周波数双方向再帰に基づく深層パーミュテーション解決法周波数双方向再帰に基づく深層パーミュテーション解決法
周波数双方向再帰に基づく深層パーミュテーション解決法
 
Heart rate estimation of car driver using radar sensors and blind source sepa...
Heart rate estimation of car driver using radar sensors and blind source sepa...Heart rate estimation of car driver using radar sensors and blind source sepa...
Heart rate estimation of car driver using radar sensors and blind source sepa...
 
DNN-based frequency-domain permutation solver for multichannel audio source s...
DNN-based frequency-domain permutation solver for multichannel audio source s...DNN-based frequency-domain permutation solver for multichannel audio source s...
DNN-based frequency-domain permutation solver for multichannel audio source s...
 
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
 
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
 
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
 
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
 
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
 
Linear multichannel blind source separation based on time-frequency mask obta...
Linear multichannel blind source separation based on time-frequency mask obta...Linear multichannel blind source separation based on time-frequency mask obta...
Linear multichannel blind source separation based on time-frequency mask obta...
 
Prior distribution design for music bleeding-sound reduction based on nonnega...
Prior distribution design for music bleeding-sound reduction based on nonnega...Prior distribution design for music bleeding-sound reduction based on nonnega...
Prior distribution design for music bleeding-sound reduction based on nonnega...
 
Blind audio source separation based on time-frequency structure models
Blind audio source separation based on time-frequency structure modelsBlind audio source separation based on time-frequency structure models
Blind audio source separation based on time-frequency structure models
 
独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測
 
独立低ランク行列分析を用いたインタラクティブ音源分離システム
独立低ランク行列分析を用いたインタラクティブ音源分離システム独立低ランク行列分析を用いたインタラクティブ音源分離システム
独立低ランク行列分析を用いたインタラクティブ音源分離システム
 
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用
基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用
 
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用
コサイン類似度罰則条件付き半教師あり非負値行列因子分解と音源分離への応用
 

スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価

Notas del editor

  1. 初めに本研究の背景です. 本研究は,ブラインド音源分離,いわゆるBSSの研究です.これは,マイクや音源の位置等の「混合系A」が未知な状況での教師無し音源分離です. 未知な混合系Aの逆システムである分離系Wを推定する問題となります. もしマイクの数が音源の数と同じか,マイクの方が多い場合は「優決定条件」と呼ばれ,BSS自体は分離行列の掛け算でできますので,線形で自然な分離が可能になります. 本研究もこの優決定条件BSSを対象としています. この問題では,分離信号間の独立性を最大化するようなWを求める方法が主流でして,独立成分分析,ICAから発展してきた歴史があります. 残響を含む音響信号の混合は,時間周波数領域でICAを適用するFDICAで分離できますが,このときに「パーミュテーション問題」と呼ばれる問題に直面します. 後の発展である「独立ベクトル分析,IVA」や「独立低ランク行列分析,ILRMA」はいずれもこのパーミュテーション問題をいかに回避するか,という内容になっています. 本発表は,ILRMAの性能の改善を提案するものになります.
  2. 1:20 ではこのパーミュテーション問題について説明します. FDICAは周波数のひとつひとつに対して独立にICAを適用し,周波数毎の分離行列Wiを推定します.iは周波数ビンの番号です. そうすると,ICAは分離信号間の独立性しか考えないので,まさにこの図のように,「赤と青の音源はちゃんと分離はされているけど,周波数毎に順番がバラバラになってしまう」という状態になってしまいます. これをパーミュテーション問題と呼び,昔は後処理として,分離した後にさらにパーミュテーションソルバをかけて何とか順番を揃える,という方法が考えられていました. その後,分離信号の周波数間の関係性も考慮するように「音源モデル」と呼ばれるものを導入して,分離行列を推定する段階でそもそもパーミュテーション問題が起こらないようにする手法が,IVAやILRMAとして提案されました.
  3. 2:15 本発表の概要です. 解決すべき問題は,IVAやILRMAでも,いくつかの周波数でパーミュテーション問題の解決にしばしば失敗してしまい,分離精度が落ちることです. これに対してモデルを改良したり,DNNで教師ありにしたりする発展がありますが,我々は新たな手掛かりとして「スペクトログラム無矛盾性」に着目しています. この性質の詳細は後程説明しますが,これを導入したConsistent IVAやConsistent ILRMAで性能が向上することがすでに確認されています. 本発表で新規に報告できる内容としては,Consistent IVAやConsistent ILRMAで反復毎にプロジェクションバックを適用することの重要性を新たに調査しています. プロジェクションバックについても後程説明します. また,新たに実録音環境での実験を行いましたので,これを報告します.
  4. 3:05 ではまず,スペクトログラム無矛盾性について説明します. 短時間フーリエ変換,STFTで得られるスペクトログラムには本来,一貫した近傍共起関係があります. 例えば左の図は,中央の時間周波数グリッドにのみパワーがありその周囲は全て0ですが,これは矛盾したスペクトログラムであり,実は人工的に作成したものです. 時間波形をSTFTしてこのようなスペクトログラムが出てくることは通常ありません. どんなスペクトログラムがありえるかというと,右の図のように,パワーが強い成分の周囲近傍で共起している成分がある状態です.これを無矛盾スペクトログラムと呼びます. ざっくりいえば,スペクトログラムは本来,時間と周波数の両方向に滲んでいて,その滲みが無い,あるいは一貫していないものは全て矛盾したスペクトログラムと呼ばれます. この近傍共起関係が生まれる原因ですが,これはSTFTの中で窓関数の乗算が周波数方向への滲みを生み,オーバーラップシフトが時間方向への滲みを生むためです.
  5. 4:15 このスペクトログラムの矛盾と無矛盾について,集合でイメージを説明します. 赤枠が時間信号の集合,青枠がスペクトログラムの集合です. 時間周波数領域は時間領域よりも高次元であり,無矛盾なスペクトログラムの集合はこの図のように全体の一部分になります.
  6. ある時間信号sをSTFTすると,スペクトログラムSに変換されます. Sは無矛盾なスペクトログラムであり,逆STFTすると元の時間波形sに戻ります. これはいわゆる完全再構成条件であり,本研究はこれを満たすSTFTを適用しています.
  7. 無矛盾なスペクトログラムSに対して,BSS等の信号処理を加えると,通常は一貫した共起関係が崩れ, この図のように「矛盾したスペクトログラムS’」になります.
  8. この矛盾したスペクトログラムS’を逆STFTすると,S’は無矛盾なスペクトログラムに射影された上で,時間信号へと変換されます.
  9. つまり,どんな矛盾したスペクトログラムも,一度逆STFTして時間信号に戻し,もう一度STFTすることで,無矛盾なスペクトログラムに変換できます.
  10. 5:30 実は先ほどお見せしていたものも,左側は人工的に作成した矛盾スペクトログラムですが,右側は左を一度逆STFTし,もう一度STFTした結果になります.
  11. 5:45 そして,スペクトログラムの無矛盾変換は,パーミュテーション問題を緩和する能力があります. この図は,左端の2つがギターとボーカルのスペクトログラムで,真ん中の2つは周波数毎にギターとボーカルをシャッフルし,擬似的にパーミュテーション問題を起こしたものです. そして右端は,真ん中のパーミュテーション問題が残る信号を逆STFTしてSTFTし,無矛盾スペクトログラムに変換したものです. こうして眺めると,確かにパーミュテーション問題による周波数方向の不連続性がスムージングされて,真の音源信号に少しだけ近づいていることが分かります. 従って,IVAやILRMAの反復最適化の中で,分離信号を毎回無矛盾に変換するだけで,パーミュテーション問題を回避する能力が上がります. これがConsistent IVA及びConsistent ILRMAの原理になります.
  12. 6:45 次にILRMAについて簡単に説明します. ILRMAは周波数領域BSSであり,分離信号間の独立性を最大化するような周波数毎の分離行列Wiを推定します. このとき,各分離信号のパワースペクトログラムが,非負値行列因子分解,NMFで低ランク近似されることで,パーミュテーション問題を回避します. この分離行列の最適化とNMFによる低ランク近似は交互に計算されます. Consistent ILRMAは,この交互反復最適化の中で,毎回分離信号のスペクトログラムの無矛盾性を担保します.
  13. 7:20 従来のILRMAとConsistent ILRMAのアルゴリズムを比較したものがコチラです. 赤色の個所のみが異なります.
  14. 7:30 従来のILRMAは,4行目と5行目がNMF低ランクモデルの更新,6行目から8行目が分離行列の更新をしています. 最後の12行目は分離信号を更新しています. この流れを100回等の決められた回数反復してBSSができます.
  15. 7:45 Consistent ILRMAは,NMFと分離行列の更新は同じですが,3行目で現在の分離信号を一度逆STFTしてSTFTし,無矛盾スペクトログラムに変換します. さらに,分離行列の更新後に,分離信号の大きさを全周波数で統一する,スケール補正を毎回の反復で行います. これは,プロジェクションバックと呼ばれる処理であり,次のスライドで説明します.
  16. 8:10 独立性最大化のBSSでは,分離信号の音量,スケールが決まりません. 周波数毎に分離するIVAやILMRAでは,例え分離が成功してパーミュテーションが完璧でも,この真ん中の図のように周波数毎のスケールがバラバラになっています. これを右端のように正しく補正する処理がプロジェクションバックであり,通常は反復最適化によって分離行列を収束させた後,最後に1度だけ適用します.
  17. 8:40 周波数毎のスケールがずれていると,それだけでスペクトログラムの無矛盾性は失われます. なので,提案手法のConsistent ILRMAでは,3行目で分離信号を無矛盾スペクトログラムに変換するそのまえに,分離信号のスケールが正しく揃っている必要があるので, 9行目から11行目として反復毎にプロジェクションバックをかけています. ただ,この処理が本当に必要であったかどうかは未調査でしたので,今回はその有無についても実験で比較しました.
  18. 9:10 それでは実験について説明します. 実験はインパルス応答の畳み込み混合と,実環境録音混合の2種類を実施しています. 先に畳み込み混合の結果を報告をします. 残響時間300msの部屋で,こちらの図の配置で測定されたインパルス応答を音楽信号に畳み込んで,2音源2マイクの混合信号を10パターン作りました. 窓長は128msから1024msまで変化させ,シフト長は常に窓長の1/4としています. ILRMAは初期値によって結果が変わりますので,各混合信号で5回試行しています.
  19. 9:45 こちらが全10パターン×5回試行の50個の結果のbox plotを手法毎に描いたものです. グラフの違いは窓長であり,左端が128ms,右端が1024msです. 各グラフの横軸は手法であり,左からIVA,Consistent IVAの反復毎のプロジェクションバック無しと有り,ILRMA,Consistent ILRMAの反復毎のプロジェクションバック無しと有り,の6手法です. 縦軸は音源分離性能のSDRの改善量です. 窓長512msや768msをみると,Consistent ILRMAは明らかに性能が改善しており,さらに反復毎のプロジェクションバックの有無でも性能が変わっています. 予想通り,スペクトログラムを無矛盾に変換する前に,分離信号のスケールをプロジェクションバックで統一しておくことは非常に重要と言えます. また,Consistent ILRMAは,従来のILRMAの分離が成功する程,より大きな改善が得られるという傾向も見えます.
  20. 10:50 さらに,実環境録音混合の実験です. こちらはSiSEC2011のliverec信号を使いました. 残響時間は250ms,マイク間隔は1mで,音楽12パターンと音声12パターンで実験しました. 今回は窓長は512msに統一しています.
  21. 11:10 これが音楽信号の結果です. この結果では総合性能のSDRだけでなく,分離度合のSIRや歪みの少なさのSARも示しています. 実環境録音混合でも,プロジェクションバックするConsistent ILRMAは性能改善があります. また,SARの改善がSDR向上に大きく寄与していることが分かり,より歪みの少ない分離となっていることが分かります.
  22. 11:35 音声信号の結果です. コチラも同じく,SARが改善されており,スペクトログラム無矛盾性が歪みの少ない分離を誘導していることが分かります.
  23. 11:45
  24. それでは,スペクトログラムについて説明します. スペクトログラムとは,1次元の時間信号を,時間と周波数の2次元領域で表現したものです. 時間波形に対して,このように短時間区間に分割しその一つ一つに窓関数を掛けて離散フーリエ変換することで,横軸時間,縦軸周波数の行列ができます. この行列Xをスペクトログラムと呼び,この変換を短時間フーリエ変換,通称STFTと呼びます.
  25. これは従来手法と提案手法の違いのイメージを表した図です. 橙色の矢印は提案手法における反復毎の無矛盾なスペクトログラムへの射影を表しており,青色の矢印は従来手法の反復最適化処理を表しています. この反復毎の射影によって,提案手法は真の分離信号Sに常に近づきながら音源分離を進めることができます.