SlideShare una empresa de Scribd logo
1 de 74
独立性に基づくブラインド音源分離の発展と
独立低ランク行列分析
History of independence-based blind source separation
and independent low-rank matrix analysis
総合研究大学院大学(SOKENDAI)
複合科学研究科 博士後期課程3年
北村大地
東京大学 システム情報学専攻 談話会
2017年2月27日(月)15時
自己紹介
• 名前: 北村大地(Daichi Kitamura)
• 年齢: 26(1990年3月11日生まれ),博士後期課程3年
• 経歴:
• Twitter: @UDN48_udon
2
香川高等専門学校(旧高松工業高等専門学校)(16 ~ 22)
電気情報工学科→専攻科(創造工学専攻), 学士(工学)
奈良先端科学技術大学院大学(22 ~ 24)
情報科学研究科, 修士(工学)
総合研究大学院大学(24 ~ 27)
複合科学研究科(情報学専攻),博士(情報学)取得見込
サバゲー
発表の概要
• 研究の背景
– 音源分離問題とその用途
• ブラインド音源分離と独立成分分析
– 前提条件,問題解決に利用可能な手掛かり
– 周波数領域への適用,耐残響性の向上
• 音楽信号の効率的なモデリング
– 非負値行列因子分解による低ランク近似
– 多次元観測音響信号への拡張
• 独立低ランク行列分析によるブラインド音源分離
– 独立低ランク行列分析
– 多チャネル非負値行列因子分解との関連性
• まとめとさらなる発展
– より高精度なブラインド音源分離を目指して 3
独立成分分析
に由来する音源分離法
の発展
(1994年~2012年)
非負値行列因子分解
に由来する音響信号の
表現方法の発展
(1999年~2013年)
発表の概要
• 研究の背景
– 音源分離問題とその用途
• ブラインド音源分離と独立成分分析
– 前提条件,問題解決に利用可能な手掛かり
– 周波数領域への適用,耐残響性の向上
• 音楽信号の効率的なモデリング
– 非負値行列因子分解による低ランク近似
– 多次元観測音響信号への拡張
• 独立低ランク行列分析によるブラインド音源分離
– 独立低ランク行列分析
– 多チャネル非負値行列因子分解との関連性
• まとめとさらなる発展
– より高精度なブラインド音源分離を目指して 4
独立成分分析
に由来する音源分離法
の発展
(1994年~2007年)
非負値行列因子分解
に由来する音響信号の
表現方法の発展
(1999年~2013年)
• 音源分離(audio source separation)
– 複数の音源が混合された信号を音源毎に分離する信号処理
– 音声認識,雑音抑圧,補聴器,会議アーカイブ etc.
– ほぼ全ての音響システムのフロントエンドに応用可能
• 観測信号から有意な因子を抽出する技術
– 知能情報学の一大トピック
• 音楽信号の音源分離(music source separation)
– ユーザによる既存音楽の再編集,自動採譜技術,
楽器演奏における教育支援,超臨場感音場再現の制御 等
研究の背景:音源分離問題
5
音楽CD
音源分離
実演奏の録音
研究の背景:音源分離問題の種類
• 混合される音源数と録音時のマイク数の関係
– 優決定条件(音源数 マイク数)の音源分離
– 劣決定条件(音源数 マイク数)の音源分離
• 「事前情報」の有無
– 音色の事前学習,楽譜やユーザアノテーション,音源やマイク
の空間的な位置情報等
– 事前情報を用いない手法:ブラインド音源分離 6
音源信号 観測信号 分離信号
混合系 分離系
マイクロホンアレイ
音楽CD
L-ch
R-ch
ステレオ信号(2-ch) モノラル録音
1-ch
モノラル信号(1-ch)
• 基礎となる数理理論の登場と発展
研究の背景:歴史的発展
7
1994
1998
2006
2013
2009
パーミュテーション
問題解決法の検討
1999
独立成分分析(ICA)
非負値行列因子分解(NMF)
周波数領域ICA(FDICA)
板倉斎藤擬距離NMF(ISNMF)
独立ベクトル分析(IVA)
多チャネルNMF
2016 独立低ランク行列分析(ILRMA)
2012 時変複素ガウスIVA
年代
※代表的な手法のみを表記
NMFの様々な問題への適用
生成モデル的解釈
各種拡張
発表の概要
• 研究の背景
– 音源分離問題とその用途
• ブラインド音源分離と独立成分分析
– 前提条件,問題解決に利用可能な手掛かり
– 周波数領域への適用,耐残響性の向上
• 音楽信号の効率的なモデリング
– 非負値行列因子分解による低ランク近似
– 多次元観測音響信号への拡張
• 独立低ランク行列分析によるブラインド音源分離
– 独立低ランク行列分析
– 多チャネル非負値行列因子分解との関連性
• まとめとさらなる発展
– より高精度なブラインド音源分離を目指して 8
独立成分分析
に由来する音源分離法
の発展
(1994年~2012年)
非負値行列因子分解
に由来する音響信号の
表現方法の発展
(1999年~2013年)
ブラインド音源分離と独立成分分析
• ブラインド音源分離(blind source separation: BSS)
– 混合系 が未知の条件で分離系 を推定
– マイクの位置や間隔,音源の位置等の情報が不要
• 優決定条件(マイク数≧音源数)のBSS
– 統計的独立性に基づく手法が代表的
• 独立成分分析(ICA)[Comon, 1994]
• 周波数領域ICA(FDICA)[Smaragdis, 1998], [Saruwatari, 2000], [Sawada, 2004], ・・・
• 独立ベクトル分析(IVA)[Hiroe, 2006], [Kim, 2006], [Kim, 2007], [Ono, 2011]
• 音響信号のBSSにおける難しさ
– 「残響による畳み込み混合」の逆系を推定しなければならない
9
BSS
混合系 分離系
独立成分分析(ICA)おさらい
• ICAの前提条件
– 3つの仮定を用いて混合前の独立成分を推定
• 1. 独立成分は互いに独立(音源は多くの場合独立)
• 2. 独立成分は非ガウスな分布から生成(音声や音楽は非ガウス分布)
• 3. 混合行列は可逆で時不変(優決定,音源やマイクは移動しない)
混合系
音源信号
(潜在因子)
混合信号
(観測情報)
1. 互いに独立
2. 非ガウス分布
3. 可逆で時不変
10
逆行列
独立成分分析(ICA)おさらい
• ICAの不確定性
– 2つの任意性が存在
• 1. 独立成分の分散(パワー)は決定できない(音量が分からない)
• 2. 独立成分の順序は決定できない(順番が変わりうる)
11
ICA
分離系
混合信号独立成分
ICA
分離系
混合信号独立成分
推定信号
推定信号
• ICAの推定理論
– 推定信号間の独立性を最大化
– 対数尤度関数
独立成分分析(ICA)おさらい
12
近づける
:音源の非ガウスな分布
未知なものなので適当に与える必要がある
音源の分布:音声
• 音声の時間信号
ガウス分布よりも急峻で裾
が長い
→尖度が高い
13
• ピアノ音の時間信号
音源の分布:ピアノ音
音声ほどではないが,やは
りガウス分布よりも急峻で
裾が長い
→尖度が高い
→ラプラス分布に近い?
0
0.1
0.2
0.3
0.4
0.5
0.6
-5 -4 -3 -2 -1 0 1 2 3 4 5
ラプラス分布
14
• ドラム音の時間信号
音源の分布:ドラム音
ガウス分布よりも急峻で裾
が長い
→尖度が高い
→コーシー分布っぽい
0
0.2
0.4
0.6
0.8
1
-5 -4 -3 -2 -1 0 1 2 3 4 5
コーシー分布
15
• 実際の音響信号の混合
– 残響による畳み込み混合
• 例: 会議室では300ミリ秒,コンサートホールでは2秒等
– 時不変混合係数 が時不変混合フィルタ に変化
• 対残響性の向上
– 時間領域での逆フィルタ を推定
• 16 kHzサンプルでは300 msのフィルタ長が4800タップ(1音源あたり)
• ICAで推定すべきパラメータが爆発的に増加→推定は困難
– 周波数領域でのICAの適用
• 周波数毎の分離行列 を周波数毎のICAで推定→推定は容易
• パーミュテーション問題に直面
耐残響性の向上:周波数領域ICA(FDICA)
16
残響長
(混合フィルタのタップ長)
瞬時混合
畳み込み混合
耐残響性の向上:周波数領域ICA(FDICA)
• 短時間フーリエ変換(short-time Fourier transform: STFT)
– 音響信号を短時間で切り出して周波数領域に変換
– 窓長より短い畳み込み混合を周波数領域の瞬時混合に変換可
– 従来のICAやその推定アルゴリズムがそのまま適用可能
– 窓長の設定はトレードオフが存在 [Araki1, 2003]
• 長いと統計バイアスが増加,短いと残響の影響が増加 17
…
窓長
シフト長
Frequency
Time
…
窓長窓関数
フーリエ変換
フーリエ変換
フーリエ変換
スペクトログラムの解像度を決定
窓長が短い:時間分解能が高い
窓長が長い:周波数分解能が高い
スペクトログラム
耐残響性の向上:周波数領域ICA(FDICA)
• 周波数領域ICA(FDICA)[Smaragdis, 1998]
– 各周波数ビンの複素時系列に対して独立なICAを適用
18
スペクトログラム
ICA1
ICA2
ICA3
…
…
ICA
Frequencybin
Time frame
…
逆行列
周波数領域の時不変
瞬時混合行列
耐残響性の向上:周波数領域ICA(FDICA)
19
ICA
全て時間周波数
領域の信号
音源1
音源2
観測1
観測2
Permutation
Solver
分離信号1
分離信号2
Time
• FDICAにおけるパーミュテーション問題
– 各周波数ビンで推定信号の順序がバラバラになる
– 様々なパーミュテーションソルバが検討されている
※分散(スケール)もバラバラになるが,これは容易に戻すことが可能
到来方向を用いたパーミュテーション解決
20
• FDICA+DOAクラスタリング[Saruwatari, 2006]
– 推定分離フィルタ から混合フィルタ を逆算
– 音源の到来方向(DOA)でクラスタリング
推定された
音源成分の頻度
到来方向(DOA)
正面左 右
推定された
音源成分の頻度
到来方向(DOA)
正面左 右
DOA
クラスタリング
Source 1 Source 2
正面
左 右
音源 とマイクアレイ間の
伝達系を表す
「ステアリングベクトル」
混合行列の列ベクトル
• FDICAで推定される分離フィルタ とは?
– 周波数領域での瞬時混合を仮定
– 音源毎の空間特徴の違いを用いた線形の空間分離フィルタ
– 適応ビームフォーミング(ABF)と本質的に等価 [Araki2, 2003]
• ABF:妨害音のみがアクティブな時間の出力二乗誤差最小化
• 妨害音に対してヌル(感度0)を打つような空間分離
• ABFは音源位置とマイク位置が既知で音源アクティビティ検出が必要
– FDICAはブラインドな音源分離手法
• 混合系未知,アクティビティ検出不要
• 厳密な音源位置とマイク位置が既知の場合のビームフォーミングが
FDICAの上限性能といえる
FDICAによる音源分離のメカニズム
21
音源1
音源2
音源1の空間
分離フィルタ
音源1
分離フィルタのタップ長
はフーリエ変換の窓長
と同じ
空間分離
フィルタ
FDICAの分離フィルタとABFの分離フィルタ
• 図は [Araki2, 2003] より引用
22
BSSの
空間分離
フィルタ
ABFの
空間分離
フィルタ
TR = 0 ms TR = 300 ms
TR = 0 ms TR = 300 ms
独立ベクトル分析(IVA)
• よりエレガントなアプローチ
– 分離フィルタ推定(周波数毎のICAの最適化)
– パーミュテーション問題の解決(ポスト処理)
• 独立ベクトル分析(IVA)[Hiroe, 2006], [Kim, 2006]
– ICAを多変量(多次元)分布モデルへ拡張( )
– 周波数をまとめたベクトル変数に対するICA
23
1個の問題の
最適化で実現したい
…
…
混合行列
…
…
…
観測信号
分離行列
推定信号
互いに独立
多変量非ガウス分布
互いに高次相関を持つ
同じ音源が一つの推定信号に自然にまとまる
スカラー ベクトル
• FDICAとIVAの違いは非ガウス音源分布のみ
– 音源の事前分布が一変量か多変量か
• IVAの仮定する音源の事前分布
– 零平均ラプラス分布の例(音声信号のモデルとして一般的)
– 後者は (互いに無相関)の場合でも, が互いに依存
• 球対称な分布を仮定していることに起因
• 高次相関性,高次依存性が生じる
IVAにおける音源分布と高次相関
24
周波数毎に独立な
事前分布
周波数間で高次相
関をもつ事前分布
分散共分散行列
のとき
ベクトルノルムにのみ依存
• 図は [Kim, 2007] より引用
• 球対称音源分布の(かなりざっくりとした)定性的な説明
– 周波数間で同じ時間変動を持つ成分を一つの音源としてまとめ
る傾向にある パーミュテーション問題の回避
IVAにおける音源分布と高次相関
25
x1とx2は互いに独立なラプラス分布
(条件付き分布はラプラス分布)
x1とx2は互いに無相関だが
依存関係がある
球対称な
二変数ラプラ
ス分布
互いに独立な
二変数ラプラス
分布
FDICAとIVAの分離原理比較
• FDICAの分離原理
• IVAの分離原理
26
観測信号
推定信号の分布形状があらかじめ仮定した非ガウス
な音源分布に近づくように分離フィルタを更新
推定信号
分離フィルタ
推定信号の
現在の分布形状
非ガウスな
音源分布
STFT
Frequency
Time
Frequency
Time
観測信号 推定信号
分離フィルタ
推定信号の
現在の分布形状
STFT
Frequency
Time
Frequency
Time
非ガウスな
球対称多変量
音源分布
スカラーの
確率変数
ベクトルの多変量
確率変数
推定信号の分布形状があらかじめ仮定した非ガウスな
球対称の音源分布に近づくように分離フィルタを更新
中心極限定理より,混合信号
はガウス分布に近い信号
本来の音源信号は
非ガウス分布に従う
互いに
独立
互いに
独立
発表の概要
• 研究の背景
– 音源分離問題とその用途
• ブラインド音源分離と独立成分分析
– 前提条件,問題解決に利用可能な手掛かり
– 周波数領域への適用,耐残響性の向上
• 音楽信号の効率的なモデリング
– 非負値行列因子分解による低ランク近似
– 多次元観測音響信号への拡張
• 独立低ランク行列分析によるブラインド音源分離
– 独立低ランク行列分析
– 多チャネル非負値行列因子分解との関連性
• まとめとさらなる発展
– より高精度なブラインド音源分離を目指して 27
独立成分分析
に由来する音源分離法
の発展
(1994年~2012年)
非負値行列因子分解
に由来する音響信号の
表現方法の発展
(1999年~2013年)
非負値行列因子分解の音響信号への適用
• 非負値行列因子分解(NMF) [Lee, 1999]
– 非負制約付きの任意基底数( 本)による低ランク近似
• 限られた数の非負基底ベクトルとそれらの非負係数を抽出
– STFTで得られるパワースペクトログラムに適用
• 頻出するスペクトルパターンとそれらの時間的な強度変化
28
Amplitude Amplitude
混合された観測行列
(パワースペクトログラム)
基底行列
(スペクトルパターン)
アクティベーション行列
(時間的強度変化)
Time
: 周波数ビン数
: 時間フレーム数
: 基底数
Time
Frequency
Frequency 基底 アクティベーション
• NMFにおける変数の最適化
– 観測 とモデル の距離をコストとし変数について最小化
– 距離関数は任意
• 二乗ユークリッド距離,KLダイバージェンス,板倉斎藤擬距離,・・・
– いずれの距離関数でも閉形式の解は未発見
– 効率的な反復更新による最適化アルゴリズム
• 補助関数法に基づく乗算型更新式(最も有名) [Lee, 2000]
NMFのパラメータ推定
29
(コスト関数が二乗ユークリッド距離の場合)
• 推定した基底(頻出スペクトル)とアクティベーション(時
間変化)を音源毎にクラスタリング
– ブラインドではなかなか難しい
• 教師ありNMF(SNMF)[Smaragdis, 2007], [Kitamura1, 2014]
NMFの音響信号への応用例
30
分離ステージ
学習ステージ
Given
• 音楽信号の音源分離の特徴
– 離散的構造 限られた数の音高(ピッチ)の重ね合わせ
• 重なり合った音をパーツ単位に分割しその線形結合で表現できる
• 離散的構造を持つ信号の適切な表現
– 音楽信号の「低ランク性」
– NMFの「低ランク近似分解」
• 音源分離以外にも音楽信号処理で広く活用されている
– 自動採譜,ビートトラッキング,超解像,・・・
NMFと音楽信号の相性
31
限られた数の音高(音の高さ)
限られた数の音価(音の長さ)
離散的なパーツの重ね合
わせで構成されている
• 音楽信号の特有の性質
音楽信号は本当に低ランク?
32
Drums Guitar
Vocals Speech
• 音楽信号特有の性質
– 同じパターンの繰り返しが多いドラムやギター等は低ランク
– ボーカル及び音声は楽器音ほど低ランクではない
– 楽器音は少ない数の音パーツ(基底)で構成(離散的構造)
音楽信号は本当に低ランク?
33
6 41 101(VocalsとSpeechで同じ)
95%到達時の基底数
(行列サイズは2049x394)
95% line
板倉斎藤擬距離基準NMF(ISNMF)
• 従来のNMF分解の問題点
– データ行列(非負実数)は1本の基底と1本のアクティベーション
からなるランク1行列の線形結合として表現
– は振幅スペクトログラムなのか?あるいはパワーなのか?
– いずれにしても線形結合(加法性)は成り立たない
• 理論的には複素スペクトログラムの加法モデルが正しい
– 位相スペクトログラムはどうするのか?
• 板倉斎藤擬距離基準NMFでは下記のように解釈される
– 複素スペクトログラムに対する生成モデルを与えられる
• 複素数成分の線形結合なので理論的に正しいモデル
– 位相は無情報な形(一様分布)で保持される
• 無情報なので最尤推定結果は観測の位相 34
• ISNMF[Févotte, 2009]
• この生成モデルはガウス分布の再生性を用いて分解可
– とおくと
板倉斎藤擬距離基準NMF(ISNMF)
35
最小化は等価 点対称零平均複素ガウス分布
観測の複素数値
複素ガウスの分散
• を複素スペクトログラムとしたとき,各時間周波数要素
は複素要素 を 個足し合わせたもの
– 複素ガウス分布の線形結合なので も複素ガウス分布
• ガウス分布の再生性
• の複素ガウス分布の分散は
– 分散が時間周波数で変動する複素ガウス分布が生成モデル
板倉斎藤擬距離基準NMF(ISNMF)
36
これらの複素ガウス分布は互いに独立(分散は異なる)
零平均,分散 の原点対称複素ガウス時間周波数
要素(複素数)
• パワースペクトログラムは複素ガウスの分散に対応
板倉斎藤擬距離基準NMF(ISNMF)
37
Frequencybin
Time frame
: パワースペクトログラム
パワーが小=分散が小
殆ど0付近の複素数しか
生成しない
パワーが大=分散が大
大きな振幅の複素数も
生成しうる
各時間周波数で分散が変動する複素ガウス分布
巨視的(マクロ)に考えると分散が変動する為,スペクト
ログラム全体の密度分布 はスーパーガウシアン
(カートシスがガウス分布より大)な分布になっている
但し濃淡が濃い方が
大きなパワーを示す
• NMFを多チャネルの信号に適用できれば面白い
– アレー信号処理やICAのように空間特徴量(振幅差,位相差)
を活用できる
• アクティベーション共有型多チャネルNMF[Kitamura2, 2014]
– チャネル間の音量比(アクティベーション)を保つNMF分解
– 空間特徴量を壊すことなく低ランク近似
• DOAクラスタリングとSNMFのハイブリッド法[Kitamura, 2015]
– 音楽信号を音量比でクラスタリングしてSNMFを適用
– クラスタリングで欠損した成分を外挿・復元しながら音源分離
• 多チャネルNMF[Ozerov, 2010], [Sawada, 2013]
– 音源の時間周波数構造を低ランク近似し,そのパーツを空間特
徴量で音源毎にクラスタリング
– 理論的には劣決定条件(マイク<音源数)でも音源分離可能
NMFの多チャネル信号への拡張
38
• 多チャネルNMF [Sawada, 2013]
NMFの多チャネル信号への拡張
39
時間周波数毎の
観測チャンネル間相関
多チャネル観測信号
音源周波数毎の
チャンネル間相関 基底行列 アクティベーション行列
空間モデル 音源モデル
クラスタリング関数
スペクトルパターン
強度変化
音源毎の空間的な違い 全音源の音色構造
多チャネル
ベクトル
瞬時空間相関行列
• 空間相関行列 又は 空間共分散行列 [Duong, 2010]
– Duong modelとも呼ばれる
– 音源とマイク間の伝達系と音響的拡散度合を表す特徴量
– ステアリングベクトル の基底拡張
– 観測信号 中の 番目の音源成分のみを と表すとき
空間相関行列とは
40
Source image
時変な音源の分散(パワースペクトログラム)
マイクロホンへの伝達系
に寄与する時不変な成分
(空間相関行列)
音源毎の
空間共分散
観測の
空間共分散
観測の
生成モデル
多チャネル
Wiener filter
時変分散と音源毎の空間共分散
から音源分離が可能(劣決定も可)
時間周波数で分散共分散が
変動する多変量ガウス分布
• 空間相関行列は瞬時空間相関の期待値
– 「瞬時相関の期待値」のランクが1
– 時不変な1本の空間基底:ステアリングベクトル
– 「瞬時相関の期待値」のランクが1より大きい(フルランク)
• ステアリングベクトルのような1本の空間基底では表現不可
• 複数本の空間基底になる(空間基底の数=空間相関行列のランク)
• 周波数領域での瞬時混合仮定が成り立たない
空間相関行列のランク
41
音源毎の
空間共分散
伝達系が時不変な1本の空間基底でモデル化できる
ランク1
空間モデル
音響信号の拡散,音響放射特性の変動,残響
という瞬時混合の式で書けない
• 多チャネルNMFはISNMFの純粋な多次元拡張
• 尤度関数
– 各時間周波数で分散が変動する多変量複素ガウス分布
• 負の対数尤度関数
– Logdet divergence [Kulis, 2006],Stein’s loss [James, 1961]とも
– 板倉斎藤擬距離の多次元版
• ISNMFのような更新式が出てくるが,計算量が大きい
NMFの多チャネル信号の最適化
42
とおくと観測 に対して,パラメタを
発表の概要
• 研究の背景
– 音源分離問題とその用途
• ブラインド音源分離と独立成分分析
– 前提条件,問題解決に利用可能な手掛かり
– 周波数領域への適用,耐残響性の向上
• 音楽信号の効率的なモデリング
– 非負値行列因子分解による低ランク近似
– 多次元観測音響信号への拡張
• 独立低ランク行列分析によるブラインド音源分離
– 独立低ランク行列分析
– 多チャネル非負値行列因子分解との関連性
• まとめとさらなる発展
– より高精度なブラインド音源分離を目指して 43
独立成分分析
に由来する音源分離法
の発展
(1994年~2007年)
非負値行列因子分解
に由来する音響信号の
表現方法の発展
(1999年~2013年)
動機
• ICAで仮定される非ガウスな音源分布
– 分離フィルタを推定する唯一の手がかり:音源モデル
– より正確な音源分布 → 高精度な分離フィルタの推定
– 確率分布というマクロなモデル
• 音源信号の持つ時間周波数の構造は考慮できない
– 音楽信号では音源間の独立性が弱まる
• 時間的な共起(リズム),周波数の重なり(ハーモニー) 等
• 時間周波数構造を分散の変動として表現したISNMF
– 従来手法よりも正確な音源分布としてICAの推定に用いたい
– ICAの高速・安定な最適化も受け継ぎたい
• 多チャネルNMFの最適化はあまりにも非効率・不安定
• 時変分散複素ガウスIVA(時変IVA)[Ono, 2012]
• 独立低ランク行列分析(ILRMA)[Kitamura, 2016]
44
• 球対称ラプラス分布IVA(再掲) [Hiroe, 2006], [Kim, 2006]
– 定常な球対称ラプラス分布を仮定
• 時変分散複素ガウス分布IVA [Ono, 2012]
– 分散が時変なパラメトリックな複素ガウス分布を仮定
– 時間方向の音源アクティビティを時変分散でモデル化
45
非ガウス分布
複素ガウス分布
時変分散
非ガウス分布
(球対称ラプラス分布)
分散
ラプラスIVA
時変IVA
様々な非ガウス分布を仮定したIVA
46
Frequency
Time
時変IVAの
音源モデル
Frequency
Time
周波数方向には一様な分散
時変な成分
Frequency
Basis
Basis
Time
基底数(音源モデルのランク数)は任意
Frequency
Time
提案手法の
音源モデル
時間周波数上での分散の変動を
NMFで低ランク表現
濃淡が分散の大小
分散の大小は音源のパワーの大小
「低ランク性」の音源モデルへの導入
提案手法:IVAとNMFを融合した新しいBSS
• 独立低ランク行列分析(independent low-rank matrix analysis: ILRMA)
– 時間周波数で分散が変動する複素ガウス分布を仮定
– 分離音源が「互いに独立」かつ「できるだけ低ランク」になる
47
イ ル マ
非ガウス分布
複素ガウス分布
Frequency
Basis
Basis
Time
基底数(音源モデルのランク数)は任意
Frequency
Time
提案手法の
音源モデル
時間周波数変動分散
(低ランク音源モデル)
Frequency
Time
提案手法:IVAとNMFを融合した新しいBSS
• FDICA,IVA,及びILRMAの比較
48
Frequency
Time
FDICAの音源モデル
スカラー変数の非ガウス分布
(ラプラス分布)
ラプラスIVAの音源モデル
ベクトル変数の多変量な
球対称非ガウス分布
(多変量ラプラス分布)
ILRMAの音源モデル
NMFによる低ランクな
時間周波数構造
(時間周波数分散変動型
複素ガウス分布)
低ランクな時間周波数構造を
持つように分離フィルタを更新
観測信号 推定信号
分離
フィルタ
• ILRMAのコスト(対数尤度)関数
– IVAの反復更新式
– NMFの反復更新式
• 音源の適切なランク数を潜在変数で推定することも可能
– Ex. ボーカルはあまり低ランクにならず,ドラムは低ランク
ILRMAのコスト関数と潜在変数の導入
49
分離信号:
ISNMFのコスト関数
(音源モデルの推定に寄与)
IVAのコスト関数
(空間分離フィルタの推定に寄与)
2つの交互最適化反復で
全変数を容易に推定可能
潜在変数の導入
0~1の値をとる潜在変数
ILRMAの最適化
• ILRMAの反復更新式(最尤推定)
– NMF変数の最適化は補助関数法に基づく乗法更新式
– 反復で尤度が単調増加することが保証されている
• 必ずどこかの局所解(停留点)へ収束
50
空間分離フィルタと分離信号の更新 音源モデルの更新
但し, ,
は 番目の要素のみ1で 他
は0の縦ベクトル
ILRMAの更新のイメージ
• 音源毎の空間情報(空間モデル)と
各音源の音色構造(音源モデル)を交互に学習
– 音源毎の時間周波数構造を正確に捉えることで,独立性基準
での線形時不変な空間分離の性能向上が期待できる
51
空間分離フィルタ
の学習
混合信号
分離信号
音源モデル
の更新
NMF
NMF
音源モデル
の学習
多チャネルNMFとILRMAの関連性
• 何が違うのか?
– 音源分布は同じ(ISNMFの時間周波数分散変動複素ガウス)
– ILRMAはICAやIVAと同様に周波数領域の瞬時混合を仮定
– 多チャネルNMFはフルランク空間相関行列を仮定
• 多チャネルNMFの空間相関行列にランク1制約を導入
– ランク1空間モデル(再掲)
• 時不変な1本の空間基底(ステアリング
ベクトル)で伝達系が表現できるという仮定
• 実際に計算してみる
– 1. ランク1空間モデルの導入
– 2. 混合系の変数を分離系の変数へと変換
52
多チャネルNMFとILRMAの関連性
• ランク1空間モデル制約多チャネルNMFの導出
53
とおくと観測 に対して,パラメタを
にランク1空間制約 を導入
ここで
多チャネルNMFとILRMAの関連性
• ランク1空間モデル制約多チャネルNMFの導出(続き)
54
を多チャネルNMFのコスト関数に代入
を用いて変数変換
IVA,多チャネルNMF,ILRMAの関連性
• 多チャネルNMFからみると
– ランク1空間制約,逆システム(分離系)の推定問題に変換
– 決定条件(マイク数=音源数)ではILRMAと双対な問題
• 時変IVAからみると
– 音源分布の基底数を1本から任意の本数に拡張
• 独立に発展した多チャネルNMFとIVAを統一的に捉える
新しい理論
55音源モデル
空間モデル
柔軟限定的
柔軟限定的
IVA
多チャネル
NMF
ILRMA
NMFの音源
モデルを導入
空間相関行列の
ランクを1に制限
• ラプラスIVA [Hiroe, 2006], [Kim, 2006]
• 時変ガウス分布IVA [Ono, 2012]
• 多チャネルNMF [Sawada, 2013]
• ILRMA [Kitamura, 2016]
56
尤度関数の比較
時間周波数変動分散
(低ランク音源モデル)
• 基礎となる数理理論の登場と発展
歴史的発展(再掲)
57
1994
1998
2006
2013
2009
パーミュテーション
問題解決法の検討
1999
独立成分分析(ICA)
非負値行列因子分解(NMF)
周波数領域ICA(FDICA)
板倉斎藤擬距離NMF(ISNMF)
独立ベクトル分析(IVA)
多チャネルNMF
2016 独立低ランク行列分析(ILRMA)
2012 時変複素ガウスIVA
年代
※代表的な手法のみを表記
NMFの様々な問題への適用
生成モデル的解釈
各種拡張
従来手法とILRMAの性能評価
• ILRMAへの期待
– NMF音源モデルの導入による性能向上(IVAと比して)
– ランク1空間モデルの導入による安定性の向上(多チャネル
NMFと比して)
• ランク1空間モデルが成立する条件での実験
– マイク位置時不変混合系(多チャネルNMFを含む全手法での
必須条件)
– 残響時間が窓長より短い(ランク1空間モデル)
– 特異な音響放射特性などがない(ランク1空間モデル)
• インパルス応答の畳み込みによるシミュレーション混合
– 残響時間が短ければランク1空間モデルが完全に成立
• 実際のライブ録音による混合観測
– より現実的な条件での実験
58
音楽音源分離実験の条件
• 実験条件
59
音源信号
SiSECのプロ音楽信号に,RWCP収録のマイクアレーインパルス
応答で畳み込んで作成,2チャンネルで2音源の混合信号
窓長(FFT長) 512 ms,ハニング窓
シフト長 128 ms (1/4シフト)
基底数 1音源につき30本(ILRMA1),全音源で60本(ILRMA2)
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
2 m
Source 1
5.66cm
50 50
Source 2
2 m
Source 1
5.66cm
60 60
Source 2
Impulse response E2A
(reverberation time: 300 ms)
Impulse response JR2
(reverberation time: 470 ms)
実験結果: fort_minor-remember_the_name
60
16
12
8
4
0
-4
-8
SDRimprovement[dB]
Sawada’s
MNMF
IVA Ozerov’s
MNMF
Ozerov’s
MNMF with
random
initialization
Sawada’s
MNMF
initialized by
proposed
method
Proposed
method
w/o
partitioning
function
Proposed
method
with
partitioning
function
Directional
clustering
Sawada’s
MNMF
IVA Ozerov’s
MNMF
Ozerov’s
MNMF with
random
initialization
Sawada’s
MNMF
initialized by
proposed
method
Proposed
method
w/o
partitioning
function
Proposed
method
with
partitioning
function
Directional
clustering
16
12
8
4
0
-4
-8
SDRimprovement[dB]
Violin synth. Vocals
Violin synth. Vocals
E2A
(300 ms)
JR2
(470 ms)
Poor
Good
Poor
Good
実験結果: ultimate_nz_tour
61
Sawada’s
MNMF
IVA Ozerov’s
MNMF
Ozerov’s
MNMF with
random
initialization
Sawada’s
MNMF
initialized by
proposed
method
Proposed
method
w/o
partitioning
function
Proposed
method
with
partitioning
function
Directional
clustering
20
15
10
5
0
-5
SDRimprovement[dB]
Sawada’s
MNMF
IVA Ozerov’s
MNMF
Ozerov’s
MNMF with
random
initialization
Sawada’s
MNMF
initialized by
proposed
method
Proposed
method
w/o
partitioning
function
Proposed
method
with
partitioning
function
Directional
clustering
20
15
10
5
0
-5
SDRimprovement[dB]
Guitar Synth.
Guitar Synth.
Poor
Good
Poor
Good
E2A
(300 ms)
JR2
(470 ms)
12
10
8
6
4
2
0
-2
SDRimprovement[dB]
4003002001000
Iteration steps
IVA
MNMF
ILRMA
ILRMA
• SiSECデータベース収録のプロ音楽信号
– ファイル名: bearlin-roads__snip_85_99,14 s(16kHzサンプル)
– 音源: acoustic_guit_main, bass, vocalsの3音源
各手法の性能と計算コストの比較例
62
(潜在変数無)
(潜在変数有)
11.5 s
15.1 s 60.7 s
7647.3 s
Poor
Good
音声音源分離実験の条件
• 実験条件
– 予備実験より,音声信号に対しては基底数を大きくすると音源
分離に失敗する事実を確認
• 音声信号の時間周波数構造がNMF表現に不向き?
63
音源信号 SiSECのライブ録音音声信号,2チャンネルで2話者の混合信号
窓長(FFT長) 256 ms,ハニング窓
シフト長 128 ms (1/4シフト)
基底数 1音源につき2本(ILRMA1),全音源で4本(ILRMA2)
主観評価値 SDR改善値(音質と分離度合いを含む総合的な分離性能)
Number of bases for
each source ( )
Number of bases for
each source ( )
16
12
8
4
0
-4
SDRimprovement[dB]
10987654321
16
12
8
4
0
-4
SDRimprovement[dB]
10987654321
Speaker 1 Speaker 2
実験結果: female3_liverec_1m
64
Sawada’s
MNMF
IVA Ozerov’s
MNMF
Ozerov’s
MNMF with
random
initialization
Sawada’s
MNMF
initialized by
proposed
method
Proposed
method
w/o
partitioning
function
Proposed
method
with
partitioning
function
Directional
clustering
16
14
12
10
8
6
4
2
0
-2
-4
SDRimprovement[dB]
Sawada’s
MNMF
IVA Ozerov’s
MNMF
Ozerov’s
MNMF with
random
initialization
Sawada’s
MNMF
initialized by
proposed
method
Proposed
method
w/o
partitioning
function
Proposed
method
with
partitioning
function
Directional
clustering
16
14
12
10
8
6
4
2
0
-2
-4
SDRimprovement[dB]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
実験結果: male3_liverec_1m
65
Sawada’s
MNMF
IVA Ozerov’s
MNMF
Ozerov’s
MNMF with
random
initialization
Sawada’s
MNMF
initialized by
proposed
method
Proposed
method
w/o
partitioning
function
Proposed
method
with
partitioning
function
Directional
clustering
14
12
10
8
6
4
2
0
-2
-4
SDRimprovement[dB]
Sawada’s
MNMF
IVA Ozerov’s
MNMF
Ozerov’s
MNMF with
random
initialization
Sawada’s
MNMF
initialized by
proposed
method
Proposed
method
w/o
partitioning
function
Proposed
method
with
partitioning
function
Directional
clustering
14
12
10
8
6
4
2
0
-2
-4
SDRimprovement[dB]
Speaker 1 Speaker 2
Speaker 1 Speaker 2
130 ms
250 ms
Poor
Good
Poor
Good
• 音声信号と音楽信号の分離結果を主観評価で比較
– 聴覚の正常な20代の男性10名女性4名
– サーストンの一対比較法(間隔尺度)
• 二手法間のスコアの差が二手法を比較した際に一方が選ばれる確率に
対応
各手法の性能の主観評価による比較
66
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
Probabilityofselection
-2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0
Difference of subjective scores
間隔尺度を確率値に変換するグラフ
1.6
1.2
0.8
0.4
0.0
-0.4
-0.8
-1.2
Subjectivescore
IVA Multichannel NMF ILRMA
Speech signals
Music signals
考察
• ほぼすべての場合で高速,高精度,安定な分離を達成
– 多チャネルNMFと比較するとモデルの自由度に優位性はない
– 精度向上はランク1空間モデルの導入による空間モデル変数
の最適化が容易になったことに起因
• 音声信号に対しては基底数を増加できない
– 基底数が増加すると性能が不安定
– 音声の時間周波数構造は音楽信号ほど低ランクではない
67
音源分離デモンストレーション:音楽分離の例
• 音楽信号
– “Ultimate NZ tour”,3音源
– イコライザ(音色の変更)では不可能な処理
68
Guitar
Vocal
Keyboard
Guitar
Vocal
Keyboard
提案法による
パートごとの
音源分離
3つのパートが鳴っていること
に注意して聞いてください
HPにも手法間比較用のデモがあります
発表の概要
• 研究の背景
– 音源分離問題とその用途
• ブラインド音源分離と独立成分分析
– 前提条件,問題解決に利用可能な手掛かり
– 周波数領域への適用,耐残響性の向上
• 音楽信号の効率的なモデリング
– 非負値行列因子分解による低ランク近似
– 多次元観測音響信号への拡張
• 独立低ランク行列分析によるブラインド音源分離
– 独立低ランク行列分析
– 多チャネル非負値行列因子分解との関連性
• まとめとさらなる発展
– より高精度なブラインド音源分離を目指して 69
独立成分分析
に由来する音源分離法
の発展
(1994年~2007年)
非負値行列因子分解
に由来する音響信号の
表現方法の発展
(1999年~2013年)
より高精度なブラインド音源分離を目指して
• 潜在因子への構造モデルの導入による発展可能性
– 確率分布モデルでは困難だった詳細な「操作(induce)」が可能
– ユーザとのインタラクション
• ユーザが分離の途中で構造モデルに介入
• 例:映画撮影等のプロ用途の音声強調
– 実現可能な学習データの活用
• 音楽信号では「楽譜」は強力な事前情報
• 例:芸術性を損なわない超高品質な音楽編集
• ブラインドな信号処理技術の重要性
– DNNの華々しい凌駕,学習ベースの技術
– 音源分離の学習データは容易可能か
• 意外と困難ではない?SiSEC2016,SiSEC2017 (MSD/DSD dataset)
– では,空間情報の学習データは容易可能か
• 録音環境は一期一会
• 学習なし or スモールデータの追求
70
時間区間の指定
領域の指定
参考文献(アルファベット順)(1/4)
• [Araki1, 2003]: S. Araki, R. Mukai, S. Makino, T. Nishikawa, and H. Saruwatari, “The
fundamental limitation of frequency domain blind source separation for convolutive mixtures
of speech,” IEEE Trans. Speech and Audio Process., vol. 11, no. 2, pp. 109–116, 2003.
• [Araki2, 2003]: S. Araki, S. Makino, Y. Hinamoto, R. Mukai, T. Nishikawa, and H. Saruwatari,
“Equivalence between frequency-domain blind source separation and frequency-domain
adaptive beamforming for convolutive mixtures,” EURASIP Journal on Advances in Signal
Process., vol. 2003, no. 11, pp. 1–10, 2003.
• [Comon, 1994]: P. Comon, “Independent component analysis, a new concept?” Signal
Process., vol. 36, no. 3, pp. 287–314, 1994.
• [Duong, 2010]: N. Q. K. Duong, E. Vincent, and R. Gribonval, “Under-determined reverberant
audio source separation using a full-rank spatial covariance model,” IEEE Trans. Audio,
Speech, Lang. Process., vol. 18, no. 7, pp. 1830–1840, 2010.
• [Févotte, 2009]: C. Févotte, N. Bertin, and J.-L.Durrieu, “Nonnegative matrix factorization with
the Itakura-Saito divergence. With application to music analysis,” Neural Comput., vol. 21, no.
3, pp. 793–830, 2009.
• [Hiroe, 2006]: A. Hiroe, “Solution of permutation problem in frequency domain ICA using
multivariate probability density functions,” Proc. Int. Conf. Independent Compon. Anal. Blind
Source Separation, 2006, pp. 601–608.
71
参考文献(アルファベット順)(2/4)
• [James, 1961]: W. James and C. Stein, “Estimation with quadratic loss,” Proc. Berkeley
Symposium on Mathematical Statistics and Probability, vol. 1, 1961, pp. 361–379.
• [Kim, 2006]: T. Kim, T. Eltoft, and T.-W. Lee, “Independent vector analysis: An extension of
ICA to multivariate components,” Proc. Int. Conf. Independent Compon. Anal. Blind Source
Separation, 2006, pp. 165–172.
• [Kim, 2007]: T. Kim, H. T. Attias, S.-Y. Lee, and T.-W. Lee, “Blind source separation exploiting
higher-order frequency dependencies,” IEEE Trans. Audio, Speech, Lang. Process., vol. 15,
no. 1, pp. 70–79, 2007.
• [Kitamura1, 2014]: D. Kitamura, H. Saruwatari, K. Yagi, K. Shikano, Y. Takahashi, and K.
Kondo, “Music signal separation based on supervised nonnegative matrix factorization with
orthogonality and maximum-divergence penalties,” IEICE Trans. Fundamentals of Electronics,
Communications and Computer Sciences, vol. E97-A, no. 5, pp. 1113–1118, 2014.
• [Kitamura2, 2014]: T. Miyauchi, D. Kitamura, H. Saruwatari, and S. Nakamura, “Depth
estimation of sound images using directional clustering and activation-shared nonnegative
matrix factorization,” Journal of Signal Process., vol. 18, no. 4, pp. 217–220, 2014.
• [Kitamura, 2015]: D. Kitamura, H. Saruwatari, H. Kameoka, Y. Takahashi, K. Kondo, and S.
Nakamura, “Multichannel signal separation combining directional clustering and nonnegative
matrix factorization with spectrogram restoration,” IEEE/ACM Trans. on Audio, Speech, and
Lang. Process., vol. 23, no. 4, pp. 654–669, 2015.
72
参考文献(アルファベット順)(3/4)
• [Kitamura, 2016]: D. Kitamura, H. Saruwatari, H. Kameoka, Y. Takahashi, K. Kondo and S.
Nakamura, “Determined blind source separation unifying independent vector analysis and
nonnegative matrix factorization,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 24,
no. 9, pp. 1626–1641, 2016.
• [Kulis, 2006]: B. Kulis, M. Sustik, and I. Dhillon, “Learning low-rank kernel matrices,” Proc. Int.
Conf. on Machine Learning, 2006, pp. 505–512.
• [Lee, 1999]: D. D. Lee and H. S. Seung, “Learning the parts of objects by non-negative matrix
factorization,” Nature, vol. 401, pp. 788–791, 1999.
• [Lee, 2000]: D. D. Lee and H. S. Seung, “Algorithms for non-negative matrix factorization,”
Proc. Adv. Neural Inform. Process. Syst., 2000, vol. 13, pp. 556–562.
• [Ono, 2011]: N. Ono, “Stable and fast update rules for independent vector analysis based on
auxiliary function technique,” Proc. IEEE Workshop on Applications of Signal Process. to
Audio and Acoust., 2011, pp. 189–192.
• [Ono, 2012]: T. Ono, N. Ono, and S. Sagayama, “User-guided independent vector analysis
with source activity tuning,” Proc. ICASSP, 2012, pp. 2417–2420.
• [Ozerov, 2010]: A. Ozerov and C. Févotte, “Multichannel nonnegative matrix factorization in
convolutive mixtures for audio source separation,” IEEE Trans. Audio, Speech, and Lang.
Process., vol. 18, no. 3, pp. 550–563, 2010.
73
参考文献(アルファベット順)(4/4)
• [Saruwatari, 2000]: S. Kurita, H. Saruwatari, S. Kajita, K. Takeda, and F. Itakura, “Evaluation
of blind signal separation method using directivity pattern under reverberant conditions,” Proc.
IEEE Int. Conf. Acoust., Speech, Signal Process., 2000, pp. 3140–3143.
• [Saruwatari, 2006]: H. Saruwatari, T. Kawamura, T. Nishikawa, A. Lee, and K. Shikano, “Blind
source separation based on a fast-convergence algorithm combining ICA and beamforming,”
IEEE Trans. Audio, Speech, Lang. Process., vol. 14, no. 2, pp. 666–678, Mar. 2006.
• [Sawada, 2004]: H. Sawada, R. Mukai, S. Araki, and S.Makino, “Convolutive blind source
separation for more than two sources in the frequency domain,” Proc. IEEE Int. Conf. Acoust.,
Speech, Signal Process., 2004, pp. III-885–III-888.
• [Sawada, 2013]: H. Sawada, H.Kameoka, S.Araki, and N. Ueda, “Multichannel extensions of
non-negative matrix factorization with complex-valued data,” IEEE Trans. Audio, Speech,
Lang. Process., vol. 21, no. 5, pp. 971–982, 2013.
• [Smaragdis, 1998]: P. Smaragdis, “Blind separation of convolved mixtures in the frequency
domain,” Neurocomputing, vol. 22, pp. 21–34, 1998.
• [Smaragdis, 2007]: P. Smaragdis, B. Raj, and M. Shashanka, “Supervised and semi-
supervised separation of sounds from single-channel mixtures,” Proc. ICA, 2007, pp. 414–421.
74

Más contenido relacionado

La actualidad más candente

独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...Daichi Kitamura
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...Daichi Kitamura
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)Shinnosuke Takamichi
 
独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展Kitamura Laboratory
 
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)Daichi Kitamura
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3Naoya Takahashi
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相Takuya Yoshioka
 
Priorに基づく画像/テンソルの復元
Priorに基づく画像/テンソルの復元Priorに基づく画像/テンソルの復元
Priorに基づく画像/テンソルの復元Tatsuya Yokota
 
Music signal separation using supervised nonnegative matrix factorization wit...
Music signal separation using supervised nonnegative matrix factorization wit...Music signal separation using supervised nonnegative matrix factorization wit...
Music signal separation using supervised nonnegative matrix factorization wit...Daichi Kitamura
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamformingShinnosuke Takamichi
 
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...Daichi Kitamura
 
非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧Kitamura Laboratory
 
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...Daichi Kitamura
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現NU_I_TODALAB
 
低ランク性および平滑性を用いたテンソル補完 (Tensor Completion based on Low-rank and Smooth Structu...
低ランク性および平滑性を用いたテンソル補完 (Tensor Completion based on Low-rank and Smooth Structu...低ランク性および平滑性を用いたテンソル補完 (Tensor Completion based on Low-rank and Smooth Structu...
低ランク性および平滑性を用いたテンソル補完 (Tensor Completion based on Low-rank and Smooth Structu...Tatsuya Yokota
 
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類Keisuke Imoto
 
ウィナーフィルタと適応フィルタ
ウィナーフィルタと適応フィルタウィナーフィルタと適応フィルタ
ウィナーフィルタと適応フィルタToshihisa Tanaka
 
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...Daichi Kitamura
 

La actualidad más candente (20)

独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
 
独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展独立低ランク行列分析に基づく音源分離とその発展
独立低ランク行列分析に基づく音源分離とその発展
 
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
 
Kameoka2017 ieice03
Kameoka2017 ieice03Kameoka2017 ieice03
Kameoka2017 ieice03
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
 
Priorに基づく画像/テンソルの復元
Priorに基づく画像/テンソルの復元Priorに基づく画像/テンソルの復元
Priorに基づく画像/テンソルの復元
 
Music signal separation using supervised nonnegative matrix factorization wit...
Music signal separation using supervised nonnegative matrix factorization wit...Music signal separation using supervised nonnegative matrix factorization wit...
Music signal separation using supervised nonnegative matrix factorization wit...
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
 
Asj2017 3invited
Asj2017 3invitedAsj2017 3invited
Asj2017 3invited
 
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
独立深層学習行列分析に基づく多チャネル音源分離(Multichannel audio source separation based on indepen...
 
非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧
 
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
低ランク性および平滑性を用いたテンソル補完 (Tensor Completion based on Low-rank and Smooth Structu...
低ランク性および平滑性を用いたテンソル補完 (Tensor Completion based on Low-rank and Smooth Structu...低ランク性および平滑性を用いたテンソル補完 (Tensor Completion based on Low-rank and Smooth Structu...
低ランク性および平滑性を用いたテンソル補完 (Tensor Completion based on Low-rank and Smooth Structu...
 
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
 
ウィナーフィルタと適応フィルタ
ウィナーフィルタと適応フィルタウィナーフィルタと適応フィルタ
ウィナーフィルタと適応フィルタ
 
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
 

Destacado

Koyama ASA ASJ joint meeting 2016
Koyama ASA ASJ joint meeting 2016Koyama ASA ASJ joint meeting 2016
Koyama ASA ASJ joint meeting 2016SaruwatariLabUTokyo
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Shinnosuke Takamichi
 
HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価
HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価
HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価Shinnosuke Takamichi
 
数値解析と物理学
数値解析と物理学数値解析と物理学
数値解析と物理学すずしめ
 

Destacado (14)

Asj2017 3 bileveloptnmf
Asj2017 3 bileveloptnmfAsj2017 3 bileveloptnmf
Asj2017 3 bileveloptnmf
 
Koyama ASA ASJ joint meeting 2016
Koyama ASA ASJ joint meeting 2016Koyama ASA ASJ joint meeting 2016
Koyama ASA ASJ joint meeting 2016
 
Apsipa2016for ss
Apsipa2016for ssApsipa2016for ss
Apsipa2016for ss
 
Dsp2015for ss
Dsp2015for ssDsp2015for ss
Dsp2015for ss
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
 
HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価
HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価
HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価
 
数値解析と物理学
数値解析と物理学数値解析と物理学
数値解析と物理学
 
Slp201702
Slp201702Slp201702
Slp201702
 
ILRMA 20170227 danwakai
ILRMA 20170227 danwakaiILRMA 20170227 danwakai
ILRMA 20170227 danwakai
 
Ea2015 7for ss
Ea2015 7for ssEa2015 7for ss
Ea2015 7for ss
 
Ica2016 312 saruwatari
Ica2016 312 saruwatariIca2016 312 saruwatari
Ica2016 312 saruwatari
 
Discriminative SNMF EA201603
Discriminative SNMF EA201603Discriminative SNMF EA201603
Discriminative SNMF EA201603
 
Hybrid NMF APSIPA2014 invited
Hybrid NMF APSIPA2014 invitedHybrid NMF APSIPA2014 invited
Hybrid NMF APSIPA2014 invited
 
Koyama AES Conference SFC 2016
Koyama AES Conference SFC 2016Koyama AES Conference SFC 2016
Koyama AES Conference SFC 2016
 

Más de Daichi Kitamura

スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価Daichi Kitamura
 
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)Daichi Kitamura
 
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)Daichi Kitamura
 
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Daichi Kitamura
 
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Daichi Kitamura
 
Experimental analysis of optimal window length for independent low-rank matri...
Experimental analysis of optimal window length for independent low-rank matri...Experimental analysis of optimal window length for independent low-rank matri...
Experimental analysis of optimal window length for independent low-rank matri...Daichi Kitamura
 
Audio Source Separation Based on Low-Rank Structure and Statistical Independence
Audio Source Separation Based on Low-Rank Structure and Statistical IndependenceAudio Source Separation Based on Low-Rank Structure and Statistical Independence
Audio Source Separation Based on Low-Rank Structure and Statistical IndependenceDaichi Kitamura
 
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法Daichi Kitamura
 
Efficient initialization for nonnegative matrix factorization based on nonneg...
Efficient initialization for nonnegative matrix factorization based on nonneg...Efficient initialization for nonnegative matrix factorization based on nonneg...
Efficient initialization for nonnegative matrix factorization based on nonneg...Daichi Kitamura
 
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...Daichi Kitamura
 
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...Daichi Kitamura
 
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...Daichi Kitamura
 
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)Daichi Kitamura
 
Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...Daichi Kitamura
 
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)Daichi Kitamura
 
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)Daichi Kitamura
 
Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...Daichi Kitamura
 
Divergence optimization based on trade-off between separation and extrapolati...
Divergence optimization based on trade-off between separation and extrapolati...Divergence optimization based on trade-off between separation and extrapolati...
Divergence optimization based on trade-off between separation and extrapolati...Daichi Kitamura
 
Depth estimation of sound images using directional clustering and activation-...
Depth estimation of sound images using directional clustering and activation-...Depth estimation of sound images using directional clustering and activation-...
Depth estimation of sound images using directional clustering and activation-...Daichi Kitamura
 

Más de Daichi Kitamura (19)

スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
 
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
Windowsマシン上でVisual Studio Codeとpipenvを使ってPythonの仮想実行環境を構築する方法(Jupyter notebookも)
 
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
近接分離最適化によるブラインド⾳源分離(Blind source separation via proximal splitting algorithm)
 
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...
 
Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...Blind source separation based on independent low-rank matrix analysis and its...
Blind source separation based on independent low-rank matrix analysis and its...
 
Experimental analysis of optimal window length for independent low-rank matri...
Experimental analysis of optimal window length for independent low-rank matri...Experimental analysis of optimal window length for independent low-rank matri...
Experimental analysis of optimal window length for independent low-rank matri...
 
Audio Source Separation Based on Low-Rank Structure and Statistical Independence
Audio Source Separation Based on Low-Rank Structure and Statistical IndependenceAudio Source Separation Based on Low-Rank Structure and Statistical Independence
Audio Source Separation Based on Low-Rank Structure and Statistical Independence
 
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
 
Efficient initialization for nonnegative matrix factorization based on nonneg...
Efficient initialization for nonnegative matrix factorization based on nonneg...Efficient initialization for nonnegative matrix factorization based on nonneg...
Efficient initialization for nonnegative matrix factorization based on nonneg...
 
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
 
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
 
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
Relaxation of rank-1 spatial constraint in overdetermined blind source separa...
 
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
 
Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...Study on optimal divergence for superresolution-based supervised nonnegative ...
Study on optimal divergence for superresolution-based supervised nonnegative ...
 
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
擬似ハムバッキングピックアップの弦振動応答 (in Japanese)
 
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
模擬ハムバッキング・ピックアップの弦振動応答 (in Japanese)
 
Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...
 
Divergence optimization based on trade-off between separation and extrapolati...
Divergence optimization based on trade-off between separation and extrapolati...Divergence optimization based on trade-off between separation and extrapolati...
Divergence optimization based on trade-off between separation and extrapolati...
 
Depth estimation of sound images using directional clustering and activation-...
Depth estimation of sound images using directional clustering and activation-...Depth estimation of sound images using directional clustering and activation-...
Depth estimation of sound images using directional clustering and activation-...
 

独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source separation and independent low-rank matrix analysis

Notas del editor

  1. まず,混ざる前の音源信号は非ガウスな分布から生成されていると仮定します.この仮定は多くの場合に有効で,事実音声や楽器音などはガウス分布よりも裾の重い,とんがった優ガウスな分布に従います. このような音源信号が混ざった観測信号は,中心極限定理により,ガウス分布に近い信号になります. FDICAでは分離後の信号の時間周波数領域の周波数毎の時系列信号に対して,スカラーの生成モデルを考えています.はじめは分離フィルタが正しくないため,推定信号はまだ混ざった状態で,その信号の分布はガウス分布に近くなります.そこでICAは,この推定信号の分布形状が,あらかじめ仮定しておいた非ガウスな分布になるように分離フィルタを更新していきます.ここで,仮定しておく非ガウスな音源分布を「音源モデル」と呼び,これらは音源間で互いに独立と仮定しています. このように,ガウスな信号から遠ざけ,音源モデルに従う信号を推定することで,混ざる前の音源が推定できる,というのがICAの原理で,それを周波数成分ごとに動かしているのがFDICAです. IVAでも原理は同じですが,FDICAで周波数毎に独立に定義されていたスカラー確率変数をまとめて多変量なベクトルの時系列信号とし,この図のように球対称な多変量非ガウス分布に近づけます. こちらも初めは多変量ガウス分布だったものが,更新によってそれぞれの信号が非ガウスな音源モデルへと近づき,分離されるという仕組みです. IVAでは球対称な多変量分布を仮定することで,周波数間の依存関係も考慮されており,FDICAよりも高精度な分離が可能です. どちらも,音声の分離などではラプラス分布,あるいは多変量ラプラス分布などが音源モデルとして利用されています.
  2. ここから音楽信号にどのような特徴があるかについて,実例とともに直感的に説明します.これは頂いたコメントの修正に対応しております. これらはドラム,ギター,ボーカル,音声の4つの信号を時間と周波数で表現したパワースペクトログラムと呼ばれる図です.各時間での各周波数成分の強度を示しています. ドラムやギターといった楽器音信号は同じ音を何度も繰り返すという性質を持っていることが分かります.また,ボーカルや音声信号はダイナミックにピッチが変動している様子が見て取れます. 当然音声にも子音や母音,抑揚といった構造は存在しますが,それらは音楽信号の「同じパターンの繰り返しが多い」という構造よりもずっと複雑です. このような特質の違いは,これらを二次元の非負行列と考えたときに,ランク構造として現れます.
  3. こちらの図は先ほどの4種のスペクトログラムの累積特異値を示しています.横軸はどれだけ基底を使ったか,縦軸はその基底数でどれだけ全体を説明できるかを示しています.同じパターンの繰り返しが多いドラムやギター等はかなり低ランクになっており,とくにドラムは6本の基底で95%を表現しています. 一方で,ボーカルや音声信号は,音高とスペクトルが多様になるため,楽器音ほど低ランクでないことが分かります. 従って,とくに楽器音信号は,音階的構造もあることにより,少ない数の音パーツで構成されており,さらにスペクトルの重なりや時間的な同期が頻発する,いわゆるハーモニーにもなっているといった特徴があります. このような特徴を持った音楽信号に対して,本論では,低ランク構造のモデリングに非常に適合している「非負値行列因子分解」と呼ばれる数理アルゴリズムを活用していきます
  4. この提案法を「独立低ランク行列分析」と名付け,以後ILRMAと呼びます. 図の通り,時間と周波数で分散が変動するような複素ガウス分布を音源モデルとして仮定しており,全体はやはり非ガウスな分布となっています. このようなモデルを音源ごとに与えることで,分離した音源が「互いに独立」かつ「できるだけ低ランクスペクトログラム」になるような仕組みとなっています.
  5. 提案手法ILRMAの対数尤度関数はこのように得られます.ここで(クリック)青丸で囲った空間分離フィルタWと,赤丸で囲ったNMF音源モデルTVが求めるべき変数になります.(クリック) さらにこの式は,(クリック)前半が従来のIVAのコスト関数と等価であり,(クリック)後半が従来のNMFのコスト関数と等価です.(クリック) したがって,IVAとNMFの反復更新式を交互に反復することで全変数を容易に推定できます. さらに,音源毎に適切なランク数を潜在変数で適応的に決定することも可能です. これは,冒頭で示した通り,音楽信号といえどもボーカルはあまり低ランクにならず,ドラム信号は低ランク,といったことが起こりえますので,音源毎の適切なランクが変わります. そのような状況に対して尤度最大化の基準で自動的に基底を割り振るのがこの潜在変数の役割です.
  6. ILRMAの反復更新式はこのように導出できます. 空間分離フィルタの更新と音源モデルの更新を交互に行うことで,全変数が最適化されます. これらの反復計算で尤度が単調増加することが保証されているので,初期値近傍の局所解への収束が保証されています.
  7. つまり,提案手法はまず空間分離フィルタを学習し,それで分離された信号の音色構造をNMFで学習,その結果得られる音源モデルを空間分離フィルタの学習に再利用し,さらに高精度な分離信号が得られる,という反復になります. このプロセスを何度も更新することで,音源毎の明確な音色構造が捉えられ,空間分離フィルタの性能向上が期待できます.
  8. また,論文ではNMFの多チャネル信号への拡張手法である多チャネルNMFとILRMAが密接に関連しているという事実を明らかにしています. 簡単に説明いたしますと,従来の多チャネルNMFで定義されている空間情報に関するモデル「空間相関行列」のランクが1となる制約を課した場合とILRMAが等価となる,という事実です. ただし,多チャネルNMFは混合系を推定する手法であり,ILRMAやIVAのように分離系を推定する技術とは異なります.そのため,多チャネルNMFは計算効率や不安定性の観点から実用性にやや欠ける点があります.これに関しては比較実験で示します.
  9. 音楽信号の分離実験を行いました.こちらは実験条件です.二つの音楽信号をこのような配置で鳴らし,2チャンネルのマイクで録音しました.このときの残響時間は300msです. 評価値はSDRという値を用いています.これは音質と分離度合いを含む総合的な性能を示す尺度です.
  10. こちらは3音源の分離結果の一例です.横軸は最適化更新回数,縦軸は分離精度をそれぞれ示しています. このように,反復更新に対する収束速度が多チャネルNMFとは全く違い,IVAやILRMAは非常に高速であることがわかります. また,一回の反復に対する計算量も大きく違うため,実際にかかる計算時間も非常に小さくなっています. そして分離精度はILRMAが良く,少し収束は遅くなりますが潜在変数がある場合が最もよくなっております.
  11. 最後に主観評価による比較結果です.ここでは,音声信号と音楽信号の分離でそれぞれ比較しました.実験にはサーストンの一対比較法を用いています. 結果から,IVAは,音声信号は良好に分離しますが,音楽信号には不向きであることがわかります.また,多チャネルNMFはその逆の結果となっています. ILRMAは両信号において最も好まれる結果となっており,提案法の分離が主観的にも優れていることがわかります.
  12. それでは実際にどの程度分離できるかをお聞かせします.これは音楽信号の分離の例です. ギター,ボーカル,キーボードの3音源の音楽信号を,提案法でパート毎に分離した結果です. まず混合音楽です.3つのパートが鳴っていることに注意して聞いてください. ボーカルの分離音です.キーボードの分離音です.最後にギターの分離音です. かなり高精度で分離できており,ここから自動採譜や再編集等が可能になります. このような精密な分離は,単純なイコライザ等の処理では全く不可能な処理です.
  13. そのほか,従来のIVAやILRMAで仮定しているランク1空間近似制約の緩和を目指す応用手法も提案しています. ランク1空間近似とは,先ほども少し登場しましたが,周波数領域での時不変な瞬時混合仮定のことです. しかし,現実にはこのランク1空間近似が成立しない例もあります.例えば,窓長を超える残響の影響があった場合です.残響は音楽の中ではコンサートホールのように積極的に取り入れられる効果で,残響も含めて分離したいという動機があります.他には,演奏者の体の動きで音源位置が時間とともにわずかに変動することや,音源の伝達系自体が時変になってしまう例です. この伝達系が時変とは,楽器自体が,全周波数の伝達系が全ての音高の音で等しくならない,といったことが起きえます. FDICAやIVA,ILRMAではすべてランク1空間近似を仮定しており,混合行列の逆行列を推定しています. 多チャネルNMFはそのような近似は用いていませんので,これらの現象が起きても分離できるポテンシャルはありますが,混合系を推定するこのアプローチは,先の実験で示した通り,最適化に難があります.
  14. この応用手法の目的は,ランク1空間近似を仮定した効率的な推定機構を保ちつつ,ランク1空間近似による近似誤差も含めて推定することです. ここでは,余剰なマイクを用いて,それぞれの音源に対して「ランク1空間近似が成立する成分」と「空間近似誤差の成分」のそれぞれを独立成分として分離するアプローチを提案しています. この図は2音源4マイクの例ですが,このように各音源で,主要な成分と近似誤差成分を別途推定し,後に足し合わせることで信号を復元します. この時,「同じ音源の各成分は,空間の特性が違うだけでスペクトルは同じになる」という仮定をおき,基底行列を共有させることで,音源毎にまとまるようにしています. これを,基底共有型ILRMAとして提案しています.
  15. コチラが結果の一例です.ここでは,ランク1空間近似の誤差の原因として,窓長を超える残響を対象とした実験を行っています. 470msの残響長の混合信号に対して,128msの窓長で解析しており,グラフの左側二つの従来の手法では十分な性能が出ませんが,基底共有型ILRMAでは大きく改善されています. ここで示している実験では残響に起因する混合系の近似誤差を取り扱いましたが,このような余剰なマイク観測を用いる手法は残響だけでなく,先にあげたような現象に対応するためでもあります. 今後の課題として,残響以外にランク1空間近似が成立しなくなるようなデータで,同様の効果が得られるか確認する必要があります.
  16. さて,IVAの音源モデルと提案手法の音源モデルの違いについて説明します. IVAは,球対称な多次元分布に基づくため,周波数方向に一様な分散を持つ音源モデルになります.これは1本の基底のNMFに非常に近いと言えます. 一方提案手法は,任意の数の基底を用いたNMFが音源モデルになります.従って,この図のように音楽信号の具体的な調波構造を捉えることができます. このように明確な音源モデルを推定することで,独立性基準での分離性能の向上が期待できます.