SlideShare una empresa de Scribd logo
1 de 27
半教師あり非負値行列因子分解における
音源分離性能向上のための効果的な基底学習法
Effective Basis Learning for Sound Source Separation by
Semi-Supervised Nonnegative Matrix Factorization
東京大学
国立情報学研究所/総合研究大学院大学
東京大学
ヤマハ株式会社
ヤマハ株式会社
北村大地
小野順貴
猿渡洋
高橋祐
近藤多伸
東京大学,NII,SOKENDAI,YAMAHA
発表内容
• 研究背景
– 音源分離技術と非負値行列因子分解(NMF)
• 従来手法
– 全教師ありNMFと半教師ありNMF
– 音源成分のスプリット問題
– 罰則条件付き半教師ありNMFと識別的全教師ありNMF
• 提案手法
– 再現用基底と分離用基底
– 識別用基底の学習アルゴリズム
• 実験
– 識別用基底学習の基礎実験
– 音楽信号を用いた音源分離実験
• まとめ 2
発表内容
• 研究背景
– 音源分離技術と非負値行列因子分解(NMF)
• 従来手法
– 全教師ありNMFと半教師ありNMF
– 音源成分のスプリット問題
– 罰則条件付き半教師ありNMFと識別的全教師ありNMF
• 提案手法
– 再現用基底と分離用基底
– 識別用基底の学習アルゴリズム
• 実験
– 識別用基底学習の基礎実験
– 音楽信号を用いた音源分離実験
• まとめ 3
• 音源分離技術
– 複数の音源が混ざった信号を個々の音源に分離する信号処理
– 音声と雑音の分離,個々の音源の編集,音拡張現実感等
• 音源分離の基本的な処理
– 時間-周波数表現されたスペクトログラム上で音源ごとに分解
音源分離技術とは?
特定音源の
分離・抽出
Time
Frequency
2つの音が存在
最初の音
2番目の音
分離
4
非負値行列因子分解 [Lee, 1999]
Amplitude
Amplitude
観測行列
(スペクトログラム)
基底行列
(頻出スペクトルパターン)
アクティベーション行列
(時間的なゲイン変化)
Time
Ω: 周波数ビン数
𝑇: 時間フレーム数
𝐾: 基底ベクトル数
Time
Frequency
Frequency
5
基底ベクトル
• 非負値行列因子分解 (nonnegative matrix factorization: NMF)
– 非負制約条件付き次元圧縮,有用な特徴量抽出法
– 非負制約によって暗にスパースな解が得られる傾向
発表内容
• 研究背景
– 音源分離技術と非負値行列因子分解(NMF)
• 従来手法
– 全教師ありNMFと半教師ありNMF
– 音源成分のスプリット問題
– 罰則条件付き半教師ありNMFと識別的全教師ありNMF
• 提案手法
– 再現用基底と分離用基底
– 識別用基底の学習アルゴリズム
• 実験
– 識別用基底学習の基礎実験
– 音楽信号を用いた音源分離実験
• まとめ 6
• 全ての音源のスペクトル基底(音色の辞書)を事前学習
– 分離ステージでは各音源のアクティベーションのみを最適化
– 教師音は音源毎に必要
全教師ありNMF(full-supervised NMF) [Smaragdis, 2007]
分離ステージ 最適化
学習ステージ
7
固定 目的音1 目的音2観測(混合)音
,
固定
ピアノの基底 サックスの基底
• 分離したい音源のみの教師基底を事前学習
– 分離ステージでは非目的音用の基底と各成分のアクティベー
ションを同時に最適化
半教師ありNMF(semi-supervised NMF) [Smaragdis, 2007]
最適化
教師音から作成した目的音基底分離目的音の教師音
8
目的音 非目的音固定観測(混合)音
分離ステージ
学習ステージ
教師ありNMFにおける音源分離の根本的な問題
• 教師ありNMFの分離ステージのコスト関数は
「混合音をどれだけよく表現できるか」であり
「各音源をどれだけよく分離できるか」とはなっていない
• 非目的音基底に目的音成分が混入する例
9
赤色が目的音の成分
Frequency
Basis index
Frequency
Basis index
非目的音基底 には
何の制約もないため,
目的音成分の一部を
含んでしまうことがある
半教師ありNMFにおける効果的な基底学習
• Penalized semi-supervised NMF [Kitamura, et al., 2013]
– 半教師ありNMFにおいて,非目的音用の基底 が教師基底
と出来るだけ無相関となる罰則条件を追加
– 分離精度を大きく向上(目的信号成分のスプリットを防ぐ)
10
コスト関数:
直交化罰則項
事前学習した目的音基底(固定) 最適化変数
依然として,教師基底 がその他の音源成分(非目的音)を表
現する問題は解決されていない
• 分離ステージには「音源をできるだけ分離する」というコ
ストがない
• 学習ステージの段階で,できるだけ他の音源の成分を表
さない教師基底 を得ることが望ましい
本研究のモチベーション
11
「目的音源は表現するが他の音源は表現しない」
ような識別的な基底の学習が必要
(半教師ありNMFにも全教師ありNMFにも必要)
「目的音源をよく表現する基底」
しか学習できない
「混合信号の表現度合」
しか考慮されない
従来手法:識別的な目的音基底の学習
• 全教師ありNMFにおいては識別的基底の学習が既に提
案されている [Sprechmann, et al., 2014], [Weninger, et al., 2014]
– 学習ステージで仮の混合信号 を作成しそれを分離す
るアクティベーションを用いて基底を学習する
– 最適化の制約条件の中に最適化(bilevel optimization)
– 各音源の基底は「目的音の正確な表現」と「他音源との識別性
能の最大化」の二つの目的を満たすように学習される
– 従来手法は,上記の二段階最適化を提案しながらも解けない
ので,交互最適化での近似や簡略化した目的関数を解く
12
s.t.
発表内容
• 研究背景
– 音源分離技術と非負値行列因子分解(NMF)
• 従来手法
– 全教師ありNMFと半教師ありNMF
– 音源成分のスプリット問題
– 罰則条件付き半教師ありNMFと識別的全教師ありNMF
• 提案手法
– 再現用基底と分離用基底
– 識別用基底の学習アルゴリズム
• 実験
– 識別用基底学習の基礎実験
– 音楽信号を用いた音源分離実験
• まとめ 13
本研究のアプローチ
• アプローチ
– 「目的音成分の正確な表現」と「他音源との識別性能を最大化」
の二つの目的を別の基底でそれぞれ実現
– 一つの目的音源に対して再現用基底 と識別用基底 の
二種類の教師基底を学習ステージで用意する
– 分離ステージでは識別用基底を用いて分離
– 推定されたアクティベーションと再現用基底で分離音を再構成
14
• 提案手法のアイデア
再現用基底と識別用基底の違い
15
Amp.
Frequency
Time
Frequency
(赤は目的音,青は非目的音を表す)
混合信号
として
Amp.
Frequency
Amp.
Frequency
Time
Frequency
Time
Amp.
Time
Amp.
混合信号
を推定すると
目的音と非目的音間で重複する成分
が識別性能劣化の原因
Amp.
Frequency
Time
Frequency
分離信号
Amp.
として
分離すると
• 提案手法のアイデア
再現用基底と識別用基底の違い
16
Time
Frequency
混合信号
として
を推定すると 重複成分を他の基底に任せて目的音源
固有の周波数成分だけ持てば識別的
(アクティベーションは変わらない)
Amp.
Frequency
Time
Frequency
分離信号
Amp.
として
分離すると
Amp.
Frequency
Amp.Amp.
Amp.
Frequency
Amp.
Frequency
Time
Frequency
Time
Time
Amp.
Amp.
Frequency
Time
(赤は目的音,青は非目的音を表す)
提案法の利点と半教師ありNMFへの応用
• 提案法の利点
– 「目的音の正確な表現」と「他音源との識別性能の最大化」の
両立を一つの教師基底で試みている
– 変数が複雑に絡む二段階最適 困難
– 実用的なことを考えると,目的音の教師信号だけを用いる「半
教師ありNMF」の方が望ましい
• 半教師ありNMFへの適用
– 目的音の教師信号 に対して混合しうる信号(非目的音の候
補信号) を用意
• 両者の混合 で目的音のスペクトルのどの帯域が他音源と重
なりやすいかを学習し識別用目的音基底 を作成
• 混合候補信号 は観測信号 内の(真の)非目的音 と同種の音
源でなくても良い
• 「同じ調の楽曲の別の楽器音による旋律や和音」等が好適
17
アルゴリズム
• 学習ステージ
• 分離ステージ
18
識別用教師基底を固定
固定
再現用基底
識別用基底
発表内容
• 研究背景
– 音源分離技術と非負値行列因子分解(NMF)
• 従来手法
– 全教師ありNMFと半教師ありNMF
– 音源成分のスプリット問題
– 罰則条件付き半教師ありNMFと識別的全教師ありNMF
• 提案手法
– 再現用基底と分離用基底
– 識別用基底の学習アルゴリズム
• 実験
– 識別用基底学習の基礎実験
– 音楽信号を用いた音源分離実験
• まとめ 19
識別用基底学習の基礎実験
• MIDI音源(Garritan Personal Orchestra 4)で生成した
Pf.音(C5)とFl.音(C6)の2音を時間差付きで混合
• Pf.音(C5)を として再現用基底 を学習
– 基底数は1本のみ
20
-100
-80
-60
-40
-20
0
20
Power[dB]
543210
Frequency [kHz]
学習された再現用教師基底(Pf.)
分離用基底学習の基礎実験
• Pf.音(C5)を ,Fl.音(C6)を として識別用教師基
底 を学習(反復50回)
– 基底 の基底数は2本
21
-100
-80
-60
-40
-20
0
20
Power[dB]
543210
Frequency [kHz]
-100
-80
-60
-40
-20
0
20
Power[dB]
543210
Frequency [kHz]
学習された識別用目的音基底(Pf.)
その他の基底 (Fl.)
スペクトルがぶつかる
成分にノッチが生じて
おり,識別的な学習
が進んだことが確認
できる
• データセット(SiSEC2011,プロ音楽信号)
• 4-fold cross-validationを行う
SiSEC2011の楽曲の実験: 条件
22
楽曲名
混合される
目的音源
混合される
非目的音源
非目的音の候補信号
(楽曲名 / 音源)
roads
Acoustic guitar Drums The ones we love / Drums
Drums Acoustic guitar The ones we love / Acoustic guitar
Que pena
tanto faz
Classic guitar Female vocals Remember the name / Male vocals
Female vocals Classic guitar Ultimate NZ tour / Electric guitar
Ultimate
NZ tour
Electric guitar Synthesizer Remember the name / Synthetic violins
Synthesizer Electric guitar Roads / Acoustic guitar
音源1
音源2
( がテスト区間の例)
別の楽曲
• その他の実験条件
– 短時間フーリエ変換(STFT)の設定
• 92msのハミング窓,シフト量46ms
– NMFは振幅スペクトログラムの一般化KLD基準
– 再現用基底学習ステップと分離ステージの反復回数は1000回
– 識別用基底学習ステップは0~20回でそれぞれの性能を確認
– NMFの基底数は全て35本
MUS100の楽曲の実験: 条件
23
再現用基底
学習ステップ
識別用基底
学習ステップ
分離
ステージ
学習
ステージ
20
18
16
14
12
10
8
6
4
2
0
SDRimprovement[dB]
20181614121086420
Number of iterations in discriminative
basis learning step
• 楽曲1の結果
SiSEC2011の楽曲の実験: 結果
24
音源1(A.Gt.) 音源2(Dr.)
0回目が従来手法(通常の半教師ありNMF)
0回目が従来手法(通常の半教師ありNMF)
5 dBの改善
2.3 dBの改善
13
12
11
10
9
8
7
6
5
4
3
2
1
0
SDRimprovement[dB]
20181614121086420
Number of iterations in discriminative
basis learning step
• 楽曲2の結果
SiSEC2011の楽曲の実験: 結果
25
音源1(C.Gt.) 音源2(Vo.)
1.7 dBの改善
3.7 dBの改善
10
9
8
7
6
5
4
3
2
1
0
SDRimprovement[dB]
20181614121086420
Number of iterations in discriminative
basis learning step
• 楽曲3の結果
SiSEC2011の楽曲の実験: 結果
26
音源1(E.Gt.) 音源2(Sy.)
3 dBの改善
まとめ
• 目的: 半教師ありNMFにおける分離精度向上
– 識別的な教師基底の学習法
– (但し,提案法は全教師ありにも応用可)
• 一つの音源に対して再現用基底と識別用基底の2種の
基底を学習
– 再現用基底: 全スペクトル成分を保持
– 識別用基底: 対象となる音源固有の成分のみを保持
• いくつかの実験例において分離精度の向上を確認
– 「目的音源を正確に表現する基底が最高の分離性能を与える
とは限らない」という事実を実証
• 現状の問題: アルゴリズムの収束時が最高性能でない
– Stopping criteriaの検討 or 別の識別用基底学習アルゴリズム
の検討
27

Más contenido relacionado

La actualidad más candente

非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...Daichi Kitamura
 
Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...Daichi Kitamura
 
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...Daichi Kitamura
 
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...Daichi Kitamura
 
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)Daichi Kitamura
 
Optimal divergence diversity for superresolution-based nonnegative matrix fac...
Optimal divergence diversity for superresolution-based nonnegative matrix fac...Optimal divergence diversity for superresolution-based nonnegative matrix fac...
Optimal divergence diversity for superresolution-based nonnegative matrix fac...Daichi Kitamura
 
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...ssuserf54db1
 
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価Kitamura Laboratory
 
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...Daichi Kitamura
 
非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧Kitamura Laboratory
 
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...Daichi Kitamura
 
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法Daichi Kitamura
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...Daichi Kitamura
 
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価Daichi Kitamura
 
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...Daichi Kitamura
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現NU_I_TODALAB
 

La actualidad más candente (20)

非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
 
Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...Evaluation of separation accuracy for various real instruments based on super...
Evaluation of separation accuracy for various real instruments based on super...
 
ILRMA 20170227 danwakai
ILRMA 20170227 danwakaiILRMA 20170227 danwakai
ILRMA 20170227 danwakai
 
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
ランク1空間近似を用いたBSSにおける音源及び空間モデルの考察 Study on Source and Spatial Models for BSS wi...
 
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...
過決定条件BSSにおけるランク1空間制約の緩和 Relaxation of rank-1 spatial model in overdetermined...
 
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
基底変形型教師ありNMFによる実楽器信号分離 (in Japanese)
 
Optimal divergence diversity for superresolution-based nonnegative matrix fac...
Optimal divergence diversity for superresolution-based nonnegative matrix fac...Optimal divergence diversity for superresolution-based nonnegative matrix fac...
Optimal divergence diversity for superresolution-based nonnegative matrix fac...
 
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
 
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
 
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
 
Asj2017 3 bileveloptnmf
Asj2017 3 bileveloptnmfAsj2017 3 bileveloptnmf
Asj2017 3 bileveloptnmf
 
非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧
 
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
 
Kameoka2016 miru08
Kameoka2016 miru08Kameoka2016 miru08
Kameoka2016 miru08
 
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
 
Asj2017 3invited
Asj2017 3invitedAsj2017 3invited
Asj2017 3invited
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
 
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
 
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 

Destacado

Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Shinnosuke Takamichi
 
Koyama ASA ASJ joint meeting 2016
Koyama ASA ASJ joint meeting 2016Koyama ASA ASJ joint meeting 2016
Koyama ASA ASJ joint meeting 2016SaruwatariLabUTokyo
 
HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価
HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価
HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価Shinnosuke Takamichi
 
数値解析と物理学
数値解析と物理学数値解析と物理学
数値解析と物理学すずしめ
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...Daichi Kitamura
 

Destacado (11)

Ica2016 312 saruwatari
Ica2016 312 saruwatariIca2016 312 saruwatari
Ica2016 312 saruwatari
 
Koyama AES Conference SFC 2016
Koyama AES Conference SFC 2016Koyama AES Conference SFC 2016
Koyama AES Conference SFC 2016
 
Slp201702
Slp201702Slp201702
Slp201702
 
Hybrid NMF APSIPA2014 invited
Hybrid NMF APSIPA2014 invitedHybrid NMF APSIPA2014 invited
Hybrid NMF APSIPA2014 invited
 
Apsipa2016for ss
Apsipa2016for ssApsipa2016for ss
Apsipa2016for ss
 
Dsp2015for ss
Dsp2015for ssDsp2015for ss
Dsp2015for ss
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
 
Koyama ASA ASJ joint meeting 2016
Koyama ASA ASJ joint meeting 2016Koyama ASA ASJ joint meeting 2016
Koyama ASA ASJ joint meeting 2016
 
HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価
HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価
HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価
 
数値解析と物理学
数値解析と物理学数値解析と物理学
数値解析と物理学
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
 

Discriminative SNMF EA201603

Notas del editor

  1. しかし,教師ありNMFの分離ステージのコスト関数は「混合音をどれだけ良く表現できるか」であり,「各音源をどれだけ良く分離できるか」とはなっていません. 例えば教師有りNMFの例では,非目的音用の基底Hに何の制約もないので,教師基底Tが持っている目的音成分の一部を含んでしまうことがおきます. 逆に,教師基底Tが別の音源の一部を表現してしまうこともあります.
  2. このような現象は,分離ステージに「音源をできるだけ分離する」というコストが無いことが原因です. つまり,分離ステージでは観測XmixとモデルTG+HUの距離さえ近くなれば良いため,「必ずしも目的音がTGで非目的音がHUに分離されなくても良い」というコスト関数になっています. そこで,教師信号から目的音の基底を学習する段階で,できるだけ他の音源を表さない教師基底Tを得る方が望ましいということが分かります. 従って,「分離の目的音は表現するが,他の音源は表現しない」という識別的な基底の学習が必要となります.
  3. そこで,「目的音の周波数成分の正確な表現」と「他音源との識別性能を最大化」の2つの目的を,別の基底でそれぞれ表現する新しい手法を提案します. つまり,一つの目的音源に対して再現用基底Tと識別用基底T’の二種類の教師基底を学習ステージで用意します. 分離ステージでは識別用基底を用いて分離し,推定されたアクティベーションと再現用基底を用いて,分離音を再構成する,という流れです. この提案法の原理を説明いたします.
  4. こちらは提案手法のアイデアを示す図です.赤色が目的音,青色は非目的音の成分をそれぞれ示します. 今,Tという教師基底を事前に持っているとします. 混合信号の時間周波数表現の中で,このように目的音と非目的音の成分が重複するような成分が存在する場合,各音源の性格なアクティベーションが推定できず,識別性能が劣化する原因となります. 正確なアクティベーションが求まらないと,このように分離信号は本来混合されていた信号と異なるものになってしまいます.
  5. 一方,もし教師基底が全部の周波数成分を持つのではなく,目的音源固有の成分だけを持っていた場合は,識別が容易になります. そのような音源固有の成分だけを持っている教師基底をT’としています. これを用いてV,H,Uを推定すると,重複成分を他の基底に完全に任せることができます. こうした識別的な教師基底を用いて推定したアクティベーションVを使って,今度は全周波数成分を正確に持っている基底Tを使って分離信号を再構成すると,精度の高い音源分離ができます. 従って,正確な周波数成分を持っている再現用基底Tと,目的音源固有の成分だけを持っている識別用基底T’の両方を活用することで分離精度向上が期待できます.
  6. 提案手法の実験を行いました. SiSECの音楽データベースから3曲,それぞれ2音源を用意して混合します. 非目的音の候補信号は,混合信号とは別の楽曲の似た楽器音を用いています. 例えば,目的音がクラシックギター,非目的音が女性ボーカルの混合の場合は,別の曲の男性ボーカルを非目的音の候補信号としています. さらに,目的音の教師信号を用意する為に,数のような4区間交差検証を行います. つまり,混合信号以外の部分の目的音信号を学習します.
  7. その他の実験条件はこの通りです. 今回は,識別用基底T‘を学習するステップのNMFの反復回数を0~20回としたときでいろいろ実験しています. 0回の時はすなわち再現用基底と識別用基底が一致しますので,従来の半教師ありNMFと同じです.
  8. こちらが実験結果です.横軸が識別用基底の学習ステップの反復回数,縦軸が分離精度です. 0回の従来手法と比較して,3・4回更新した識別用基底を用いると,音源分離精度がかなり向上されることを確認しました. 但し,識別用基底の学習ステップを収束するまで回してしまうと,改善量が低下してしまうということも確認できます.
  9. こちらは別の楽曲です. こちらもやはり識別用基底の学習ステップによってばらつきがあります.
  10. 3つめの楽曲です. ここでは,片方の音源しか改善がありませんでした.収束点では改善量が低下してしまう傾向も同様です.