SlideShare una empresa de Scribd logo
1 de 17
基底共有型非負値行列因子分解
に基づく楽器音の共通・固有成分の
分析と音色変換への応用
Analysis of common and individual components in musical instruments based on basis-
shared nonnegative matrix factorization and its application to timbre conversion
香西海斗(北村研究室)
香川高等専門学校電気情報工学科卒業研究発表会
研究背景
• 人は楽器音の音色の違いを感覚的に表現
– 例:「きらびやかな音」,「やわらかい,温かみのある音」
– 定量的に表現する方法はあまり確立されていない
• 複数の楽器音の違いを定量的に表現
– アマチュア奏者の上達の支援
– 芸術的価値の高い楽器の設計製作
– 音色変換,楽器音識別,音楽検索等にも応用可能 2
アマチュア プロフェッショナル
両者の違いは?
• STFTの処理の流れ
– スペクトログラム:音の時間周波数表現
– スペクトログラムの要素毎の絶対値は振幅スペクトログラム
短時間フーリエ変換(STFT)
3
時間領域
窓関数
時間周波数領域
時間波形
…
離散フーリエ変換
離散フーリエ変換
離散フーリエ変換
スペクトログラム
複素数の要素を持つ行列
周波数
時間
…
振幅スペクトログラム
非負(ゼロ以上)の実数要素の行列
要素毎の
絶対値
フーリエ変換長
シフト長
提案手法の概要とNMFに基づく音響信号の分解
• 非負値行列因子分解(NMF) [Lee+, 1999] に基づく解析
– 複数楽器音信号間に共通する音色成分
– 各楽器音信号の固有の音色成分
• 音響信号におけるNMFの適用
– 振幅スペクトログラム を基底 とアクティベーション に分解
4
この2成分を同時
にNMFで抽出
Amplitude
Amplitude
非負の観測行列
(音の時間周波数強度)
基底行列
(音色パーツ)
アクティベーション行列
(音量と音価)
Time
Time
Frequency
Frequency
基底
: 周波数ビン数
: 時間フレーム数
: 基底数
アクティベーション
提案手法:基底共有型NMF(BSNMF)
• 音源 と に対して共通の基底行列 と固有基底行
列 と を用いて分解
– は2つの楽器音の共通の音色(スペクトル)
– と は各楽器の固有の音色(スペクトル)
5
共通の
音色パーツ
固有の
音色パーツ
固有の
音色パーツ
BSNMFの最適化問題
6
– 最適化には補助関数法 [Hunter+ et al., 2004] を用いる
両項を同時に小さくするような変数行列を推定
と の距離
距離関数
と の距離
二乗Euclid距離に基づくBSNMF
• 最適化関数
– , は補助変数 7
補助関数を設計
最適化更新式導出時に
問題となる項
二乗Euclid距離に基づくBSNMFの更新式
• 以下は導出した更新式
8
はアダマール積(行列の要素ごとの乗算)
分数は ともされるアダマール除算(行列の要素ごとの除算)
は行列の転置
音響特徴量抽出実験:条件
• 各実験条件
9
音源1 音源2
VSTプラグイン Iowa Piano 4Front Piano
STFTの窓長
STFTのシフト長
窓関数
乖離度関数
反復回数
基底数 6 本
92.9 ms
46.4 ms
Hamming窓
一般化KLダイバージェンス
1000 回
Iowa Piano
4Front Piano
音響特徴量抽出実験:結果
10
音響特徴量抽出実験:結果
11
音響特徴量抽出実験:結果
12
(共通音色) (X1固有音色) (X2固有音色)
C4音 C4音 C4音
E4音 E4音 E4音
G4音 G4音 G4音
• 打撃部分に明確な差異
音響特徴量抽出実験:結果
13
(共通音色) (X1固有音色) (X2固有音色)
BSNMF音色変換への応用
• 固有基底行列 及び のみを入れ替えることで,音色
の変換を実現
14
固有の音色パー
ツを入れ替える
BSNMF音色変換への応用
• ABX法を用いて音色変換の精度を主観評価
– Xは「 の音色を に変換したもの」または「 の音色を
に変換したもの」のいずれかをランダムに提示
– 健全な聴力を持つ,2年以上の楽器経験者14名を対象
15
楽器音1の音色
のメロディ
A
楽器音2の音色
のメロディ
B
音色変換後の
メロディ
X
1秒間無音
1秒間無音
Score 1
Score 2
Score 3
Score 4
Score 5
Score 6
音色変換への応用
• 有意水準5%で帰無仮説「AとBには差がない」を棄却可
– 音色変換が高精度に達成されていることを裏付けている
16
ID 年代 性別 正答率 [%] カイ二乗値
被験者1 20代 女性 70.83 4.17
被験者2 30代 女性 66.67 2.67
被験者3 30代 女性 75.00 6.00
被験者4 20代 男性 70.83 4.17
被験者5 20代 男性 87.50 13.50
被験者6 10代 男性 83.33 10.67
被験者7 10代 男性 83.33 10.67
被験者8 10代 男性 70.83 4.17
被験者9 10代 女性 75.00 6.00
被験者10 10代 女性 54.17 0.17
被験者11 10代 男性 79.17 8.17
被験者12 20代 女性 75.00 6.00
被験者13 20代 男性 87.50 13.50
被験者14 20代 女性 83.33 10.67
まとめと課題
• まとめ
– 客観的かつ定量的に複数の楽器音信号の違いを議論するた
め基底共有型NMFを提案
– 音響特徴量抽出実験では共通・固有スペクトル成分の抽出に
成功
– 音色変換を高精度で実現
• 課題
– 基底数を増やすと固有部分にのみ抽出されてしまう
• 基底共有型NMFに罰則項を付与する
17

Más contenido relacionado

Más de Kitamura Laboratory

周波数双方向再帰に基づく深層パーミュテーション解決法
周波数双方向再帰に基づく深層パーミュテーション解決法周波数双方向再帰に基づく深層パーミュテーション解決法
周波数双方向再帰に基づく深層パーミュテーション解決法Kitamura Laboratory
 
Heart rate estimation of car driver using radar sensors and blind source sepa...
Heart rate estimation of car driver using radar sensors and blind source sepa...Heart rate estimation of car driver using radar sensors and blind source sepa...
Heart rate estimation of car driver using radar sensors and blind source sepa...Kitamura Laboratory
 
DNN-based frequency-domain permutation solver for multichannel audio source s...
DNN-based frequency-domain permutation solver for multichannel audio source s...DNN-based frequency-domain permutation solver for multichannel audio source s...
DNN-based frequency-domain permutation solver for multichannel audio source s...Kitamura Laboratory
 
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価Kitamura Laboratory
 
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討Kitamura Laboratory
 
多重解像度時間周波数表現に基づく独立低ランク行列分析,
多重解像度時間周波数表現に基づく独立低ランク行列分析,多重解像度時間周波数表現に基づく独立低ランク行列分析,
多重解像度時間周波数表現に基づく独立低ランク行列分析,Kitamura Laboratory
 
深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討Kitamura Laboratory
 
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測Kitamura Laboratory
 
音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析Kitamura Laboratory
 
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離Kitamura Laboratory
 
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離Kitamura Laboratory
 
Linear multichannel blind source separation based on time-frequency mask obta...
Linear multichannel blind source separation based on time-frequency mask obta...Linear multichannel blind source separation based on time-frequency mask obta...
Linear multichannel blind source separation based on time-frequency mask obta...Kitamura Laboratory
 
Prior distribution design for music bleeding-sound reduction based on nonnega...
Prior distribution design for music bleeding-sound reduction based on nonnega...Prior distribution design for music bleeding-sound reduction based on nonnega...
Prior distribution design for music bleeding-sound reduction based on nonnega...Kitamura Laboratory
 
Blind audio source separation based on time-frequency structure models
Blind audio source separation based on time-frequency structure modelsBlind audio source separation based on time-frequency structure models
Blind audio source separation based on time-frequency structure modelsKitamura Laboratory
 
非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧Kitamura Laboratory
 
独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測Kitamura Laboratory
 
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化Kitamura Laboratory
 
独立低ランク行列分析を用いたインタラクティブ音源分離システム
独立低ランク行列分析を用いたインタラクティブ音源分離システム独立低ランク行列分析を用いたインタラクティブ音源分離システム
独立低ランク行列分析を用いたインタラクティブ音源分離システムKitamura Laboratory
 
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価Kitamura Laboratory
 
スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析Kitamura Laboratory
 

Más de Kitamura Laboratory (20)

周波数双方向再帰に基づく深層パーミュテーション解決法
周波数双方向再帰に基づく深層パーミュテーション解決法周波数双方向再帰に基づく深層パーミュテーション解決法
周波数双方向再帰に基づく深層パーミュテーション解決法
 
Heart rate estimation of car driver using radar sensors and blind source sepa...
Heart rate estimation of car driver using radar sensors and blind source sepa...Heart rate estimation of car driver using radar sensors and blind source sepa...
Heart rate estimation of car driver using radar sensors and blind source sepa...
 
DNN-based frequency-domain permutation solver for multichannel audio source s...
DNN-based frequency-domain permutation solver for multichannel audio source s...DNN-based frequency-domain permutation solver for multichannel audio source s...
DNN-based frequency-domain permutation solver for multichannel audio source s...
 
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価
 
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討
 
多重解像度時間周波数表現に基づく独立低ランク行列分析,
多重解像度時間周波数表現に基づく独立低ランク行列分析,多重解像度時間周波数表現に基づく独立低ランク行列分析,
多重解像度時間周波数表現に基づく独立低ランク行列分析,
 
深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討深層パーミュテーション解決法の基礎的検討
深層パーミュテーション解決法の基礎的検討
 
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
 
音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析音楽信号処理における基本周波数推定を応用した心拍信号解析
音楽信号処理における基本周波数推定を応用した心拍信号解析
 
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離調波打撃音モデルに基づく線形多チャネルブラインド音源分離
調波打撃音モデルに基づく線形多チャネルブラインド音源分離
 
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
 
Linear multichannel blind source separation based on time-frequency mask obta...
Linear multichannel blind source separation based on time-frequency mask obta...Linear multichannel blind source separation based on time-frequency mask obta...
Linear multichannel blind source separation based on time-frequency mask obta...
 
Prior distribution design for music bleeding-sound reduction based on nonnega...
Prior distribution design for music bleeding-sound reduction based on nonnega...Prior distribution design for music bleeding-sound reduction based on nonnega...
Prior distribution design for music bleeding-sound reduction based on nonnega...
 
Blind audio source separation based on time-frequency structure models
Blind audio source separation based on time-frequency structure modelsBlind audio source separation based on time-frequency structure models
Blind audio source separation based on time-frequency structure models
 
非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧
 
独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測
 
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
深層学習に基づく間引きインジケータ付き周波数帯域補間手法による音源分離処理の高速化
 
独立低ランク行列分析を用いたインタラクティブ音源分離システム
独立低ランク行列分析を用いたインタラクティブ音源分離システム独立低ランク行列分析を用いたインタラクティブ音源分離システム
独立低ランク行列分析を用いたインタラクティブ音源分離システム
 
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価
 
スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析
 

基底共有型非負値行列因子分解に基づく楽器音の共通・固有成分の分析と音色変換への応用

Notas del editor

  1. 北村研究室の香西が発表します.
  2. 本研究の背景です. 一般的に個人の楽器演奏や楽器本体の価値は,人間の主観に基づいて評価されます. 例えば,きらびやかな音や柔らかい温かみのある音などと形容されますがそのような表現は素人にはなかなか伝わりません. また,「アマチュア奏者とプロ奏者の演奏の差異」や「安い楽器と高価な楽器の音の違い」が主観的に語られることも多くあります. しかし,主観を廃して定量的に表現する方法はあまり確立されておらず,素人の人は他人の主観的評価に頼らざるを得ません. もしも,複数の楽器音の音響的・芸術的違いを定量的に表現する音響特徴量が推定できれば,アマチュア奏者への上達の支援や,芸術的価値の高い楽器の設計製作等に役立ちます. さらに,楽器音信号の音色変換,楽器音識別,音楽検索等にも応用が可能になります.(1:00)
  3. 次に,音の時間周波数表現について説明します. 時間波形をこの図のように短時間区間で区切り,離散フーリエ変換を適用することで,その短時間区間の周波数スペクトルが得られます. この処理を他の短時間区間に繰り返すことで,横軸が時間,縦軸が周波数の,スペクトログラムと呼ばれる行列が得られ,この変換を短時間フーリエ変換,STFTと呼びます. スペクトログラムは複素行列ですが,本研究では全ての要素の振幅をとった振幅スペクトログラムを扱います.(1:30)
  4. 本研究では,非負値行列因子分解,NMFという行列分解理論を用います. 提案手法では,複数の楽器音信号間の「共通する音色成分」と,「固有の音色成分」の2成分を同時にNMFで抽出する新しいアルゴリズムを提案します. NMFとは,非負行列Xを別の二つの非負行列FとQの積で近似分解する手法です. NMFを音響信号に適用する場合,この図のように音の振幅スペクトログラムを行列Xとし,FかけるQに行列分解します. このとき,行列Fは,X中の音色を表す基底ベクトルが含まれ,さらにその音色がいつ,どの程度の強さで生じるかという情報が,行列Qに現れます. 従って,Fは音色パーツを含む基底行列,Qは楽譜情報を含むアクティベーション行列と呼ばれます.(2:30)
  5. このNMFを応用したものが提案手法の基底共有型NMF,通称BSNMFです. いま,2つの楽器音信号の振幅スペクトログラムX1とX2を左辺に与え,これをそれぞれNMFで行列分解します. このとき,X1とX2で共有する基底行列Wと,固有の基底行列F1及びF2を用意して,連立方程式として分解します. さらに,アクティベーション行列H1及びH2は,WとFの間で共有します. このような行列分解を考えることで,X1とX2に共通する音色成分が共有基底Wとして推定され,X1固有の音色成分とX2固有の音色成分がそれぞれF1とF2に現れます. この図の右辺の変数行列は,全て最適化問題として推定されます.(3:20)
  6. この式が最適化関数です. X1とその右辺,X2とその右辺の距離が近くなるように,(二乗誤差最小化で)全変数を最適化します. 本研究ではこちらの二乗ユークリッド距離,一般化KLダイバージェンス,ISダイバージェンスを用いました. (クリック)本発表では二乗ユークリッド距離に基づく更新式の導出について少し説明します. 二乗ユークリッド距離は二乗誤差に対応しており,各変数行列の反復最適化更新式は補助関数法を用いて導出することができます.(3:55)
  7. こちらが二乗ユークリッド距離に基づくBSNMFの一般化導出式です. 前ページで示した最適化関数を展開するとこのようになります. このままでは図の第2項が原因となり,非負性を保ったまま更新式を導出することができません. そこで,補助関数を設計し反復更新式を導出します.(4:15)
  8. 導出した反復更新式はこのようになります.この5つの式を順番に繰り返せば,全変数行列が求まります. (4:25)
  9. BSNMFの実験を行いました. この実験では,異なる2種類のピアノ音源の共通音色成分と固有音色成分を抽出します. 各ピアノ音の楽譜は下の通りで,いずれもC4,E4,G4の3音から構成されています. (4:40)
  10. これは,推定された共有基底行列W,固有基底行列F1及びF2,アクティベーション行列H1及びH2です. 上の各基底行列は横軸が対数振幅,縦軸が周波数のスペクトルパーツになります. また,下の各アクティベーション行列は横軸が時間,縦軸が振幅のスペクトルパーツです. (5:05)
  11. こちらはアクティベーション行列H1及びH2を拡大したものと,楽器音信号X1及びX2の楽譜です. (クリック)アクティベーション行列H1の1本目と2本目に着目すると,(クリック)X1中のC4音を含む各部分に対応していることがわかります. これは他のスペクトルにも同様のことが言え,(クリック)3,4本目だとE4音,(クリック)5,6本目だとG4音にそれぞれ対応しています. (クリック)また,同じC4音のスペクトルでも図のように1本目と2本目では生じている時間に差がありますが,これは1本目がピアノの余韻部分を表し,2本目がピアノの鳴り初めの打撃部分を表しているためです.(5:50)
  12. 以上を踏まえて,共通基底行列Wと固有基底行列F1及びF2をみてみると,(クリック)各基底行列の1本目と2本目がC4音,(クリック)3本目と4本目がE4音,(クリック)5本目と6本目がG4音に対応する基底ベクトルとなります.(6:40)
  13. さらに詳しく見ていくと,(クリック)全行列の1本目の基底ベクトルはC4音の基本周波数261Hzの調波構造が見えていることがわかります. (クリック)2本目の打撃音に当たるスペクトルは,F1では調波構造が見えず,F2では調波構造が見えることから,X1とX2のC4音の鳴り始めに明確な差があることが分かります. 同様の現象は,(クリック)5本目と6本目のG4音のスペクトルでも見られます. (クリック)このように,直接スペクトルの共通成分や固有成分が抽出でき,音色の差異の定量的な議論が可能となります. (7:00)
  14. このような抽出が可能になると,様々な応用ができます. 例えば,このように分解した二つの楽器音において,(クリック)このように固有の音色成分を入れ替えることで,音色変換ができます. これにより,アマチュアの演奏をプロの演奏に変換したり,安価な楽器を高価な楽器音に差し替えたりできます.
  15. この音色変換についても,アップライトピアノとグランドピアノの音で実験し,ABX法で主観的に評価実験を行いました. ABX法とは,被験者にAとBを提示した後にXを提示し,XがAとBのどちらなのかと回答するテストです. ABXの3つの音は1秒間の空白を開けてつなげています. 提示するABXは全て同じ楽譜のメロディとしています.楽譜は全部で6曲を用意しました. 変換後のメロディには,「X1の音色をX2に変換したメロディ」または「X2の音色をX1に変換したメロディ」の2パターンが存在します. さらに,AとBの順番を入れ替えた場合の2パターンも考慮し,6曲×2パターン×2パターンの合計24個の主観評価用音源を作成し,被験者に提示しました.
  16. ABX法の実験結果の図です.ABX法は自由度1のカイ二乗分布で検定できます. 左の図は14名の被験者の各回答をカイ二乗値を箱ひげ図で表したものです. 実線より上で有意水準5%,点線より上で有意水準1%で,「変換後の音色が被験者に正しく認識されている」ことを示しています. 結果より,中央値では有意水準5%,平均値では有意水準1%で音色変換が成功していることが分かります. 各人の回答データは右の表の通りであり,音色の聞き分け精度の高い人では正解率が87.5%となっています. ヒヤリングでは,「アップライトのきらびやかな音色とグランドピアノの柔らかい音の差異があるので聞き分けられた」と回答しており,BSNMFがこれらの特徴量を固有成分として抽出できていることが分かります.
  17. 最後にまとめです. 今回客観的かつ定量的に複数の楽器音信号の違いを議論するための音響特徴量抽出法として基底共有型NMF,通称BSNMFを提案しました. これを用いた実験では共通スペクトル成分及び固有スペクトル成分の抽出に成功し,また高精度の音色変換に成功しました. 本手法の課題として,基底数Kを増やすと固有成分におおよその音響特徴量が出てしまうため,楽器音信号間の差異をはかれないということが挙げられます. この問題はBSNMFに罰則項を付与することで解決できます. これにより,共通・固有成分の推定精度のさらなる向上が見込め,音色変換などの精度も向上することが期待できる.
  18. 次に,詳細な実験条件についての説明です. 本実験も音響特徴量抽出実験と同じく,MIDI音源で作成した楽器音信号X1及びX2を用いて実験を行いました. 各音響信号は,異なる2種類のピアノ音源Iowa Piano及びSketch Upright Pianoにより電子的に生成しています. STFTの窓長及びシフト長はそれぞれ92.9 ms及び23.2 msとし,窓関数はHamming窓を用いました. また,更新式の反復回数は1000回,基底数は表に示した通り楽譜により変更し,音色変換後の音質が最良となるように調節しました. 提示音源数は前ページで述べた通り24個です. 主観評価実験の被験者には10代~30代の健全な聴力を持つ,2年以上の楽器経験者全14名を対象としました.