Publicidad
Publicidad

Más contenido relacionado

Más de Kitamura Laboratory(20)

Publicidad

時間微分スペクトログラムに基づくブラインド音源分離

  1. 香川高等専門学校電気情報工学科卒業研究発表会 2023/03/01 09:00~09:15 時間微分スペクトログラムに基づく ブラインド音源分離 Blind Audio Source Separation Based on Time Differential of Spectrograms 綾野翔馬(北村研究室)
  2. 研究の背景 • ブラインド音源分離(blind source separation: BSS) – 複数の音源が混ざり合った信号から各音源の信号を推定 – 各音源の信号や複数音源の混ざり合い方は未知 • マイクの配置や音源位置等の事前情報が不明=ブラインド • BSS手法の例 – 周波数領域ICA(FDICA)[P. Smaragdis+, 1998] – 独立ベクトル分析(IVA)[A. Hiroe+, 2006] – 独立低ランク行列分析(ILRMA)[D. Kitamura+, 2017] 2 混合系 (未知) 分離系 (推定) ? ? 推定した音源信号 観測した混合信号 音源信号(未知) いずれの手法も複素スペクトログラムを分離するが 個々の音源の振幅スペクトログラムの仮定を用いている
  3. • 一定の時間毎に信号を切り出し,窓関数をかけて フーリエ変換を行う • 時間的に変化するスペクトルを表現できる 時間周波数領域 周波数 時間 ・・・ 複素スペクトログラム 複素数要素を持つ行列 振幅スペクトログラム 非負( 以上)の実数要素の行列 短時間フーリエ変換(STFT) 3 時間領域 窓関数 シフト長 フーリエ変換長(窓長) 位相スペクトログラム 以上 未満の範囲の実数要素の行列 離散 フーリエ 変換 時間信号
  4. 研究の動機 • 振幅スペクトログラム には音源の構造が現れやすい • 位相スペクトログラム には音源の構造が現れにくい 4
  5. • IVAやILRMAは音源モデルをもとに分離を行う – 音源モデルは振幅スペクトログラムをもとに考えられている – 混合された位相スペクトログラムを分離することは困難 位相スペクトログラム には 混合前の各音源の 特徴は見られない 研究の動機 5 振幅スペクトログラム には 混合前の各音源の 特徴がみられる ドラム音源とギター音源の 混合音源
  6. • 位相に構造が現れるスペクトログラムが提案されている – 修正位相スペクトログラムと呼ばれている [K. Yatabe and Y. Oikawa, 2018] • 修正位相スペクトログラムの計算方法 – 位相スペクトログラムの時間微分 を用いて位相を回転する – は複素スペクトログラム と 時間微分複素スペクトログラム を用いて求めることができる 研究の目的 6
  7. 研究の目的 7 • 各スペクトログラムの比較 – 修正位相スペクトログラムの位相には横線が多く現れている
  8. • 従来のBSS 研究の目的 8 振幅スペクトログラム に 基づいたモデル 混合 スペクトログラム 分離 スペクトログラム 混合信号 観測信号 音源信号
  9. • 位相情報を考慮したBSS 混合 スペクトログラム 混合修正位相 スペクトログラム 混合信号 音源信号 分離修正位相 スペクトログラム 分離 スペクトログラム 観測信号 研究の目的 9 位 相 回 転 位 相 逆 回 転 振幅スペクトログラム および 位相スペクトログラム に 基づくモデル
  10. • 位相情報を考慮したBSSの問題点 研究の目的 10 位相逆回転 時間微分 位相逆回転 分離後の信号が必要 分離後の時間微分 複素スペクトログラムを 直接計算する方法を検討 分離修正位相 スペクトログラム 分離 スペクトログラム 観測信号
  11. 時間微分複素スペクトログラム • 時間微分複素スペクトログラムについて実験を行う – 時間微分複素スペクトログラムを求める方法 • 窓関数の時間微分を信号に乗じたものにSTFTに-1を乗じることで 時間微分複素スペクトログラムを得ることができる • 窓関数の時間微分は解析的に計算可能である • 複素スペクトログラムの時間微分が分離できるかを調査 11 ハン窓とその時間微分 時間微分複素スペクトログラムの導出
  12. • 従来のBSS(再掲) 時間微分複素スペクトログラムのBSS 12 振幅スペクトログラム に 基づいたモデル 混合 スペクトログラム 分離 スペクトログラム 混合信号 観測信号 音源信号
  13. • 本研究で行う時間微分複素スペクトログラムのBSS 時間微分複素スペクトログラムのBSS 13 逆変換において制約あり を用いる 混合時間微分 スペクトログラム 分離時間微分 スペクトログラム 混合信号 観測信号 音源信号
  14. すべての点が 含まれる どのフレームにも 含まれていない点 • 時間微分複素スペクトログラムから時間信号への変換 – どの程度分離できているかを確認するために必須 – 逆STFTを用いて計算 – 但しSTFTのシフト長によっては逆変換が不可能 • 周期的に信号の情報が失われるため • シフト長を調整することで回避可能 – 例:窓長の1/4,窓長の1/8など 時間微分複素スペクトログラムの逆変換 14 窓関数 シフト
  15. • 独立ベクトル分析 (independent vector analysis: IVA) – 各周波数ごとの振幅が同期することを仮定 – 各信号源間の独立性を最大化 周波数毎の 分離行列 実験内容 15 観測スペクトログラム 分離スペクトログラム 通常は複素スペクトロ グラムを入力するが, 本実験では時間微分 複素スペクトログラム を入力
  16. 実験条件 • 音楽10音源・音声10音源の20音源に対し,以下の条件 で分離性能を計算・比較 16 項目 条件 分離アルゴリズム 補助関数型反復ソースステアリング法IVA サンプリング周波数 16 kHz 窓関数 ハン窓 (複素スペクトログラム) 微分ハン窓 (時間微分複素スペクトログラム) 窓長 512点 (32ms) 1024点 (64 ms) 2048点 (128 ms) 4096点 (256 ms) 8192点 (512 ms) シフト長 窓長の1/4 (128点, 256点,512点, 1024点, 2048点) 反復回数 100回 分離性能の指標 信号対歪み比(SDR)
  17. • IVAを用いて分離されたスペクトログラムのSDR 実験結果 17
  18. 実験結果 • BSSを用いて時間微分複素スペクトログラムを分離可能 – 十分な精度で分離された時間微分複素スペクトログラムを 得ることができる 18
  19. まとめ • 目的 – 位相を考慮したBSSの実現 • 修正位相スペクトログラムをBSSに導入する方法を検討 • 実験内容 – 時間微分複素スペクトログラムをBSS手法を用いて分離 • 逆変換可能なシフト長を用いる必要がある • 実験結果 – 既存のBSS手法を用いて時間微分複素スペクトログラムを 分離することができる • 複素スペクトログラムを用いた場合と比較して高い分離性能を得ること はできなかったが,同等の分離性能を得られた • 修正位相スペクトログラムの逆変換の手がかりを得られる 19

Notas del editor

  1. [0:00-0:08] ↵
  2. [0:08-0:56] はじめにブラインド音源分離BSSについて説明します. BSSとは,複数の音が混ざった後の信号から混ざる前のそれぞれ音の信号を推定する技術です. 図の中央の混ざった信号のみが与えられ,これをもとの音源に分離しようというものです. BSS手法の例として,FDICA,IVA,ILRMAなどの手法が挙げられます. これらの手法はどれもスペクトログラムを用いています. ↵
  3. [0:56-1:28] スペクトログラムを得るためには時間信号に対して短時間フーリエ変換(STFT)を行います. 時間信号を時間ごとに区切り,窓関数をかけて離散フーリエ変換したものを各時間ごとに並べた行列で,複素スペクトログラムと呼びます. 複素数なので振幅と位相に分けることができ,それぞれを振幅スペクトログラムと位相スペクトログラムと呼びます. ↵
  4. [1:28-2:08] 実際にスペクトログラムを見てみます. 左がドラム音源で右がギター音源になっています. すべて共通で横軸が時間を表していて,下2つの図に示すスペクトログラムは縦軸が周波数を表しています. 左のドラム音源の振幅スペクトログラムに注目していただくと,縦線の構造が多く見られることがわかります. また,右のギター音源の振幅スペクトログラムには,横線の構造が多く見られることがわかります. このことから振幅スペクトログラムには音の構造がよく現れていることが言えます. 一方で,位相スペクトログラムにはわかりやすい構造は見られません. ↵
  5. [2:08-2:58] IVAやILRMAなどは振幅スペクトログラムを手がかりに分離を行っています. その理由として,混ざった振幅スペクトログラムには混ざる前の振幅スペクトログラムの構造が現れやすいからです. スライドの振幅スペクトログラムを見ればわかるように,縦線と横線の両方の構造を持つような見た目をしています. この混ざった信号を分離するために,混ざる前の信号の振幅スペクトログラムはこういう性質を持つという仮定を置き,分離された信号がその仮定に従うように分離を行っていきます. この仮定を音源モデルと呼んでいます. しかし,混合前の位相スペクトログラムには構造が現れていなかったように,位相に対してモデルをたてるのは困難となっています. ↵
  6. [2:58-3:33] では位相には全く構造がないのかというと,そうではないです. 音源の位相に対して構造を持たせるスペクトログラムが提案されていて,修正位相スペクトログラムとよばれています. 修正位相スペクトログラムは複素スペクトログラムと時間微分複素スペクトログラムの両方を用いて計算されます. 各スペクトログラムを比較してみましょう. ↵
  7. [3:33-3:54] 左側が振幅スペクトログラム,右側が位相スペクトログラムとなっています. 通常のスペクトログラムの位相には目立った特徴は見られないですが,修正位相スペクトログラムの位相には横線の構造が現れていることが確認できます. この修正位相スペクトログラムに対して音源モデルを考えることで位相を用いたBSSを実現することを考えています.↵
  8. [3:54-4:26] BSSの流れを説明します. 各混合信号に対してSTFTを行いスペクトログラムを得た後にBSSの処理を行うことで分離されたスペクトログラムを得ています. このスペクトログラムを逆STFTすることで分離された時間信号を得ています. 従来のBSSの処理においては↵振幅スペクトログラムに基づいた音源モデルが用いられます.↵
  9. [4:26-5:01] 対して今回考える処理はこのようになります. 各混合信号の複素スペクトログラムを計算した後に位相を回転し,修正位相スペクトログラムを得ます. 修正位相スペクトログラムの分離を行うBSSを適用します. 得られた修正位相スペクトログラムに対して位相逆回転を行うことで通常のスペクトログラムを得て,逆STFTすることで時間信号を得ます. 修正位相スペクトログラムを用いることで↵位相をモデル化することができるようになります.↵
  10. [5:01-5:47] しかし,1点問題があり,位相逆回転の部分になります. 処理はスライドに示す通りですが,↵分離された信号のスペクトログラムの時間微分が必要となります. 分離後の信号を得るために分離後の信号が必要となっているので,修正位相スペクトログラムのみから時間信号を得ることは困難である. そこで,分離された時間微分スペクトログラムを用意することができればこの問題を解決できるため,↵混合された信号から分離された時間微分スペクトログラムを直接求める方法について検討しています.
  11. [5:47-6:13] 時間微分複素スペクトログラムの説明になります. 左下の式に示すように時間微分複素スペクトログラムは窓関数として通常用いる窓関数の微分を用いてSTFTを行うことで求めることができます. 右下が窓関数の例で,青いものがハン窓,赤いものがハン窓の時間微分になります. 本研究では,BSSを用いて時間微分複素スペクトログラムを分離可能かを確認しました.↵
  12. [6:13-6:20] こちらは従来のBSSの処理です.↵
  13. [6:20-6:58] これに対して,STFTに時間微分した窓関数を用いることで時間微分複素スペクトログラムを計算します. この時間微分複素スペクトログラムに対して従来のBSS手法を適用し,分離を行います. 最後に逆STFTを行うことで時間信号をます. ただし,必ず時間微分複素スペクトログラムを時間信号へと逆STFTすることができるとは限りません.
  14. [6:58-8:17] 時間微分複素スペクトログラムを時間信号に戻す際の注意点になります. 通常通り逆STFTを用いて時間信号を計算しますが,STFTのシフト長によっては逆変換不可能となってしまいます. シフト長が窓長の1/2の場合を図示しています. このように、窓関数の値が0の点が重なることで、点の部分の情報はスペクトログラムに含まれないことになります. したがって、得られたスペクトログラムを時間信号に逆変換することが不可能となります. この問題はシフト長を適切に設定することで回避できます. 一例として、シフト長が1/4の場合を図示します. 各点が少なくとも1つの時間フレームに含まれているため,逆変換が可能となります. シフト長を適切に設定することで逆変換可能であることが示せたので,実験内容に移ります. (これにより時間微分スペクトログラムの逆変換が可能となったので,分離性能の評価が可能となります.)↵
  15. [8:17-8:48] 実験内容になります. 独立ベクトル分析IVAを用いました. (通常は複素スペクトログラム入力する部分に時間微分スペクトログラムを入力した.)↵
  16. [8:48-9:19] IVAで用いた実験条件は表に示す通りです. IVAは窓長による性能の変化が大きいので,5種類の窓長で比較しました. また,シフト長は逆変換が可能になるように窓長の1/4で統一しました.↵
  17. [9:19-9:40] 実験結果です. 水平線が平均を表しています. 複素スペクトログラムのほうが全体的にやや性能が高いですが,窓長512では時間微分複素スペクトログラムが高い性能を示したことも見られます. 時間微分複素スペクトログラムの結果のばらつきが小さいことも読み取れます. 全体を考えると大きな差は見られないことがわかります.↵
  18. [9:40-9:50] 実験より,分離された複素スペクトログラムはBSSを用いることで得られるという結論になります.
  19. [9:50-] 最後にまとめです. ご清聴ありがとうございました.
Publicidad