TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION

（ICASSP2019音声＆音響論文読み会）
TEACHER-STUDENT DEEP CLUSTERING
FOR LOW-DELAY SINGLE CHANNEL
SPEECH SEPARATION
Ryo Aihara, Toshiyuki Hanazawa, Yohei Okato
(Mitsubishi Electric Corp.)
Gordon Wichern, Jonathan Le Roux
(Mitsubishi Electric Research Labs.)

相原龍（あいはらりょう）
 経歴
 2014年神戸大学システム情報学研究科博士前期課程修了
「非負値行列因子分解による構音障害者のための声質変換」
 2017年神戸大学システム情報学研究科博士後期課程修了
「非負値行列因子分解による声質変換とその実課題への応用」
 2017年～三菱電機株式会社情報技術総合研究所
知識情報処理技術部言語メディア処理技術グループ
「Deep Clusteringに基づく音声分離」
2
自己紹介

 シングルチャネル音声分離
 低遅延化のため2つの手法を導入
3
発表概要
Deep
Clustering
Mask Inference
Learning
BLSTMの利用による
発話長以上の遅延
Latency-controlled
BLSTM
Teacher-student
学習×
遅延時間削減分離精度劣化低減
Chimera-
network

4
シングルチャネル音声分離
okay
cool
great
 話者ごとのマスク推定問題
 音源位置情報を用いない
 話者・言語非依存
 Permutation Problemが発生
okaycoolgreat

 直接的なマスクの推定を避ける
 スペクトルの(時間ー周波数)ビンに対して「埋め込みベクトル」を推定
 埋め込みベクトルをK-meansしてマスクを推定
 Kに話者数を与えることで、アルゴリズム上は何人でも分離可
5
Deep Clustering [J. R. Hershey et al., 2016]
埋め込みベクトル
tV
FxD
F
D
行列化 F
C
クラスラベル
t}{Y
F
tX
混合発話スペクトル
ベクトル
T
BLSTM
K-means Mask
D

 直接的なマスクの推定
 求めるマスクは、ランダム値で初期化
 2つのペアで誤差の小さい方を教師とする
6
Mask Inference Learning
[J. R. Hershey et al., 2016]
[D. Yu et al., 2017]
BLSTM
Speaker A + B
Target
Speaker A
Estimated
Mask ?
Target
Speaker B
Estimated
Mask ?

 Deep Clustering + Mask Inference Learning
 分離時にはMIで推定されたマスクを使用
 汎化能力の向上によって、分離性精度が向上する
7
Chimera Network [Z.-Q. Wang et al., 2018]
BLSTMs
Linear
Sigmoid
Masks
Spectrogram
Linear
Sigmoid
+
Unit-norm
Embeddings

 BLSTMではオンライン処理が不可能。
 発話全体を入力とするため、発話長以上の遅延が発生。
 まずは、処理開始までの遅延を削減したい。
 関連研究
“LOW-LATENCY DEEP CLUSTERING FOR SPEECH
SEPARATION”, S. Wang et. al., ICASSP2019.
 LSTMでDeep Clusteringを実装。
 K-meansをブロック化。
 BLSTMと比較して大幅な精度劣化は避けられない。
8
Our motivation

9
発表概要
Deep
Clustering
Mask Inference
Learning
Latency-controlled
BLSTM
Teacher-student
学習×
Chimera-
network

10
Latency-controlled BLSTM
Forward
Backward
LC-BLSTMBLSTM
Forward
Backward
Time
Input
Hidden
Output
Forward
Backward
Time
Hidden
Ns
発話長以上の
遅延が発生
メインブロック
補助ブロック
Input
遅延
Nm+Ns
Output
Ns分の情報が伝播
Nm
Ns分の情報が伝播

11
Latency-controlled BLSTM
Forward
Backward
LC-BLSTMBLSTM
Forward
Backward
Time
Input
Hidden
Output
Forward
Backward
Time
Hidden
Nm Ns
発話長以上の
遅延が発生
Input
遅延
Nm+Ns
Output
Nm
前ブロックの
セルを引き継ぐ

12
Teacher-student学習
BLSTMs
Linear
Sigmoid
Masks
Spectrogram
Linear
Sigmoid
+
Unit-norm
Embeddings
BLSTMs
RNNs
Linear
Sigmoid
Masks
Spectrogram
Linear
Sigmoid
+
Unit-norm
Embeddings
RNNs
Teacher Student
最終層の重みを教師に
遅延の大きいネットワーク
の情報を伝える
（L1またはL2距離）

13
発表概要
Deep
Clustering
Mask Inference
Learning
Latency-controlled
BLSTM
Teacher-student
学習×
Chimera-
network

 データベース：Wall Street Journal (WSJ0)
 Training: 20,000発話 (約30時間)
 Validation: 5,000発話 (約10時間)
 Test: 3,000発話(約5時間)
 特徴量: 129次元log-magnitudeスペクトル
 サンプリング周波数: 8k[Hz], フレームシフト: 8[ms]
 分析窓: Hann窓, 窓幅:32[ms]
 ネットワークと学習
 Chimera Network (BLSTM, LSTM, LC-BLSTM)
 Adam ( )
 学習エポック数:100
 評価指標
 Signal-to-Distortion Ratio (SDR) [dB] 14
実験条件

15
実験結果 (1/3)
Teacher-student学習LSTM
+0.04
 LSTMでは十分な分離精度が得られない
 Teacher-student学習によりわずかではあるが向上

16
実験結果 (2/3)
9.8
10
10.2
10.4
10.6
10.8
11
Teacher-student学習BLSTM LC-BLSTM
BLSTM LC-BLSTM TS-LC-BLSTM
×
- (150,0) (100,50) (50,100) (100,50)(100,50)
TS距離 - - - - L1 L2
SDR[dB]
0.27
0.23
(Teacher)
遅延
発話長
以上 1.2 [s] 1.2 [s]1.2 [s] 1.2 [s] 1.2 [s]
ｒ
Better
1.2[s]遅延 0.50[dB]の向上を実現

17
実験結果 (3/3)
9.8
10
10.2
10.4
10.6
10.8
11
Teacher-student学習BLSTM LC-BLSTM
BLSTM LC-BLSTM TS-LC-BLSTM
×
- (75,0) (50,25) (25,50) (50,25)(50,25)
TS距離 - - - - L1 L2
SDR[dB]
0.27
0.12
(Teacher)
遅延
発話長
以上 0.6 [s] 0.6 [s]0.6 [s] 0.6 [s] 0.6 [s]
ｒ
Better
0.6[s]遅延 0.39[dB]の向上を実現

 シングルチャネル音声分離の低遅延化手法を提案
18
まとめ
Latency-controlled
BLSTM
Teacher-student
学習
BLSTM
発話長以上遅延
10.99[dB]
0.6[s]遅延
10.19[dB]
0.6[s]遅延
10.31[dB]
 今後の課題
 さらなる遅延時間の削減
 Teacher-student学習によるネットワークの小規模化？
ネットワークの
小規模化？

TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION

Similar a TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION (20)

TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION