SlideShare una empresa de Scribd logo
1 de 18
Descargar para leer sin conexión
(ICASSP2019音声&音響論文読み会)
TEACHER-STUDENT DEEP CLUSTERING
FOR LOW-DELAY SINGLE CHANNEL
SPEECH SEPARATION
Ryo Aihara, Toshiyuki Hanazawa, Yohei Okato
(Mitsubishi Electric Corp.)
Gordon Wichern, Jonathan Le Roux
(Mitsubishi Electric Research Labs.)
相原 龍 (あいはら りょう)
 経歴
 2014年 神戸大学システム情報学研究科 博士前期課程 修了
「非負値行列因子分解による構音障害者のための声質変換」
 2017年 神戸大学システム情報学研究科 博士後期課程 修了
「非負値行列因子分解による声質変換とその実課題への応用」
 2017年~ 三菱電機株式会社 情報技術総合研究所
知識情報処理技術部 言語メディア処理技術グループ
「Deep Clusteringに基づく音声分離」
2
自己紹介
 シングルチャネル音声分離
 低遅延化のため2つの手法を導入
3
発表概要
Deep
Clustering
Mask Inference
Learning
BLSTMの利用による
発話長以上の遅延
Latency-controlled
BLSTM
Teacher-student
学習×
遅延時間削減 分離精度劣化低減
Chimera-
network
4
シングルチャネル音声分離
okay
cool
great
 話者ごとのマスク推定問題
 音源位置情報を用いない
 話者・言語非依存
 Permutation Problemが発生
okaycoolgreat
 直接的なマスクの推定を避ける
 スペクトルの(時間ー周波数)ビンに対して「埋め込みベクトル」を推定
 埋め込みベクトルをK-meansしてマスクを推定
 Kに話者数を与えることで、アルゴリズム上は何人でも分離可
5
Deep Clustering [J. R. Hershey et al., 2016]
埋め込みベクトル
tV
FxD
F
D
行列化 F
C
クラスラベル
t}{Y
F
tX
混合発話スペクトル
ベクトル
T
BLSTM
K-means Mask
D
 直接的なマスクの推定
 求めるマスクは、ランダム値で初期化
 2つのペアで誤差の小さい方を教師とする
6
Mask Inference Learning
[J. R. Hershey et al., 2016]
[D. Yu et al., 2017]
BLSTM
Speaker A + B
Target
Speaker A
Estimated
Mask ?
Target
Speaker B
Estimated
Mask ?
 Deep Clustering + Mask Inference Learning
 分離時にはMIで推定されたマスクを使用
 汎化能力の向上によって、分離性精度が向上する
7
Chimera Network [Z.-Q. Wang et al., 2018]
BLSTMs
Linear
Sigmoid
Masks
Spectrogram
Linear
Sigmoid
+
Unit-norm
Embeddings
 BLSTMではオンライン処理が不可能。
 発話全体を入力とするため、発話長以上の遅延が発生。
 まずは、処理開始までの遅延を削減したい。
 関連研究
“LOW-LATENCY DEEP CLUSTERING FOR SPEECH
SEPARATION”, S. Wang et. al., ICASSP2019.
 LSTMでDeep Clusteringを実装。
 K-meansをブロック化。
 BLSTMと比較して大幅な精度劣化は避けられない。
8
Our motivation
 シングルチャネル音声分離
 低遅延化のため2つの手法を導入
9
発表概要
Deep
Clustering
Mask Inference
Learning
BLSTMの利用による
発話長以上の遅延
Latency-controlled
BLSTM
Teacher-student
学習×
遅延時間削減 分離精度劣化低減
Chimera-
network
10
Latency-controlled BLSTM
Forward
Backward
LC-BLSTMBLSTM
Forward
Backward
Time
Input
Hidden
Output
Forward
Backward
Time
Hidden
Ns
発話長以上の
遅延が発生
メインブロック
補助ブロック
Input
遅延
Nm+Ns
Output
Ns分の情報が伝播
Nm
Ns分の情報が伝播
11
Latency-controlled BLSTM
Forward
Backward
LC-BLSTMBLSTM
Forward
Backward
Time
Input
Hidden
Output
Forward
Backward
Time
Hidden
Nm Ns
発話長以上の
遅延が発生
Input
遅延
Nm+Ns
Output
Nm
前ブロックの
セルを引き継ぐ
12
Teacher-student学習
BLSTMs
Linear
Sigmoid
Masks
Spectrogram
Linear
Sigmoid
+
Unit-norm
Embeddings
BLSTMs
RNNs
Linear
Sigmoid
Masks
Spectrogram
Linear
Sigmoid
+
Unit-norm
Embeddings
RNNs
Teacher Student
最終層の重みを教師に
遅延の大きいネットワーク
の情報を伝える
(L1またはL2距離)
 シングルチャネル音声分離
 低遅延化のため2つの手法を導入
13
発表概要
Deep
Clustering
Mask Inference
Learning
BLSTMの利用による
発話長以上の遅延
Latency-controlled
BLSTM
Teacher-student
学習×
遅延時間削減 分離精度劣化低減
Chimera-
network
 データベース:Wall Street Journal (WSJ0)
 Training: 20,000発話 (約30時間)
 Validation: 5,000発話 (約10時間)
 Test: 3,000発話(約5時間)
 特徴量: 129次元log-magnitudeスペクトル
 サンプリング周波数: 8k[Hz], フレームシフト: 8[ms]
 分析窓: Hann窓, 窓幅:32[ms]
 ネットワークと学習
 Chimera Network (BLSTM, LSTM, LC-BLSTM)
 Adam ( )
 学習エポック数:100
 評価指標
 Signal-to-Distortion Ratio (SDR) [dB] 14
実験条件
15
実験結果 (1/3)
Teacher-student学習LSTM
+0.04
 LSTMでは十分な分離精度が得られない
 Teacher-student学習によりわずかではあるが向上
16
実験結果 (2/3)
9.8
10
10.2
10.4
10.6
10.8
11
Teacher-student学習BLSTM LC-BLSTM
BLSTM LC-BLSTM TS-LC-BLSTM
×
- (150,0) (100,50) (50,100) (100,50)(100,50)
TS距離 - - - - L1 L2
SDR[dB]
0.27
0.23
(Teacher)
遅延
発話長
以上 1.2 [s] 1.2 [s]1.2 [s] 1.2 [s] 1.2 [s]
r
Better
1.2[s]遅延 0.50[dB]の向上を実現
17
実験結果 (3/3)
9.8
10
10.2
10.4
10.6
10.8
11
Teacher-student学習BLSTM LC-BLSTM
BLSTM LC-BLSTM TS-LC-BLSTM
×
- (75,0) (50,25) (25,50) (50,25)(50,25)
TS距離 - - - - L1 L2
SDR[dB]
0.27
0.12
(Teacher)
遅延
発話長
以上 0.6 [s] 0.6 [s]0.6 [s] 0.6 [s] 0.6 [s]
r
Better
0.6[s]遅延 0.39[dB]の向上を実現
 シングルチャネル音声分離の低遅延化手法を提案
18
まとめ
Latency-controlled
BLSTM
Teacher-student
学習
BLSTM
発話長以上遅延
10.99[dB]
0.6[s]遅延
10.19[dB]
0.6[s]遅延
10.31[dB]
 今後の課題
 さらなる遅延時間の削減
 Teacher-student学習によるネットワークの小規模化?
ネットワークの
小規模化?

Más contenido relacionado

La actualidad más candente

雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
Shinnosuke Takamichi
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
 

La actualidad más candente (20)

深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
 
Saito18asj_s
Saito18asj_sSaito18asj_s
Saito18asj_s
 
Kameoka2016 miru08
Kameoka2016 miru08Kameoka2016 miru08
Kameoka2016 miru08
 
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
 
Icassp2018 発表参加報告 FFTNet, Tactron2紹介
Icassp2018 発表参加報告 FFTNet, Tactron2紹介Icassp2018 発表参加報告 FFTNet, Tactron2紹介
Icassp2018 発表参加報告 FFTNet, Tactron2紹介
 
ICASSP2019 音声&音響読み会 テーマ発表音声生成
ICASSP2019 音声&音響読み会 テーマ発表音声生成ICASSP2019 音声&音響読み会 テーマ発表音声生成
ICASSP2019 音声&音響読み会 テーマ発表音声生成
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
 
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
 
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
 
Saito20asj_autumn
Saito20asj_autumnSaito20asj_autumn
Saito20asj_autumn
 
Pythonではじめるソフトウェア無線
Pythonではじめるソフトウェア無線Pythonではじめるソフトウェア無線
Pythonではじめるソフトウェア無線
 
ICASSP2020 論文読み会 柏木陽佑
ICASSP2020 論文読み会 柏木陽佑ICASSP2020 論文読み会 柏木陽佑
ICASSP2020 論文読み会 柏木陽佑
 
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
 
Getting Started with SDR in Python
Getting Started with SDR in PythonGetting Started with SDR in Python
Getting Started with SDR in Python
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
 
カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調
カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調  カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調
カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentation
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
 
Kameoka2017 ieice03
Kameoka2017 ieice03Kameoka2017 ieice03
Kameoka2017 ieice03
 

Similar a TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION

DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムDNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Shinnosuke Takamichi
 
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Yui Sudo
 

Similar a TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION (20)

音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
 
チュートリアル「障害とコミュニケーション」2017/06/17 音学シンポジウム2017
チュートリアル「障害とコミュニケーション」2017/06/17  音学シンポジウム2017チュートリアル「障害とコミュニケーション」2017/06/17  音学シンポジウム2017
チュートリアル「障害とコミュニケーション」2017/06/17 音学シンポジウム2017
 
hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdf
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
Dance Information Processing / ダンス情報処理
Dance Information Processing / ダンス情報処理Dance Information Processing / ダンス情報処理
Dance Information Processing / ダンス情報処理
 
ダンス情報処理
ダンス情報処理ダンス情報処理
ダンス情報処理
 
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムDNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
 
Slp201702
Slp201702Slp201702
Slp201702
 
Asj2017 3invited
Asj2017 3invitedAsj2017 3invited
Asj2017 3invited
 
分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成分布あるいはモーメント間距離最小化に基づく統計的音声合成
分布あるいはモーメント間距離最小化に基づく統計的音声合成
 
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
 
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
 
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
 
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
 
アナログ回路の民主化とプロの役割
アナログ回路の民主化とプロの役割アナログ回路の民主化とプロの役割
アナログ回路の民主化とプロの役割
 
ディープラーニングの車載応用に向けて
ディープラーニングの車載応用に向けてディープラーニングの車載応用に向けて
ディープラーニングの車載応用に向けて
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
 
Sig kst 34th-1_20180802_ota
Sig kst 34th-1_20180802_otaSig kst 34th-1_20180802_ota
Sig kst 34th-1_20180802_ota
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
 
Japan Robot Week 2014けいはんなロボットフォーラム
Japan Robot Week 2014けいはんなロボットフォーラムJapan Robot Week 2014けいはんなロボットフォーラム
Japan Robot Week 2014けいはんなロボットフォーラム
 

TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION