【DL輪読会】Gated Recurrent Fusion With Joint Training Framework for Robust End-to-End Speech Recognition

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Gated Recurrent Fusion With Joint Training
Framework for Robust End-to-End Speech Recognition
Hiroshi Sekiguchi, Morikawa Lab

書誌情報
• “Gated Recurrent Fusion With Joint Training Framework for Robust End-
to-End Speech Recognition”,
– C. Fan, J. Yi, J. Tao, Z. Tian, B. Liu and Z. Wen, 中国科学院大学, 北京
IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. 29, 2021
• 概要：
– Speech Enhancement(ノイズ除去等)とSpeech Recognitionの2つのモデルを
直列に接続する際、単にspeech enhancement出力をspeech recognitionに入
力するだけでは、ノイズ削減に伴う音声歪のために、音声認識性能は向
上しない
– 両モデルの間に、Speech Enhancement出力とオリジナルノイジー音声と
を融合するモデル(Gated Recurrent Fusion)を追加し、3モデルをEnd-to-End
で同時に学習することで、音声歪が軽減し、音声認識性能が改善する
• モティベーション：
– 複数のモデルから成るシステムの学習方法は？何故、単純接続では上手く行
かない？
2

アジェンダ
• 背景・目的
• 先行研究
• 提案手法
• 評価
• まとめ
図表は、論文から抜粋した
3

背景・目的
• ＜背景＞
– Speech Enhancementとspeech recognitionを直列接続して、雑音下の音声認識の認
識性能はある程度の向上が認められてきた
– しかし、speech enhancementは、ノイズ削減にともなう目的音声の歪みが生じ
るため、一定以上になると認識性能の向上が頭打ちする
• ＜目的＞Speech enhancementによる音声の歪を低減する方法を提案
– Speech Enhancement出力とオリジナルノイジー音声とを融合するモデル(Gated
Recurrent Fusion: GRF)を追加
– Speech enhancement, GRF, speech recognitionの３つのモデルをEnd-to-endで学習
4

先行研究ーその１
• ＜方法１＞ Speech enhancement + speech
Recognitionの単純直列接続
– ２つのモデルを個別に学習
– （問題点）単独で最適化したspeech
enhancementは必ずしも単独で最適化した
speech recognitionに取って最良のノイズ除去
にならず
• Speech enhancement出力音声に歪が生じる
（SNRが悪い部分は音声情報が欠落する）
• Speech enhancement出力はスペクトラムが平坦化
される（詳細時間情報が喪失する）
5
Speech
enhancement
Speech
Recognition
ノイジー
音声
ノイジー音声
Speech enhancement出力
クリーン音声
認識結果
(文字、音韻、単語）
Speech
enhancement出力
個別に学習

先行研究ーその２
• ＜方法２＞ Speech recognitionにMulti-condition Training （MCT）
– 多くの異なるSNRのノイズ音を学習データとする
– （問題点）学習コスト、未知のノイズに対処不可、ノイズに因る目的音声の歪
– Li, Feipeng, Phani S. Nidadavolu, and Hynek Hermansky. "A long, deep and wide artificial neural net for robust speech
recognition in unknown noise." Fifteenth Annual Conference of the International Speech Communication Association. 2014.
• ＜方法３＞ SpecAugment法
– 入力音声をaugumentationし、学習データを増やす
• 音声スペクトログラムを変形する：time warping, time-frequency masking,
– （問題点）クリーン音声の認識率は改善、ノイジーな音声の認識率が上がらない
– Park, Daniel S., et al. "Specaugment: A simple data augmentation method for automatic speech recognition." arXiv preprint
arXiv:1904.08779 (2019)
• ＜方法４＞２つのモデルのEnd-to-End学習
– 2つモデルを同時に学習
– （問題）依然として、speech enhancement出力に目的音声の歪が残り、認識性能は一
定以上は改善しない
– H. Bu, J. Du, X. Na, B. Wu, and H. Zheng, “Aishell-1: An open-source mandarin speech corpus and a speech recognition baseline,” in
Proc. 20th Conf. Oriental Chapter Int. Coordinating Committee Speech Databases Speech I/O Syst. Assessment., 2017, pp. 1–5. 6

提案方法－その１
• 従来方法：先行研究＜４＞
– 𝑥 𝑡 : クリーン音声、𝑛 𝑡 : ノイズ、𝑦 𝑡 : ノイジー音声
– 𝑦 𝑡 = 𝑥 𝑡 + 𝑛 𝑡 : Time signal
– 𝑌 𝑡, 𝑓 = 𝑋 𝑡, 𝑓 + 𝑁(𝑡, 𝑓): Short time Fourier Transform
– 𝐿𝑒𝑛𝑐 = ෨
𝑋 − 𝑋
2
（独立タスク１）
– ෨
𝑋 = 𝐸𝑛ℎ𝑎𝑛𝑐𝑒𝑚𝑒𝑛𝑡 𝑌
– ෨
𝑂𝑒𝑛ℎ𝑎𝑛𝑐𝑒𝑑 = 𝐹𝑏𝑎𝑛𝑘( ෨
𝑋 )
– 𝐿𝐴𝑆𝑅 = − ln 𝑃 (𝑆∗
| ෨
𝑂𝑒𝑛ℎ𝑎𝑛𝑐𝑒𝑑)（独立タスク２）
• 提案方法：
– Gated Recurrent Fusion (GRF): speech enhancement出力 ෨
𝑋 とノ
イジー音声 𝑌 の融合を行い、融合した信号をASRに入力する
– Speech enhancement:マスク学習予測法（既存手法）
– Speech recognition：Transformer ASR (既存手法）
7
Speech
recognition
Cepstrum
bank計算
Speech
enhancement
新規追加
部分
提案方法
従来方法

提案方法－その２
8
Gated Recurrent Fusion
GRF Block
提案方法
• 提案方法：続き
– Speech Enhancement: Ideal
amplitude mask(IAM)学習予測法
• 𝑀𝐼𝐴𝑀 = Τ
𝑋 𝑌
• 𝐿𝑒𝑛ℎ =
1
𝑇𝐹
σ ෩
𝑀 ⊙ 𝑌 − 𝑋
𝐹
2
(学習）
• ෨
𝑋 = ෩
𝑀 ⊙ 𝑌 （テスト）
– Fbank: Mel-ceptrum計算
• ෨
𝑂𝑒𝑛ℎ𝑎𝑛𝑐𝑒𝑑 = log 𝑀𝑒𝑙( ෨
𝑋
• 𝑂𝑛𝑜𝑖𝑠𝑦 = log 𝑀𝑒𝑙( 𝑌
– Gated Recurrent Fusion
• β𝑒𝑛ℎ𝑎𝑛𝑐𝑒𝑑 = 𝐵 ෨
𝑂𝑒𝑛ℎ𝑎𝑛𝑐𝑒𝑑
• β𝑛𝑜𝑖𝑠𝑦 = 𝐵 𝑂𝑛𝑜𝑖𝑠𝑦
• Enhancement出力とノイジ音声を動
的に融合してRecognitionに入力する

提案方法－その３
• 提案方法：続き
– GRF Block：左右２つのGRUを直列に結合
• Reset gate: 𝑟 = σ 𝑊
𝑟 β𝑛𝑜𝑖𝑠𝑦, ℎ𝑝
• Update gate: 𝑧 = σ 𝑊
𝑧 βnoisy, ℎ𝑝
• ℎ𝑝
′
= 𝑟 ⊙ ℎ𝑝
• ℎ𝑝
𝑐
= tanh 𝑊ℎ βnoisy, ℎ𝑝
′
• Selective fusion: ℎ𝑞 = 𝑧 ⊙ ℎ𝑝 + 1 − 𝑧 ⊙ ℎ𝑝
𝑐
• 右側のGRUでは、左側のGRUの係数をcopy
• β𝑛𝑜𝑖𝑠𝑦をβ𝑒𝑛ℎ𝑎𝑛𝑐𝑒𝑑、 ℎ𝑝をℎ𝑞に置き換えて計算
• O𝐺𝑅𝐹 = Concat(β𝑛𝑜𝑖𝑠𝑦, , 𝑓𝐺𝑅𝐸
, β𝑒𝑛ℎ𝑎𝑛𝑐𝑒𝑑 )
– Speech recognition
• 4-head (6-block self-attention encoder
6-block Making decoder) Transformer ASR
• 𝐿𝐴𝑆𝑅 = − ln 𝑃 (𝑆∗
|𝑂𝐺𝑅𝐹)
– Loss function:
• 𝐿 = 𝐿𝐴𝑆𝑅 + α𝐿𝑒𝑛ℎ (統合タスク)α:hyper-parameter 9
Gated Recurrent Fusion
GRF Block

評価の観点
• Speech RecognitionとSpeech Enhancementを個別に最適化のために学習し
た場合に、認識性能が向上しない理由はなにか？（Base1）と(Base2)
→ 理由は、 Speech enhancement出力の音声データが歪んでいる、詳細構造が損
失していると思われる
• Speech enhancementを低減する方法でうまい手は何か
– 個別学習のまま、テスト時に、recognitionの入力に、Speech enhancement出
力とノイジー音声を加算することで融合し、改善を図る（Base3）→失敗
– 同時学習にして、融合方法を種々変えてみる（Orignal）→ 上手く行った
• 評価の指標
– 認識性能（CER: Character error rate)
10

音声データ
• 音声コーパス：AISHELL-1 中国マンダリン：400話者、170時間音声
• ノイズコーパス：NonspeechNoiseとNOISE-92を使用
• サンプリング周波数：16KHz
• 学習データ：音声コーパスとノイズコーパスのSNRはランダム（0～20dB)
• テストデータと検証（development)データは、音声コーパスとノイズコー
パスのSNRを0, 5, 10, 15, 20dBとした
• 音声データ：短時間フーリエ変換スペクトラム振幅：257次元
32msec hamming窓、16msecシフト
11

評価方法・結果－その１
• ベースライン（Base1）Speech recognitionのみ
– speech enhancementなし
– 学習方法によるspeech recognitionモデルの種類
• E2E_ASR_clean：クリーンな音声のみを使用
• E2E_ASR_SpecAugment：音声のAugmentationを追加
• E2E_ASR_MCT：種々のSNRのノイジー音声(MCT)を使用
• E2E_ASR_MCT_SpecAugment：MCTと音声のAugmentを使用
– テスト音声の種類
• クリーンな音声
• ノイジー音声（SNR：０, 5, 10, 15, 20dB)
• Development datasetとtest datasetの両方
– 評価結果
• MCTが対ノイズ効果あり。特にSNRが悪い時に。
12
Recognition Recognition
＜学習時＞＜テスト時＞
(Base1)
学習データテストデータ
認識結果
認識結果
Test Dataset
Development Dataset
MCTの効果!

評価方法・結果－その２
• (Base2) Speech recognition ＋Speech enhancement
– 2モデルは個別学習
– Speech recognitionの学習：（Base1）と同じ
– Speech enhancementの学習：
• 学習データ：ノイジー音声
• Enhance方式： Ideal amplitude mask学習予測法（既存）
– 評価結果
• ノイジーTest音声：ノイズ対策が無い/少ない
Recognitionモデルでは、enhancementの効果
がある．しかし、ノイズ対策した
recognitionモデルでは、逆に悪くなっている。
→ノイズ対策したrecognitionモデルでは、
Enhancementが、逆に、歪の生成や詳細情報
の欠落が主要因で、性能悪化する
• クリーンTest音声：（Base１）より性能悪い
→ Enhancementがrecognitionに有害な
歪を生成している
13
(Base1)よりも悪化
(Base1)よりも良好

評価方法・結果－その３
• (Base3) Speech recognition ＋Speech enhancement
– 2モデルは個別学習
– Speech recognitionの学習：（Base1）と同じ
– Speech enhancementの学習：(Base2)と同じ
– テスト時のみに、接続を変更し、Recognitionの入力に
SNR Fusionデータを使用←enhancementの効果をノイ
ジー音声の1/10にする．（Base1）と（Base2）の中庸を
とる
• SNR Fusionデータ：Enhancementデータ ෪
𝑋 と
ノイジー音声 𝑌 を加算で𝑓𝑆𝑁𝑅 = 20 log Τ
𝑌 ෪
𝑋 が20𝑑𝐵
– 評価結果
• クリーンTest音声：全モデルで（Base１）とほぼ
同じの良い性能
• ノイジーTest音声：ノイズ対策が無い/少ない
Recognitionモデルでは、(Base1）並みに悪化．
→Enhancementがノイズ削減に役立っていない
ノイズ対策ありモデルで(Base1)と同じ性能
→MCTの効果であり、Enhancementの貢献ではない 14
(Base1)並みに悪化

評価方法・結果－その４
• 提案方法：Speech recognition + speech enhancement
– 2モデルを同時学習
– 学習時/テスト時ともに、speech enhancement出力とノイ
ズー音声の融合してrecognitionへ入力する方法を以下から一つ
選択
• Joint-Enhancement-E2E_ASR: 融合せずにenhancement出力のみ
（①)
• Joint-Enhancement-E2E_ASR-concat: 融合をconcatenate（②）
• Joint-Enhancement-E2E_ASR-GRF: 融合をGRFを用いる（③）
– 評価結果
• 同時学習のみでも(①）ノイジTest音声で，(Base１)
のMCTを超える性能を出すがMCT-SpecAugmentに
は劣る
→同時学習はある程度enhancementの未知の歪も
recognitionが学習するので効果あり．しかし、未だ
enhancement歪は存在するので、 MCT-SpecAugment
には劣る．
• 融合方法②、③を採用すると、①も(Base1)も凌駕する
性能がでる。→融合の効果で、ノイジー音声の
詳細情報が認識率の向上に貢献しているのと、
Enhancement出力の歪低減に役に立っていると推測 15
(Base1)より悪化
全てでベストな性能

GRFの緒言
16
• モデルのパラメータ数
– 2層BLSTMx2のパラメータ数が大きい
– GRFのパラメータ数は1Mil個
• GRFの計算複雑性
– Joint-Enhancement-E2E_ASR-Concat（②）：0.622sec/発声音声
– Joint-Enhancement-E2E_ASR-GRF（③）：0.746sec/発声音声
標準のSpeech Transformer
標準のSpeech Transformer+２層BLSTMｘ２
Speech Transformer(concat) + GRF
12.0%増

まとめ
• Speech enhancementとSpeech recognitionの同時学習は、個別学習よりも性能
が良い
– この２つのタスクは、独立なタスクではない、互いに正の相関があるタスク
– 個別タスクの個々の最適解の組み合わせよりも、２つのタスクを統一したloss関数で
大局的な最適解の方が、認識率は向上する
• 同時学習は、enhancementが生成する歪をある程度は軽減するが、それでも
残る
• 残ったenhancement歪は、Gated Recurrent Fusion(GRF)で、Enhancemnet出力
とノイズ音声を融合することで、軽減する。
• ここで、GRFの効果は、以下の２つで
– ①ノイズ音声を使ってenhancement出力の歪を補正軽減し、かつ、
– ②ノイズ音声の生のスペクトラム詳細情報を取り込むことで、
認識性能の向上に貢献する 17

感想
• Speech enhancementとspeech recognitionは、Transformerが出てくる前
までは、後者のモデルが大きいので、統合して扱うことが難しかった
が、Transformerの出現で、統一して扱うことが可能なった→統一して
扱うことが多くなる傾向か
• 一方、本論文は、speech enhancementとspeech recognitionは、既存
のSOTAのモデルを使い、新規性は結合して性能を出すための方法にあ
る。地味なテーマだが、このような隙間をねらう研究もあり
• GRFの貢献が、enhancement出力の音声歪が軽減すると主張している
が、認識率が向上したことが唯一の根拠。歪が軽減する過程を可視化
し、accountabilityをあげたい
18

【DL輪読会】Gated Recurrent Fusion With Joint Training Framework for Robust End-to-End Speech Recognition

Recommended

Recommended

More Related Content

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (20)

【DL輪読会】Gated Recurrent Fusion With Joint Training Framework for Robust End-to-End Speech Recognition