SlideShare a Scribd company logo
1 of 19
Download to read offline
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Gated Recurrent Fusion With Joint Training
Framework for Robust End-to-End Speech Recognition
Hiroshi Sekiguchi, Morikawa Lab
書誌情報
• “Gated Recurrent Fusion With Joint Training Framework for Robust End-
to-End Speech Recognition”,
– C. Fan, J. Yi, J. Tao, Z. Tian, B. Liu and Z. Wen, 中国科学院大学, 北京
IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. 29, 2021
• 概要:
– Speech Enhancement(ノイズ除去等)とSpeech Recognitionの2つのモデルを
直列に接続する際、単にspeech enhancement出力をspeech recognitionに入
力するだけでは、ノイズ削減に伴う音声歪のために、音声認識性能は向
上しない
– 両モデルの間に、Speech Enhancement出力とオリジナルノイジー音声と
を融合するモデル(Gated Recurrent Fusion)を追加し、3モデルをEnd-to-End
で同時に学習することで、音声歪が軽減し、音声認識性能が改善する
• モティベーション:
– 複数のモデルから成るシステムの学習方法は? 何故、単純接続では上手く行
かない?
2
アジェンダ
• 背景・目的
• 先行研究
• 提案手法
• 評価
• まとめ
図表は、論文から抜粋した
3
背景・目的
• <背景>
– Speech Enhancementとspeech recognitionを直列接続して、雑音下の音声認識の認
識性能はある程度の向上が認められてきた
– しかし、speech enhancementは、ノイズ削減にともなう目的音声の歪みが生じ
るため、一定以上になると認識性能の向上が頭打ちする
• <目的>Speech enhancementによる音声の歪を低減する方法を提案
– Speech Enhancement出力とオリジナルノイジー音声とを融合するモデル(Gated
Recurrent Fusion: GRF)を追加
– Speech enhancement, GRF, speech recognitionの3つのモデルをEnd-to-endで学習
4
先行研究ーその1
• <方法1> Speech enhancement + speech
Recognitionの単純直列接続
– 2つのモデルを個別に学習
– (問題点)単独で最適化したspeech
enhancementは必ずしも単独で最適化した
speech recognitionに取って最良のノイズ除去
にならず
• Speech enhancement出力音声に歪が生じる
(SNRが悪い部分は音声情報が欠落する)
• Speech enhancement出力はスペクトラムが平坦化
される(詳細時間情報が喪失する)
5
Speech
enhancement
Speech
Recognition
ノイジー
音声
ノイジー音声
Speech enhancement出力
クリーン音声
認識結果
(文字、音韻、単語)
Speech
enhancement出力
個別に学習
先行研究ーその2
• <方法2> Speech recognitionにMulti-condition Training (MCT)
– 多くの異なるSNRのノイズ音を学習データとする
– (問題点)学習コスト、未知のノイズに対処不可、ノイズに因る目的音声の歪
– Li, Feipeng, Phani S. Nidadavolu, and Hynek Hermansky. "A long, deep and wide artificial neural net for robust speech
recognition in unknown noise." Fifteenth Annual Conference of the International Speech Communication Association. 2014.
• <方法3> SpecAugment法
– 入力音声をaugumentationし、学習データを増やす
• 音声スペクトログラムを変形する:time warping, time-frequency masking,
– (問題点)クリーン音声の認識率は改善、ノイジーな音声の認識率が上がらない
– Park, Daniel S., et al. "Specaugment: A simple data augmentation method for automatic speech recognition." arXiv preprint
arXiv:1904.08779 (2019)
• <方法4>2つのモデルのEnd-to-End学習
– 2つモデルを同時に学習
– (問題)依然として、speech enhancement出力に目的音声の歪が残り、認識性能は一
定以上は改善しない
– H. Bu, J. Du, X. Na, B. Wu, and H. Zheng, “Aishell-1: An open-source mandarin speech corpus and a speech recognition baseline,” in
Proc. 20th Conf. Oriental Chapter Int. Coordinating Committee Speech Databases Speech I/O Syst. Assessment., 2017, pp. 1–5. 6
提案方法-その1
• 従来方法:先行研究<4>
– 𝑥 𝑡 : クリーン音声、𝑛 𝑡 : ノイズ、𝑦 𝑡 : ノイジー音声
– 𝑦 𝑡 = 𝑥 𝑡 + 𝑛 𝑡 : Time signal
– 𝑌 𝑡, 𝑓 = 𝑋 𝑡, 𝑓 + 𝑁(𝑡, 𝑓): Short time Fourier Transform
– 𝐿𝑒𝑛𝑐 = ෨
𝑋 − 𝑋
2
(独立タスク1)
– ෨
𝑋 = 𝐸𝑛ℎ𝑎𝑛𝑐𝑒𝑚𝑒𝑛𝑡 𝑌
– ෨
𝑂𝑒𝑛ℎ𝑎𝑛𝑐𝑒𝑑 = 𝐹𝑏𝑎𝑛𝑘( ෨
𝑋 )
– 𝐿𝐴𝑆𝑅 = − ln 𝑃 (𝑆∗
| ෨
𝑂𝑒𝑛ℎ𝑎𝑛𝑐𝑒𝑑)(独立タスク2)
• 提案方法:
– Gated Recurrent Fusion (GRF): speech enhancement出力 ෨
𝑋 とノ
イジー音声 𝑌 の融合を行い、融合した信号をASRに入力する
– Speech enhancement:マスク学習予測法(既存手法)
– Speech recognition:Transformer ASR (既存手法)
7
Speech
recognition
Cepstrum
bank計算
Speech
enhancement
新規追加
部分
提案方法
従来方法
提案方法-その2
8
Gated Recurrent Fusion
GRF Block
提案方法
• 提案方法:続き
– Speech Enhancement: Ideal
amplitude mask(IAM)学習予測法
• 𝑀𝐼𝐴𝑀 = Τ
𝑋 𝑌
• 𝐿𝑒𝑛ℎ =
1
𝑇𝐹
σ ෩
𝑀 ⊙ 𝑌 − 𝑋
𝐹
2
(学習)
• ෨
𝑋 = ෩
𝑀 ⊙ 𝑌 (テスト)
– Fbank: Mel-ceptrum計算
• ෨
𝑂𝑒𝑛ℎ𝑎𝑛𝑐𝑒𝑑 = log 𝑀𝑒𝑙( ෨
𝑋
• 𝑂𝑛𝑜𝑖𝑠𝑦 = log 𝑀𝑒𝑙( 𝑌
– Gated Recurrent Fusion
• β𝑒𝑛ℎ𝑎𝑛𝑐𝑒𝑑 = 𝐵 ෨
𝑂𝑒𝑛ℎ𝑎𝑛𝑐𝑒𝑑
• β𝑛𝑜𝑖𝑠𝑦 = 𝐵 𝑂𝑛𝑜𝑖𝑠𝑦
• Enhancement出力とノイジ音声を動
的に融合してRecognitionに入力する
提案方法-その3
• 提案方法:続き
– GRF Block:左右2つのGRUを直列に結合
• Reset gate: 𝑟 = σ 𝑊
𝑟 β𝑛𝑜𝑖𝑠𝑦, ℎ𝑝
• Update gate: 𝑧 = σ 𝑊
𝑧 βnoisy, ℎ𝑝
• ℎ𝑝
′
= 𝑟 ⊙ ℎ𝑝
• ℎ𝑝
𝑐
= tanh 𝑊ℎ βnoisy, ℎ𝑝
′
• Selective fusion: ℎ𝑞 = 𝑧 ⊙ ℎ𝑝 + 1 − 𝑧 ⊙ ℎ𝑝
𝑐
• 右側のGRUでは、左側のGRUの係数をcopy
• β𝑛𝑜𝑖𝑠𝑦をβ𝑒𝑛ℎ𝑎𝑛𝑐𝑒𝑑、 ℎ𝑝をℎ𝑞に置き換えて計算
• O𝐺𝑅𝐹 = Concat(β𝑛𝑜𝑖𝑠𝑦, , 𝑓𝐺𝑅𝐸
, β𝑒𝑛ℎ𝑎𝑛𝑐𝑒𝑑 )
– Speech recognition
• 4-head (6-block self-attention encoder
6-block Making decoder) Transformer ASR
• 𝐿𝐴𝑆𝑅 = − ln 𝑃 (𝑆∗
|𝑂𝐺𝑅𝐹)
– Loss function:
• 𝐿 = 𝐿𝐴𝑆𝑅 + α𝐿𝑒𝑛ℎ (統合タスク)α:hyper-parameter 9
Gated Recurrent Fusion
GRF Block
評価の観点
• Speech RecognitionとSpeech Enhancementを個別に最適化のために学習し
た場合に、認識性能が向上しない理由はなにか?(Base1)と(Base2)
→ 理由は、 Speech enhancement出力の音声データが歪んでいる、詳細構造が損
失していると思われる
• Speech enhancementを低減する方法でうまい手は何か
– 個別学習のまま、テスト時に、recognitionの入力に、Speech enhancement出
力とノイジー音声を加算することで融合し、改善を図る(Base3)→失敗
– 同時学習にして、融合方法を種々変えてみる(Orignal)→ 上手く行った
• 評価の指標
– 認識性能(CER: Character error rate)
10
音声データ
• 音声コーパス:AISHELL-1 中国マンダリン:400話者、170時間音声
• ノイズコーパス:NonspeechNoiseとNOISE-92を使用
• サンプリング周波数:16KHz
• 学習データ:音声コーパスとノイズコーパスのSNRはランダム(0~20dB)
• テストデータと検証(development)データは、音声コーパスとノイズコー
パスのSNRを0, 5, 10, 15, 20dBとした
• 音声データ:短時間フーリエ変換 スペクトラム振幅:257次元
32msec hamming窓、16msecシフト
11
評価方法・結果-その1
• ベースライン(Base1)Speech recognitionのみ
– speech enhancementなし
– 学習方法によるspeech recognitionモデルの種類
• E2E_ASR_clean:クリーンな音声のみを使用
• E2E_ASR_SpecAugment:音声のAugmentationを追加
• E2E_ASR_MCT:種々のSNRのノイジー音声(MCT)を使用
• E2E_ASR_MCT_SpecAugment:MCTと音声のAugmentを使用
– テスト音声の種類
• クリーンな音声
• ノイジー音声(SNR:0, 5, 10, 15, 20dB)
• Development datasetとtest datasetの両方
– 評価結果
• MCTが対ノイズ効果あり。特にSNRが悪い時に。
12
Recognition Recognition
<学習時> <テスト時>
(Base1)
学習データ テストデータ
認識結果
認識結果
Test Dataset
Development Dataset
MCTの効果!
評価方法・結果-その2
• (Base2) Speech recognition +Speech enhancement
– 2モデルは個別学習
– Speech recognitionの学習:(Base1)と同じ
– Speech enhancementの学習:
• 学習データ:ノイジー音声
• Enhance方式: Ideal amplitude mask学習予測法(既存)
– 評価結果
• ノイジーTest音声:ノイズ対策が無い/少ない
Recognitionモデルでは、enhancementの効果
がある.しかし、ノイズ対策した
recognitionモデルでは、逆に悪くなっている。
→ノイズ対策したrecognitionモデルでは、
Enhancementが、逆に、歪の生成や詳細情報
の欠落が主要因で、性能悪化する
• クリーンTest音声:(Base1)より性能悪い
→ Enhancementがrecognitionに有害な
歪を生成している
13
(Base1)よりも悪化
(Base1)よりも良好
評価方法・結果-その3
• (Base3) Speech recognition +Speech enhancement
– 2モデルは個別学習
– Speech recognitionの学習:(Base1)と同じ
– Speech enhancementの学習:(Base2)と同じ
– テスト時のみに、接続を変更し、Recognitionの入力に
SNR Fusionデータを使用←enhancementの効果をノイ
ジー音声の1/10にする.(Base1)と(Base2)の中庸を
とる
• SNR Fusionデータ:Enhancementデータ ෪
𝑋 と
ノイジー音声 𝑌 を加算で𝑓𝑆𝑁𝑅 = 20 log Τ
𝑌 ෪
𝑋 が20𝑑𝐵
– 評価結果
• クリーンTest音声:全モデルで(Base1)とほぼ
同じの良い性能
• ノイジーTest音声:ノイズ対策が無い/少ない
Recognitionモデルでは、(Base1)並みに悪化.
→Enhancementがノイズ削減に役立っていない
ノイズ対策ありモデルで(Base1)と同じ性能
→MCTの効果であり、Enhancementの貢献ではない 14
(Base1)並みに悪化
評価方法・結果-その4
• 提案方法:Speech recognition + speech enhancement
– 2モデルを同時学習
– 学習時/テスト時ともに、speech enhancement出力とノイ
ズー音声の融合してrecognitionへ入力する方法を以下から一つ
選択
• Joint-Enhancement-E2E_ASR: 融合せずにenhancement出力のみ
(①)
• Joint-Enhancement-E2E_ASR-concat: 融合をconcatenate(②)
• Joint-Enhancement-E2E_ASR-GRF: 融合をGRFを用いる(③)
– 評価結果
• 同時学習のみでも(①)ノイジTest音声で,(Base1)
のMCTを超える性能を出すがMCT-SpecAugmentに
は劣る
→同時学習はある程度enhancementの未知の歪も
recognitionが学習するので効果あり.しかし、未だ
enhancement歪は存在するので、 MCT-SpecAugment
には劣る.
• 融合方法②、③を採用すると、①も(Base1)も凌駕する
性能がでる。→融合の効果で、ノイジー音声の
詳細情報が認識率の向上に貢献しているのと、
Enhancement出力の歪低減に役に立っていると推測 15
(Base1)より悪化
全てでベストな性能
GRFの緒言
16
• モデルのパラメータ数
– 2層BLSTMx2のパラメータ数が大きい
– GRFのパラメータ数は1Mil個
• GRFの計算複雑性
– Joint-Enhancement-E2E_ASR-Concat(②):0.622sec/発声音声
– Joint-Enhancement-E2E_ASR-GRF(③):0.746sec/発声音声
標準のSpeech Transformer
標準のSpeech Transformer+2層BLSTMx2
Speech Transformer(concat) + GRF
12.0%増
まとめ
• Speech enhancementとSpeech recognitionの同時学習は、個別学習よりも性能
が良い
– この2つのタスクは、独立なタスクではない、互いに正の相関があるタスク
– 個別タスクの個々の最適解の組み合わせよりも、2つのタスクを統一したloss関数で
大局的な最適解の方が、認識率は向上する
• 同時学習は、enhancementが生成する歪をある程度は軽減するが、それでも
残る
• 残ったenhancement歪は、Gated Recurrent Fusion(GRF)で、Enhancemnet出力
とノイズ音声を融合することで、軽減する。
• ここで、GRFの効果は、以下の2つで
– ①ノイズ音声を使ってenhancement出力の歪を補正軽減し、かつ、
– ②ノイズ音声の生のスペクトラム詳細情報を取り込むことで、
認識性能の向上に貢献する 17
感想
• Speech enhancementとspeech recognitionは、Transformerが出てくる前
までは、後者のモデルが大きいので、統合して扱うことが難しかった
が、Transformerの出現で、統一して扱うことが可能なった→統一して
扱うことが多くなる傾向か
• 一方、本論文は、speech enhancementとspeech recognitionは、既存
のSOTAのモデルを使い、新規性は結合して性能を出すための方法にあ
る。地味なテーマだが、このような隙間をねらう研究もあり
• GRFの貢献が、enhancement出力の音声歪が軽減すると主張している
が、認識率が向上したことが唯一の根拠。歪が軽減する過程を可視化
し、accountabilityをあげたい
18
END
19

More Related Content

More from Deep Learning JP

【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...Deep Learning JP
 
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...Deep Learning JP
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデルDeep Learning JP
 
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...Deep Learning JP
 
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...Deep Learning JP
 
【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLM【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLMDeep Learning JP
 
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without SupervisionDeep Learning JP
 
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...Deep Learning JP
 

More from Deep Learning JP (20)

【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
 
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
 
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
 
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
 
【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLM【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLM
 
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
 
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
 

Recently uploaded

Long journey of Ruby standard library at RubyConf AU 2024
Long journey of Ruby standard library at RubyConf AU 2024Long journey of Ruby standard library at RubyConf AU 2024
Long journey of Ruby standard library at RubyConf AU 2024Hiroshi SHIBATA
 
[Webinar] SpiraTest - Setting New Standards in Quality Assurance
[Webinar] SpiraTest - Setting New Standards in Quality Assurance[Webinar] SpiraTest - Setting New Standards in Quality Assurance
[Webinar] SpiraTest - Setting New Standards in Quality AssuranceInflectra
 
How AI, OpenAI, and ChatGPT impact business and software.
How AI, OpenAI, and ChatGPT impact business and software.How AI, OpenAI, and ChatGPT impact business and software.
How AI, OpenAI, and ChatGPT impact business and software.Curtis Poe
 
Connecting the Dots for Information Discovery.pdf
Connecting the Dots for Information Discovery.pdfConnecting the Dots for Information Discovery.pdf
Connecting the Dots for Information Discovery.pdfNeo4j
 
Testing tools and AI - ideas what to try with some tool examples
Testing tools and AI - ideas what to try with some tool examplesTesting tools and AI - ideas what to try with some tool examples
Testing tools and AI - ideas what to try with some tool examplesKari Kakkonen
 
Decarbonising Buildings: Making a net-zero built environment a reality
Decarbonising Buildings: Making a net-zero built environment a realityDecarbonising Buildings: Making a net-zero built environment a reality
Decarbonising Buildings: Making a net-zero built environment a realityIES VE
 
Modern Roaming for Notes and Nomad – Cheaper Faster Better Stronger
Modern Roaming for Notes and Nomad – Cheaper Faster Better StrongerModern Roaming for Notes and Nomad – Cheaper Faster Better Stronger
Modern Roaming for Notes and Nomad – Cheaper Faster Better Strongerpanagenda
 
Time Series Foundation Models - current state and future directions
Time Series Foundation Models - current state and future directionsTime Series Foundation Models - current state and future directions
Time Series Foundation Models - current state and future directionsNathaniel Shimoni
 
React Native vs Ionic - The Best Mobile App Framework
React Native vs Ionic - The Best Mobile App FrameworkReact Native vs Ionic - The Best Mobile App Framework
React Native vs Ionic - The Best Mobile App FrameworkPixlogix Infotech
 
New from BookNet Canada for 2024: Loan Stars - Tech Forum 2024
New from BookNet Canada for 2024: Loan Stars - Tech Forum 2024New from BookNet Canada for 2024: Loan Stars - Tech Forum 2024
New from BookNet Canada for 2024: Loan Stars - Tech Forum 2024BookNet Canada
 
Top 10 Hubspot Development Companies in 2024
Top 10 Hubspot Development Companies in 2024Top 10 Hubspot Development Companies in 2024
Top 10 Hubspot Development Companies in 2024TopCSSGallery
 
MuleSoft Online Meetup Group - B2B Crash Course: Release SparkNotes
MuleSoft Online Meetup Group - B2B Crash Course: Release SparkNotesMuleSoft Online Meetup Group - B2B Crash Course: Release SparkNotes
MuleSoft Online Meetup Group - B2B Crash Course: Release SparkNotesManik S Magar
 
QCon London: Mastering long-running processes in modern architectures
QCon London: Mastering long-running processes in modern architecturesQCon London: Mastering long-running processes in modern architectures
QCon London: Mastering long-running processes in modern architecturesBernd Ruecker
 
Glenn Lazarus- Why Your Observability Strategy Needs Security Observability
Glenn Lazarus- Why Your Observability Strategy Needs Security ObservabilityGlenn Lazarus- Why Your Observability Strategy Needs Security Observability
Glenn Lazarus- Why Your Observability Strategy Needs Security Observabilityitnewsafrica
 
Scale your database traffic with Read & Write split using MySQL Router
Scale your database traffic with Read & Write split using MySQL RouterScale your database traffic with Read & Write split using MySQL Router
Scale your database traffic with Read & Write split using MySQL RouterMydbops
 
UiPath Community: Communication Mining from Zero to Hero
UiPath Community: Communication Mining from Zero to HeroUiPath Community: Communication Mining from Zero to Hero
UiPath Community: Communication Mining from Zero to HeroUiPathCommunity
 
Data governance with Unity Catalog Presentation
Data governance with Unity Catalog PresentationData governance with Unity Catalog Presentation
Data governance with Unity Catalog PresentationKnoldus Inc.
 
Arizona Broadband Policy Past, Present, and Future Presentation 3/25/24
Arizona Broadband Policy Past, Present, and Future Presentation 3/25/24Arizona Broadband Policy Past, Present, and Future Presentation 3/25/24
Arizona Broadband Policy Past, Present, and Future Presentation 3/25/24Mark Goldstein
 
The State of Passkeys with FIDO Alliance.pptx
The State of Passkeys with FIDO Alliance.pptxThe State of Passkeys with FIDO Alliance.pptx
The State of Passkeys with FIDO Alliance.pptxLoriGlavin3
 
The Fit for Passkeys for Employee and Consumer Sign-ins: FIDO Paris Seminar.pptx
The Fit for Passkeys for Employee and Consumer Sign-ins: FIDO Paris Seminar.pptxThe Fit for Passkeys for Employee and Consumer Sign-ins: FIDO Paris Seminar.pptx
The Fit for Passkeys for Employee and Consumer Sign-ins: FIDO Paris Seminar.pptxLoriGlavin3
 

Recently uploaded (20)

Long journey of Ruby standard library at RubyConf AU 2024
Long journey of Ruby standard library at RubyConf AU 2024Long journey of Ruby standard library at RubyConf AU 2024
Long journey of Ruby standard library at RubyConf AU 2024
 
[Webinar] SpiraTest - Setting New Standards in Quality Assurance
[Webinar] SpiraTest - Setting New Standards in Quality Assurance[Webinar] SpiraTest - Setting New Standards in Quality Assurance
[Webinar] SpiraTest - Setting New Standards in Quality Assurance
 
How AI, OpenAI, and ChatGPT impact business and software.
How AI, OpenAI, and ChatGPT impact business and software.How AI, OpenAI, and ChatGPT impact business and software.
How AI, OpenAI, and ChatGPT impact business and software.
 
Connecting the Dots for Information Discovery.pdf
Connecting the Dots for Information Discovery.pdfConnecting the Dots for Information Discovery.pdf
Connecting the Dots for Information Discovery.pdf
 
Testing tools and AI - ideas what to try with some tool examples
Testing tools and AI - ideas what to try with some tool examplesTesting tools and AI - ideas what to try with some tool examples
Testing tools and AI - ideas what to try with some tool examples
 
Decarbonising Buildings: Making a net-zero built environment a reality
Decarbonising Buildings: Making a net-zero built environment a realityDecarbonising Buildings: Making a net-zero built environment a reality
Decarbonising Buildings: Making a net-zero built environment a reality
 
Modern Roaming for Notes and Nomad – Cheaper Faster Better Stronger
Modern Roaming for Notes and Nomad – Cheaper Faster Better StrongerModern Roaming for Notes and Nomad – Cheaper Faster Better Stronger
Modern Roaming for Notes and Nomad – Cheaper Faster Better Stronger
 
Time Series Foundation Models - current state and future directions
Time Series Foundation Models - current state and future directionsTime Series Foundation Models - current state and future directions
Time Series Foundation Models - current state and future directions
 
React Native vs Ionic - The Best Mobile App Framework
React Native vs Ionic - The Best Mobile App FrameworkReact Native vs Ionic - The Best Mobile App Framework
React Native vs Ionic - The Best Mobile App Framework
 
New from BookNet Canada for 2024: Loan Stars - Tech Forum 2024
New from BookNet Canada for 2024: Loan Stars - Tech Forum 2024New from BookNet Canada for 2024: Loan Stars - Tech Forum 2024
New from BookNet Canada for 2024: Loan Stars - Tech Forum 2024
 
Top 10 Hubspot Development Companies in 2024
Top 10 Hubspot Development Companies in 2024Top 10 Hubspot Development Companies in 2024
Top 10 Hubspot Development Companies in 2024
 
MuleSoft Online Meetup Group - B2B Crash Course: Release SparkNotes
MuleSoft Online Meetup Group - B2B Crash Course: Release SparkNotesMuleSoft Online Meetup Group - B2B Crash Course: Release SparkNotes
MuleSoft Online Meetup Group - B2B Crash Course: Release SparkNotes
 
QCon London: Mastering long-running processes in modern architectures
QCon London: Mastering long-running processes in modern architecturesQCon London: Mastering long-running processes in modern architectures
QCon London: Mastering long-running processes in modern architectures
 
Glenn Lazarus- Why Your Observability Strategy Needs Security Observability
Glenn Lazarus- Why Your Observability Strategy Needs Security ObservabilityGlenn Lazarus- Why Your Observability Strategy Needs Security Observability
Glenn Lazarus- Why Your Observability Strategy Needs Security Observability
 
Scale your database traffic with Read & Write split using MySQL Router
Scale your database traffic with Read & Write split using MySQL RouterScale your database traffic with Read & Write split using MySQL Router
Scale your database traffic with Read & Write split using MySQL Router
 
UiPath Community: Communication Mining from Zero to Hero
UiPath Community: Communication Mining from Zero to HeroUiPath Community: Communication Mining from Zero to Hero
UiPath Community: Communication Mining from Zero to Hero
 
Data governance with Unity Catalog Presentation
Data governance with Unity Catalog PresentationData governance with Unity Catalog Presentation
Data governance with Unity Catalog Presentation
 
Arizona Broadband Policy Past, Present, and Future Presentation 3/25/24
Arizona Broadband Policy Past, Present, and Future Presentation 3/25/24Arizona Broadband Policy Past, Present, and Future Presentation 3/25/24
Arizona Broadband Policy Past, Present, and Future Presentation 3/25/24
 
The State of Passkeys with FIDO Alliance.pptx
The State of Passkeys with FIDO Alliance.pptxThe State of Passkeys with FIDO Alliance.pptx
The State of Passkeys with FIDO Alliance.pptx
 
The Fit for Passkeys for Employee and Consumer Sign-ins: FIDO Paris Seminar.pptx
The Fit for Passkeys for Employee and Consumer Sign-ins: FIDO Paris Seminar.pptxThe Fit for Passkeys for Employee and Consumer Sign-ins: FIDO Paris Seminar.pptx
The Fit for Passkeys for Employee and Consumer Sign-ins: FIDO Paris Seminar.pptx
 

【DL輪読会】Gated Recurrent Fusion With Joint Training Framework for Robust End-to-End Speech Recognition

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ Gated Recurrent Fusion With Joint Training Framework for Robust End-to-End Speech Recognition Hiroshi Sekiguchi, Morikawa Lab
  • 2. 書誌情報 • “Gated Recurrent Fusion With Joint Training Framework for Robust End- to-End Speech Recognition”, – C. Fan, J. Yi, J. Tao, Z. Tian, B. Liu and Z. Wen, 中国科学院大学, 北京 IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. 29, 2021 • 概要: – Speech Enhancement(ノイズ除去等)とSpeech Recognitionの2つのモデルを 直列に接続する際、単にspeech enhancement出力をspeech recognitionに入 力するだけでは、ノイズ削減に伴う音声歪のために、音声認識性能は向 上しない – 両モデルの間に、Speech Enhancement出力とオリジナルノイジー音声と を融合するモデル(Gated Recurrent Fusion)を追加し、3モデルをEnd-to-End で同時に学習することで、音声歪が軽減し、音声認識性能が改善する • モティベーション: – 複数のモデルから成るシステムの学習方法は? 何故、単純接続では上手く行 かない? 2
  • 3. アジェンダ • 背景・目的 • 先行研究 • 提案手法 • 評価 • まとめ 図表は、論文から抜粋した 3
  • 4. 背景・目的 • <背景> – Speech Enhancementとspeech recognitionを直列接続して、雑音下の音声認識の認 識性能はある程度の向上が認められてきた – しかし、speech enhancementは、ノイズ削減にともなう目的音声の歪みが生じ るため、一定以上になると認識性能の向上が頭打ちする • <目的>Speech enhancementによる音声の歪を低減する方法を提案 – Speech Enhancement出力とオリジナルノイジー音声とを融合するモデル(Gated Recurrent Fusion: GRF)を追加 – Speech enhancement, GRF, speech recognitionの3つのモデルをEnd-to-endで学習 4
  • 5. 先行研究ーその1 • <方法1> Speech enhancement + speech Recognitionの単純直列接続 – 2つのモデルを個別に学習 – (問題点)単独で最適化したspeech enhancementは必ずしも単独で最適化した speech recognitionに取って最良のノイズ除去 にならず • Speech enhancement出力音声に歪が生じる (SNRが悪い部分は音声情報が欠落する) • Speech enhancement出力はスペクトラムが平坦化 される(詳細時間情報が喪失する) 5 Speech enhancement Speech Recognition ノイジー 音声 ノイジー音声 Speech enhancement出力 クリーン音声 認識結果 (文字、音韻、単語) Speech enhancement出力 個別に学習
  • 6. 先行研究ーその2 • <方法2> Speech recognitionにMulti-condition Training (MCT) – 多くの異なるSNRのノイズ音を学習データとする – (問題点)学習コスト、未知のノイズに対処不可、ノイズに因る目的音声の歪 – Li, Feipeng, Phani S. Nidadavolu, and Hynek Hermansky. "A long, deep and wide artificial neural net for robust speech recognition in unknown noise." Fifteenth Annual Conference of the International Speech Communication Association. 2014. • <方法3> SpecAugment法 – 入力音声をaugumentationし、学習データを増やす • 音声スペクトログラムを変形する:time warping, time-frequency masking, – (問題点)クリーン音声の認識率は改善、ノイジーな音声の認識率が上がらない – Park, Daniel S., et al. "Specaugment: A simple data augmentation method for automatic speech recognition." arXiv preprint arXiv:1904.08779 (2019) • <方法4>2つのモデルのEnd-to-End学習 – 2つモデルを同時に学習 – (問題)依然として、speech enhancement出力に目的音声の歪が残り、認識性能は一 定以上は改善しない – H. Bu, J. Du, X. Na, B. Wu, and H. Zheng, “Aishell-1: An open-source mandarin speech corpus and a speech recognition baseline,” in Proc. 20th Conf. Oriental Chapter Int. Coordinating Committee Speech Databases Speech I/O Syst. Assessment., 2017, pp. 1–5. 6
  • 7. 提案方法-その1 • 従来方法:先行研究<4> – 𝑥 𝑡 : クリーン音声、𝑛 𝑡 : ノイズ、𝑦 𝑡 : ノイジー音声 – 𝑦 𝑡 = 𝑥 𝑡 + 𝑛 𝑡 : Time signal – 𝑌 𝑡, 𝑓 = 𝑋 𝑡, 𝑓 + 𝑁(𝑡, 𝑓): Short time Fourier Transform – 𝐿𝑒𝑛𝑐 = ෨ 𝑋 − 𝑋 2 (独立タスク1) – ෨ 𝑋 = 𝐸𝑛ℎ𝑎𝑛𝑐𝑒𝑚𝑒𝑛𝑡 𝑌 – ෨ 𝑂𝑒𝑛ℎ𝑎𝑛𝑐𝑒𝑑 = 𝐹𝑏𝑎𝑛𝑘( ෨ 𝑋 ) – 𝐿𝐴𝑆𝑅 = − ln 𝑃 (𝑆∗ | ෨ 𝑂𝑒𝑛ℎ𝑎𝑛𝑐𝑒𝑑)(独立タスク2) • 提案方法: – Gated Recurrent Fusion (GRF): speech enhancement出力 ෨ 𝑋 とノ イジー音声 𝑌 の融合を行い、融合した信号をASRに入力する – Speech enhancement:マスク学習予測法(既存手法) – Speech recognition:Transformer ASR (既存手法) 7 Speech recognition Cepstrum bank計算 Speech enhancement 新規追加 部分 提案方法 従来方法
  • 8. 提案方法-その2 8 Gated Recurrent Fusion GRF Block 提案方法 • 提案方法:続き – Speech Enhancement: Ideal amplitude mask(IAM)学習予測法 • 𝑀𝐼𝐴𝑀 = Τ 𝑋 𝑌 • 𝐿𝑒𝑛ℎ = 1 𝑇𝐹 σ ෩ 𝑀 ⊙ 𝑌 − 𝑋 𝐹 2 (学習) • ෨ 𝑋 = ෩ 𝑀 ⊙ 𝑌 (テスト) – Fbank: Mel-ceptrum計算 • ෨ 𝑂𝑒𝑛ℎ𝑎𝑛𝑐𝑒𝑑 = log 𝑀𝑒𝑙( ෨ 𝑋 • 𝑂𝑛𝑜𝑖𝑠𝑦 = log 𝑀𝑒𝑙( 𝑌 – Gated Recurrent Fusion • β𝑒𝑛ℎ𝑎𝑛𝑐𝑒𝑑 = 𝐵 ෨ 𝑂𝑒𝑛ℎ𝑎𝑛𝑐𝑒𝑑 • β𝑛𝑜𝑖𝑠𝑦 = 𝐵 𝑂𝑛𝑜𝑖𝑠𝑦 • Enhancement出力とノイジ音声を動 的に融合してRecognitionに入力する
  • 9. 提案方法-その3 • 提案方法:続き – GRF Block:左右2つのGRUを直列に結合 • Reset gate: 𝑟 = σ 𝑊 𝑟 β𝑛𝑜𝑖𝑠𝑦, ℎ𝑝 • Update gate: 𝑧 = σ 𝑊 𝑧 βnoisy, ℎ𝑝 • ℎ𝑝 ′ = 𝑟 ⊙ ℎ𝑝 • ℎ𝑝 𝑐 = tanh 𝑊ℎ βnoisy, ℎ𝑝 ′ • Selective fusion: ℎ𝑞 = 𝑧 ⊙ ℎ𝑝 + 1 − 𝑧 ⊙ ℎ𝑝 𝑐 • 右側のGRUでは、左側のGRUの係数をcopy • β𝑛𝑜𝑖𝑠𝑦をβ𝑒𝑛ℎ𝑎𝑛𝑐𝑒𝑑、 ℎ𝑝をℎ𝑞に置き換えて計算 • O𝐺𝑅𝐹 = Concat(β𝑛𝑜𝑖𝑠𝑦, , 𝑓𝐺𝑅𝐸 , β𝑒𝑛ℎ𝑎𝑛𝑐𝑒𝑑 ) – Speech recognition • 4-head (6-block self-attention encoder 6-block Making decoder) Transformer ASR • 𝐿𝐴𝑆𝑅 = − ln 𝑃 (𝑆∗ |𝑂𝐺𝑅𝐹) – Loss function: • 𝐿 = 𝐿𝐴𝑆𝑅 + α𝐿𝑒𝑛ℎ (統合タスク)α:hyper-parameter 9 Gated Recurrent Fusion GRF Block
  • 10. 評価の観点 • Speech RecognitionとSpeech Enhancementを個別に最適化のために学習し た場合に、認識性能が向上しない理由はなにか?(Base1)と(Base2) → 理由は、 Speech enhancement出力の音声データが歪んでいる、詳細構造が損 失していると思われる • Speech enhancementを低減する方法でうまい手は何か – 個別学習のまま、テスト時に、recognitionの入力に、Speech enhancement出 力とノイジー音声を加算することで融合し、改善を図る(Base3)→失敗 – 同時学習にして、融合方法を種々変えてみる(Orignal)→ 上手く行った • 評価の指標 – 認識性能(CER: Character error rate) 10
  • 11. 音声データ • 音声コーパス:AISHELL-1 中国マンダリン:400話者、170時間音声 • ノイズコーパス:NonspeechNoiseとNOISE-92を使用 • サンプリング周波数:16KHz • 学習データ:音声コーパスとノイズコーパスのSNRはランダム(0~20dB) • テストデータと検証(development)データは、音声コーパスとノイズコー パスのSNRを0, 5, 10, 15, 20dBとした • 音声データ:短時間フーリエ変換 スペクトラム振幅:257次元 32msec hamming窓、16msecシフト 11
  • 12. 評価方法・結果-その1 • ベースライン(Base1)Speech recognitionのみ – speech enhancementなし – 学習方法によるspeech recognitionモデルの種類 • E2E_ASR_clean:クリーンな音声のみを使用 • E2E_ASR_SpecAugment:音声のAugmentationを追加 • E2E_ASR_MCT:種々のSNRのノイジー音声(MCT)を使用 • E2E_ASR_MCT_SpecAugment:MCTと音声のAugmentを使用 – テスト音声の種類 • クリーンな音声 • ノイジー音声(SNR:0, 5, 10, 15, 20dB) • Development datasetとtest datasetの両方 – 評価結果 • MCTが対ノイズ効果あり。特にSNRが悪い時に。 12 Recognition Recognition <学習時> <テスト時> (Base1) 学習データ テストデータ 認識結果 認識結果 Test Dataset Development Dataset MCTの効果!
  • 13. 評価方法・結果-その2 • (Base2) Speech recognition +Speech enhancement – 2モデルは個別学習 – Speech recognitionの学習:(Base1)と同じ – Speech enhancementの学習: • 学習データ:ノイジー音声 • Enhance方式: Ideal amplitude mask学習予測法(既存) – 評価結果 • ノイジーTest音声:ノイズ対策が無い/少ない Recognitionモデルでは、enhancementの効果 がある.しかし、ノイズ対策した recognitionモデルでは、逆に悪くなっている。 →ノイズ対策したrecognitionモデルでは、 Enhancementが、逆に、歪の生成や詳細情報 の欠落が主要因で、性能悪化する • クリーンTest音声:(Base1)より性能悪い → Enhancementがrecognitionに有害な 歪を生成している 13 (Base1)よりも悪化 (Base1)よりも良好
  • 14. 評価方法・結果-その3 • (Base3) Speech recognition +Speech enhancement – 2モデルは個別学習 – Speech recognitionの学習:(Base1)と同じ – Speech enhancementの学習:(Base2)と同じ – テスト時のみに、接続を変更し、Recognitionの入力に SNR Fusionデータを使用←enhancementの効果をノイ ジー音声の1/10にする.(Base1)と(Base2)の中庸を とる • SNR Fusionデータ:Enhancementデータ ෪ 𝑋 と ノイジー音声 𝑌 を加算で𝑓𝑆𝑁𝑅 = 20 log Τ 𝑌 ෪ 𝑋 が20𝑑𝐵 – 評価結果 • クリーンTest音声:全モデルで(Base1)とほぼ 同じの良い性能 • ノイジーTest音声:ノイズ対策が無い/少ない Recognitionモデルでは、(Base1)並みに悪化. →Enhancementがノイズ削減に役立っていない ノイズ対策ありモデルで(Base1)と同じ性能 →MCTの効果であり、Enhancementの貢献ではない 14 (Base1)並みに悪化
  • 15. 評価方法・結果-その4 • 提案方法:Speech recognition + speech enhancement – 2モデルを同時学習 – 学習時/テスト時ともに、speech enhancement出力とノイ ズー音声の融合してrecognitionへ入力する方法を以下から一つ 選択 • Joint-Enhancement-E2E_ASR: 融合せずにenhancement出力のみ (①) • Joint-Enhancement-E2E_ASR-concat: 融合をconcatenate(②) • Joint-Enhancement-E2E_ASR-GRF: 融合をGRFを用いる(③) – 評価結果 • 同時学習のみでも(①)ノイジTest音声で,(Base1) のMCTを超える性能を出すがMCT-SpecAugmentに は劣る →同時学習はある程度enhancementの未知の歪も recognitionが学習するので効果あり.しかし、未だ enhancement歪は存在するので、 MCT-SpecAugment には劣る. • 融合方法②、③を採用すると、①も(Base1)も凌駕する 性能がでる。→融合の効果で、ノイジー音声の 詳細情報が認識率の向上に貢献しているのと、 Enhancement出力の歪低減に役に立っていると推測 15 (Base1)より悪化 全てでベストな性能
  • 16. GRFの緒言 16 • モデルのパラメータ数 – 2層BLSTMx2のパラメータ数が大きい – GRFのパラメータ数は1Mil個 • GRFの計算複雑性 – Joint-Enhancement-E2E_ASR-Concat(②):0.622sec/発声音声 – Joint-Enhancement-E2E_ASR-GRF(③):0.746sec/発声音声 標準のSpeech Transformer 標準のSpeech Transformer+2層BLSTMx2 Speech Transformer(concat) + GRF 12.0%増
  • 17. まとめ • Speech enhancementとSpeech recognitionの同時学習は、個別学習よりも性能 が良い – この2つのタスクは、独立なタスクではない、互いに正の相関があるタスク – 個別タスクの個々の最適解の組み合わせよりも、2つのタスクを統一したloss関数で 大局的な最適解の方が、認識率は向上する • 同時学習は、enhancementが生成する歪をある程度は軽減するが、それでも 残る • 残ったenhancement歪は、Gated Recurrent Fusion(GRF)で、Enhancemnet出力 とノイズ音声を融合することで、軽減する。 • ここで、GRFの効果は、以下の2つで – ①ノイズ音声を使ってenhancement出力の歪を補正軽減し、かつ、 – ②ノイズ音声の生のスペクトラム詳細情報を取り込むことで、 認識性能の向上に貢献する 17
  • 18. 感想 • Speech enhancementとspeech recognitionは、Transformerが出てくる前 までは、後者のモデルが大きいので、統合して扱うことが難しかった が、Transformerの出現で、統一して扱うことが可能なった→統一して 扱うことが多くなる傾向か • 一方、本論文は、speech enhancementとspeech recognitionは、既存 のSOTAのモデルを使い、新規性は結合して性能を出すための方法にあ る。地味なテーマだが、このような隙間をねらう研究もあり • GRFの貢献が、enhancement出力の音声歪が軽減すると主張している が、認識率が向上したことが唯一の根拠。歪が軽減する過程を可視化 し、accountabilityをあげたい 18