The Fit for Passkeys for Employee and Consumer Sign-ins: FIDO Paris Seminar.pptx
【DL輪読会】Gated Recurrent Fusion With Joint Training Framework for Robust End-to-End Speech Recognition
1. 1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Gated Recurrent Fusion With Joint Training
Framework for Robust End-to-End Speech Recognition
Hiroshi Sekiguchi, Morikawa Lab
2. 書誌情報
• “Gated Recurrent Fusion With Joint Training Framework for Robust End-
to-End Speech Recognition”,
– C. Fan, J. Yi, J. Tao, Z. Tian, B. Liu and Z. Wen, 中国科学院大学, 北京
IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. 29, 2021
• 概要:
– Speech Enhancement(ノイズ除去等)とSpeech Recognitionの2つのモデルを
直列に接続する際、単にspeech enhancement出力をspeech recognitionに入
力するだけでは、ノイズ削減に伴う音声歪のために、音声認識性能は向
上しない
– 両モデルの間に、Speech Enhancement出力とオリジナルノイジー音声と
を融合するモデル(Gated Recurrent Fusion)を追加し、3モデルをEnd-to-End
で同時に学習することで、音声歪が軽減し、音声認識性能が改善する
• モティベーション:
– 複数のモデルから成るシステムの学習方法は? 何故、単純接続では上手く行
かない?
2
6. 先行研究ーその2
• <方法2> Speech recognitionにMulti-condition Training (MCT)
– 多くの異なるSNRのノイズ音を学習データとする
– (問題点)学習コスト、未知のノイズに対処不可、ノイズに因る目的音声の歪
– Li, Feipeng, Phani S. Nidadavolu, and Hynek Hermansky. "A long, deep and wide artificial neural net for robust speech
recognition in unknown noise." Fifteenth Annual Conference of the International Speech Communication Association. 2014.
• <方法3> SpecAugment法
– 入力音声をaugumentationし、学習データを増やす
• 音声スペクトログラムを変形する:time warping, time-frequency masking,
– (問題点)クリーン音声の認識率は改善、ノイジーな音声の認識率が上がらない
– Park, Daniel S., et al. "Specaugment: A simple data augmentation method for automatic speech recognition." arXiv preprint
arXiv:1904.08779 (2019)
• <方法4>2つのモデルのEnd-to-End学習
– 2つモデルを同時に学習
– (問題)依然として、speech enhancement出力に目的音声の歪が残り、認識性能は一
定以上は改善しない
– H. Bu, J. Du, X. Na, B. Wu, and H. Zheng, “Aishell-1: An open-source mandarin speech corpus and a speech recognition baseline,” in
Proc. 20th Conf. Oriental Chapter Int. Coordinating Committee Speech Databases Speech I/O Syst. Assessment., 2017, pp. 1–5. 6