SlideShare a Scribd company logo
1 of 25
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
wav2vec 2.0: A Framework for Self-Supervised
Learning of Speech Representations (NeurIPS, 2020)
Kazuki Fujikawa
サマリ
• 書誌情報
– wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations
• NeurIPS 2020
• Facebook AI
• Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, Michael Aul
• 概要
– vq-wav2vecの事前学習を改良したモデル: wav2vec 2.0を開発
• 二段階で行われた事前学習を一段階で行えるように改良し、性能を改善
• ラベル付きデータが小規模しか得られない環境下で、vq-wav2vecベースの既存法と
比較してWERを1/3程度に下げる性能を確認
2
アウトライン
• 背景
• 関連研究
• 提案手法
• 実験・結果
3
アウトライン
• 背景
• 関連手法
• 提案手法
• 実験・結果
4
背景
• 音声認識の分野では言語毎に大規模な訓練データを必要とする
– 現在の実用的な音声認識システムでは、数千時間の音声の書き起こしデータが必要
– 世界中で話される7000以上の大部分の言語で上記を準備することは困難
5
少量のラベル付きデータで実用的な音声認識システムを構築したい
アウトライン
• 背景
• 関連研究
– wav2vec [Schneider+, 2019]
– vq-wav2vec [Baevski+, ICLR2020]
• 提案手法
• 実験・結果
6
関連研究①: wav2vec [Schneider+, 2019]
• 音声の表現を教師無しで学習
– Feature Encoder(𝑋 ⟼ 𝑍): 生の音声信号を入力とし、5層1DCNNで特徴抽出
• ストライドを大きくし、解像度を落とした特徴量を獲得(10ms単位)
– Context Encoder(𝑍 ⟼ 𝐶) : 𝒛𝒊, . . , 𝒛𝒊−𝒗 を入力に、 𝒄𝒊 を出力
• 𝒄𝒊 が未来の特徴量 𝒛𝒊+𝒌 との内積が大きくなるよう、 Contrastive Lossを最小化
• 負例 𝒛 は同じ音声の別の部分から抽出する
7
Feature Encoder
Context Encoder
𝑐𝑖
𝑧𝑖 𝑧𝑖+1 𝑧𝑖+2 𝑧𝑖+3
関連研究②: vq-wav2vec [Baevski+, ICLR2020]
• 教師なし事前学習を2段階行う(詳細は後述)
– ① wav2vec で行う教師なし表現学習を離散化
– ② 離散化された特徴量を使い、BERTのMLMで再事前学習
8
関連研究②: vq-wav2vec [Baevski+, ICLR2020]
• ① wav2vec で行う教師なし表現学習を離散化
– wav2vec同様、1DCNNで 𝒛𝒊 を算出
– ベクトル量子化で 𝒛𝒊 を離散化
• 𝒛𝒊 と コードブロック(Embedding)との積を取り、Gumbel Softmaxで 𝒛𝒊 をサンプリング
– 𝒄𝒊 が未来の特徴量 𝒛𝒊+𝒌 との内積が大きくなるよう、 Contrastive Lossを最小化
9
Feature Encoder
Context Encoder
𝒄𝒊
𝒛𝒊 𝒛𝒊+𝟏 𝒛𝒊+𝟐 𝒛𝒊+𝟑
Quantization
𝒛𝒊 𝒛𝒊+𝟏 𝒛𝒊+𝟐 𝒛𝒊+𝟑
コードブック
(Embedding)
𝑉
(ボキャブラリ)
𝑑
(埋め込み次元)
𝒍
(ロジット)
関連研究②: vq-wav2vec [Baevski+, ICLR2020]
• ② 離散化された特徴量を使い、BERTのフレームワークでMLMを学習
– マスクされた箇所に該当するコードブロックのインデックスを当てる
– 1箇所だけ当てるのは簡単すぎるので、連続した数トークンをマスクする
(SpanBERT [Joshi+, TACL2020]の要領)
10
Joshi+,TACL2020
アウトライン
• 背景
• 関連研究
• 提案手法
• 実験・結果
11
提案手法: wav2vec 2.0 [Baevski+, NeurIPS2020]
• vq-wav2vecを1ステップで事前学習できるように改良
– vq-wav2vec同様、Feature Encoder で特徴表現 𝒛𝒊 を得る
– 𝒛𝒊 をランダムにマスクした上で、Context Encoder(Transformer)で音声全体を
エンコードする
– マスクされた箇所のコンテクスト 𝒄𝒊 が、𝒒𝒊 と近くなるようにメトリック学習する
12
X
Z
…
…
C
Q
Masked
CNN
q q q q q
L̀
Contrastive loss
Context
representations
raw waveform
Quantized
representations
Latent speech
representations
Transformer
Figure 1: Illustration of our framework which jointly learns contextualized speech representations
and an inventory of discretized speech units.
Feature Encoder
Context Encoder
Quantization
𝒄𝒊
𝒛𝒊
𝒒𝒊
提案手法: wav2vec 2.0 [Baevski+, NeurIPS2020]
• (補足)なぜContext Encoderの入力とLoss計算の入力が異なるのか
– Context Encoderの入力 𝒛𝒊 : 量子化モジュール未使用
– Contrastive Lossの入力 𝒒𝒊 : 量子化モジュール使用
– 結論:その組み合わせが最も精度が良かったから
13
X
Z
…
…
C
Q
Masked
CNN
q q q q q
L̀
Contrastive loss
Context
representations
raw waveform
Quantized
representations
Latent speech
representations
Transformer
Figure 1: Illustration of our framework which jointly learns contextualized speech representations
and an inventory of discretized speech units.
on labeled data with a Connectionist Temporal Classification (CTC) loss [14, 4] to be used for
𝒄𝒊
𝒛𝒊
𝒒𝒊
アウトライン
• 背景
• 比較手法
• 実験・結果
14
実験: 問題設定
• タスク
– オーディオブックの音声文字起こしをWord Error Rate(WER)で評価
• データセット
– LibriVox (LV-60k)
• 6万時間のオーディオブック音声データセット
• ラベル無しデータとして利用
– Librispeech (LS-960)
• LibriVoxの一部(1000時間)に対してTextと音声のアライメントを取ったもの
• このデータのラベルを [10min, 1h, 10h, 100h] のみ利用した場合のモデルのパフォーマンス
を比較する
• clean (ノイズ無し)、other (ノイズ有り) それぞれで評価
• 評価
– WER (Word Error Rate): 文字起こし後のテキストの単語誤り率
15
実験: 結果
• 低リソース環境での実験
– 10minのみのラベルありデータの利用で、
WER (clean/other): 4.8/8.2 を記録
– 既存法(Discrete BERT: vq-wav2vecベース)
と比較して約1/3程度のエラー率を実現
– ラベルを増やした場合(1h, 10h, 100h)
も同様の傾向であり、低リソース環境で本手法
の有効性を確認
16
実験: 結果
• 低リソース環境での実験
– 10minのみのラベルありデータの利用で、
WER (clean/other): 4.8/8.2 を記録
– 既存法(Discrete BERT: vq-wav2vecベース)
と比較して約1/3程度のエラー率を実現
– ラベルを増やした場合(1h, 10h, 100h)
も同様の傾向であり、低リソース環境で本手法
の有効性を確認
17
実験: 結果
• 低リソース環境での実験
– 10minのみのラベルありデータの利用で、
WER (clean/other): 4.8/8.2 を記録
– 既存法(Discrete BERT: vq-wav2vecベース)
と比較して約1/3程度のエラー率を実現
– ラベルを増やした場合(1h, 10h, 100h)
も同様の傾向であり、低リソース環境で本手法
の有効性を確認
18
実験: 結果
• 低リソース環境での実験
– 10minのみのラベルありデータの利用で、
WER (clean/other): 4.8/8.2 を記録
– 既存法(Discrete BERT: vq-wav2vecベース)
と比較して約1/3程度のエラー率を実現
– ラベルを増やした場合(1h, 10h, 100h)
も同様の傾向であり、低リソース環境で本手法
の有効性を確認
19
実験: 結果
• 高リソース環境での実験
– 事前学習無しでWER (clean/other): 2.1/4.6、
事前学習有り(Lv-60k)で1.8/3.3を達成
– ベースラインアーキテクチャがSoTAである
ContextNet (1.9/3.9) に迫る性能
– 低リソース環境下で確認できたほどの有効性は
高リソース環境下では確認できなかった
20
実験: 結果
• 高リソース環境での実験
– 事前学習無しでWER (clean/other): 2.1/4.6、
事前学習有り(Lv-60k)で1.8/3.3を達成
– ベースラインアーキテクチャがSoTAである
ContextNet (1.9/3.9) に迫る性能
– 低リソース環境下で確認できたほどの有効性は
高リソース環境下では確認できなかった
21
実験: 結果
• 高リソース環境での実験
– 事前学習無しでWER (clean/other): 2.1/4.6、
事前学習有り(Lv-60k)で1.8/3.3を達成
– ベースラインアーキテクチャがSoTAである
ContextNet (1.9/3.9) に迫る性能
– 低リソース環境下で確認できたほどの有効性は
高リソース環境下では確認できなかった
22
実験: 結果
• 高リソース環境での実験
– 事前学習無しでWER (clean/other): 2.1/4.6、
事前学習有り(Lv-60k)で1.8/3.3を達成
– ベースラインアーキテクチャがSoTAである
ContextNet (1.9/3.9) に迫る性能
– 低リソース環境下で確認できたほどの有効性は
高リソース環境下では確認できなかった
23
結論
• vq-wav2vecの事前学習を改良したモデル: wav2vec 2.0を開発
– vq-wav2vecで二段階で行われた事前学習を一段階で行えるように改良
– ラベル付きデータが小規模しか得られない環境下で、vq-wav2vecベースの既存法と
比較してWERを1/3程度に下げる性能を確認
• Broader Impact: より広範な言語への適用
– 世界には約7000の言語があり、さらに多くの方言が存在
– これらの言語に対して実用的な音声認識技術を提供できるようになることを期待する
24
References
• Baevski, Alexei, et al. "wav2vec 2.0: A framework for self-supervised learning of speech
representations." In NeurIPS, 2020.
• Schneider, Steffen, et al. "wav2vec: Unsupervised pre-training for speech recognition." arXiv
preprint arXiv:1904.05862 (2019).
• Baevski, Alexei, Steffen Schneider, and Michael Auli. "vq-wav2vec: Self-supervised learning of
discrete speech representations." In ICLR, 2020.
• Joshi, Mandar, et al. "Spanbert: Improving pre-training by representing and predicting spans.”
In TACL, 2020.
25

More Related Content

More from Deep Learning JP

More from Deep Learning JP (20)

【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
 
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
 
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
 
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
 
【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLM【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLM
 
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
 
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
 

Recently uploaded

Cloud Frontiers: A Deep Dive into Serverless Spatial Data and FME
Cloud Frontiers:  A Deep Dive into Serverless Spatial Data and FMECloud Frontiers:  A Deep Dive into Serverless Spatial Data and FME
Cloud Frontiers: A Deep Dive into Serverless Spatial Data and FME
Safe Software
 
Finding Java's Hidden Performance Traps @ DevoxxUK 2024
Finding Java's Hidden Performance Traps @ DevoxxUK 2024Finding Java's Hidden Performance Traps @ DevoxxUK 2024
Finding Java's Hidden Performance Traps @ DevoxxUK 2024
Victor Rentea
 
Cloud Frontiers: A Deep Dive into Serverless Spatial Data and FME
Cloud Frontiers:  A Deep Dive into Serverless Spatial Data and FMECloud Frontiers:  A Deep Dive into Serverless Spatial Data and FME
Cloud Frontiers: A Deep Dive into Serverless Spatial Data and FME
Safe Software
 
Architecting Cloud Native Applications
Architecting Cloud Native ApplicationsArchitecting Cloud Native Applications
Architecting Cloud Native Applications
WSO2
 

Recently uploaded (20)

Corporate and higher education May webinar.pptx
Corporate and higher education May webinar.pptxCorporate and higher education May webinar.pptx
Corporate and higher education May webinar.pptx
 
Cloud Frontiers: A Deep Dive into Serverless Spatial Data and FME
Cloud Frontiers:  A Deep Dive into Serverless Spatial Data and FMECloud Frontiers:  A Deep Dive into Serverless Spatial Data and FME
Cloud Frontiers: A Deep Dive into Serverless Spatial Data and FME
 
DBX First Quarter 2024 Investor Presentation
DBX First Quarter 2024 Investor PresentationDBX First Quarter 2024 Investor Presentation
DBX First Quarter 2024 Investor Presentation
 
MINDCTI Revenue Release Quarter One 2024
MINDCTI Revenue Release Quarter One 2024MINDCTI Revenue Release Quarter One 2024
MINDCTI Revenue Release Quarter One 2024
 
Repurposing LNG terminals for Hydrogen Ammonia: Feasibility and Cost Saving
Repurposing LNG terminals for Hydrogen Ammonia: Feasibility and Cost SavingRepurposing LNG terminals for Hydrogen Ammonia: Feasibility and Cost Saving
Repurposing LNG terminals for Hydrogen Ammonia: Feasibility and Cost Saving
 
ProductAnonymous-April2024-WinProductDiscovery-MelissaKlemke
ProductAnonymous-April2024-WinProductDiscovery-MelissaKlemkeProductAnonymous-April2024-WinProductDiscovery-MelissaKlemke
ProductAnonymous-April2024-WinProductDiscovery-MelissaKlemke
 
Introduction to Multilingual Retrieval Augmented Generation (RAG)
Introduction to Multilingual Retrieval Augmented Generation (RAG)Introduction to Multilingual Retrieval Augmented Generation (RAG)
Introduction to Multilingual Retrieval Augmented Generation (RAG)
 
Exploring Multimodal Embeddings with Milvus
Exploring Multimodal Embeddings with MilvusExploring Multimodal Embeddings with Milvus
Exploring Multimodal Embeddings with Milvus
 
WSO2's API Vision: Unifying Control, Empowering Developers
WSO2's API Vision: Unifying Control, Empowering DevelopersWSO2's API Vision: Unifying Control, Empowering Developers
WSO2's API Vision: Unifying Control, Empowering Developers
 
Mcleodganj Call Girls 🥰 8617370543 Service Offer VIP Hot Model
Mcleodganj Call Girls 🥰 8617370543 Service Offer VIP Hot ModelMcleodganj Call Girls 🥰 8617370543 Service Offer VIP Hot Model
Mcleodganj Call Girls 🥰 8617370543 Service Offer VIP Hot Model
 
Navigating the Deluge_ Dubai Floods and the Resilience of Dubai International...
Navigating the Deluge_ Dubai Floods and the Resilience of Dubai International...Navigating the Deluge_ Dubai Floods and the Resilience of Dubai International...
Navigating the Deluge_ Dubai Floods and the Resilience of Dubai International...
 
Finding Java's Hidden Performance Traps @ DevoxxUK 2024
Finding Java's Hidden Performance Traps @ DevoxxUK 2024Finding Java's Hidden Performance Traps @ DevoxxUK 2024
Finding Java's Hidden Performance Traps @ DevoxxUK 2024
 
[BuildWithAI] Introduction to Gemini.pdf
[BuildWithAI] Introduction to Gemini.pdf[BuildWithAI] Introduction to Gemini.pdf
[BuildWithAI] Introduction to Gemini.pdf
 
AWS Community Day CPH - Three problems of Terraform
AWS Community Day CPH - Three problems of TerraformAWS Community Day CPH - Three problems of Terraform
AWS Community Day CPH - Three problems of Terraform
 
Biography Of Angeliki Cooney | Senior Vice President Life Sciences | Albany, ...
Biography Of Angeliki Cooney | Senior Vice President Life Sciences | Albany, ...Biography Of Angeliki Cooney | Senior Vice President Life Sciences | Albany, ...
Biography Of Angeliki Cooney | Senior Vice President Life Sciences | Albany, ...
 
Apidays New York 2024 - APIs in 2030: The Risk of Technological Sleepwalk by ...
Apidays New York 2024 - APIs in 2030: The Risk of Technological Sleepwalk by ...Apidays New York 2024 - APIs in 2030: The Risk of Technological Sleepwalk by ...
Apidays New York 2024 - APIs in 2030: The Risk of Technological Sleepwalk by ...
 
Platformless Horizons for Digital Adaptability
Platformless Horizons for Digital AdaptabilityPlatformless Horizons for Digital Adaptability
Platformless Horizons for Digital Adaptability
 
Cloud Frontiers: A Deep Dive into Serverless Spatial Data and FME
Cloud Frontiers:  A Deep Dive into Serverless Spatial Data and FMECloud Frontiers:  A Deep Dive into Serverless Spatial Data and FME
Cloud Frontiers: A Deep Dive into Serverless Spatial Data and FME
 
"I see eyes in my soup": How Delivery Hero implemented the safety system for ...
"I see eyes in my soup": How Delivery Hero implemented the safety system for ..."I see eyes in my soup": How Delivery Hero implemented the safety system for ...
"I see eyes in my soup": How Delivery Hero implemented the safety system for ...
 
Architecting Cloud Native Applications
Architecting Cloud Native ApplicationsArchitecting Cloud Native Applications
Architecting Cloud Native Applications
 

【DL輪読会】wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations (NeurIPS, 2020)

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations (NeurIPS, 2020) Kazuki Fujikawa
  • 2. サマリ • 書誌情報 – wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations • NeurIPS 2020 • Facebook AI • Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, Michael Aul • 概要 – vq-wav2vecの事前学習を改良したモデル: wav2vec 2.0を開発 • 二段階で行われた事前学習を一段階で行えるように改良し、性能を改善 • ラベル付きデータが小規模しか得られない環境下で、vq-wav2vecベースの既存法と 比較してWERを1/3程度に下げる性能を確認 2
  • 3. アウトライン • 背景 • 関連研究 • 提案手法 • 実験・結果 3
  • 4. アウトライン • 背景 • 関連手法 • 提案手法 • 実験・結果 4
  • 5. 背景 • 音声認識の分野では言語毎に大規模な訓練データを必要とする – 現在の実用的な音声認識システムでは、数千時間の音声の書き起こしデータが必要 – 世界中で話される7000以上の大部分の言語で上記を準備することは困難 5 少量のラベル付きデータで実用的な音声認識システムを構築したい
  • 6. アウトライン • 背景 • 関連研究 – wav2vec [Schneider+, 2019] – vq-wav2vec [Baevski+, ICLR2020] • 提案手法 • 実験・結果 6
  • 7. 関連研究①: wav2vec [Schneider+, 2019] • 音声の表現を教師無しで学習 – Feature Encoder(𝑋 ⟼ 𝑍): 生の音声信号を入力とし、5層1DCNNで特徴抽出 • ストライドを大きくし、解像度を落とした特徴量を獲得(10ms単位) – Context Encoder(𝑍 ⟼ 𝐶) : 𝒛𝒊, . . , 𝒛𝒊−𝒗 を入力に、 𝒄𝒊 を出力 • 𝒄𝒊 が未来の特徴量 𝒛𝒊+𝒌 との内積が大きくなるよう、 Contrastive Lossを最小化 • 負例 𝒛 は同じ音声の別の部分から抽出する 7 Feature Encoder Context Encoder 𝑐𝑖 𝑧𝑖 𝑧𝑖+1 𝑧𝑖+2 𝑧𝑖+3
  • 8. 関連研究②: vq-wav2vec [Baevski+, ICLR2020] • 教師なし事前学習を2段階行う(詳細は後述) – ① wav2vec で行う教師なし表現学習を離散化 – ② 離散化された特徴量を使い、BERTのMLMで再事前学習 8
  • 9. 関連研究②: vq-wav2vec [Baevski+, ICLR2020] • ① wav2vec で行う教師なし表現学習を離散化 – wav2vec同様、1DCNNで 𝒛𝒊 を算出 – ベクトル量子化で 𝒛𝒊 を離散化 • 𝒛𝒊 と コードブロック(Embedding)との積を取り、Gumbel Softmaxで 𝒛𝒊 をサンプリング – 𝒄𝒊 が未来の特徴量 𝒛𝒊+𝒌 との内積が大きくなるよう、 Contrastive Lossを最小化 9 Feature Encoder Context Encoder 𝒄𝒊 𝒛𝒊 𝒛𝒊+𝟏 𝒛𝒊+𝟐 𝒛𝒊+𝟑 Quantization 𝒛𝒊 𝒛𝒊+𝟏 𝒛𝒊+𝟐 𝒛𝒊+𝟑 コードブック (Embedding) 𝑉 (ボキャブラリ) 𝑑 (埋め込み次元) 𝒍 (ロジット)
  • 10. 関連研究②: vq-wav2vec [Baevski+, ICLR2020] • ② 離散化された特徴量を使い、BERTのフレームワークでMLMを学習 – マスクされた箇所に該当するコードブロックのインデックスを当てる – 1箇所だけ当てるのは簡単すぎるので、連続した数トークンをマスクする (SpanBERT [Joshi+, TACL2020]の要領) 10 Joshi+,TACL2020
  • 11. アウトライン • 背景 • 関連研究 • 提案手法 • 実験・結果 11
  • 12. 提案手法: wav2vec 2.0 [Baevski+, NeurIPS2020] • vq-wav2vecを1ステップで事前学習できるように改良 – vq-wav2vec同様、Feature Encoder で特徴表現 𝒛𝒊 を得る – 𝒛𝒊 をランダムにマスクした上で、Context Encoder(Transformer)で音声全体を エンコードする – マスクされた箇所のコンテクスト 𝒄𝒊 が、𝒒𝒊 と近くなるようにメトリック学習する 12 X Z … … C Q Masked CNN q q q q q L̀ Contrastive loss Context representations raw waveform Quantized representations Latent speech representations Transformer Figure 1: Illustration of our framework which jointly learns contextualized speech representations and an inventory of discretized speech units. Feature Encoder Context Encoder Quantization 𝒄𝒊 𝒛𝒊 𝒒𝒊
  • 13. 提案手法: wav2vec 2.0 [Baevski+, NeurIPS2020] • (補足)なぜContext Encoderの入力とLoss計算の入力が異なるのか – Context Encoderの入力 𝒛𝒊 : 量子化モジュール未使用 – Contrastive Lossの入力 𝒒𝒊 : 量子化モジュール使用 – 結論:その組み合わせが最も精度が良かったから 13 X Z … … C Q Masked CNN q q q q q L̀ Contrastive loss Context representations raw waveform Quantized representations Latent speech representations Transformer Figure 1: Illustration of our framework which jointly learns contextualized speech representations and an inventory of discretized speech units. on labeled data with a Connectionist Temporal Classification (CTC) loss [14, 4] to be used for 𝒄𝒊 𝒛𝒊 𝒒𝒊
  • 15. 実験: 問題設定 • タスク – オーディオブックの音声文字起こしをWord Error Rate(WER)で評価 • データセット – LibriVox (LV-60k) • 6万時間のオーディオブック音声データセット • ラベル無しデータとして利用 – Librispeech (LS-960) • LibriVoxの一部(1000時間)に対してTextと音声のアライメントを取ったもの • このデータのラベルを [10min, 1h, 10h, 100h] のみ利用した場合のモデルのパフォーマンス を比較する • clean (ノイズ無し)、other (ノイズ有り) それぞれで評価 • 評価 – WER (Word Error Rate): 文字起こし後のテキストの単語誤り率 15
  • 16. 実験: 結果 • 低リソース環境での実験 – 10minのみのラベルありデータの利用で、 WER (clean/other): 4.8/8.2 を記録 – 既存法(Discrete BERT: vq-wav2vecベース) と比較して約1/3程度のエラー率を実現 – ラベルを増やした場合(1h, 10h, 100h) も同様の傾向であり、低リソース環境で本手法 の有効性を確認 16
  • 17. 実験: 結果 • 低リソース環境での実験 – 10minのみのラベルありデータの利用で、 WER (clean/other): 4.8/8.2 を記録 – 既存法(Discrete BERT: vq-wav2vecベース) と比較して約1/3程度のエラー率を実現 – ラベルを増やした場合(1h, 10h, 100h) も同様の傾向であり、低リソース環境で本手法 の有効性を確認 17
  • 18. 実験: 結果 • 低リソース環境での実験 – 10minのみのラベルありデータの利用で、 WER (clean/other): 4.8/8.2 を記録 – 既存法(Discrete BERT: vq-wav2vecベース) と比較して約1/3程度のエラー率を実現 – ラベルを増やした場合(1h, 10h, 100h) も同様の傾向であり、低リソース環境で本手法 の有効性を確認 18
  • 19. 実験: 結果 • 低リソース環境での実験 – 10minのみのラベルありデータの利用で、 WER (clean/other): 4.8/8.2 を記録 – 既存法(Discrete BERT: vq-wav2vecベース) と比較して約1/3程度のエラー率を実現 – ラベルを増やした場合(1h, 10h, 100h) も同様の傾向であり、低リソース環境で本手法 の有効性を確認 19
  • 20. 実験: 結果 • 高リソース環境での実験 – 事前学習無しでWER (clean/other): 2.1/4.6、 事前学習有り(Lv-60k)で1.8/3.3を達成 – ベースラインアーキテクチャがSoTAである ContextNet (1.9/3.9) に迫る性能 – 低リソース環境下で確認できたほどの有効性は 高リソース環境下では確認できなかった 20
  • 21. 実験: 結果 • 高リソース環境での実験 – 事前学習無しでWER (clean/other): 2.1/4.6、 事前学習有り(Lv-60k)で1.8/3.3を達成 – ベースラインアーキテクチャがSoTAである ContextNet (1.9/3.9) に迫る性能 – 低リソース環境下で確認できたほどの有効性は 高リソース環境下では確認できなかった 21
  • 22. 実験: 結果 • 高リソース環境での実験 – 事前学習無しでWER (clean/other): 2.1/4.6、 事前学習有り(Lv-60k)で1.8/3.3を達成 – ベースラインアーキテクチャがSoTAである ContextNet (1.9/3.9) に迫る性能 – 低リソース環境下で確認できたほどの有効性は 高リソース環境下では確認できなかった 22
  • 23. 実験: 結果 • 高リソース環境での実験 – 事前学習無しでWER (clean/other): 2.1/4.6、 事前学習有り(Lv-60k)で1.8/3.3を達成 – ベースラインアーキテクチャがSoTAである ContextNet (1.9/3.9) に迫る性能 – 低リソース環境下で確認できたほどの有効性は 高リソース環境下では確認できなかった 23
  • 24. 結論 • vq-wav2vecの事前学習を改良したモデル: wav2vec 2.0を開発 – vq-wav2vecで二段階で行われた事前学習を一段階で行えるように改良 – ラベル付きデータが小規模しか得られない環境下で、vq-wav2vecベースの既存法と 比較してWERを1/3程度に下げる性能を確認 • Broader Impact: より広範な言語への適用 – 世界には約7000の言語があり、さらに多くの方言が存在 – これらの言語に対して実用的な音声認識技術を提供できるようになることを期待する 24
  • 25. References • Baevski, Alexei, et al. "wav2vec 2.0: A framework for self-supervised learning of speech representations." In NeurIPS, 2020. • Schneider, Steffen, et al. "wav2vec: Unsupervised pre-training for speech recognition." arXiv preprint arXiv:1904.05862 (2019). • Baevski, Alexei, Steffen Schneider, and Michael Auli. "vq-wav2vec: Self-supervised learning of discrete speech representations." In ICLR, 2020. • Joshi, Mandar, et al. "Spanbert: Improving pre-training by representing and predicting spans.” In TACL, 2020. 25