3. 참여 동기 및 기대효과01
사내 토이프로젝트로
BERT fine-tuning
최적화를 수행하고 있었음
튜닝 결과의
객관적 지표 필요
파인튜닝 대회 참여하여
다양한 튜닝 및 실험 수행
튜닝 결과의 객관성 확보하고
참여를 통한 새로운 기술 습득
배경 동기
실행 기대효과
4. 실행 계획02
• 데이터 전처리 : vocab 외래어 및 불용어 치환, 정제
• 데이터 증식
✓ SQuad 2.0 데이터를 활용 하여 데이터 증식
✓ BackTranslate 증식
• 단순 linear 레이어 추가부터 LSTM, GRU 네트워크
추가 등을 통해 최적화 실험
• 다양한 조합의 하이퍼 파라미터 미세조정 실험
데이터 증식 및
전처리를 통한 튜닝
하이퍼 파라미터
미세조정을 통한 튜닝
네트워크 변경 및
추가를 통한 튜닝
6. 데이터 전처리03
독해 방해 요소 제거
- Vocab내 일본어, 중국어, 한자 등은 한국어 학습에 방해
- 기존 Vocab 내 한국어, 영어, 숫자, 조판 특수문자 외 기타 문자를 z로 치환 후 학습
Model name exact_match F1 score
Baseline 78.48 88.29
Changed_vocab_model 78.68 88.35
< Baseline과 Vocab 변경 모델 학습결과 비교 >
결과
- Vocab 변경 모델이 Baseline에 비해 소폭 증가
7. 데이터 증식03
No-Answer Augmentation 수행
• 질의에 대한 정답이 아닌 데이터를 추가하여 학습
• 정답이 아닐 경우 맞출 확률 증가
• 모든 데이터에 증식이 되므로 데이터의 양 대폭 증가(약 260MB)
이슈
• 기계적 증식으로 정제가 까다롭고 공수가 많이 들어 양질의 데이터셋 구축 어려움
• 학습 시간이 많이 소요
8. 데이터 증식03
Back Translate Augmentation
• Train Data Set 중 question 데이터만을 증식
• 해당 증식 방법은 한글 데이터를 영어로 번역 후 다시 한글 데이터로 번역하는 방법
• 번역시 데이터의 의미는 같으나 문체와 어휘가 달라지는 것을 이용
원본데이터 번역데이터
햄릿의 배경이 되는 왕가는? 햄릿의 배경 왕실은 무엇입니까?
햄릿의 등장하는 인물들은 르네상스 시대의 어느 나라 사람들인가? 르네상스 시대 햄릿의 등장인물들은 어느 나라에서 왔나요?
햄릿의 배경은 몇 세기의 덴마크 왕가인가? 햄릿의 덴마크 왕실의 배경은 몇 세기입니까?
시사점
• Open API 번역기는 번역의 정확성이 떨어져 의미를 희석 시킴
• 사전모델 학습 시 학습데이터의 영향을 많이 받을 뿐만 아니라 수작업한
KorQuAD 데이터의 품질을 따라가기 힘듦.
10. 하이퍼 파라미터 미세 조정03
Batch
size
Learning
rate
Max_seq_le
ngth
Epoch Seed
Max_query
length
F1 score
Baseline 16 5.00e-05 512 4 42 96 88.29
Model 1 16 5.00e-05 512 4 42 64 88.11
Model 2 16 5.00e-05 512 4 1000 96 87.84
Model 3 16 5.00e-05 512 8 1000 96 87.64
Model 4 8 3.00e-05 384 3 42 96 87.53
Model 5 32 2.00e-05 512 10 42 96 87.45
하위 표의 7개 항목을 중심으로 약 30개 조합의 학습을 수행
<미세조정 학습 결과 최상위 모델 5개>
시사점
• 언제나 가장 좋은 성능은 최적화된 Baseline
• 모든 조합을 수행하기에 많은 자원과 시간 비용이 필요
12. Linear 레이어 추가03
추가 layer 수 Epoch F1 score
Baseline 0 4 88.29
Model 1 2 4 87.85
Model 2 2 8 87.85
Model 3 1 4 87.12
Model 4 1 8 86.70
기본적인 구조의 linear 레이어를 추가
레이어 추가 후 하이퍼 파라미터 수정(ex:epoch)
<linear layer 추가 학습 결과 최상위 모델 5개>
결과
• 너무 단순하여 F1 score에 큰 영향을 미치지 않음.
13. LSTM03
Bidirectional Epoch Layer_dim F1 score
Model 1 False 4 2 88.5
Model 2 True 4 2 88.9
Model 3 True 3 1 88.7
Model 4 True 4 1 89.14
LSTM 적용 모델 생성 결과
• bi directional = True
• layer dimension=1
위 조건에서 가장 성능이 좋았음
14. GRU03
Bidirectional Epoch Layer_dim F1 score
Model 1 False 4 1 86.33
Model 2 True 4 1 89.36
Model 3 True 4 2 89.54
Model 4 True 3 2 89.66
GRU 적용 모델 생성 결과
• bi directional = True
• layer dimension=2
위 조건에서 가장 성능이 좋았음
15. 최종모델 선정 및 등록04
LSTM과 GRU의 학습 효과
- Linear 레이어보다 자연어처리 성능이 뛰어난 RNN 계열의 네트워크
- 양방향 학습 시 단방향 학습에 비해 문맥 독해 능력 뛰어남
- 사전 모델인 Bert와 같이 양방향 학습이 성능 개선에 도움
BERT 소형모델 + GRU 모델
자체 최고 EM(80.22), f1 score(89.66)를 달성 하였고,
이를 최종 등록 모델로 선정함.
16. 05 대회를 마치며
하이퍼 파라미터 조정 효과 미미
- 사전학습시 하이퍼 파라미터가 최적화 된 상태
기계독해 파인튜닝 기술의 획기적인 발전 계기
- 대회를 통해 획기적인 기술 습득 및 아이디어 공유 기회
- 대회 이후 자체 개선 모델 > f1 score : 89.66 → 90.34
기계적 데이터 증식은 양질의 데이터로 만드는데 한계가 존재
- 자동 증식 데이터는 수작업으로 만들어진 학습 데이터를 따라갈 수 없음
17. 참고 문헌
- Sina J. Semnani, Kaushik Ram Sadagopan, Fatma Tlili, BERT-A: Fine-
tuning BERT with Adapters and Data, 2019
- Vukosi Marivate, Tshephisho Sefara, Improving short text
classification through global augmentation methods, 2019
- Kevin M. Lalande, SQuAD 2.0 with BERT, 2019
- Andrew Ying, Really Paying Attention: A BERT+BiDAF Ensemble
Model for Question-Answering, 2019
- Zhen Qin, Weiquan Mao, Zhining Zhu, Diverse Ensembling with Bert
and its variations for Question Answering on SQuAD 2.0, 2019
- Jesse Dodge, Gabriel Ilharco, Hannaneh Hajishirzi, Fine-Tuning
Pretrained Language Models: Weight Initializations, Data Orders, and
Early Stopping, 2020
- Wei Yang, Yuqing Xie, Luchen Tan, Data Augmentation for BERT Fine-
Tuning in Open-Domain Question Answering, 2019