SlideShare una empresa de Scribd logo
1 de 18
Descargar para leer sin conexión
인라이플배 한국어 AI 언어모델
튜닝대회 참여기
T3Q NLP Team
01
02
04
05
참여동기및기대효과
최종모델선정
실행계획
대회를마치며
03
Contents
실행과정
참여 동기 및 기대효과01
사내 토이프로젝트로
BERT fine-tuning
최적화를 수행하고 있었음
튜닝 결과의
객관적 지표 필요
파인튜닝 대회 참여하여
다양한 튜닝 및 실험 수행
튜닝 결과의 객관성 확보하고
참여를 통한 새로운 기술 습득
배경 동기
실행 기대효과
실행 계획02
• 데이터 전처리 : vocab 외래어 및 불용어 치환, 정제
• 데이터 증식
✓ SQuad 2.0 데이터를 활용 하여 데이터 증식
✓ BackTranslate 증식
• 단순 linear 레이어 추가부터 LSTM, GRU 네트워크
추가 등을 통해 최적화 실험
• 다양한 조합의 하이퍼 파라미터 미세조정 실험
데이터 증식 및
전처리를 통한 튜닝
하이퍼 파라미터
미세조정을 통한 튜닝
네트워크 변경 및
추가를 통한 튜닝
실행 과정03
데이터 증식 및 전처리
데이터 전처리03
독해 방해 요소 제거
- Vocab내 일본어, 중국어, 한자 등은 한국어 학습에 방해
- 기존 Vocab 내 한국어, 영어, 숫자, 조판 특수문자 외 기타 문자를 z로 치환 후 학습
Model name exact_match F1 score
Baseline 78.48 88.29
Changed_vocab_model 78.68 88.35
< Baseline과 Vocab 변경 모델 학습결과 비교 >
결과
- Vocab 변경 모델이 Baseline에 비해 소폭 증가
데이터 증식03
No-Answer Augmentation 수행
• 질의에 대한 정답이 아닌 데이터를 추가하여 학습
• 정답이 아닐 경우 맞출 확률 증가
• 모든 데이터에 증식이 되므로 데이터의 양 대폭 증가(약 260MB)
이슈
• 기계적 증식으로 정제가 까다롭고 공수가 많이 들어 양질의 데이터셋 구축 어려움
• 학습 시간이 많이 소요
데이터 증식03
Back Translate Augmentation
• Train Data Set 중 question 데이터만을 증식
• 해당 증식 방법은 한글 데이터를 영어로 번역 후 다시 한글 데이터로 번역하는 방법
• 번역시 데이터의 의미는 같으나 문체와 어휘가 달라지는 것을 이용
원본데이터 번역데이터
햄릿의 배경이 되는 왕가는? 햄릿의 배경 왕실은 무엇입니까?
햄릿의 등장하는 인물들은 르네상스 시대의 어느 나라 사람들인가? 르네상스 시대 햄릿의 등장인물들은 어느 나라에서 왔나요?
햄릿의 배경은 몇 세기의 덴마크 왕가인가? 햄릿의 덴마크 왕실의 배경은 몇 세기입니까?
시사점
• Open API 번역기는 번역의 정확성이 떨어져 의미를 희석 시킴
• 사전모델 학습 시 학습데이터의 영향을 많이 받을 뿐만 아니라 수작업한
KorQuAD 데이터의 품질을 따라가기 힘듦.
실행 과정03
하이퍼 파라미터 미세 조정
하이퍼 파라미터 미세 조정03
Batch
size
Learning
rate
Max_seq_le
ngth
Epoch Seed
Max_query
length
F1 score
Baseline 16 5.00e-05 512 4 42 96 88.29
Model 1 16 5.00e-05 512 4 42 64 88.11
Model 2 16 5.00e-05 512 4 1000 96 87.84
Model 3 16 5.00e-05 512 8 1000 96 87.64
Model 4 8 3.00e-05 384 3 42 96 87.53
Model 5 32 2.00e-05 512 10 42 96 87.45
하위 표의 7개 항목을 중심으로 약 30개 조합의 학습을 수행
<미세조정 학습 결과 최상위 모델 5개>
시사점
• 언제나 가장 좋은 성능은 최적화된 Baseline
• 모든 조합을 수행하기에 많은 자원과 시간 비용이 필요
실행 과정03
파인튜닝 네트워크 추가
Linear 레이어 추가03
추가 layer 수 Epoch F1 score
Baseline 0 4 88.29
Model 1 2 4 87.85
Model 2 2 8 87.85
Model 3 1 4 87.12
Model 4 1 8 86.70
기본적인 구조의 linear 레이어를 추가
레이어 추가 후 하이퍼 파라미터 수정(ex:epoch)
<linear layer 추가 학습 결과 최상위 모델 5개>
결과
• 너무 단순하여 F1 score에 큰 영향을 미치지 않음.
LSTM03
Bidirectional Epoch Layer_dim F1 score
Model 1 False 4 2 88.5
Model 2 True 4 2 88.9
Model 3 True 3 1 88.7
Model 4 True 4 1 89.14
LSTM 적용 모델 생성 결과
• bi directional = True
• layer dimension=1
위 조건에서 가장 성능이 좋았음
GRU03
Bidirectional Epoch Layer_dim F1 score
Model 1 False 4 1 86.33
Model 2 True 4 1 89.36
Model 3 True 4 2 89.54
Model 4 True 3 2 89.66
GRU 적용 모델 생성 결과
• bi directional = True
• layer dimension=2
위 조건에서 가장 성능이 좋았음
최종모델 선정 및 등록04
LSTM과 GRU의 학습 효과
- Linear 레이어보다 자연어처리 성능이 뛰어난 RNN 계열의 네트워크
- 양방향 학습 시 단방향 학습에 비해 문맥 독해 능력 뛰어남
- 사전 모델인 Bert와 같이 양방향 학습이 성능 개선에 도움
BERT 소형모델 + GRU 모델
자체 최고 EM(80.22), f1 score(89.66)를 달성 하였고,
이를 최종 등록 모델로 선정함.
05 대회를 마치며
하이퍼 파라미터 조정 효과 미미
- 사전학습시 하이퍼 파라미터가 최적화 된 상태
기계독해 파인튜닝 기술의 획기적인 발전 계기
- 대회를 통해 획기적인 기술 습득 및 아이디어 공유 기회
- 대회 이후 자체 개선 모델 > f1 score : 89.66 → 90.34
기계적 데이터 증식은 양질의 데이터로 만드는데 한계가 존재
- 자동 증식 데이터는 수작업으로 만들어진 학습 데이터를 따라갈 수 없음
참고 문헌
- Sina J. Semnani, Kaushik Ram Sadagopan, Fatma Tlili, BERT-A: Fine-
tuning BERT with Adapters and Data, 2019
- Vukosi Marivate, Tshephisho Sefara, Improving short text
classification through global augmentation methods, 2019
- Kevin M. Lalande, SQuAD 2.0 with BERT, 2019
- Andrew Ying, Really Paying Attention: A BERT+BiDAF Ensemble
Model for Question-Answering, 2019
- Zhen Qin, Weiquan Mao, Zhining Zhu, Diverse Ensembling with Bert
and its variations for Question Answering on SQuAD 2.0, 2019
- Jesse Dodge, Gabriel Ilharco, Hannaneh Hajishirzi, Fine-Tuning
Pretrained Language Models: Weight Initializations, Data Orders, and
Early Stopping, 2020
- Wei Yang, Yuqing Xie, Luchen Tan, Data Augmentation for BERT Fine-
Tuning in Open-Domain Question Answering, 2019
감사합니다.

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

carrier of_tricks_for_image_classification
carrier of_tricks_for_image_classificationcarrier of_tricks_for_image_classification
carrier of_tricks_for_image_classification
 
Transfer learning usage
Transfer learning usageTransfer learning usage
Transfer learning usage
 
Infra as a model service
Infra as a model serviceInfra as a model service
Infra as a model service
 
PR-203: Class-Balanced Loss Based on Effective Number of Samples
PR-203: Class-Balanced Loss Based on Effective Number of SamplesPR-203: Class-Balanced Loss Based on Effective Number of Samples
PR-203: Class-Balanced Loss Based on Effective Number of Samples
 
FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence
FixMatch: Simplifying Semi-Supervised Learning with Consistency and ConfidenceFixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence
FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence
 
Reinforcement learning
Reinforcement learningReinforcement learning
Reinforcement learning
 
"Learning From Noisy Large-Scale Datasets With Minimal Supervision" Paper Review
"Learning From Noisy Large-Scale Datasets With Minimal Supervision" Paper Review"Learning From Noisy Large-Scale Datasets With Minimal Supervision" Paper Review
"Learning From Noisy Large-Scale Datasets With Minimal Supervision" Paper Review
 
Machine Learning Foundations (a case study approach) 강의 정리
Machine Learning Foundations (a case study approach) 강의 정리Machine Learning Foundations (a case study approach) 강의 정리
Machine Learning Foundations (a case study approach) 강의 정리
 
boosting 기법 이해 (bagging vs boosting)
boosting 기법 이해 (bagging vs boosting)boosting 기법 이해 (bagging vs boosting)
boosting 기법 이해 (bagging vs boosting)
 
PR-218: MFAS: Multimodal Fusion Architecture Search
PR-218: MFAS: Multimodal Fusion Architecture SearchPR-218: MFAS: Multimodal Fusion Architecture Search
PR-218: MFAS: Multimodal Fusion Architecture Search
 
Siamese neural networks for one shot image recognition paper explained
Siamese neural networks for one shot image recognition paper explainedSiamese neural networks for one shot image recognition paper explained
Siamese neural networks for one shot image recognition paper explained
 
Intriguing properties of contrastive losses
Intriguing properties of contrastive lossesIntriguing properties of contrastive losses
Intriguing properties of contrastive losses
 
Deep neural networks for You-Tube recommendations
Deep neural networks for You-Tube recommendationsDeep neural networks for You-Tube recommendations
Deep neural networks for You-Tube recommendations
 
Face recognition
Face recognitionFace recognition
Face recognition
 
PR-339: Maintaining discrimination and fairness in class incremental learning
PR-339: Maintaining discrimination and fairness in class incremental learningPR-339: Maintaining discrimination and fairness in class incremental learning
PR-339: Maintaining discrimination and fairness in class incremental learning
 
"simple does it weakly supervised instance and semantic segmentation" Paper r...
"simple does it weakly supervised instance and semantic segmentation" Paper r..."simple does it weakly supervised instance and semantic segmentation" Paper r...
"simple does it weakly supervised instance and semantic segmentation" Paper r...
 
통신사 고객 이탈분석
통신사 고객 이탈분석통신사 고객 이탈분석
통신사 고객 이탈분석
 
"Google Vizier: A Service for Black-Box Optimization" Paper Review
"Google Vizier: A Service for Black-Box Optimization" Paper Review"Google Vizier: A Service for Black-Box Optimization" Paper Review
"Google Vizier: A Service for Black-Box Optimization" Paper Review
 
악플분류 모델링 프로젝트
악플분류 모델링 프로젝트악플분류 모델링 프로젝트
악플분류 모델링 프로젝트
 
광고 CTR 예측
광고 CTR 예측광고 CTR 예측
광고 CTR 예측
 

Similar a Bert3q KorQuAD Finetuning NLP Challenge

속도의 필요성
속도의 필요성속도의 필요성
속도의 필요성
민욱 이
 

Similar a Bert3q KorQuAD Finetuning NLP Challenge (20)

Papago/N2MT 개발이야기
Papago/N2MT 개발이야기Papago/N2MT 개발이야기
Papago/N2MT 개발이야기
 
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작
 
Chapter 11 Practical Methodology
Chapter 11 Practical MethodologyChapter 11 Practical Methodology
Chapter 11 Practical Methodology
 
[224] 번역 모델 기반_질의_교정_시스템
[224] 번역 모델 기반_질의_교정_시스템[224] 번역 모델 기반_질의_교정_시스템
[224] 번역 모델 기반_질의_교정_시스템
 
머신러닝과 사이킷런의 이해
머신러닝과 사이킷런의 이해머신러닝과 사이킷런의 이해
머신러닝과 사이킷런의 이해
 
Bag of Tricks for Image Classification with Convolutional Neural Networks (C...
Bag of Tricks for Image Classification  with Convolutional Neural Networks (C...Bag of Tricks for Image Classification  with Convolutional Neural Networks (C...
Bag of Tricks for Image Classification with Convolutional Neural Networks (C...
 
[부스트캠프 Tech Talk] 구건모_모델링 자동화와 실험 검증 전략
[부스트캠프 Tech Talk] 구건모_모델링 자동화와 실험 검증 전략[부스트캠프 Tech Talk] 구건모_모델링 자동화와 실험 검증 전략
[부스트캠프 Tech Talk] 구건모_모델링 자동화와 실험 검증 전략
 
LLM 모델 기반 서비스 실전 가이드
LLM 모델 기반 서비스 실전 가이드LLM 모델 기반 서비스 실전 가이드
LLM 모델 기반 서비스 실전 가이드
 
PR-383: Solving ImageNet: a Unified Scheme for Training any Backbone to Top R...
PR-383: Solving ImageNet: a Unified Scheme for Training any Backbone to Top R...PR-383: Solving ImageNet: a Unified Scheme for Training any Backbone to Top R...
PR-383: Solving ImageNet: a Unified Scheme for Training any Backbone to Top R...
 
파이썬으로 익히는 딥러닝 기본 (18년)
파이썬으로 익히는 딥러닝 기본 (18년)파이썬으로 익히는 딥러닝 기본 (18년)
파이썬으로 익히는 딥러닝 기본 (18년)
 
Imagination-Augmented Agents for Deep Reinforcement Learning
Imagination-Augmented Agents for Deep Reinforcement LearningImagination-Augmented Agents for Deep Reinforcement Learning
Imagination-Augmented Agents for Deep Reinforcement Learning
 
빅데이터 윈윈 컨퍼런스-데이터수집 및 정제
빅데이터 윈윈 컨퍼런스-데이터수집 및 정제빅데이터 윈윈 컨퍼런스-데이터수집 및 정제
빅데이터 윈윈 컨퍼런스-데이터수집 및 정제
 
[Paper Review] What have we achieved on text summarization?
[Paper Review] What have we achieved on text summarization? [Paper Review] What have we achieved on text summarization?
[Paper Review] What have we achieved on text summarization?
 
2017 빅콘테스트
2017 빅콘테스트2017 빅콘테스트
2017 빅콘테스트
 
캡스톤디자인
캡스톤디자인캡스톤디자인
캡스톤디자인
 
속도의 필요성
속도의 필요성속도의 필요성
속도의 필요성
 
Pycon korea 2018 kaggle tutorial(kaggle break)
Pycon korea 2018 kaggle tutorial(kaggle break)Pycon korea 2018 kaggle tutorial(kaggle break)
Pycon korea 2018 kaggle tutorial(kaggle break)
 
Neural Machine Translation 기반의 영어-일본어 자동번역
Neural Machine Translation 기반의 영어-일본어 자동번역Neural Machine Translation 기반의 영어-일본어 자동번역
Neural Machine Translation 기반의 영어-일본어 자동번역
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링
 
Exploring Deep Learning Acceleration Technology Embedded in LLMs
Exploring Deep Learning Acceleration Technology Embedded in LLMsExploring Deep Learning Acceleration Technology Embedded in LLMs
Exploring Deep Learning Acceleration Technology Embedded in LLMs
 

Bert3q KorQuAD Finetuning NLP Challenge

  • 1. 인라이플배 한국어 AI 언어모델 튜닝대회 참여기 T3Q NLP Team
  • 3. 참여 동기 및 기대효과01 사내 토이프로젝트로 BERT fine-tuning 최적화를 수행하고 있었음 튜닝 결과의 객관적 지표 필요 파인튜닝 대회 참여하여 다양한 튜닝 및 실험 수행 튜닝 결과의 객관성 확보하고 참여를 통한 새로운 기술 습득 배경 동기 실행 기대효과
  • 4. 실행 계획02 • 데이터 전처리 : vocab 외래어 및 불용어 치환, 정제 • 데이터 증식 ✓ SQuad 2.0 데이터를 활용 하여 데이터 증식 ✓ BackTranslate 증식 • 단순 linear 레이어 추가부터 LSTM, GRU 네트워크 추가 등을 통해 최적화 실험 • 다양한 조합의 하이퍼 파라미터 미세조정 실험 데이터 증식 및 전처리를 통한 튜닝 하이퍼 파라미터 미세조정을 통한 튜닝 네트워크 변경 및 추가를 통한 튜닝
  • 6. 데이터 전처리03 독해 방해 요소 제거 - Vocab내 일본어, 중국어, 한자 등은 한국어 학습에 방해 - 기존 Vocab 내 한국어, 영어, 숫자, 조판 특수문자 외 기타 문자를 z로 치환 후 학습 Model name exact_match F1 score Baseline 78.48 88.29 Changed_vocab_model 78.68 88.35 < Baseline과 Vocab 변경 모델 학습결과 비교 > 결과 - Vocab 변경 모델이 Baseline에 비해 소폭 증가
  • 7. 데이터 증식03 No-Answer Augmentation 수행 • 질의에 대한 정답이 아닌 데이터를 추가하여 학습 • 정답이 아닐 경우 맞출 확률 증가 • 모든 데이터에 증식이 되므로 데이터의 양 대폭 증가(약 260MB) 이슈 • 기계적 증식으로 정제가 까다롭고 공수가 많이 들어 양질의 데이터셋 구축 어려움 • 학습 시간이 많이 소요
  • 8. 데이터 증식03 Back Translate Augmentation • Train Data Set 중 question 데이터만을 증식 • 해당 증식 방법은 한글 데이터를 영어로 번역 후 다시 한글 데이터로 번역하는 방법 • 번역시 데이터의 의미는 같으나 문체와 어휘가 달라지는 것을 이용 원본데이터 번역데이터 햄릿의 배경이 되는 왕가는? 햄릿의 배경 왕실은 무엇입니까? 햄릿의 등장하는 인물들은 르네상스 시대의 어느 나라 사람들인가? 르네상스 시대 햄릿의 등장인물들은 어느 나라에서 왔나요? 햄릿의 배경은 몇 세기의 덴마크 왕가인가? 햄릿의 덴마크 왕실의 배경은 몇 세기입니까? 시사점 • Open API 번역기는 번역의 정확성이 떨어져 의미를 희석 시킴 • 사전모델 학습 시 학습데이터의 영향을 많이 받을 뿐만 아니라 수작업한 KorQuAD 데이터의 품질을 따라가기 힘듦.
  • 10. 하이퍼 파라미터 미세 조정03 Batch size Learning rate Max_seq_le ngth Epoch Seed Max_query length F1 score Baseline 16 5.00e-05 512 4 42 96 88.29 Model 1 16 5.00e-05 512 4 42 64 88.11 Model 2 16 5.00e-05 512 4 1000 96 87.84 Model 3 16 5.00e-05 512 8 1000 96 87.64 Model 4 8 3.00e-05 384 3 42 96 87.53 Model 5 32 2.00e-05 512 10 42 96 87.45 하위 표의 7개 항목을 중심으로 약 30개 조합의 학습을 수행 <미세조정 학습 결과 최상위 모델 5개> 시사점 • 언제나 가장 좋은 성능은 최적화된 Baseline • 모든 조합을 수행하기에 많은 자원과 시간 비용이 필요
  • 12. Linear 레이어 추가03 추가 layer 수 Epoch F1 score Baseline 0 4 88.29 Model 1 2 4 87.85 Model 2 2 8 87.85 Model 3 1 4 87.12 Model 4 1 8 86.70 기본적인 구조의 linear 레이어를 추가 레이어 추가 후 하이퍼 파라미터 수정(ex:epoch) <linear layer 추가 학습 결과 최상위 모델 5개> 결과 • 너무 단순하여 F1 score에 큰 영향을 미치지 않음.
  • 13. LSTM03 Bidirectional Epoch Layer_dim F1 score Model 1 False 4 2 88.5 Model 2 True 4 2 88.9 Model 3 True 3 1 88.7 Model 4 True 4 1 89.14 LSTM 적용 모델 생성 결과 • bi directional = True • layer dimension=1 위 조건에서 가장 성능이 좋았음
  • 14. GRU03 Bidirectional Epoch Layer_dim F1 score Model 1 False 4 1 86.33 Model 2 True 4 1 89.36 Model 3 True 4 2 89.54 Model 4 True 3 2 89.66 GRU 적용 모델 생성 결과 • bi directional = True • layer dimension=2 위 조건에서 가장 성능이 좋았음
  • 15. 최종모델 선정 및 등록04 LSTM과 GRU의 학습 효과 - Linear 레이어보다 자연어처리 성능이 뛰어난 RNN 계열의 네트워크 - 양방향 학습 시 단방향 학습에 비해 문맥 독해 능력 뛰어남 - 사전 모델인 Bert와 같이 양방향 학습이 성능 개선에 도움 BERT 소형모델 + GRU 모델 자체 최고 EM(80.22), f1 score(89.66)를 달성 하였고, 이를 최종 등록 모델로 선정함.
  • 16. 05 대회를 마치며 하이퍼 파라미터 조정 효과 미미 - 사전학습시 하이퍼 파라미터가 최적화 된 상태 기계독해 파인튜닝 기술의 획기적인 발전 계기 - 대회를 통해 획기적인 기술 습득 및 아이디어 공유 기회 - 대회 이후 자체 개선 모델 > f1 score : 89.66 → 90.34 기계적 데이터 증식은 양질의 데이터로 만드는데 한계가 존재 - 자동 증식 데이터는 수작업으로 만들어진 학습 데이터를 따라갈 수 없음
  • 17. 참고 문헌 - Sina J. Semnani, Kaushik Ram Sadagopan, Fatma Tlili, BERT-A: Fine- tuning BERT with Adapters and Data, 2019 - Vukosi Marivate, Tshephisho Sefara, Improving short text classification through global augmentation methods, 2019 - Kevin M. Lalande, SQuAD 2.0 with BERT, 2019 - Andrew Ying, Really Paying Attention: A BERT+BiDAF Ensemble Model for Question-Answering, 2019 - Zhen Qin, Weiquan Mao, Zhining Zhu, Diverse Ensembling with Bert and its variations for Question Answering on SQuAD 2.0, 2019 - Jesse Dodge, Gabriel Ilharco, Hannaneh Hajishirzi, Fine-Tuning Pretrained Language Models: Weight Initializations, Data Orders, and Early Stopping, 2020 - Wei Yang, Yuqing Xie, Luchen Tan, Data Augmentation for BERT Fine- Tuning in Open-Domain Question Answering, 2019