Nationality recognition

Nationality
recognition
AIU DEVCAMP TEAM 2

발표자 소개
박준영 (Junyeong Park)
◦ 한양대학교 컴퓨터소프트웨어학부 1학년 재학
◦ 참여 프로젝트
◦ RosettaStone
◦ Baba Is Agent
https://github.com/JYPark09

목차
◦ 신경망 모델링 (Network Modeling)
◦ 최적화 (Optimization)
◦ 여러 시도들

Network Modeling
주어진 문제는 얼굴 사진을 입력 받아 국적을 분류하는 것
→ 문제를 풀기 위해 CNN(Convolutional Neural Network)를 사용할 수 있음.

Network Modeling
일단 좋다는 건 다 해보자!
◦ 첫 번째 시도: Squeeze and Excitation Network

Network Modeling
◦ 첫 번째 시도: Squeeze and Excitation Network
결과는...

Network Modeling
◦ 두 번째 시도: Convolutional Block Attention Module

Network Modeling
◦ 두 번째 시도: Convolutional Block Attention Module
결과는...

Network Modeling
왜 계속 망할까?
1. 데이터 개수가 적기 때문
총 데이터 개수: 4806개
MNIST: 테스트 데이터만 10,000개
CIFAR-10: 테스트 데이터만 10,000개
ImageNet: 1,281,167개 (ILSVRC 2012 기준)

Network Modeling
왜 계속 망할까?
1. 데이터 개수가 적기 때문
2. 그런데 모델은 엄청 크게 만듦
Parameters of SENet: 5,692,421 (20x128, reduction=16)
Parameters of CBAM: 5,675,910 (20x128, reduction=16)

Network Modeling
Overfitting을 막는 방법은
◦ 데이터를 더 늘린다 → 불가능
◦ 모델의 크기를 줄인다
◦ Dropout, Batch Normalization 등을 적용한다.

Network Modeling
그래서 최종적인 모델은...
5x5 conv, 64
batch normalization
3x3 conv, 64
batch normalization
1x1 conv, 1
batch normalization
fully connected
dropout, p=0.5
fully connected
Parameters: 633,352
(약 89% ↓)

Optimization
한 논문에 따르면 Adaptive 계열보단 SGD가 generalization 성능이 좋음.
→ 실제 실험 결과 데이터가 너무 부족해 Adaptive 계열은 쉽게 overfitting 됨
따라서 SGD 계열인 NAG(Nesterov Accelerated Gradient) 채택
* Nitish Shirish Keskar, Richard Socher, 2017, "Improving Generalization Performance by Switching from Adam to SGD"
𝑣 𝑡 = 𝛾𝑣 𝑡−1 + 𝜂∇ 𝜃 𝐽 𝜃 − 𝛾𝑣 𝑡−1
𝜃 = 𝜃 − 𝑣 𝑡

Optimization
여러 Hyper-parameter들
◦ Learning Rate: 10−1
, 10−2
, 10−3
, 10−4
◦ L2 Regularization: 10−4
◦ Softmax Temperature: 1
◦ Loss Function: Cross Entropy

Transfer Learning
→ 기존의 만들어진 모델을 사용하여 새로운 문제 해결 시 더 좋은 성능을 내기 위한 기법
아래에 있는 ImageNet을 이용해 학습된 모델들을 torchvision을 통해 받을 수 있다.
→ ImageNet엔 사람이 있으니 사람을 경험한 모델임
◦ VGG
◦ ResNeXt
◦ DenseNet

Transfer Learning
하지만, 결과는 처참...
◦ Test set에서 평균 정확도 41%
◦ 위 수치는 그냥 학습시켰을 때보다 낮은 성능임
→ 빠른 손절!

Data Augmentation
torchvision엔 여러 augmentation 수단이 마련 돼있다.
◦ RandomCrop
◦ RandomHorizontalFlip
◦ RandomVerticalFlip
◦ RandomRotation

Data Augmentation
RandomCrop
어느 나라 사람이게?

Data Augmentation
그래서 RandomCrop을 제외한 나머지를 모두 사용함
◦ RandomHorizontalFlip
◦ RandomVerticalFlip
◦ RandomRotation
→ 데이터를 대략 2 × 2 × 3 = 12배 뻥튀기

Knowledge Distillation
→ Teacher Network를 학습시킨 뒤, Student Network를 학습시키는 방식
Training Dataset
Teacher
Student

Teacher Network
◦ 일반적인 Network 학습 방법식으로 학습한다.
◦ Test set 정확도: 62.4%

Student Network
◦ Ring Loss 도입
ℒ 𝑅 =
𝜆
2𝑚
෍
𝑖=1
𝑚
ℱ 𝒙𝑖 2 − 𝑅 2
◦ 최종적으로 아래의 Loss function을 사용
ℒ 𝐾𝐷 𝑾 𝑺 = ℋ 𝒚true, 𝑷 𝑺 + 𝐷 𝐾𝐿(𝑷 𝑺| 𝑷 𝑻 + ℒ 𝑅
◦ Test set 정확도: 65.41%

Ensemble Neural Network
◦ weak learner를 조합하여 strong learner를 만드는 것이 목표
→ 집단 지성(?)
◦ 여기서는 여러 네트워크 출력값의 평균을 취하는 것으로 구현

Ensemble Neural Network
기존의 선택 방식
argmax 𝑐 𝑃 𝑐 𝒙
새로운 선택방식
argmax 𝑐
1
𝑁
෍
𝑖=1
𝑁
𝑃𝑖(𝑐|𝒙)
◦ 결과: 66.76%

Nationality recognition

Recommended

Recommended

More Related Content

Similar to Nationality recognition

Similar to Nationality recognition (20)

More from 준영 박

More from 준영 박 (8)

Nationality recognition