More Related Content Similar to Training data-efficient image transformers & distillation through attention (20) More from taeseon ryu (20) Training data-efficient image transformers & distillation through attention1. 2021๋
1์ 31์ผ
๋ฅ๋ฌ๋ ๋
ผ๋ฌธ์ฝ๊ธฐ ๋ชจ์
์ด๋ฏธ์ง ์ฒ๋ฆฌํ : ๊น๋ณํ ๋ฐ๋ํ ์์ข
์ ํ์๊ธฐ ํ๋ค์ด
Training data-Efficient Image transformer &
Distillation through Attention(DeiT)
4. 01. Summary
1. 2020๋
12์ ๋ฐํ, Facebook AI
2. ViT๋ฅผ ์ผ๋ถ ๋ฐ์ ์ํค๊ณ Distillation ๊ฐ๋
๋์
3. Contribution
- CNN์ ์ฌ์ฉํ์ง ์์ Image Classification
- ImageNet๋ง์ผ๋ก ํ์ต
- Single 8-GPU Node๋ก 2~3์ผ์ ๋๋ง ํ์ต
- SOTA CNN๊ธฐ๋ฐ Model๊ณผ ๋น์ทํ ์ฑ๋ฅ ํ์ธ
- Distillation ๊ฐ๋
๋์
4. Conclusion
- CNN ๊ธฐ๋ฐ Architecture๋ค์ ๋ค๋
๊ฐ ์ฐ๊ตฌ๊ฐ ์งํ๋์ด ์ฑ๋ฅ ํฅ์
- Image Context Task์์ Transformer๋ ์ด์ ๋ง ์ฐ๊ตฌ๋๊ธฐ ์์ํจ
> ๋น์ทํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค๋ ์ ์์ Transformer์ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค
6. 02. Prerequisites
1. Vision Transformer
- An Image is Worth 16x16 words : Transformers for Image Recognition at Scale, Google
> ์ฐธ์กฐ : Deformable DETR: Deformable Transformers for End to End Object Detection paper review - ํ์๊ธฐ
7. 02. Prerequisites
1. Vision Transformer
- Training Dataset : JFT-300M
- Pre-train : Low Resolution, Fine-tunning : High Resolution
> Position Embedding : Bicubic Interpolation
8. 02. Prerequisites
2. Knowledge Distillation
- ๋ฏธ๋ฆฌ ์ ํ์ต๋ Teacher Model์ ์์ Student Model์ ์ง์์ ์ ๋ฌํ๋ค๋ ๊ฐ๋
> ์ฐธ์กฐ : Explaining knowledge distillation by quantifying the knowledge - ๊น๋ํฌ
11. 03. Architecture
1. Knowledge Distillation
- Class Token๊ณผ ๊ฐ์ ๊ตฌ์กฐ์ Distillation Token ์ถ๊ฐ
- Soft Distillation
- Hard Distillation
- Random Crop์ผ๋ก ์ธํ ์๋ชป๋ ํ์ต ๋ฐฉ์ง ๊ฐ๋ฅ
GT : Cat / Prediction : Cat
GT : Cat / Prediction : ???
12. 03. Architecture
2. Bag of Tricks
- ๊ธฐ๋ณธ์ ์ผ๋ก, ViT ๊ตฌ์กฐ๋ฅผ ๊ทธ๋๋ก ์ฌ์ฉ (ViT-B = DeiT-B)
> ๊ธฐ๋ณธ์ ์ธ ํ์ต ๋ฐฉ๋ฒ ๋์ผ
> Hyper parameter Tunning์ผ๋ก ์ฑ๋ฅ ํฅ์
15. 04. Experiments
1. Distillation
- Teacher Model : RegNetY-16GF
> ConvNet is Better than Transformer Model
โProbablyโ Inductive Bias !
- Distillation Comparison : Hard is Better
* Inductive Bias
- Distillation Method๊ฐ Convnet์ Inductive Bias๋ฅผ ๋ ์ ํ์ตํ๋ค
16. 04. Experiments
2. Efficiency vs Accuracy
- Parameter์ ๊ฐ์, ์ฒ๋ฆฌ์๋, Accuracy๋ฅผ ๋น๊ต
> Throughput๊ณผ Accuracy๋ก ๋น๊ตํ๋ฉด, Convnet์ ์ ์ฌํ ์ฑ๋ฅ์ ๋ณด์ธ๋ค
- Base Model : DeiT-B (= ViT-B)
3. Transfer Learning
- ImageNet์ผ๋ก ํ์ตํ Pre-Train Model์ ๋ค๋ฅธ ๋ฐ์ดํฐ Set์ผ๋ก Test
18. 05. Discussion
1. Contribution
1) Transformer ๊ธฐ๋ฐ์ ViT Model์ ์ฑ๋ฅ ํฅ์ (Convnet X)
2) ViT๋ณด๋ค ๋ ์ ์ Dataset์ผ๋ก ํ์ต ๋ฐ ํ์ต์๋ ํฅ์
3) SOTA Convnet๊ณผ ์ ์ฌํ ์ฑ๋ฅ ํ์ธ
4) ๊ฐํธํ Knowledge Distillation ๋ฐฉ๋ฒ ์ ์
2. Opinion
1) ์ฌ์ ํ ๋ง์ Epoch ํ์ (300~500Epoch)
2) Transformer์ ๋จ์ ์ด ๋๋ฌ๋จ
> Hyper Parameter์ ๋ฏผ๊ฐ
> Convnet๋๋น ๋ง์ Dataset๊ณผ Training ์๊ฐ์ด ํ์
> ์ฐ๊ตฌ๋จ๊ณ์์๋ ๋ง์ ์ฐ๊ตฌ ๊ฐ๋ฅ, ํ์
์ ์ ์ฉํ๊ธฐ์๋ ์ด๋ ค์
3) Deep Learning ๊ฐ๋ฐ ์ด๊ธฐ๋จ๊ณ์ ์ฐ๊ตฌ ๋ฐฉ์
> Quantitative Research (Experiment ๏ Theory)
> Experiment์ ๊ฒฐ๊ณผ๋ฅผ ์ถฉ๋ถํ ํด์ํ์ง ๋ชปํจ
3. Conclusion
1) ์์ง ์ฐ๊ตฌ๊ฐ ๋ง์ด ํ์ํ ๋ถ์ผ
2) ์ฐ๊ตฌ ์ด๊ธฐ๋จ๊ณ์์๋ ๋ถ๊ตฌํ๊ณ CNN๊ณผ ์ ์ฌํ ์ฑ๋ฅ์ ๋ํ๋ธ๋ค๋ ๊ฒ์
NLP์์์ ๋ณํ์ฒ๋ผ, CNN์ ๋์ฒดํ ์ ์์ ๊ฐ๋ฅ์ฑ์ ํ์ธํ ์ ์์