SlideShare a Scribd company logo
1 of 36
설명자료 작성
Watanabe yusuke
번역
김홍배
Meta-Learning with Memory-
Augmented Neural Networks
논문저자 :
Adam Santoro, Sergey Bartunov, Matthew Botvinick,
Daan Wierstra, Timothy Lillicrap
Google DeepMind
논문을 한마디로 정리하면
2
Neural Turing Machine 을
One-Shot Learning 에 응용해 봄
Neural Turing Machine (NTM) 란 [Graves+2014]
• NTM이란、외부기억장치(메모리)와 읽기/쓰기 기능을 갖춘
Neural Network
• 복사 및 분류등과 같은 알고리즘을 학습하는 것이 가능
• Neural Network 이므로 Back Propagation 으로 학습 가능
Controller
MemoryRead Head Write Head
input
3
output
NTM
메모리와 읽기/쓰기 기능도
포함하여 전체가
Neural Network !
예 : NTM으로 계열 2배 복사 작업의 학습
입력계열 출력계열
0100 NTM 01000100
011 011011
110111 110111110111
10010 1001010010
학습시
4
입력계열을 2배로 복사한 계열로 만듬
입력계열과 출력계열을 학습 데이터로 NTM을 학습시키는 것이 가능
NTM
입력계열 출력계열
010111000 01011100001
0111000
controller
NTM은 들어온 계열을 차례로 메모리
에 써넣고 그것을 2회에 걸쳐 차례로
읽어낸다.
010111000010111000
5
테스트 시
010111000
010111000
예 : NTM으로 계열 2배 복사 작업의 학습
One-Shot Learning 란 ?
일반적인 NN의 학습
1개(또는 소수)의 예를 보여준 것만으로도 인식할 수
있도록 하도 싶다
One-Shot Learning
한번만 봐도 기억
(인간처럼!!)
6
...
많은 학습 데이터가 필요
One-Shot Learning 방법 : NN algorithm
학습 시 테스트 시
トリナクリ
ア
토리나쿠리아!
학습 데이터의
이미지 전체를
기억한다. 기억 중에서 가장 가까
운 이미지를 답한다.
이 접근법의 과제
• 이미지의 유사도는 어떻게 측정하면 좋을까 ?
• Nearest-Neighbor 알고리즘은 최적일까 ?
⇒ NTM을 사용하여、Nearest-Neighbor알고리즘
(보다 좋은 알고리즘) 을 공부해보자 !
ピザ 弥勒菩薩
7
논문개요
• Neural Turing Machine (NTM) 을 개조한 Memory-
Augmented Neural Network (MANN)을 제안
• One-Shot Learning 을 MANN 으로 수행
• Omniglot 데이터셋으로 평가 시 고성능을 달성
8
Ominglot 데이터 셋이란
• 다양한 문자종류로 이루어진 이미지 데이터 셋
• 문자는 1623종류, 각 문자 이미지는 20개
• 우선 학습용과 테스트용으로 문자종류를 나눈다.
• 1200문자종류를 학습으로, 423문자종류를 테스트로 사용
9
작업설정
“소수의 문제예를 본 것만으로 바로 인식이 가능”
하도록 학습시키자 !!
•
•
•
이런 일련의 프로세스를 에피소드라 부른다.
에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만,
에피소드의 후반으로 갈 수록 정답률이 올라간다.
• 빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다.
10
기억
11
작업설정
“소수의 문제예를 본 것만으로 바로 인식이 가능”
하도록 학습시키자 !!
•
•
•
이런 일련의 프로세스를 에피소드라 부른다.
에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만,
에피소드의 후반으로 갈 수록 정답률이 올라간다.
빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다.
기억
•
•
•
•
12
1
작업설정
“소수의 문제예를 본 것만으로 바로 인식이 가능”
하도록 학습시키자 !!
•
•
•
이런 일련의 프로세스를 에피소드라 부른다.
에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만,
에피소드의 후반으로 갈 수록 정답률이 올라간다.
빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다.
기억
1 2
오답 !
•
•
•
•
13
작업설정
“소수의 문제예를 본 것만으로 바로 인식이 가능”
하도록 학습시키자 !!
•
•
•
이런 일련의 프로세스를 에피소드라 부른다.
에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만,
에피소드의 후반으로 갈 수록 정답률이 올라간다.
빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다.
기억
1 2
오답 !2
•
•
•
•
14
작업설정
“소수의 문제예를 본 것만으로 바로 인식이 가능”
하도록 학습시키자 !!
•
•
•
이런 일련의 프로세스를 에피소드라 부른다.
에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만,
에피소드의 후반으로 갈 수록 정답률이 올라간다.
빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다.
기억
2
•
•
•
•
15
작업설정
“소수의 문제예를 본 것만으로 바로 인식이 가능”
하도록 학습시키자 !!
•
•
•
이런 일련의 프로세스를 에피소드라 부른다.
에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만,
에피소드의 후반으로 갈 수록 정답률이 올라간다.
빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다.
기억
2
•
•
•
•
16
작업설정
“소수의 문제예를 본 것만으로 바로 인식이 가능”
하도록 학습시키자 !!
•
•
•
이런 일련의 프로세스를 에피소드라 부른다.
에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만,
에피소드의 후반으로 갈 수록 정답률이 올라간다.
빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다.
기억
•
•
•
•
17
3
2
작업설정
“소수의 문제예를 본 것만으로 바로 인식이 가능”
하도록 학습시키자 !!
•
•
•
이런 일련의 프로세스를 에피소드라 부른다.
에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만,
에피소드의 후반으로 갈 수록 정답률이 올라간다.
빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다.
기억
3 1
오답 !2
•
•
•
•
18
작업설정
“소수의 문제예를 본 것만으로 바로 인식이 가능”
하도록 학습시키자 !!
이런 일련의 프로세스를 에피소드라 부른다.
에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만,
에피소드의 후반으로 갈 수록 정답률이 올라간다.
빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다.
기억
3 1
오답 !2 1
•
•
•
•
19
작업설정
“소수의 문제예를 본 것만으로 바로 인식이 가능”
하도록 학습시키자 !!
•
•
•
이런 일련의 프로세스를 에피소드라 부른다.
에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만,
에피소드의 후반으로 갈 수록 정답률이 올라간다.
빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다.
기억
2 1
•
•
•
•
20
작업설정
“소수의 문제예를 본 것만으로 바로 인식이 가능”
하도록 학습시키자 !!
•
•
•
이런 일련의 프로세스를 에피소드라 부른다.
에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만,
에피소드의 후반으로 갈 수록 정답률이 올라간다.
빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다.
기억
2 1
•
•
•
•
21
작업설정
“소수의 문제예를 본 것만으로 바로 인식이 가능”
하도록 학습시키자 !!
•
•
•
이런 일련의 프로세스를 에피소드라 부른다.
에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만,
에피소드의 후반으로 갈 수록 정답률이 올라간다.
빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다.
기억
2 1
•
•
•
•
22
2
작업설정
“소수의 문제예를 본 것만으로 바로 인식이 가능”
하도록 학습시키자 !!
•
•
•
이런 일련의 프로세스를 에피소드라 부른다.
에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만,
에피소드의 후반으로 갈 수록 정답률이 올라간다.
빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다.
기억
2 2
정답 !2 1
•
•
•
•
23
작업설정
“소수의 문제예를 본 것만으로 바로 인식이 가능”
하도록 학습시키자 !!
•
•
•
이런 일련의 프로세스를 에피소드라 부른다.
에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만,
에피소드의 후반으로 갈 수록 정답률이 올라간다.
빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다.
기억
2 2
정답 !2 1
•
•
•
•
24
이하 50회 계속 ...
작업설정
“소수의 문제예를 본 것만으로 바로 인식이 가능”
하도록 학습시키자 !!
•
•
•
이런 일련의 프로세스를 에피소드라 부른다.
에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만,
에피소드의 후반으로 갈 수록 정답률이 올라간다.
빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다.
기억
엔피소드 작성법
1. 문자종류를 5개 선택하여、1~5까지 랜덤하게 섞는다.
2. 각 문자종류로부터 10개의 이미지를 선택한다.
3. 이러한 50개의 이미지를 랜덤하게 섞는다 :
1 episode
작업: 이미지 𝑥𝑡를보여주고、그번호(1~5)를 답하게한다.
직후에정답번호 𝑦𝑡 를보여준다.
25
...
학습과 테스트의 흐름
학습 시
테스트용 에피소드는 학습
에 사용하지 않은 것으로
테스트 시
대량의 에피소드로 학습
(문자를 분류하는 방법을 학습)
アいアいうアうえおお...アお
ああはイイういははあ...イう
らむららももあむよよ...よも
에피소드 길이 =50
26
ฆ ญฆ ฆช ฆ ... คกข…
1에피소드 중에 급격하게 정답률이 상승하면,
One-Shot Learning이 잘할 수 있게 되는 것
실험결과
MANN
(제안된 방법)
LSTM
(기준)
40000 에피소드 정도 학습하면、
2번째에서 80% 정도 정답률
27
• 학습방법은 MANN과 동일
• LSTM에서는 정답률이 좋지않음. 원인으로는
LSTM 셀은 과거의 데이터를 확실하게 기억
할 수 없기 때문이라고 생각된다
n-th instance = 각 라벨 문자 이미지를 n번째 볼때의 정답률
실험결과 (수치)
• Human: 인간이 이작업에 도전할 때의 성능
• Feedforward: 정답률은 1/5
28
실험결과 : 다른 방법과 비교
• Nearest-Neighbor 알고리즘보다도 MANN 쪽이 고성능
• 콘트롤러가 Feedforward인 MANN의 경우、 메모리는 기억
을 저장할 수 있다.
• LRUA(후술)이 없는 MANN (NTM)은 성능이 낮다.
29
MANN의 구조 : 개념도
( , (000100))
Memory
RReeaaddHHeeaadd
Write Head
Controller
LSTM
cell_size=200
(write weight의
계산방법은 후술)
𝒊i는 메모리 번지
30
Read Head
MANN의 구조 : 수식
• 읽기
kt 로부터 메모리에서
읽어내는 부분을 결정
(read weight)
i는 메모리 번지를 표시
• 쓰기 : 라벨과 이미지 쌍을 메모리에 저장한다.
write weight 계산
값 at를 write weight 에
따라 메모리에 쓰기
least used weight
최근에 사용되지 않은 메모리 영역을 나타내는
가중치 (후술)
31
MANN의 구조와 NTM과의 차이
• MANN 은 Least Recently Used Access (LRUA)의
기능이 있다 !!!
• MANN은 location-based addressing을 사용하지 않음.
used weight 의 계산
※ 정확히는 used weight이
작은 상위 m 개에서 값을
1로 한다
32
새로운 이미지의 정보는 아직 사용하지 않는 메모리 번지에 쓰고 싶다.
LRUA가 그것을 가능하게 하고있다. (LRUA가 없다면 안됀다)
관련논문 소개 : One-Shot Learning
• Matching Network [Vinyals2016]
• 본논문 ”Meta-Learning with Memory-Augmented Neural Network” 의 후속
• Omniglot 데이터셋 One-Shot Learning에서 MANN보다도 좋은 성능을 냄.
[Lake2012]
33
• Hierarchical Bayesian Program Learning
• 필기문자모델을 디자인하고 베이지안으로 학습
관련논문 소개 : Memory를 갖춘 Neural Network
34
Memory = 정보를 유지하여 나중에 꺼내는 일이 가능한 장치
Memory를 가진 장점
• 나중에 필요로 하는 정보를 안정적으로 보존가능
•
•
•
LSTM의 내부상태는 장기 보존용에 적합하지않음
복사작업 등 : [Ivo2016]
강화학습에서의 예 : [Junhyuk2016]
• 조합하고 싶은 정보를 “탁자 위에 배열하는” 것이 가능하다.
• QA 작업: [Sukhbaatar2016]
관련 논문 소개 : Memory를 가진 Neural Network
•
•
메모리에서 읽어들이는 방법과 메모리에 기록하는 방법을 모두 학습
메모리의 읽기/쓰기 attention은、Hard or Soft [Caglar2016]
• Memory Network [Weston2015, Sukhbaatar2016,Felix2016]
•
•
•
입력문을 메모리에 저장하여, 질문에 답하는데 필요한 부분을 추출入力
메모리에서 읽기는 attention (가중치)를 사용(Hard or Soft)
메모리에 쓸 내용 (embedding vector)는 학습
• 쓰는 방법은 학습하지않음
• Neural Turing Machine 계
입력문
입력문
질문
응답
질문
응답
メモリ部分
35
정리
36
• NTM를 응용하여、One-Shot Learning이 가능하다
• One-Shot Learning으로서 성능은 우수하나 최고는 아
니다.
• 이번에는 One-Shot Learning (Nearest-Neighbor적인
알고리즘)을 NTM으로 학습하였지만, 다른 작업에서도
유사한 아이디어를 사용하면
• 예로 active learning 등...
• 작업에 따라 、LRUA와 같은 기능을 생각할 필요가 있는 과제

More Related Content

What's hot

ConvNetの歴史とResNet亜種、ベストプラクティス
ConvNetの歴史とResNet亜種、ベストプラクティスConvNetの歴史とResNet亜種、ベストプラクティス
ConvNetの歴史とResNet亜種、ベストプラクティスYusuke Uchida
 
딥러닝 기본 원리의 이해
딥러닝 기본 원리의 이해딥러닝 기본 원리의 이해
딥러닝 기본 원리의 이해Hee Won Park
 
エッジ向けDeepLearningプロジェクトで必要なこと
エッジ向けDeepLearningプロジェクトで必要なことエッジ向けDeepLearningプロジェクトで必要なこと
エッジ向けDeepLearningプロジェクトで必要なことLeapMind Inc
 
[논문리뷰] Data Augmentation for 1D 시계열 데이터
[논문리뷰] Data Augmentation for 1D 시계열 데이터[논문리뷰] Data Augmentation for 1D 시계열 데이터
[논문리뷰] Data Augmentation for 1D 시계열 데이터Donghyeon Kim
 
Tutorial on Theory and Application of Generative Adversarial Networks
Tutorial on Theory and Application of Generative Adversarial NetworksTutorial on Theory and Application of Generative Adversarial Networks
Tutorial on Theory and Application of Generative Adversarial NetworksMLReview
 
PR-373: Revisiting ResNets: Improved Training and Scaling Strategies.
PR-373: Revisiting ResNets: Improved Training and Scaling Strategies.PR-373: Revisiting ResNets: Improved Training and Scaling Strategies.
PR-373: Revisiting ResNets: Improved Training and Scaling Strategies.Sunghoon Joo
 
機械学習 / Deep Learning 大全 (1) 機械学習基礎編
機械学習 / Deep Learning 大全 (1) 機械学習基礎編機械学習 / Deep Learning 大全 (1) 機械学習基礎編
機械学習 / Deep Learning 大全 (1) 機械学習基礎編Daiyu Hatakeyama
 
인공지능 방법론 - Deep Learning 쉽게 이해하기
인공지능 방법론 - Deep Learning 쉽게 이해하기인공지능 방법론 - Deep Learning 쉽게 이해하기
인공지능 방법론 - Deep Learning 쉽게 이해하기Byoung-Hee Kim
 
Introduction to Deep learning
Introduction to Deep learningIntroduction to Deep learning
Introduction to Deep learningleopauly
 
Deep Learning & Convolutional Neural Network
Deep Learning & Convolutional Neural NetworkDeep Learning & Convolutional Neural Network
Deep Learning & Convolutional Neural Networkagdatalab
 
내가 이해하는 SVM(왜, 어떻게를 중심으로)
내가 이해하는 SVM(왜, 어떻게를 중심으로)내가 이해하는 SVM(왜, 어떻게를 중심으로)
내가 이해하는 SVM(왜, 어떻게를 중심으로)SANG WON PARK
 
文献紹介:Image Segmentation Using Deep Learning: A Survey
文献紹介:Image Segmentation Using Deep Learning: A Survey文献紹介:Image Segmentation Using Deep Learning: A Survey
文献紹介:Image Segmentation Using Deep Learning: A SurveyToru Tamaki
 
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with TransformersDeep Learning JP
 
Video Transformers.pptx
Video Transformers.pptxVideo Transformers.pptx
Video Transformers.pptxSangmin Woo
 
12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf幸太朗 岩澤
 
Recurrent Neural Net의 이론과 설명
Recurrent Neural Net의 이론과 설명Recurrent Neural Net의 이론과 설명
Recurrent Neural Net의 이론과 설명홍배 김
 
[DL輪読会]Understanding deep learning requires rethinking generalization
[DL輪読会]Understanding deep learning requires rethinking generalization[DL輪読会]Understanding deep learning requires rethinking generalization
[DL輪読会]Understanding deep learning requires rethinking generalizationDeep Learning JP
 

What's hot (20)

ConvNetの歴史とResNet亜種、ベストプラクティス
ConvNetの歴史とResNet亜種、ベストプラクティスConvNetの歴史とResNet亜種、ベストプラクティス
ConvNetの歴史とResNet亜種、ベストプラクティス
 
continual learning survey
continual learning surveycontinual learning survey
continual learning survey
 
딥러닝 기본 원리의 이해
딥러닝 기본 원리의 이해딥러닝 기본 원리의 이해
딥러닝 기본 원리의 이해
 
エッジ向けDeepLearningプロジェクトで必要なこと
エッジ向けDeepLearningプロジェクトで必要なことエッジ向けDeepLearningプロジェクトで必要なこと
エッジ向けDeepLearningプロジェクトで必要なこと
 
[논문리뷰] Data Augmentation for 1D 시계열 데이터
[논문리뷰] Data Augmentation for 1D 시계열 데이터[논문리뷰] Data Augmentation for 1D 시계열 데이터
[논문리뷰] Data Augmentation for 1D 시계열 데이터
 
RNN-LSTM.pptx
RNN-LSTM.pptxRNN-LSTM.pptx
RNN-LSTM.pptx
 
Tutorial on Theory and Application of Generative Adversarial Networks
Tutorial on Theory and Application of Generative Adversarial NetworksTutorial on Theory and Application of Generative Adversarial Networks
Tutorial on Theory and Application of Generative Adversarial Networks
 
PR-373: Revisiting ResNets: Improved Training and Scaling Strategies.
PR-373: Revisiting ResNets: Improved Training and Scaling Strategies.PR-373: Revisiting ResNets: Improved Training and Scaling Strategies.
PR-373: Revisiting ResNets: Improved Training and Scaling Strategies.
 
機械学習 / Deep Learning 大全 (1) 機械学習基礎編
機械学習 / Deep Learning 大全 (1) 機械学習基礎編機械学習 / Deep Learning 大全 (1) 機械学習基礎編
機械学習 / Deep Learning 大全 (1) 機械学習基礎編
 
인공지능 방법론 - Deep Learning 쉽게 이해하기
인공지능 방법론 - Deep Learning 쉽게 이해하기인공지능 방법론 - Deep Learning 쉽게 이해하기
인공지능 방법론 - Deep Learning 쉽게 이해하기
 
Introduction to Deep learning
Introduction to Deep learningIntroduction to Deep learning
Introduction to Deep learning
 
Deep Learning & Convolutional Neural Network
Deep Learning & Convolutional Neural NetworkDeep Learning & Convolutional Neural Network
Deep Learning & Convolutional Neural Network
 
내가 이해하는 SVM(왜, 어떻게를 중심으로)
내가 이해하는 SVM(왜, 어떻게를 중심으로)내가 이해하는 SVM(왜, 어떻게를 중심으로)
내가 이해하는 SVM(왜, 어떻게를 중심으로)
 
文献紹介:Image Segmentation Using Deep Learning: A Survey
文献紹介:Image Segmentation Using Deep Learning: A Survey文献紹介:Image Segmentation Using Deep Learning: A Survey
文献紹介:Image Segmentation Using Deep Learning: A Survey
 
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
 
[DL輪読会]World Models
[DL輪読会]World Models[DL輪読会]World Models
[DL輪読会]World Models
 
Video Transformers.pptx
Video Transformers.pptxVideo Transformers.pptx
Video Transformers.pptx
 
12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf
 
Recurrent Neural Net의 이론과 설명
Recurrent Neural Net의 이론과 설명Recurrent Neural Net의 이론과 설명
Recurrent Neural Net의 이론과 설명
 
[DL輪読会]Understanding deep learning requires rethinking generalization
[DL輪読会]Understanding deep learning requires rethinking generalization[DL輪読会]Understanding deep learning requires rethinking generalization
[DL輪読会]Understanding deep learning requires rethinking generalization
 

Viewers also liked

Learning to remember rare events
Learning to remember rare eventsLearning to remember rare events
Learning to remember rare events홍배 김
 
Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...
Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...
Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...홍배 김
 
Visualizing data using t-SNE
Visualizing data using t-SNEVisualizing data using t-SNE
Visualizing data using t-SNE홍배 김
 
Normalization 방법
Normalization 방법 Normalization 방법
Normalization 방법 홍배 김
 
MNIST for ML beginners
MNIST for ML beginnersMNIST for ML beginners
MNIST for ML beginners홍배 김
 
Convolution 종류 설명
Convolution 종류 설명Convolution 종류 설명
Convolution 종류 설명홍배 김
 
Binarized CNN on FPGA
Binarized CNN on FPGABinarized CNN on FPGA
Binarized CNN on FPGA홍배 김
 
Learning by association
Learning by associationLearning by association
Learning by association홍배 김
 
알기쉬운 Variational autoencoder
알기쉬운 Variational autoencoder알기쉬운 Variational autoencoder
알기쉬운 Variational autoencoder홍배 김
 
Explanation on Tensorflow example -Deep mnist for expert
Explanation on Tensorflow example -Deep mnist for expertExplanation on Tensorflow example -Deep mnist for expert
Explanation on Tensorflow example -Deep mnist for expert홍배 김
 
A neural image caption generator
A neural image caption generatorA neural image caption generator
A neural image caption generator홍배 김
 
Single Shot MultiBox Detector와 Recurrent Instance Segmentation
Single Shot MultiBox Detector와 Recurrent Instance SegmentationSingle Shot MultiBox Detector와 Recurrent Instance Segmentation
Single Shot MultiBox Detector와 Recurrent Instance Segmentation홍배 김
 
Focal loss의 응용(Detection & Classification)
Focal loss의 응용(Detection & Classification)Focal loss의 응용(Detection & Classification)
Focal loss의 응용(Detection & Classification)홍배 김
 
딥러닝을 이용한 자연어처리의 연구동향
딥러닝을 이용한 자연어처리의 연구동향딥러닝을 이용한 자연어처리의 연구동향
딥러닝을 이용한 자연어처리의 연구동향홍배 김
 
머신러닝의 자연어 처리기술(I)
머신러닝의 자연어 처리기술(I)머신러닝의 자연어 처리기술(I)
머신러닝의 자연어 처리기술(I)홍배 김
 
Q Learning과 CNN을 이용한 Object Localization
Q Learning과 CNN을 이용한 Object LocalizationQ Learning과 CNN을 이용한 Object Localization
Q Learning과 CNN을 이용한 Object Localization홍배 김
 

Viewers also liked (16)

Learning to remember rare events
Learning to remember rare eventsLearning to remember rare events
Learning to remember rare events
 
Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...
Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...
Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...
 
Visualizing data using t-SNE
Visualizing data using t-SNEVisualizing data using t-SNE
Visualizing data using t-SNE
 
Normalization 방법
Normalization 방법 Normalization 방법
Normalization 방법
 
MNIST for ML beginners
MNIST for ML beginnersMNIST for ML beginners
MNIST for ML beginners
 
Convolution 종류 설명
Convolution 종류 설명Convolution 종류 설명
Convolution 종류 설명
 
Binarized CNN on FPGA
Binarized CNN on FPGABinarized CNN on FPGA
Binarized CNN on FPGA
 
Learning by association
Learning by associationLearning by association
Learning by association
 
알기쉬운 Variational autoencoder
알기쉬운 Variational autoencoder알기쉬운 Variational autoencoder
알기쉬운 Variational autoencoder
 
Explanation on Tensorflow example -Deep mnist for expert
Explanation on Tensorflow example -Deep mnist for expertExplanation on Tensorflow example -Deep mnist for expert
Explanation on Tensorflow example -Deep mnist for expert
 
A neural image caption generator
A neural image caption generatorA neural image caption generator
A neural image caption generator
 
Single Shot MultiBox Detector와 Recurrent Instance Segmentation
Single Shot MultiBox Detector와 Recurrent Instance SegmentationSingle Shot MultiBox Detector와 Recurrent Instance Segmentation
Single Shot MultiBox Detector와 Recurrent Instance Segmentation
 
Focal loss의 응용(Detection & Classification)
Focal loss의 응용(Detection & Classification)Focal loss의 응용(Detection & Classification)
Focal loss의 응용(Detection & Classification)
 
딥러닝을 이용한 자연어처리의 연구동향
딥러닝을 이용한 자연어처리의 연구동향딥러닝을 이용한 자연어처리의 연구동향
딥러닝을 이용한 자연어처리의 연구동향
 
머신러닝의 자연어 처리기술(I)
머신러닝의 자연어 처리기술(I)머신러닝의 자연어 처리기술(I)
머신러닝의 자연어 처리기술(I)
 
Q Learning과 CNN을 이용한 Object Localization
Q Learning과 CNN을 이용한 Object LocalizationQ Learning과 CNN을 이용한 Object Localization
Q Learning과 CNN을 이용한 Object Localization
 

Similar to Meta-Learning with Memory Augmented Neural Networks

초보자를 위한 시스템 해킹 공부 가이드라인
초보자를 위한 시스템 해킹 공부 가이드라인초보자를 위한 시스템 해킹 공부 가이드라인
초보자를 위한 시스템 해킹 공부 가이드라인H4C
 
시스템 보안에 대해 최종본
시스템 보안에 대해   최종본시스템 보안에 대해   최종본
시스템 보안에 대해 최종본승표 홍
 
Nationality recognition
Nationality recognitionNationality recognition
Nationality recognition준영 박
 
텐서플로우로 배우는 딥러닝
텐서플로우로 배우는 딥러닝텐서플로우로 배우는 딥러닝
텐서플로우로 배우는 딥러닝찬웅 주
 
Deep neural networks cnn rnn_ae_some practical techniques
Deep neural networks cnn rnn_ae_some practical techniquesDeep neural networks cnn rnn_ae_some practical techniques
Deep neural networks cnn rnn_ae_some practical techniquesKang Pilsung
 
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016Taehoon Kim
 
언플러그드 활동의 이론과 실제(Unplugged Activity / Computing)
언플러그드 활동의 이론과 실제(Unplugged Activity / Computing)언플러그드 활동의 이론과 실제(Unplugged Activity / Computing)
언플러그드 활동의 이론과 실제(Unplugged Activity / Computing)Sangsu Song
 
Chapter 15 Representation learning - 1
Chapter 15 Representation learning - 1Chapter 15 Representation learning - 1
Chapter 15 Representation learning - 1KyeongUkJang
 
EveryBody Tensorflow module2 GIST Jan 2018 Korean
EveryBody Tensorflow module2 GIST Jan 2018 KoreanEveryBody Tensorflow module2 GIST Jan 2018 Korean
EveryBody Tensorflow module2 GIST Jan 2018 KoreanJaewook. Kang
 
세미나
세미나세미나
세미나Dongyi Kim
 
알고리즘 문제해결전략 #1
알고리즘 문제해결전략 #1알고리즘 문제해결전략 #1
알고리즘 문제해결전략 #1Byeongsu Kang
 
NDC 2016 김정주 - 기계학습을 활용한 게임어뷰징 검출
NDC 2016 김정주 - 기계학습을 활용한 게임어뷰징 검출 NDC 2016 김정주 - 기계학습을 활용한 게임어뷰징 검출
NDC 2016 김정주 - 기계학습을 활용한 게임어뷰징 검출 정주 김
 
두 번째 startlink.live: 박성원 (ntopia) - PS가 이렇게 해롭습니다. 여러분!
두 번째 startlink.live: 박성원 (ntopia) - PS가 이렇게 해롭습니다. 여러분!두 번째 startlink.live: 박성원 (ntopia) - PS가 이렇게 해롭습니다. 여러분!
두 번째 startlink.live: 박성원 (ntopia) - PS가 이렇게 해롭습니다. 여러분!Startlink
 
요람(CreateProcess)에서 무덤(ResumeThread)까지
요람(CreateProcess)에서 무덤(ResumeThread)까지요람(CreateProcess)에서 무덤(ResumeThread)까지
요람(CreateProcess)에서 무덤(ResumeThread)까지Hyoje Jo
 
Alpha Go Introduction
Alpha Go IntroductionAlpha Go Introduction
Alpha Go IntroductionIldoo Kim
 
알아두면 쓸데있는 신비한 딥러닝 이야기
알아두면 쓸데있는 신비한 딥러닝 이야기알아두면 쓸데있는 신비한 딥러닝 이야기
알아두면 쓸데있는 신비한 딥러닝 이야기Kwangsik Lee
 
프로그래머의 뇌
프로그래머의 뇌프로그래머의 뇌
프로그래머의 뇌규영 허
 
질문법과 구글링
질문법과 구글링질문법과 구글링
질문법과 구글링JinYeong Bak
 
인공지능, 기계학습 그리고 딥러닝
인공지능, 기계학습 그리고 딥러닝인공지능, 기계학습 그리고 딥러닝
인공지능, 기계학습 그리고 딥러닝Jinwon Lee
 
밑바닥부터시작하는딥러닝 Ch2
밑바닥부터시작하는딥러닝 Ch2밑바닥부터시작하는딥러닝 Ch2
밑바닥부터시작하는딥러닝 Ch2HyeonSeok Choi
 

Similar to Meta-Learning with Memory Augmented Neural Networks (20)

초보자를 위한 시스템 해킹 공부 가이드라인
초보자를 위한 시스템 해킹 공부 가이드라인초보자를 위한 시스템 해킹 공부 가이드라인
초보자를 위한 시스템 해킹 공부 가이드라인
 
시스템 보안에 대해 최종본
시스템 보안에 대해   최종본시스템 보안에 대해   최종본
시스템 보안에 대해 최종본
 
Nationality recognition
Nationality recognitionNationality recognition
Nationality recognition
 
텐서플로우로 배우는 딥러닝
텐서플로우로 배우는 딥러닝텐서플로우로 배우는 딥러닝
텐서플로우로 배우는 딥러닝
 
Deep neural networks cnn rnn_ae_some practical techniques
Deep neural networks cnn rnn_ae_some practical techniquesDeep neural networks cnn rnn_ae_some practical techniques
Deep neural networks cnn rnn_ae_some practical techniques
 
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
 
언플러그드 활동의 이론과 실제(Unplugged Activity / Computing)
언플러그드 활동의 이론과 실제(Unplugged Activity / Computing)언플러그드 활동의 이론과 실제(Unplugged Activity / Computing)
언플러그드 활동의 이론과 실제(Unplugged Activity / Computing)
 
Chapter 15 Representation learning - 1
Chapter 15 Representation learning - 1Chapter 15 Representation learning - 1
Chapter 15 Representation learning - 1
 
EveryBody Tensorflow module2 GIST Jan 2018 Korean
EveryBody Tensorflow module2 GIST Jan 2018 KoreanEveryBody Tensorflow module2 GIST Jan 2018 Korean
EveryBody Tensorflow module2 GIST Jan 2018 Korean
 
세미나
세미나세미나
세미나
 
알고리즘 문제해결전략 #1
알고리즘 문제해결전략 #1알고리즘 문제해결전략 #1
알고리즘 문제해결전략 #1
 
NDC 2016 김정주 - 기계학습을 활용한 게임어뷰징 검출
NDC 2016 김정주 - 기계학습을 활용한 게임어뷰징 검출 NDC 2016 김정주 - 기계학습을 활용한 게임어뷰징 검출
NDC 2016 김정주 - 기계학습을 활용한 게임어뷰징 검출
 
두 번째 startlink.live: 박성원 (ntopia) - PS가 이렇게 해롭습니다. 여러분!
두 번째 startlink.live: 박성원 (ntopia) - PS가 이렇게 해롭습니다. 여러분!두 번째 startlink.live: 박성원 (ntopia) - PS가 이렇게 해롭습니다. 여러분!
두 번째 startlink.live: 박성원 (ntopia) - PS가 이렇게 해롭습니다. 여러분!
 
요람(CreateProcess)에서 무덤(ResumeThread)까지
요람(CreateProcess)에서 무덤(ResumeThread)까지요람(CreateProcess)에서 무덤(ResumeThread)까지
요람(CreateProcess)에서 무덤(ResumeThread)까지
 
Alpha Go Introduction
Alpha Go IntroductionAlpha Go Introduction
Alpha Go Introduction
 
알아두면 쓸데있는 신비한 딥러닝 이야기
알아두면 쓸데있는 신비한 딥러닝 이야기알아두면 쓸데있는 신비한 딥러닝 이야기
알아두면 쓸데있는 신비한 딥러닝 이야기
 
프로그래머의 뇌
프로그래머의 뇌프로그래머의 뇌
프로그래머의 뇌
 
질문법과 구글링
질문법과 구글링질문법과 구글링
질문법과 구글링
 
인공지능, 기계학습 그리고 딥러닝
인공지능, 기계학습 그리고 딥러닝인공지능, 기계학습 그리고 딥러닝
인공지능, 기계학습 그리고 딥러닝
 
밑바닥부터시작하는딥러닝 Ch2
밑바닥부터시작하는딥러닝 Ch2밑바닥부터시작하는딥러닝 Ch2
밑바닥부터시작하는딥러닝 Ch2
 

More from 홍배 김

Automatic Gain Tuning based on Gaussian Process Global Optimization (= Bayesi...
Automatic Gain Tuning based on Gaussian Process Global Optimization (= Bayesi...Automatic Gain Tuning based on Gaussian Process Global Optimization (= Bayesi...
Automatic Gain Tuning based on Gaussian Process Global Optimization (= Bayesi...홍배 김
 
Gaussian processing
Gaussian processingGaussian processing
Gaussian processing홍배 김
 
Lecture Summary : Camera Projection
Lecture Summary : Camera Projection Lecture Summary : Camera Projection
Lecture Summary : Camera Projection 홍배 김
 
Learning agile and dynamic motor skills for legged robots
Learning agile and dynamic motor skills for legged robotsLearning agile and dynamic motor skills for legged robots
Learning agile and dynamic motor skills for legged robots홍배 김
 
Robotics of Quadruped Robot
Robotics of Quadruped RobotRobotics of Quadruped Robot
Robotics of Quadruped Robot홍배 김
 
Basics of Robotics
Basics of RoboticsBasics of Robotics
Basics of Robotics홍배 김
 
Convolutional neural networks 이론과 응용
Convolutional neural networks 이론과 응용Convolutional neural networks 이론과 응용
Convolutional neural networks 이론과 응용홍배 김
 
Anomaly detection using deep one class classifier
Anomaly detection using deep one class classifierAnomaly detection using deep one class classifier
Anomaly detection using deep one class classifier홍배 김
 
Optimal real-time landing using DNN
Optimal real-time landing using DNNOptimal real-time landing using DNN
Optimal real-time landing using DNN홍배 김
 
The world of loss function
The world of loss functionThe world of loss function
The world of loss function홍배 김
 
Machine learning applications in aerospace domain
Machine learning applications in aerospace domainMachine learning applications in aerospace domain
Machine learning applications in aerospace domain홍배 김
 
Anomaly Detection and Localization Using GAN and One-Class Classifier
Anomaly Detection and Localization  Using GAN and One-Class ClassifierAnomaly Detection and Localization  Using GAN and One-Class Classifier
Anomaly Detection and Localization Using GAN and One-Class Classifier홍배 김
 
ARCHITECTURAL CONDITIONING FOR DISENTANGLEMENT OF OBJECT IDENTITY AND POSTURE...
ARCHITECTURAL CONDITIONING FOR DISENTANGLEMENT OF OBJECT IDENTITY AND POSTURE...ARCHITECTURAL CONDITIONING FOR DISENTANGLEMENT OF OBJECT IDENTITY AND POSTURE...
ARCHITECTURAL CONDITIONING FOR DISENTANGLEMENT OF OBJECT IDENTITY AND POSTURE...홍배 김
 
Brief intro : Invariance and Equivariance
Brief intro : Invariance and EquivarianceBrief intro : Invariance and Equivariance
Brief intro : Invariance and Equivariance홍배 김
 
Anomaly Detection with GANs
Anomaly Detection with GANsAnomaly Detection with GANs
Anomaly Detection with GANs홍배 김
 

More from 홍배 김 (15)

Automatic Gain Tuning based on Gaussian Process Global Optimization (= Bayesi...
Automatic Gain Tuning based on Gaussian Process Global Optimization (= Bayesi...Automatic Gain Tuning based on Gaussian Process Global Optimization (= Bayesi...
Automatic Gain Tuning based on Gaussian Process Global Optimization (= Bayesi...
 
Gaussian processing
Gaussian processingGaussian processing
Gaussian processing
 
Lecture Summary : Camera Projection
Lecture Summary : Camera Projection Lecture Summary : Camera Projection
Lecture Summary : Camera Projection
 
Learning agile and dynamic motor skills for legged robots
Learning agile and dynamic motor skills for legged robotsLearning agile and dynamic motor skills for legged robots
Learning agile and dynamic motor skills for legged robots
 
Robotics of Quadruped Robot
Robotics of Quadruped RobotRobotics of Quadruped Robot
Robotics of Quadruped Robot
 
Basics of Robotics
Basics of RoboticsBasics of Robotics
Basics of Robotics
 
Convolutional neural networks 이론과 응용
Convolutional neural networks 이론과 응용Convolutional neural networks 이론과 응용
Convolutional neural networks 이론과 응용
 
Anomaly detection using deep one class classifier
Anomaly detection using deep one class classifierAnomaly detection using deep one class classifier
Anomaly detection using deep one class classifier
 
Optimal real-time landing using DNN
Optimal real-time landing using DNNOptimal real-time landing using DNN
Optimal real-time landing using DNN
 
The world of loss function
The world of loss functionThe world of loss function
The world of loss function
 
Machine learning applications in aerospace domain
Machine learning applications in aerospace domainMachine learning applications in aerospace domain
Machine learning applications in aerospace domain
 
Anomaly Detection and Localization Using GAN and One-Class Classifier
Anomaly Detection and Localization  Using GAN and One-Class ClassifierAnomaly Detection and Localization  Using GAN and One-Class Classifier
Anomaly Detection and Localization Using GAN and One-Class Classifier
 
ARCHITECTURAL CONDITIONING FOR DISENTANGLEMENT OF OBJECT IDENTITY AND POSTURE...
ARCHITECTURAL CONDITIONING FOR DISENTANGLEMENT OF OBJECT IDENTITY AND POSTURE...ARCHITECTURAL CONDITIONING FOR DISENTANGLEMENT OF OBJECT IDENTITY AND POSTURE...
ARCHITECTURAL CONDITIONING FOR DISENTANGLEMENT OF OBJECT IDENTITY AND POSTURE...
 
Brief intro : Invariance and Equivariance
Brief intro : Invariance and EquivarianceBrief intro : Invariance and Equivariance
Brief intro : Invariance and Equivariance
 
Anomaly Detection with GANs
Anomaly Detection with GANsAnomaly Detection with GANs
Anomaly Detection with GANs
 

Recently uploaded

Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...Kim Daeun
 
A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)Tae Young Lee
 
캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차캐드앤그래픽스
 
Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)Wonjun Hwang
 
Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)Wonjun Hwang
 
MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution DetectionMOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution DetectionKim Daeun
 

Recently uploaded (6)

Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
 
A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)
 
캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차
 
Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)
 
Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)
 
MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution DetectionMOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
 

Meta-Learning with Memory Augmented Neural Networks

  • 1. 설명자료 작성 Watanabe yusuke 번역 김홍배 Meta-Learning with Memory- Augmented Neural Networks 논문저자 : Adam Santoro, Sergey Bartunov, Matthew Botvinick, Daan Wierstra, Timothy Lillicrap Google DeepMind
  • 2. 논문을 한마디로 정리하면 2 Neural Turing Machine 을 One-Shot Learning 에 응용해 봄
  • 3. Neural Turing Machine (NTM) 란 [Graves+2014] • NTM이란、외부기억장치(메모리)와 읽기/쓰기 기능을 갖춘 Neural Network • 복사 및 분류등과 같은 알고리즘을 학습하는 것이 가능 • Neural Network 이므로 Back Propagation 으로 학습 가능 Controller MemoryRead Head Write Head input 3 output NTM 메모리와 읽기/쓰기 기능도 포함하여 전체가 Neural Network !
  • 4. 예 : NTM으로 계열 2배 복사 작업의 학습 입력계열 출력계열 0100 NTM 01000100 011 011011 110111 110111110111 10010 1001010010 학습시 4 입력계열을 2배로 복사한 계열로 만듬 입력계열과 출력계열을 학습 데이터로 NTM을 학습시키는 것이 가능
  • 5. NTM 입력계열 출력계열 010111000 01011100001 0111000 controller NTM은 들어온 계열을 차례로 메모리 에 써넣고 그것을 2회에 걸쳐 차례로 읽어낸다. 010111000010111000 5 테스트 시 010111000 010111000 예 : NTM으로 계열 2배 복사 작업의 학습
  • 6. One-Shot Learning 란 ? 일반적인 NN의 학습 1개(또는 소수)의 예를 보여준 것만으로도 인식할 수 있도록 하도 싶다 One-Shot Learning 한번만 봐도 기억 (인간처럼!!) 6 ... 많은 학습 데이터가 필요
  • 7. One-Shot Learning 방법 : NN algorithm 학습 시 테스트 시 トリナクリ ア 토리나쿠리아! 학습 데이터의 이미지 전체를 기억한다. 기억 중에서 가장 가까 운 이미지를 답한다. 이 접근법의 과제 • 이미지의 유사도는 어떻게 측정하면 좋을까 ? • Nearest-Neighbor 알고리즘은 최적일까 ? ⇒ NTM을 사용하여、Nearest-Neighbor알고리즘 (보다 좋은 알고리즘) 을 공부해보자 ! ピザ 弥勒菩薩 7
  • 8. 논문개요 • Neural Turing Machine (NTM) 을 개조한 Memory- Augmented Neural Network (MANN)을 제안 • One-Shot Learning 을 MANN 으로 수행 • Omniglot 데이터셋으로 평가 시 고성능을 달성 8
  • 9. Ominglot 데이터 셋이란 • 다양한 문자종류로 이루어진 이미지 데이터 셋 • 문자는 1623종류, 각 문자 이미지는 20개 • 우선 학습용과 테스트용으로 문자종류를 나눈다. • 1200문자종류를 학습으로, 423문자종류를 테스트로 사용 9
  • 10. 작업설정 “소수의 문제예를 본 것만으로 바로 인식이 가능” 하도록 학습시키자 !! • • • 이런 일련의 프로세스를 에피소드라 부른다. 에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만, 에피소드의 후반으로 갈 수록 정답률이 올라간다. • 빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다. 10 기억
  • 11. 11 작업설정 “소수의 문제예를 본 것만으로 바로 인식이 가능” 하도록 학습시키자 !! • • • 이런 일련의 프로세스를 에피소드라 부른다. 에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만, 에피소드의 후반으로 갈 수록 정답률이 올라간다. 빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다. 기억
  • 12. • • • • 12 1 작업설정 “소수의 문제예를 본 것만으로 바로 인식이 가능” 하도록 학습시키자 !! • • • 이런 일련의 프로세스를 에피소드라 부른다. 에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만, 에피소드의 후반으로 갈 수록 정답률이 올라간다. 빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다. 기억
  • 13. 1 2 오답 ! • • • • 13 작업설정 “소수의 문제예를 본 것만으로 바로 인식이 가능” 하도록 학습시키자 !! • • • 이런 일련의 프로세스를 에피소드라 부른다. 에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만, 에피소드의 후반으로 갈 수록 정답률이 올라간다. 빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다. 기억
  • 14. 1 2 오답 !2 • • • • 14 작업설정 “소수의 문제예를 본 것만으로 바로 인식이 가능” 하도록 학습시키자 !! • • • 이런 일련의 프로세스를 에피소드라 부른다. 에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만, 에피소드의 후반으로 갈 수록 정답률이 올라간다. 빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다. 기억
  • 15. 2 • • • • 15 작업설정 “소수의 문제예를 본 것만으로 바로 인식이 가능” 하도록 학습시키자 !! • • • 이런 일련의 프로세스를 에피소드라 부른다. 에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만, 에피소드의 후반으로 갈 수록 정답률이 올라간다. 빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다. 기억
  • 16. 2 • • • • 16 작업설정 “소수의 문제예를 본 것만으로 바로 인식이 가능” 하도록 학습시키자 !! • • • 이런 일련의 프로세스를 에피소드라 부른다. 에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만, 에피소드의 후반으로 갈 수록 정답률이 올라간다. 빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다. 기억
  • 17. • • • • 17 3 2 작업설정 “소수의 문제예를 본 것만으로 바로 인식이 가능” 하도록 학습시키자 !! • • • 이런 일련의 프로세스를 에피소드라 부른다. 에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만, 에피소드의 후반으로 갈 수록 정답률이 올라간다. 빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다. 기억
  • 18. 3 1 오답 !2 • • • • 18 작업설정 “소수의 문제예를 본 것만으로 바로 인식이 가능” 하도록 학습시키자 !! 이런 일련의 프로세스를 에피소드라 부른다. 에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만, 에피소드의 후반으로 갈 수록 정답률이 올라간다. 빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다. 기억
  • 19. 3 1 오답 !2 1 • • • • 19 작업설정 “소수의 문제예를 본 것만으로 바로 인식이 가능” 하도록 학습시키자 !! • • • 이런 일련의 프로세스를 에피소드라 부른다. 에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만, 에피소드의 후반으로 갈 수록 정답률이 올라간다. 빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다. 기억
  • 20. 2 1 • • • • 20 작업설정 “소수의 문제예를 본 것만으로 바로 인식이 가능” 하도록 학습시키자 !! • • • 이런 일련의 프로세스를 에피소드라 부른다. 에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만, 에피소드의 후반으로 갈 수록 정답률이 올라간다. 빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다. 기억
  • 21. 2 1 • • • • 21 작업설정 “소수의 문제예를 본 것만으로 바로 인식이 가능” 하도록 학습시키자 !! • • • 이런 일련의 프로세스를 에피소드라 부른다. 에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만, 에피소드의 후반으로 갈 수록 정답률이 올라간다. 빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다. 기억
  • 22. 2 1 • • • • 22 2 작업설정 “소수의 문제예를 본 것만으로 바로 인식이 가능” 하도록 학습시키자 !! • • • 이런 일련의 프로세스를 에피소드라 부른다. 에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만, 에피소드의 후반으로 갈 수록 정답률이 올라간다. 빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다. 기억
  • 23. 2 2 정답 !2 1 • • • • 23 작업설정 “소수의 문제예를 본 것만으로 바로 인식이 가능” 하도록 학습시키자 !! • • • 이런 일련의 프로세스를 에피소드라 부른다. 에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만, 에피소드의 후반으로 갈 수록 정답률이 올라간다. 빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다. 기억
  • 24. 2 2 정답 !2 1 • • • • 24 이하 50회 계속 ... 작업설정 “소수의 문제예를 본 것만으로 바로 인식이 가능” 하도록 학습시키자 !! • • • 이런 일련의 프로세스를 에피소드라 부른다. 에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만, 에피소드의 후반으로 갈 수록 정답률이 올라간다. 빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다. 기억
  • 25. 엔피소드 작성법 1. 문자종류를 5개 선택하여、1~5까지 랜덤하게 섞는다. 2. 각 문자종류로부터 10개의 이미지를 선택한다. 3. 이러한 50개의 이미지를 랜덤하게 섞는다 : 1 episode 작업: 이미지 𝑥𝑡를보여주고、그번호(1~5)를 답하게한다. 직후에정답번호 𝑦𝑡 를보여준다. 25 ...
  • 26. 학습과 테스트의 흐름 학습 시 테스트용 에피소드는 학습 에 사용하지 않은 것으로 테스트 시 대량의 에피소드로 학습 (문자를 분류하는 방법을 학습) アいアいうアうえおお...アお ああはイイういははあ...イう らむららももあむよよ...よも 에피소드 길이 =50 26 ฆ ญฆ ฆช ฆ ... คกข… 1에피소드 중에 급격하게 정답률이 상승하면, One-Shot Learning이 잘할 수 있게 되는 것
  • 27. 실험결과 MANN (제안된 방법) LSTM (기준) 40000 에피소드 정도 학습하면、 2번째에서 80% 정도 정답률 27 • 학습방법은 MANN과 동일 • LSTM에서는 정답률이 좋지않음. 원인으로는 LSTM 셀은 과거의 데이터를 확실하게 기억 할 수 없기 때문이라고 생각된다 n-th instance = 각 라벨 문자 이미지를 n번째 볼때의 정답률
  • 28. 실험결과 (수치) • Human: 인간이 이작업에 도전할 때의 성능 • Feedforward: 정답률은 1/5 28
  • 29. 실험결과 : 다른 방법과 비교 • Nearest-Neighbor 알고리즘보다도 MANN 쪽이 고성능 • 콘트롤러가 Feedforward인 MANN의 경우、 메모리는 기억 을 저장할 수 있다. • LRUA(후술)이 없는 MANN (NTM)은 성능이 낮다. 29
  • 30. MANN의 구조 : 개념도 ( , (000100)) Memory RReeaaddHHeeaadd Write Head Controller LSTM cell_size=200 (write weight의 계산방법은 후술) 𝒊i는 메모리 번지 30 Read Head
  • 31. MANN의 구조 : 수식 • 읽기 kt 로부터 메모리에서 읽어내는 부분을 결정 (read weight) i는 메모리 번지를 표시 • 쓰기 : 라벨과 이미지 쌍을 메모리에 저장한다. write weight 계산 값 at를 write weight 에 따라 메모리에 쓰기 least used weight 최근에 사용되지 않은 메모리 영역을 나타내는 가중치 (후술) 31
  • 32. MANN의 구조와 NTM과의 차이 • MANN 은 Least Recently Used Access (LRUA)의 기능이 있다 !!! • MANN은 location-based addressing을 사용하지 않음. used weight 의 계산 ※ 정확히는 used weight이 작은 상위 m 개에서 값을 1로 한다 32 새로운 이미지의 정보는 아직 사용하지 않는 메모리 번지에 쓰고 싶다. LRUA가 그것을 가능하게 하고있다. (LRUA가 없다면 안됀다)
  • 33. 관련논문 소개 : One-Shot Learning • Matching Network [Vinyals2016] • 본논문 ”Meta-Learning with Memory-Augmented Neural Network” 의 후속 • Omniglot 데이터셋 One-Shot Learning에서 MANN보다도 좋은 성능을 냄. [Lake2012] 33 • Hierarchical Bayesian Program Learning • 필기문자모델을 디자인하고 베이지안으로 학습
  • 34. 관련논문 소개 : Memory를 갖춘 Neural Network 34 Memory = 정보를 유지하여 나중에 꺼내는 일이 가능한 장치 Memory를 가진 장점 • 나중에 필요로 하는 정보를 안정적으로 보존가능 • • • LSTM의 내부상태는 장기 보존용에 적합하지않음 복사작업 등 : [Ivo2016] 강화학습에서의 예 : [Junhyuk2016] • 조합하고 싶은 정보를 “탁자 위에 배열하는” 것이 가능하다. • QA 작업: [Sukhbaatar2016]
  • 35. 관련 논문 소개 : Memory를 가진 Neural Network • • 메모리에서 읽어들이는 방법과 메모리에 기록하는 방법을 모두 학습 메모리의 읽기/쓰기 attention은、Hard or Soft [Caglar2016] • Memory Network [Weston2015, Sukhbaatar2016,Felix2016] • • • 입력문을 메모리에 저장하여, 질문에 답하는데 필요한 부분을 추출入力 메모리에서 읽기는 attention (가중치)를 사용(Hard or Soft) 메모리에 쓸 내용 (embedding vector)는 학습 • 쓰는 방법은 학습하지않음 • Neural Turing Machine 계 입력문 입력문 질문 응답 질문 응답 メモリ部分 35
  • 36. 정리 36 • NTM를 응용하여、One-Shot Learning이 가능하다 • One-Shot Learning으로서 성능은 우수하나 최고는 아 니다. • 이번에는 One-Shot Learning (Nearest-Neighbor적인 알고리즘)을 NTM으로 학습하였지만, 다른 작업에서도 유사한 아이디어를 사용하면 • 예로 active learning 등... • 작업에 따라 、LRUA와 같은 기능을 생각할 필요가 있는 과제