Deep Learning에 의한 자연어 처리
2016. 7
深層学習による自然言語処理の研究動向, 進藤裕之
자연어 처리
안녕 !
Today’s news
・주가 ○○
He have a pen.
텍스트 데이터
해석, 편집, 생성
Audio Image Text
언어 데이터의 특징
• 불연속적인 심볼의 계열(Sequence)
• 계열 길이가 샘플에 따라 다름
• 계층적,재귀적(Recursive)인 구조를 지님
(문자, 단어, 구, 문)
John loves Mary .
언어 데이터의 특징
구조학습으로서의 자연어 처리
1. 계열 → 계열
• 형태소해석
• 기계번역, 자동요약
• 질의응답, chatbot
2. 계열 → Tree구조
• 구문해석
3. 계열 → 그래프구조
• 의미해석
깊은 구조를 가진 뉴럴넷(NN)
미분가능한 한수
입력 특징벡터
함수 f 의 예
• 선형함수
• 활성화함수
• Sigmoid
• Tanh
• Rectifier Linear Unit
• 콘볼루션 함수(Convolution)
• 풀링함수(Pooling)
언어처리에 있어서 딥러닝의 효과
1. 데이터로부터 특징을 자동적으로 학습
2. 종래보다 폭넓은 문맥정보를 다루게 됨
3. 모델에 최적인 출력을 다루기가 간단
4. 특성이 다른 사진・음성등과 같은 모델들간의
친화성이 높게 되어 멀티모달 모델 구축이 쉬워짐.
계열 모델링
Recurrent Neural Networks(RNN)
조합하는 것이 일반적
Long-Short Term Memory (LSTM)
• 게이트에 의해 정보를 선택적으로 통과
• 메모리셀에 의해 오랜 시간 기억이 가능
Gated Recurrent Unit도
자주 사용됨
i g
i g
@ time t
ht ht+1
Cell state
ct ct+1
@ time t+1
입력 또는 하부층 출력
cell 데이터
계열모델링에 기반한 언어처리
• 형태소분해(단어분해,품사 태그)
• 고유표현인식
• 기계번역
• 자동요약
종래의 접근법
품사 태그 붙이기
The auto maker sold 1000 cars last year.입력
품사 태크(45종류)
• DT: 한정사 (the, a, an, ...)
• N: 명사
• V: 동사
• CD: 숫자
• JJ: 형용사
특징벡터 : 고차원,Sparse,binary
The auto maker sold ...
w0 = ‘maker’
w1 = ‘sold’
W-1 = ‘auto’
w-1 w0 w1
• w0, w1, w-1
• w0 의 문자n-gram
• w1 의 문자 n-gram
• w2 의 문자 n-gram
• 앞에는 대문자
• 문장내에서의
106~ 109
종래의 접근법
품사 태그 붙이기
단어 콘볼루션 벡터
The auto maker sold ...
w-1 w0 w1
특징량을 자동적으로 학습
품사 태그 붙이기
특징벡터: 저차원,dense
The auto maker sold ...
w-1 w0 w1
랜덤하게 초기화
101~ 102
-2.1 자동적으로 학습
품사 태그 붙이기
(종래방법) 문구 기반 통계적 기계번역
• 【학습】 문구의 얼라이먼트(대응관계)와 번역모델의
점수를 결정.
• 【디코드】 번역모델의 점수와 언어 모델의 점수를
고려하여 최적인 번역을 결정.
내일은 영어를 공부한다
? ? ?
3.2 1.45.1
오늘은 중국어를 공부한다
RNN에 의한 기계번역의 모델화
A B C D <eos> X Y Z
<eos>X Y Z
Sutskever et al., “Sequence to Sequence Learning with Neural Networks”, Arxiv, 2014
어텐션(Attention)에 기반한 RNN
A B C D <eos> X Y Z
<eos>X Y Z
어디에서 「주의」해서 번역할까를 학습
Bahdanau et al., “Neural Machine Translation by Jointly Learning to Align and Translate”, ICLR,
A B C D <eos> X Y Z
<eos>X Y Z
Bahdanau et al., “Neural Machine Translation by Jointly Learning to Align and Translate”, ICLR,
어텐션(Attention)에 기반한 RNN
어디에서「주의」해서 번역할까를 학습
A B C D <eos> X Y Z
<eos>X Y Z
Bahdanau et al., “Neural Machine Translation by Jointly Learning to Align and Translate”, ICLR,
어텐션(Attention)에 기반한 RNN
어디에서「주의」해서 번역할까를 학습
A B C D <eos> X Y Z
<eos>X Y Z
Bahdanau et al., “Neural Machine Translation by Jointly Learning to Align and Translate”, ICLR,
어텐션(Attention)에 기반한 RNN
어디에서「주의」해서 번역할까를 학습
자동적으로 학습되는 어텐션의 예
어텐션 모델에 의하여 단어와
단어 사이의 대응관계
(얼라이먼트)를 줄 필요가 생김.
Bahdanau et al., “Neural Machine Translation by Jointly Learning to Align and Translate”, ICLR,
어텐션형 RNN에 기반한 요약
Rush et al., “A Neural Attention Model for Sentence Summarization”, EMNLP, 2015
russian defense minister ivanov called sunday for the
creation of a joint front for combating global terrorism
russia calls for joint front against terrorism
• Beam search에 의해 최적인 요약문을 생성
<s> A cat sofa
A cat
…is </s>
• 문장(단어열)의 자연스러움을
점수화하는 모델
• 현재까지의 단어열로부터
다음의 단어를 예측
→ 관측데이타에 높은 점수가
부여되게끔 학습
• RNN (with LSTM, GRU) 이 주류
단어를 출력하는 계열 모델은 출력층의 계산이 부담
• 계층적Softmax를 사용하는 방법 [Morin+ 2005]
• 샘플링에 기반한 방법 [Ji+ 2016]
• Softmax함수와 유사한 별도의 함수를 사용하는 방법
• Sparsemax [Martins+ 2016]
• Spherical softmax [Vincent+ 2015]
• Self-normalization [Andreas and Klein 2015]
계산량을 줄이거나
작업정도를 높이기
단어를 출력하는 계열 모델은 출력층의 계산이 부담
Softmax문제(Vincent 방법)
Vincent et al., “Efficient Exact Gradient Update for training Deep Networks with Very Large
Sparse Targets”, Arxiv, 2014
W를 명시적으로 관리하지 않음
D: 어휘수
Vincent et al., “Efficient Exact Gradient Update for training Deep Networks with Very Large
Sparse Targets”, Arxiv, 2014
수백배의 고속화가 실현가능함
Softmax문제(Vincent 방법)
Softmax문제 결론
• 기본적으로는 학습 시 계산량을 줄이는 방법
• 실제 Task시의 계산량을 줄이는 방법은 앞으로의 과제
• 계층적Softmax를 사용하는 방법 [Morin+ 2005]
• 샘플링에 기반한 방법 [Ji+ 2016]
• Softmax함수와 유사한 별도의 함수를 사용하는 방법
• Sparsemax [Martins+ 2016]
• Spherical softmax [Vincent+ 2015]
• Self-normalization [Andreas and Klein 2015]
Lateral Network
얇고 넓은 네트웍 구조를 사용해서 언어모델을 고속화
Devlin et al., “Pre-Computable Multi-Layer Neural Network Language Models”, EMNLP, 2015
일반적인 네트웍 Lateral Network
Lateral Network
Devlin et al., “Pre-Computable Multi-Layer Neural Network Language Models”, EMNLP, 2015
• 미리 행렬곱 계산을
해놓고, 결과를 기억해
놓음 (pre-computation)
• 학습 시에는 학습 시에는
변수가 update되므로
사용할 수 없으나, Task시
대폭적인 고속화가 됨.
얇고 넓은 네트웍 구조를 사용해서 언어모델을 고속화
사진으로부터 설명문을 생성
Generates Image Description with RNN
Karpathy et al., “Deep Visual-Semantic Alignments for Generating Image Descriptions”, CVPR,
• 사진으로부터 영역CNN
(RCNN)으로 영역의
특징량을 학습
• 사진의 설명문은 RNN으로
계열모델링 : 결론
• 많은 언어처리 Task는 계열모델링 문제로 해결 가능
• 현재는 RNN + LSTM + Attention 을 사용하는 방법이 일반적임
• 출력층의 차원이 크기 때문에 Softmax의 계산을 어느 정도
효율화하는가가 앞으로의 과제
Tree구조 모델링
재귀형(Recursive) 뉴럴넷
loves MaryJohn
Tree구조와 네트웍 구조가
Chen and Manning, “A Fast and Accurate Dependency Parser using Neural Networks”, ACL, 2014
Feedforward 네트웍에 의한 Shift-reduce 해석
• Shift-reduce해석의 각 action에 대응하는 점수계산을 NN으로
• 해석 알고리즘은 종래와 동일하지만, 조합되는 특징량의
설계가 필요하지 않음.
Pei et al., “An Effective Neural Network Model for Graph-based Dependency Parsing”, ACL, 2015
동적계획법에 기반한 해석(Eisner알고리즘)
• Eisner알고리즘(다음
슬라이드)의 점수계산을
NN으로 수행
• SHift-reduce의 경우와
같이 알고리즘은 종래와
동일하지만, 조합되는
특징량의 설계가 불필요
(참고)Eisner’s Algorithm
She read a short novel.
0 1 2 3 4
She read a short novel.
[0, 1, comp] + [1, 2, comp] → [0, 2, incomp]
0 1 2 3 4
(참고)Eisner’s Algorithm
She read a short novel.
[0, 1, comp] + [1, 2, comp] → [0, 2, incomp]
0 1 2 3 4
(참고)Eisner’s Algorithm
She read a short novel.
0 1 2 3 4
[0, 1, comp] + [1, 2, comp] → [0, 2, incomp]
[0, 1, comp] + [1, 2, incomp] → [0, 2, comp]
(참고)Eisner’s Algorithm
She read a short novel.
0 1 2 3 4
[0, 1, comp] + [1, 2, comp] → [0, 2, incomp]
[0, 1, comp] + [1, 2, incomp] → [0, 2, comp]
(참고)Eisner’s Algorithm
She read a short novel.
0 1 2 3 4
(참고)Eisner’s Algorithm
She read a short novel.
0 1 2 3 4
(참고)Eisner’s Algorithm
She read a short novel.
0 1 2 3 4
(참고)Eisner’s Algorithm
She read a short novel.
0 1 2 3 4
(참고)Eisner’s Algorithm
She read a short novel.
0 1 2 3 4
(참고)Eisner’s Algorithm
She read a short novel.
0 1 2 3 4
(참고)Eisner’s Algorithm
She read a short novel.
0 1 2 3 4
(참고)Eisner’s Algorithm
She read a short novel.
0 1 2 3 4
(참고)Eisner’s Algorithm
She read a short novel.
0 1 2 3 4
(참고)Eisner’s Algorithm
She read a short novel.
0 1 2 3 4
(참고)Eisner’s Algorithm
She read a short novel.
0 1 2 3 4
(참고)Eisner’s Algorithm
She read a short novel.
0 1 2 3 4
(참고)Eisner’s Algorithm
She read a short novel.
0 1 2 3 4
(참고)Eisner’s Algorithm
Dyer et al., “Recurrent Neural Network Grammars”, arXiv, 2016
LSTM에 의한 Shift-reduce해석
• Top-down으로 구구조 tree를 생성하는 LSTM모델을 제안
• 영어 WSJ로 F값 92.4(state-of-the-art)
Tree구조의 선형화(linearization)
Vinyals et al., “Grammar as a Foreign Language”, Arxiv, 2015
• Tree구조를 추정하는 문제를 계열모델링(3층LSTM)으로 해결
• 품사태그를 사용하지 않는 쪽이 정확도가 높다 (1pt)
(기존방법에서는 품사태그의 정보가 없으면 정확도가 크게 저하)
Vinyals et al., “Grammar as a Foreign Language”, Arxiv, 2015
• 모델이 부정확한 Tree구조를 출력하는 비율 1.5%(의외로 작음)
• Attention을 넣지 않으면 정확도가 크게 저하
• 최종적으로 기존 방법과 거의 비슷한 결과
Tree구조의 선형화(linearization)
Tree 구조 모델링 : 결론
• 언어의 구문해석에서는 Tree구조를 출력하는 것이 목적
• 기존 동적계획법, Shift-reduce법에 기반한 알고리즘의 경우,
점수함수를 뉴럴넷으로 바꿈. → (조합해서)특징량의
설계가 불필요하게 됨.
• Tree구조의 선형화에 의해 계열모델링의 기술을 그대로
사용하는 방법과 기존과 동일형태 Tree구조의 학습을 직접
수행하는 방법도 있음.
Hermann et al., “Teaching Machines to Read and Comprehend”, Arxiv, 2015
독해문제의 자동응답
• CNN으로부터 데이터 수집
• Bi-directional LSTM
Hermann et al., “Teaching Machines to Read and Comprehend”, Arxiv, 2015
• Attention의 예
독해문제의 자동응답
Facebook bAbi Task
• Facebook이 개발한 질의응답 Task
• Task 1 부터 Task 20 까지 있음
• “기계가 언어이해를 할 수 있는가”를 평가하기 위한 데이터셋
(인간은 100% 정확히 답한다고 기대하고
Weston et al., “Towards AI-Complete Question Answering: A Set of Prerequisite Toy Tasks”, arXiv,
Facebook bAbi Task
Weston et al., “Towards AI-Complete Question Answering: A Set of Prerequisite Toy Tasks”, arXiv,
• 가장 어려운 Task
Dynamic Memory Networks
Kumar et al., “Ask Me Anything: Dynamic Memory Networks for Natural Language Processing”,
arXiv, 2015
• 입력모듈:
입력문(또는 문장)을 벡터로
• 질문모듈:
질문문을 벡터로 변환
• 에피소드 기억모듈:
입력문(과 질문문)을 순서대로 보면서,입력의 어느 부분에
주목할까 ?(Attention)를 결정하여, 기억벡터를 만들어 나감.
이것을 몇번 반복
• 응답모듈: 응답을 만듬
Dynamic Memory Networks
Kumar et al., “Ask Me Anything: Dynamic Memory Networks for Natural Language Processing”,
arXiv, 2015
Dynamic Memory Networks
Kumar et al., “Ask Me Anything: Dynamic Memory Networks for Natural Language Processing”,
arXiv, 2015
• 17: Positional Reasoning,
19: Path Finding 은 어려움
• 대체로 정확함
→ 좀더 어려운 문제가 필요
Xiong et al., “Dynamic Memory Networks for Visual and Textual Question Answering”, arXiv,
Dynamic Memory Networks
DMN for Visual QA
CNN으로 사진으로부터
특징벡터를 만듬
의미해석 + Visual QA
Andreas et al., “Learning to Compose Neural Networks for Question Answering”, NAACL, 2016
(Best Paper Award)
Visual QA
Andreas et al., “Learning to Compose Neural Networks for Question Answering”, NAACL, 2016
(Best Paper Award)
1. 질문문을 해석
2. 대응하는
뉴럴넷으로 변환
3. 지식 데이터
베이스로 응답을
Visual QA
의미해석 + Visual QA
Deep Learning의 구현
계산 그래프
A, B: 변수행렬
x, y: 데이터 벡터
Merlin.jl에 의한 실행 예
>> x = Var()
>> y = Var()
>> A = Var(rand(8,5))
>> B = Var(rand(8,5))
>> z = A*x + B*y
>> f = Graph(z)
>> fx = f(rand(8,3),rand(8,3))
>> backward!(fx)
계산그래프의 최적화
• 중간 object를 만들지 않고 한번에 계산하는 쪽이 빠름.
BLAS에 의한 in-place연산
• Pre-computation:
변수가 고정된 Task시에 유효
The auto maker ...
한번 계산해서 기억해 놈
별도로 계산해서
계산그래프의 최적화
오늘의 데모
딥러닝에 의한 언어해석(Simple version) 에 링크가 있음
in getting their money back
... ... ... ...
g e t t i n gi n b a c k
... ...
... ... ... ...
CNN based POS-Tagging [Santos+ 14]
g e t t i n g
10 dim.
<s> <e>
CNN based POS-Tagging [Santos+ 14]
g e t t i g
... ... ... ...
10 dim.
n<s> <e>
중요한 특징을 추출
CNN based POS-Tagging [Santos+ 14]
• 언어 데이터는 계열길이가 가변적
• 모델에 따라서 mini-batch화(복수 샘플을 묶어서
처리함으로써 고속화)가 어려운 경우도 있음
• 바로 전의 품사 Tagger에서는 문자레벨의 CNN과
단어레벨의 CNN이 계층적으로 결합되어
있으므로, mini-batch화가 어려움.
• CPU의 실행에서는 속도의 차가 발생
Method Tagging 정확도
단어CNN만 96.83
단어CNN + 문자CNN 97.28
• 학습데이터 : WSJ newswire text, 40k sentences
• Test : WSJ newswire text, 2k sentences
1 2 4 8 16 32 64
Batch size
학습시간의 계측결과 (CPU)
進藤ら, “Julia言語による深層学習ライブラリの実装と評価”, 人工知能学会全国大会, 2016
Test시간의 계측결과 (CPU)
(1문씩 처리한 경우)
進藤ら, “Julia言語による深層学習ライブラリの実装と評価”, 人工知能学会全国大会, 2016
※mini-batch 사이즈를 크게 하면 차는 줄어든다.
• 딥러닝의 최신 논문에 대한 소개
• 딥러닝의 방법도 중요하지만, 데이터셋의 개발과
공개도 동시에 중요
• Text의 의미이해는 앞으로의 큰 과제
• 멀티모달(사진, 음성)과 같은 동시 모델이 앞으로
발전이 기대됨.

Más contenido relacionado

La actualidad más candente

오토인코더의 모든 것
오토인코더의 모든 것오토인코더의 모든 것
오토인코더의 모든 것NAVER Engineering
딥러닝의 기본
딥러닝의 기본딥러닝의 기본
딥러닝의 기본deepseaswjh
畳み込みニューラルネットワークの研究動向Yusuke Uchida
Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~Yuya Unno
[226]대용량 텍스트마이닝 기술 하정우
[226]대용량 텍스트마이닝 기술 하정우[226]대용량 텍스트마이닝 기술 하정우
[226]대용량 텍스트마이닝 기술 하정우NAVER D2
머신러닝(딥러닝 요약)
머신러닝(딥러닝 요약)머신러닝(딥러닝 요약)
머신러닝(딥러닝 요약)Byung-han Lee
[DL輪読会]Learn What Not to Learn: Action Elimination with Deep Reinforcement Le...
[DL輪読会]Learn What Not to Learn: Action Elimination with Deep Reinforcement Le...[DL輪読会]Learn What Not to Learn: Action Elimination with Deep Reinforcement Le...
[DL輪読会]Learn What Not to Learn: Action Elimination with Deep Reinforcement Le...Deep Learning JP
diffusion 모델부터 DALLE2까지.pdf
diffusion 모델부터 DALLE2까지.pdfdiffusion 모델부터 DALLE2까지.pdf
diffusion 모델부터 DALLE2까지.pdf수철 박
Context2Vec 기반 단어 의미 중의성 해소, Word Sense Disambiguation
Context2Vec 기반 단어 의미 중의성 해소, Word Sense DisambiguationContext2Vec 기반 단어 의미 중의성 해소, Word Sense Disambiguation
Context2Vec 기반 단어 의미 중의성 해소, Word Sense Disambiguation찬희 이
単語・句の分散表現の学習Naoaki Okazaki
Python을 활용한 챗봇 서비스 개발 2일차
Python을 활용한 챗봇 서비스 개발 2일차Python을 활용한 챗봇 서비스 개발 2일차
Python을 활용한 챗봇 서비스 개발 2일차Taekyung Han
異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知hagino 3000
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3までYahoo!デベロッパーネットワーク
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.Yongho Ha
静的型つき組版処理システムSATySFi @第61回プログラミング・シンポジウム
静的型つき組版処理システムSATySFi @第61回プログラミング・シンポジウム静的型つき組版処理システムSATySFi @第61回プログラミング・シンポジウム
静的型つき組版処理システムSATySFi @第61回プログラミング・シンポジウムT. Suwa
딥러닝 자연어처리 - RNN에서 BERT까지
딥러닝 자연어처리 - RNN에서 BERT까지딥러닝 자연어처리 - RNN에서 BERT까지
딥러닝 자연어처리 - RNN에서 BERT까지deepseaswjh
RoFormer: Enhanced Transformer with Rotary Position Embedding
RoFormer: Enhanced Transformer with Rotary Position EmbeddingRoFormer: Enhanced Transformer with Rotary Position Embedding
RoFormer: Enhanced Transformer with Rotary Position Embeddingtaeseon ryu
[DL輪読会]Relational inductive biases, deep learning, and graph networks
[DL輪読会]Relational inductive biases, deep learning, and graph networks[DL輪読会]Relational inductive biases, deep learning, and graph networks
[DL輪読会]Relational inductive biases, deep learning, and graph networksDeep Learning JP

La actualidad más candente (20)

오토인코더의 모든 것
오토인코더의 모든 것오토인코더의 모든 것
오토인코더의 모든 것
KorQuAD v2.0 소개
KorQuAD v2.0 소개KorQuAD v2.0 소개
KorQuAD v2.0 소개
딥러닝의 기본
딥러닝의 기본딥러닝의 기본
딥러닝의 기본
Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~
[226]대용량 텍스트마이닝 기술 하정우
[226]대용량 텍스트마이닝 기술 하정우[226]대용량 텍스트마이닝 기술 하정우
[226]대용량 텍스트마이닝 기술 하정우
머신러닝(딥러닝 요약)
머신러닝(딥러닝 요약)머신러닝(딥러닝 요약)
머신러닝(딥러닝 요약)
[DL輪読会]Learn What Not to Learn: Action Elimination with Deep Reinforcement Le...
[DL輪読会]Learn What Not to Learn: Action Elimination with Deep Reinforcement Le...[DL輪読会]Learn What Not to Learn: Action Elimination with Deep Reinforcement Le...
[DL輪読会]Learn What Not to Learn: Action Elimination with Deep Reinforcement Le...
diffusion 모델부터 DALLE2까지.pdf
diffusion 모델부터 DALLE2까지.pdfdiffusion 모델부터 DALLE2까지.pdf
diffusion 모델부터 DALLE2까지.pdf
Context2Vec 기반 단어 의미 중의성 해소, Word Sense Disambiguation
Context2Vec 기반 단어 의미 중의성 해소, Word Sense DisambiguationContext2Vec 기반 단어 의미 중의성 해소, Word Sense Disambiguation
Context2Vec 기반 단어 의미 중의성 해소, Word Sense Disambiguation
Python을 활용한 챗봇 서비스 개발 2일차
Python을 활용한 챗봇 서비스 개발 2일차Python을 활용한 챗봇 서비스 개발 2일차
Python을 활용한 챗봇 서비스 개발 2일차
異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.
静的型つき組版処理システムSATySFi @第61回プログラミング・シンポジウム
静的型つき組版処理システムSATySFi @第61回プログラミング・シンポジウム静的型つき組版処理システムSATySFi @第61回プログラミング・シンポジウム
静的型つき組版処理システムSATySFi @第61回プログラミング・シンポジウム
딥러닝 자연어처리 - RNN에서 BERT까지
딥러닝 자연어처리 - RNN에서 BERT까지딥러닝 자연어처리 - RNN에서 BERT까지
딥러닝 자연어처리 - RNN에서 BERT까지
RoFormer: Enhanced Transformer with Rotary Position Embedding
RoFormer: Enhanced Transformer with Rotary Position EmbeddingRoFormer: Enhanced Transformer with Rotary Position Embedding
RoFormer: Enhanced Transformer with Rotary Position Embedding
[DL輪読会]Relational inductive biases, deep learning, and graph networks
[DL輪読会]Relational inductive biases, deep learning, and graph networks[DL輪読会]Relational inductive biases, deep learning, and graph networks
[DL輪読会]Relational inductive biases, deep learning, and graph networks


Focal loss의 응용(Detection & Classification)
Focal loss의 응용(Detection & Classification)Focal loss의 응용(Detection & Classification)
Focal loss의 응용(Detection & Classification)홍배 김
[F2]자연어처리를 위한 기계학습 소개
[F2]자연어처리를 위한 기계학습 소개[F2]자연어처리를 위한 기계학습 소개
[F2]자연어처리를 위한 기계학습 소개NAVER D2
20160203_마인즈랩_딥러닝세미나_05 딥러닝 자연어처리와 분류엔진 황이규박사
20160203_마인즈랩_딥러닝세미나_05 딥러닝 자연어처리와 분류엔진 황이규박사20160203_마인즈랩_딥러닝세미나_05 딥러닝 자연어처리와 분류엔진 황이규박사
20160203_마인즈랩_딥러닝세미나_05 딥러닝 자연어처리와 분류엔진 황이규박사Taejoon Yoo
Sk t academy lecture note
Sk t academy lecture noteSk t academy lecture note
Sk t academy lecture noteSusang Kim
자바, 미안하다! 파이썬 한국어 NLP
자바, 미안하다! 파이썬 한국어 NLP자바, 미안하다! 파이썬 한국어 NLP
자바, 미안하다! 파이썬 한국어 NLPEunjeong (Lucy) Park
Deep learning text NLP and Spark Collaboration . 한글 딥러닝 Text NLP & Spark
Deep learning text NLP and Spark Collaboration . 한글 딥러닝 Text NLP & SparkDeep learning text NLP and Spark Collaboration . 한글 딥러닝 Text NLP & Spark
Deep learning text NLP and Spark Collaboration . 한글 딥러닝 Text NLP & Sparkhoondong kim
Learning to remember rare events
Learning to remember rare eventsLearning to remember rare events
Learning to remember rare events홍배 김
Explanation on Tensorflow example -Deep mnist for expert
Explanation on Tensorflow example -Deep mnist for expertExplanation on Tensorflow example -Deep mnist for expert
Explanation on Tensorflow example -Deep mnist for expert홍배 김
Learning by association
Learning by associationLearning by association
Learning by association홍배 김
Normalization 방법
Normalization 방법 Normalization 방법
Normalization 방법 홍배 김
알기쉬운 Variational autoencoder
알기쉬운 Variational autoencoder알기쉬운 Variational autoencoder
알기쉬운 Variational autoencoder홍배 김
A neural image caption generator
A neural image caption generatorA neural image caption generator
A neural image caption generator홍배 김
Visualizing data using t-SNE
Visualizing data using t-SNEVisualizing data using t-SNE
Visualizing data using t-SNE홍배 김
Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...
Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...
Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...홍배 김
InfoGAN: Interpretable Representation Learning by Information Maximizing Gene...
InfoGAN: Interpretable Representation Learning by Information Maximizing Gene...InfoGAN: Interpretable Representation Learning by Information Maximizing Gene...
InfoGAN: Interpretable Representation Learning by Information Maximizing Gene...홍배 김
Meta-Learning with Memory Augmented Neural Networks
Meta-Learning with Memory Augmented Neural NetworksMeta-Learning with Memory Augmented Neural Networks
Meta-Learning with Memory Augmented Neural Networks홍배 김
Convolution 종류 설명
Convolution 종류 설명Convolution 종류 설명
Convolution 종류 설명홍배 김
MNIST for ML beginners
MNIST for ML beginnersMNIST for ML beginners
MNIST for ML beginners홍배 김
Binarized CNN on FPGA
Binarized CNN on FPGABinarized CNN on FPGA
Binarized CNN on FPGA홍배 김
Single Shot MultiBox Detector와 Recurrent Instance Segmentation
Single Shot MultiBox Detector와 Recurrent Instance SegmentationSingle Shot MultiBox Detector와 Recurrent Instance Segmentation
Single Shot MultiBox Detector와 Recurrent Instance Segmentation홍배 김

Destacado (20)

Focal loss의 응용(Detection & Classification)
Focal loss의 응용(Detection & Classification)Focal loss의 응용(Detection & Classification)
Focal loss의 응용(Detection & Classification)
[F2]자연어처리를 위한 기계학습 소개
[F2]자연어처리를 위한 기계학습 소개[F2]자연어처리를 위한 기계학습 소개
[F2]자연어처리를 위한 기계학습 소개
20160203_마인즈랩_딥러닝세미나_05 딥러닝 자연어처리와 분류엔진 황이규박사
20160203_마인즈랩_딥러닝세미나_05 딥러닝 자연어처리와 분류엔진 황이규박사20160203_마인즈랩_딥러닝세미나_05 딥러닝 자연어처리와 분류엔진 황이규박사
20160203_마인즈랩_딥러닝세미나_05 딥러닝 자연어처리와 분류엔진 황이규박사
Sk t academy lecture note
Sk t academy lecture noteSk t academy lecture note
Sk t academy lecture note
자바, 미안하다! 파이썬 한국어 NLP
자바, 미안하다! 파이썬 한국어 NLP자바, 미안하다! 파이썬 한국어 NLP
자바, 미안하다! 파이썬 한국어 NLP
Deep learning text NLP and Spark Collaboration . 한글 딥러닝 Text NLP & Spark
Deep learning text NLP and Spark Collaboration . 한글 딥러닝 Text NLP & SparkDeep learning text NLP and Spark Collaboration . 한글 딥러닝 Text NLP & Spark
Deep learning text NLP and Spark Collaboration . 한글 딥러닝 Text NLP & Spark
Learning to remember rare events
Learning to remember rare eventsLearning to remember rare events
Learning to remember rare events
Explanation on Tensorflow example -Deep mnist for expert
Explanation on Tensorflow example -Deep mnist for expertExplanation on Tensorflow example -Deep mnist for expert
Explanation on Tensorflow example -Deep mnist for expert
Learning by association
Learning by associationLearning by association
Learning by association
Normalization 방법
Normalization 방법 Normalization 방법
Normalization 방법
알기쉬운 Variational autoencoder
알기쉬운 Variational autoencoder알기쉬운 Variational autoencoder
알기쉬운 Variational autoencoder
A neural image caption generator
A neural image caption generatorA neural image caption generator
A neural image caption generator
Visualizing data using t-SNE
Visualizing data using t-SNEVisualizing data using t-SNE
Visualizing data using t-SNE
Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...
Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...
Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...
InfoGAN: Interpretable Representation Learning by Information Maximizing Gene...
InfoGAN: Interpretable Representation Learning by Information Maximizing Gene...InfoGAN: Interpretable Representation Learning by Information Maximizing Gene...
InfoGAN: Interpretable Representation Learning by Information Maximizing Gene...
Meta-Learning with Memory Augmented Neural Networks
Meta-Learning with Memory Augmented Neural NetworksMeta-Learning with Memory Augmented Neural Networks
Meta-Learning with Memory Augmented Neural Networks
Convolution 종류 설명
Convolution 종류 설명Convolution 종류 설명
Convolution 종류 설명
MNIST for ML beginners
MNIST for ML beginnersMNIST for ML beginners
MNIST for ML beginners
Binarized CNN on FPGA
Binarized CNN on FPGABinarized CNN on FPGA
Binarized CNN on FPGA
Single Shot MultiBox Detector와 Recurrent Instance Segmentation
Single Shot MultiBox Detector와 Recurrent Instance SegmentationSingle Shot MultiBox Detector와 Recurrent Instance Segmentation
Single Shot MultiBox Detector와 Recurrent Instance Segmentation

Similar a 딥러닝을 이용한 자연어처리의 연구동향

텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016Taehoon Kim
Vs^3 net for machine reading comprehension question answering
Vs^3 net for machine reading comprehension question answeringVs^3 net for machine reading comprehension question answering
Vs^3 net for machine reading comprehension question answeringNAVER Engineering
Bidirectional attention flow for machine comprehension
Bidirectional attention flow for machine comprehensionBidirectional attention flow for machine comprehension
Bidirectional attention flow for machine comprehensionWoodam Lim
[224] backend 개발자의 neural machine translation 개발기 김상경
[224] backend 개발자의 neural machine translation 개발기 김상경[224] backend 개발자의 neural machine translation 개발기 김상경
[224] backend 개발자의 neural machine translation 개발기 김상경NAVER D2
Brief hystory of NLP and Word2Vec
Brief hystory of NLP and Word2VecBrief hystory of NLP and Word2Vec
Brief hystory of NLP and Word2VecSilverQ
Sequence to Sequence Learning with Neural Networks
Sequence to Sequence Learning with Neural NetworksSequence to Sequence Learning with Neural Networks
Sequence to Sequence Learning with Neural NetworksHoon Heo
Attention is all you need
Attention is all you needAttention is all you need
Attention is all you needHoon Heo
Papago/N2MT 개발이야기
Papago/N2MT 개발이야기Papago/N2MT 개발이야기
Papago/N2MT 개발이야기NAVER D2
Deep Learning for Chatbot (2/4)
Deep Learning for Chatbot (2/4)Deep Learning for Chatbot (2/4)
Deep Learning for Chatbot (2/4)Jaemin Cho
[네이버AI해커톤]어떻게 걱정을 멈추고 베이스라인을 사랑하는 법을 배우게 되었는가
[네이버AI해커톤]어떻게 걱정을 멈추고 베이스라인을 사랑하는 법을 배우게 되었는가[네이버AI해커톤]어떻게 걱정을 멈추고 베이스라인을 사랑하는 법을 배우게 되었는가
[네이버AI해커톤]어떻게 걱정을 멈추고 베이스라인을 사랑하는 법을 배우게 되었는가NAVER Engineering
Word 2 Vec Algorithm
Word 2 Vec AlgorithmWord 2 Vec Algorithm
Word 2 Vec AlgorithmHyeongmin Lee
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...Haezoom Inc.
<Little Big Data #1> 한국어 채팅 데이터로 머신러닝 하기
<Little Big Data #1> 한국어 채팅 데이터로  머신러닝 하기<Little Big Data #1> 한국어 채팅 데이터로  머신러닝 하기
<Little Big Data #1> 한국어 채팅 데이터로 머신러닝 하기Han-seok Jo
영어 말하기 자동채점 프로그램의 현재와 미래
영어 말하기 자동채점 프로그램의 현재와 미래	영어 말하기 자동채점 프로그램의 현재와 미래
영어 말하기 자동채점 프로그램의 현재와 미래 engedukamall
(Kor ver.)NLP embedding(word2vec) tutorial & implementation(Tensorflow)
(Kor ver.)NLP embedding(word2vec) tutorial & implementation(Tensorflow)(Kor ver.)NLP embedding(word2vec) tutorial & implementation(Tensorflow)
(Kor ver.)NLP embedding(word2vec) tutorial & implementation(Tensorflow)Adonis Han
연구실 세미나 Show and tell google image captioning
연구실 세미나 Show and tell google image captioning연구실 세미나 Show and tell google image captioning
연구실 세미나 Show and tell google image captioninghkh
파이콘 한국 2019 튜토리얼 - LRP (Part 2)
파이콘 한국 2019 튜토리얼 - LRP (Part 2)파이콘 한국 2019 튜토리얼 - LRP (Part 2)
파이콘 한국 2019 튜토리얼 - LRP (Part 2)XAIC
2012 3 qp_hybrid algorithm optimization with artificial intelligence
2012 3 qp_hybrid algorithm optimization with artificial intelligence 2012 3 qp_hybrid algorithm optimization with artificial intelligence
2012 3 qp_hybrid algorithm optimization with artificial intelligence Jong MIn Yu
[한국어] Neural Architecture Search with Reinforcement Learning
[한국어] Neural Architecture Search with Reinforcement Learning[한국어] Neural Architecture Search with Reinforcement Learning
[한국어] Neural Architecture Search with Reinforcement LearningKiho Suh

Similar a 딥러닝을 이용한 자연어처리의 연구동향 (20)

텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
Vs^3 net for machine reading comprehension question answering
Vs^3 net for machine reading comprehension question answeringVs^3 net for machine reading comprehension question answering
Vs^3 net for machine reading comprehension question answering
Bidirectional attention flow for machine comprehension
Bidirectional attention flow for machine comprehensionBidirectional attention flow for machine comprehension
Bidirectional attention flow for machine comprehension
[224] backend 개발자의 neural machine translation 개발기 김상경
[224] backend 개발자의 neural machine translation 개발기 김상경[224] backend 개발자의 neural machine translation 개발기 김상경
[224] backend 개발자의 neural machine translation 개발기 김상경
Brief hystory of NLP and Word2Vec
Brief hystory of NLP and Word2VecBrief hystory of NLP and Word2Vec
Brief hystory of NLP and Word2Vec
Sequence to Sequence Learning with Neural Networks
Sequence to Sequence Learning with Neural NetworksSequence to Sequence Learning with Neural Networks
Sequence to Sequence Learning with Neural Networks
Attention is all you need
Attention is all you needAttention is all you need
Attention is all you need
Papago/N2MT 개발이야기
Papago/N2MT 개발이야기Papago/N2MT 개발이야기
Papago/N2MT 개발이야기
Deep Learning for Chatbot (2/4)
Deep Learning for Chatbot (2/4)Deep Learning for Chatbot (2/4)
Deep Learning for Chatbot (2/4)
[네이버AI해커톤]어떻게 걱정을 멈추고 베이스라인을 사랑하는 법을 배우게 되었는가
[네이버AI해커톤]어떻게 걱정을 멈추고 베이스라인을 사랑하는 법을 배우게 되었는가[네이버AI해커톤]어떻게 걱정을 멈추고 베이스라인을 사랑하는 법을 배우게 되었는가
[네이버AI해커톤]어떻게 걱정을 멈추고 베이스라인을 사랑하는 법을 배우게 되었는가
Word 2 Vec Algorithm
Word 2 Vec AlgorithmWord 2 Vec Algorithm
Word 2 Vec Algorithm
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
<Little Big Data #1> 한국어 채팅 데이터로 머신러닝 하기
<Little Big Data #1> 한국어 채팅 데이터로  머신러닝 하기<Little Big Data #1> 한국어 채팅 데이터로  머신러닝 하기
<Little Big Data #1> 한국어 채팅 데이터로 머신러닝 하기
영어 말하기 자동채점 프로그램의 현재와 미래
영어 말하기 자동채점 프로그램의 현재와 미래	영어 말하기 자동채점 프로그램의 현재와 미래
영어 말하기 자동채점 프로그램의 현재와 미래
Naive ML Overview
Naive ML OverviewNaive ML Overview
Naive ML Overview
(Kor ver.)NLP embedding(word2vec) tutorial & implementation(Tensorflow)
(Kor ver.)NLP embedding(word2vec) tutorial & implementation(Tensorflow)(Kor ver.)NLP embedding(word2vec) tutorial & implementation(Tensorflow)
(Kor ver.)NLP embedding(word2vec) tutorial & implementation(Tensorflow)
연구실 세미나 Show and tell google image captioning
연구실 세미나 Show and tell google image captioning연구실 세미나 Show and tell google image captioning
연구실 세미나 Show and tell google image captioning
파이콘 한국 2019 튜토리얼 - LRP (Part 2)
파이콘 한국 2019 튜토리얼 - LRP (Part 2)파이콘 한국 2019 튜토리얼 - LRP (Part 2)
파이콘 한국 2019 튜토리얼 - LRP (Part 2)
2012 3 qp_hybrid algorithm optimization with artificial intelligence
2012 3 qp_hybrid algorithm optimization with artificial intelligence 2012 3 qp_hybrid algorithm optimization with artificial intelligence
2012 3 qp_hybrid algorithm optimization with artificial intelligence
[한국어] Neural Architecture Search with Reinforcement Learning
[한국어] Neural Architecture Search with Reinforcement Learning[한국어] Neural Architecture Search with Reinforcement Learning
[한국어] Neural Architecture Search with Reinforcement Learning

Más de 홍배 김

Automatic Gain Tuning based on Gaussian Process Global Optimization (= Bayesi...
Automatic Gain Tuning based on Gaussian Process Global Optimization (= Bayesi...Automatic Gain Tuning based on Gaussian Process Global Optimization (= Bayesi...
Automatic Gain Tuning based on Gaussian Process Global Optimization (= Bayesi...홍배 김
Gaussian processing
Gaussian processingGaussian processing
Gaussian processing홍배 김
Lecture Summary : Camera Projection
Lecture Summary : Camera Projection Lecture Summary : Camera Projection
Lecture Summary : Camera Projection 홍배 김
Learning agile and dynamic motor skills for legged robots
Learning agile and dynamic motor skills for legged robotsLearning agile and dynamic motor skills for legged robots
Learning agile and dynamic motor skills for legged robots홍배 김
Robotics of Quadruped Robot
Robotics of Quadruped RobotRobotics of Quadruped Robot
Robotics of Quadruped Robot홍배 김
Basics of Robotics
Basics of RoboticsBasics of Robotics
Basics of Robotics홍배 김
Recurrent Neural Net의 이론과 설명
Recurrent Neural Net의 이론과 설명Recurrent Neural Net의 이론과 설명
Recurrent Neural Net의 이론과 설명홍배 김
Convolutional neural networks 이론과 응용
Convolutional neural networks 이론과 응용Convolutional neural networks 이론과 응용
Convolutional neural networks 이론과 응용홍배 김
Anomaly detection using deep one class classifier
Anomaly detection using deep one class classifierAnomaly detection using deep one class classifier
Anomaly detection using deep one class classifier홍배 김
Optimal real-time landing using DNN
Optimal real-time landing using DNNOptimal real-time landing using DNN
Optimal real-time landing using DNN홍배 김
The world of loss function
The world of loss functionThe world of loss function
The world of loss function홍배 김
Machine learning applications in aerospace domain
Machine learning applications in aerospace domainMachine learning applications in aerospace domain
Machine learning applications in aerospace domain홍배 김
Anomaly Detection and Localization Using GAN and One-Class Classifier
Anomaly Detection and Localization  Using GAN and One-Class ClassifierAnomaly Detection and Localization  Using GAN and One-Class Classifier
Anomaly Detection and Localization Using GAN and One-Class Classifier홍배 김
Brief intro : Invariance and Equivariance
Brief intro : Invariance and EquivarianceBrief intro : Invariance and Equivariance
Brief intro : Invariance and Equivariance홍배 김
Anomaly Detection with GANs
Anomaly Detection with GANsAnomaly Detection with GANs
Anomaly Detection with GANs홍배 김
Q Learning과 CNN을 이용한 Object Localization
Q Learning과 CNN을 이용한 Object LocalizationQ Learning과 CNN을 이용한 Object Localization
Q Learning과 CNN을 이용한 Object Localization홍배 김

Más de 홍배 김 (17)

Automatic Gain Tuning based on Gaussian Process Global Optimization (= Bayesi...
Automatic Gain Tuning based on Gaussian Process Global Optimization (= Bayesi...Automatic Gain Tuning based on Gaussian Process Global Optimization (= Bayesi...
Automatic Gain Tuning based on Gaussian Process Global Optimization (= Bayesi...
Gaussian processing
Gaussian processingGaussian processing
Gaussian processing
Lecture Summary : Camera Projection
Lecture Summary : Camera Projection Lecture Summary : Camera Projection
Lecture Summary : Camera Projection
Learning agile and dynamic motor skills for legged robots
Learning agile and dynamic motor skills for legged robotsLearning agile and dynamic motor skills for legged robots
Learning agile and dynamic motor skills for legged robots
Robotics of Quadruped Robot
Robotics of Quadruped RobotRobotics of Quadruped Robot
Robotics of Quadruped Robot
Basics of Robotics
Basics of RoboticsBasics of Robotics
Basics of Robotics
Recurrent Neural Net의 이론과 설명
Recurrent Neural Net의 이론과 설명Recurrent Neural Net의 이론과 설명
Recurrent Neural Net의 이론과 설명
Convolutional neural networks 이론과 응용
Convolutional neural networks 이론과 응용Convolutional neural networks 이론과 응용
Convolutional neural networks 이론과 응용
Anomaly detection using deep one class classifier
Anomaly detection using deep one class classifierAnomaly detection using deep one class classifier
Anomaly detection using deep one class classifier
Optimal real-time landing using DNN
Optimal real-time landing using DNNOptimal real-time landing using DNN
Optimal real-time landing using DNN
The world of loss function
The world of loss functionThe world of loss function
The world of loss function
Machine learning applications in aerospace domain
Machine learning applications in aerospace domainMachine learning applications in aerospace domain
Machine learning applications in aerospace domain
Anomaly Detection and Localization Using GAN and One-Class Classifier
Anomaly Detection and Localization  Using GAN and One-Class ClassifierAnomaly Detection and Localization  Using GAN and One-Class Classifier
Anomaly Detection and Localization Using GAN and One-Class Classifier
Brief intro : Invariance and Equivariance
Brief intro : Invariance and EquivarianceBrief intro : Invariance and Equivariance
Brief intro : Invariance and Equivariance
Anomaly Detection with GANs
Anomaly Detection with GANsAnomaly Detection with GANs
Anomaly Detection with GANs
Q Learning과 CNN을 이용한 Object Localization
Q Learning과 CNN을 이용한 Object LocalizationQ Learning과 CNN을 이용한 Object Localization
Q Learning과 CNN을 이용한 Object Localization

딥러닝을 이용한 자연어처리의 연구동향

  • 1. Deep Learning에 의한 자연어 처리 2016. 7 김홍배 深層学習による自然言語処理の研究動向, 進藤裕之
  • 2. 자연어 처리 1 기계번역 Hello 안녕 ! 자동요약 Today’s news ・주가 ○○ ・날씨 ・서울、、 자동오류수정 He have a pen. has? Summary 텍스트 데이터 해석, 편집, 생성
  • 3. 2 Audio Image Text 불연속연속연속 언어 데이터의 특징 From:
  • 4. 3 • 불연속적인 심볼의 계열(Sequence) • 계열 길이가 샘플에 따라 다름 • 계층적,재귀적(Recursive)인 구조를 지님 (문자, 단어, 구, 문) John loves Mary . 언어 데이터의 특징
  • 5. 4 구조학습으로서의 자연어 처리 1. 계열 → 계열 • 형태소해석 • 기계번역, 자동요약 • 질의응답, chatbot 2. 계열 → Tree구조 • 구문해석 3. 계열 → 그래프구조 • 의미해석
  • 6. 딥러닝 5 깊은 구조를 가진 뉴럴넷(NN) 벡터,행렬,텐서 미분가능한 한수 입력 특징벡터
  • 7. 딥러닝이란 6 함수 f 의 예 • 선형함수 • 활성화함수 • Sigmoid • Tanh • Rectifier Linear Unit • 콘볼루션 함수(Convolution) • 풀링함수(Pooling) etc...
  • 8. 언어처리에 있어서 딥러닝의 효과 7 1. 데이터로부터 특징을 자동적으로 학습 2. 종래보다 폭넓은 문맥정보를 다루게 됨 3. 모델에 최적인 출력을 다루기가 간단 4. 특성이 다른 사진・음성등과 같은 모델들간의 친화성이 높게 되어 멀티모달 모델 구축이 쉬워짐.
  • 10. Recurrent Neural Networks(RNN) 9 입력 특징벡터... LSTM, GRU등과 조합하는 것이 일반적
  • 11. Long-Short Term Memory (LSTM) 10 • 게이트에 의해 정보를 선택적으로 통과 • 메모리셀에 의해 오랜 시간 기억이 가능 Gated Recurrent Unit도 자주 사용됨 f x i g x + tanh o x f x i g x + tanh o x @ time t ht-1 xt xt+1 ht ht+1 ct-1 Cell state ct ct+1 @ time t+1 입력 또는 하부층 출력 전시점(t-1) cell 데이터 전시점(t-1) 출력 출력
  • 12. 계열모델링에 기반한 언어처리 11 • 형태소분해(단어분해,품사 태그) • 고유표현인식 • 기계번역 • 자동요약 Seoul Seoul
  • 13. 12 종래의 접근법 품사 태그 붙이기 DT CD JJ NNVNN The auto maker sold 1000 cars last year.입력 출력 품사 태크(45종류) • DT: 한정사 (the, a, an, ...) • N: 명사 • V: 동사 • CD: 숫자 • JJ: 형용사
  • 14. 13 특징벡터 : 고차원,Sparse,binary The auto maker sold ... 1 0 0 1 ... 0 1 w0 = ‘maker’ w1 = ‘sold’ W-1 = ‘auto’ w-1 w0 w1 특징량 • w0, w1, w-1 • w0 의 문자n-gram • w1 의 문자 n-gram • w2 의 문자 n-gram • 앞에는 대문자 • 문장내에서의 단어위치 Etc… 106~ 109 종래의 접근법 품사 태그 붙이기
  • 15. 14 단어 콘볼루션 벡터 VB The auto maker sold ... w-1 w0 w1 뉴럴넷 특징량을 자동적으로 학습 품사 태그 붙이기 뉴럴넷
  • 16. 15 뉴럴넷 특징벡터: 저차원,dense The auto maker sold ... w-1 w0 w1 특징량 랜덤하게 초기화 101~ 102 1.1 -0.5 -0.1 ... 3.7 -2.1 자동적으로 학습 품사 태그 붙이기
  • 17. 기계번역 16 (종래방법) 문구 기반 통계적 기계번역 • 【학습】 문구의 얼라이먼트(대응관계)와 번역모델의 점수를 결정. • 【디코드】 번역모델의 점수와 언어 모델의 점수를 고려하여 최적인 번역을 결정. 내일은 영어를 공부한다 ? ? ? 3.2 1.45.1 오늘은 중국어를 공부한다
  • 18. 17 RNN에 의한 기계번역의 모델화 A B C D X Y Z A B C D <eos> X Y Z <eos>X Y Z Sutskever et al., “Sequence to Sequence Learning with Neural Networks”, Arxiv, 2014 기계번역
  • 19. 18 어텐션(Attention)에 기반한 RNN A B C D <eos> X Y Z <eos>X Y Z 어디에서 「주의」해서 번역할까를 학습 Bahdanau et al., “Neural Machine Translation by Jointly Learning to Align and Translate”, ICLR, 2015 기계번역
  • 20. 19 A B C D <eos> X Y Z <eos>X Y Z Bahdanau et al., “Neural Machine Translation by Jointly Learning to Align and Translate”, ICLR, 2015 어텐션(Attention)에 기반한 RNN 어디에서「주의」해서 번역할까를 학습 기계번역
  • 21. 20 A B C D <eos> X Y Z <eos>X Y Z Bahdanau et al., “Neural Machine Translation by Jointly Learning to Align and Translate”, ICLR, 2015 어텐션(Attention)에 기반한 RNN 어디에서「주의」해서 번역할까를 학습 기계번역
  • 22. 21 A B C D <eos> X Y Z <eos>X Y Z Bahdanau et al., “Neural Machine Translation by Jointly Learning to Align and Translate”, ICLR, 2015 어텐션(Attention)에 기반한 RNN 어디에서「주의」해서 번역할까를 학습 기계번역
  • 23. 22 자동적으로 학습되는 어텐션의 예 어텐션 모델에 의하여 단어와 단어 사이의 대응관계 (얼라이먼트)를 줄 필요가 생김. Bahdanau et al., “Neural Machine Translation by Jointly Learning to Align and Translate”, ICLR, 2015 기계번역
  • 24. 자동요약 23 어텐션형 RNN에 기반한 요약 Rush et al., “A Neural Attention Model for Sentence Summarization”, EMNLP, 2015 russian defense minister ivanov called sunday for the creation of a joint front for combating global terrorism russia calls for joint front against terrorism 입력(원문) 출력(요약) • Beam search에 의해 최적인 요약문을 생성
  • 25. 언어모델 24 <s> A cat sofa A cat … …is </s> • 문장(단어열)의 자연스러움을 점수화하는 모델 • 현재까지의 단어열로부터 다음의 단어를 예측 → 관측데이타에 높은 점수가 부여되게끔 학습 • RNN (with LSTM, GRU) 이 주류
  • 26. Softmax문제 25 단어를 출력하는 계열 모델은 출력층의 계산이 부담 차원수:~105(=어휘수) ~105차원 ~102차원 Softmax함수 入力層 중간층 출력층
  • 27. 26 • 계층적Softmax를 사용하는 방법 [Morin+ 2005] • 샘플링에 기반한 방법 [Ji+ 2016] • Softmax함수와 유사한 별도의 함수를 사용하는 방법 • Sparsemax [Martins+ 2016] • Spherical softmax [Vincent+ 2015] • Self-normalization [Andreas and Klein 2015] 계산량을 줄이거나 작업정도를 높이기 위해서 Softmax문제 단어를 출력하는 계열 모델은 출력층의 계산이 부담
  • 28. Softmax문제(Vincent 방법) 27 Vincent et al., “Efficient Exact Gradient Update for training Deep Networks with Very Large Sparse Targets”, Arxiv, 2014 W를 명시적으로 관리하지 않음 WD d D: 어휘수
  • 29. 28 Vincent et al., “Efficient Exact Gradient Update for training Deep Networks with Very Large Sparse Targets”, Arxiv, 2014 수백배의 고속화가 실현가능함 Softmax문제(Vincent 방법)
  • 30. Softmax문제 결론 29 • 기본적으로는 학습 시 계산량을 줄이는 방법 • 실제 Task시의 계산량을 줄이는 방법은 앞으로의 과제 • 계층적Softmax를 사용하는 방법 [Morin+ 2005] • 샘플링에 기반한 방법 [Ji+ 2016] • Softmax함수와 유사한 별도의 함수를 사용하는 방법 • Sparsemax [Martins+ 2016] • Spherical softmax [Vincent+ 2015] • Self-normalization [Andreas and Klein 2015]
  • 31. Lateral Network 30 얇고 넓은 네트웍 구조를 사용해서 언어모델을 고속화 Devlin et al., “Pre-Computable Multi-Layer Neural Network Language Models”, EMNLP, 2015 일반적인 네트웍 Lateral Network
  • 32. Lateral Network 31 Devlin et al., “Pre-Computable Multi-Layer Neural Network Language Models”, EMNLP, 2015 • 미리 행렬곱 계산을 해놓고, 결과를 기억해 놓음 (pre-computation) • 학습 시에는 학습 시에는 변수가 update되므로 사용할 수 없으나, Task시 대폭적인 고속화가 됨. 얇고 넓은 네트웍 구조를 사용해서 언어모델을 고속화
  • 33. 사진으로부터 설명문을 생성 32 Generates Image Description with RNN Karpathy et al., “Deep Visual-Semantic Alignments for Generating Image Descriptions”, CVPR, 2015 • 사진으로부터 영역CNN (RCNN)으로 영역의 특징량을 학습 • 사진의 설명문은 RNN으로 만듬
  • 34. 계열모델링 : 결론 33 • 많은 언어처리 Task는 계열모델링 문제로 해결 가능 • 현재는 RNN + LSTM + Attention 을 사용하는 방법이 일반적임 • 출력층의 차원이 크기 때문에 Softmax의 계산을 어느 정도 효율화하는가가 앞으로의 과제
  • 36. 재귀형(Recursive) 뉴럴넷 35 loves MaryJohn Tree구조와 네트웍 구조가 함께 특징벡터
  • 37. 구문해석(의존구조) 36 Chen and Manning, “A Fast and Accurate Dependency Parser using Neural Networks”, ACL, 2014 Feedforward 네트웍에 의한 Shift-reduce 해석 • Shift-reduce해석의 각 action에 대응하는 점수계산을 NN으로 수행 • 해석 알고리즘은 종래와 동일하지만, 조합되는 특징량의 설계가 필요하지 않음.
  • 38. 37 Pei et al., “An Effective Neural Network Model for Graph-based Dependency Parsing”, ACL, 2015 동적계획법에 기반한 해석(Eisner알고리즘) • Eisner알고리즘(다음 슬라이드)의 점수계산을 NN으로 수행 • SHift-reduce의 경우와 같이 알고리즘은 종래와 동일하지만, 조합되는 특징량의 설계가 불필요 구문해석(의존구조)
  • 39. (참고)Eisner’s Algorithm 38 She read a short novel. 0 1 2 3 4 Initialization
  • 40. 39 She read a short novel. [0, 1, comp] + [1, 2, comp] → [0, 2, incomp] 0 1 2 3 4 (참고)Eisner’s Algorithm
  • 41. 40 She read a short novel. [0, 1, comp] + [1, 2, comp] → [0, 2, incomp] 0 1 2 3 4 (참고)Eisner’s Algorithm
  • 42. 41 She read a short novel. 0 1 2 3 4 [0, 1, comp] + [1, 2, comp] → [0, 2, incomp] [0, 1, comp] + [1, 2, incomp] → [0, 2, comp] (참고)Eisner’s Algorithm
  • 43. 42 She read a short novel. 0 1 2 3 4 [0, 1, comp] + [1, 2, comp] → [0, 2, incomp] [0, 1, comp] + [1, 2, incomp] → [0, 2, comp] (참고)Eisner’s Algorithm
  • 44. 43 She read a short novel. 0 1 2 3 4 (참고)Eisner’s Algorithm
  • 45. 44 She read a short novel. 0 1 2 3 4 (참고)Eisner’s Algorithm
  • 46. 45 She read a short novel. 0 1 2 3 4 (참고)Eisner’s Algorithm
  • 47. 46 She read a short novel. 0 1 2 3 4 (참고)Eisner’s Algorithm
  • 48. 47 She read a short novel. 0 1 2 3 4 (참고)Eisner’s Algorithm
  • 49. 48 She read a short novel. 0 1 2 3 4 (참고)Eisner’s Algorithm
  • 50. 49 She read a short novel. 0 1 2 3 4 (참고)Eisner’s Algorithm
  • 51. 50 She read a short novel. 0 1 2 3 4 (참고)Eisner’s Algorithm
  • 52. 51 She read a short novel. 0 1 2 3 4 (참고)Eisner’s Algorithm
  • 53. 52 She read a short novel. 0 1 2 3 4 (참고)Eisner’s Algorithm
  • 54. 53 She read a short novel. 0 1 2 3 4 (참고)Eisner’s Algorithm
  • 55. 54 She read a short novel. 0 1 2 3 4 (참고)Eisner’s Algorithm
  • 56. 55 She read a short novel. 0 1 2 3 4 (참고)Eisner’s Algorithm
  • 57. 구문해석(구구조) 56 Dyer et al., “Recurrent Neural Network Grammars”, arXiv, 2016 LSTM에 의한 Shift-reduce해석 • Top-down으로 구구조 tree를 생성하는 LSTM모델을 제안 • 영어 WSJ로 F값 92.4(state-of-the-art)
  • 58. 57 Tree구조의 선형화(linearization) Vinyals et al., “Grammar as a Foreign Language”, Arxiv, 2015 • Tree구조를 추정하는 문제를 계열모델링(3층LSTM)으로 해결 • 품사태그를 사용하지 않는 쪽이 정확도가 높다 (1pt) (기존방법에서는 품사태그의 정보가 없으면 정확도가 크게 저하) 구문해석(구구조)
  • 59. 58 Vinyals et al., “Grammar as a Foreign Language”, Arxiv, 2015 • 모델이 부정확한 Tree구조를 출력하는 비율 1.5%(의외로 작음) • Attention을 넣지 않으면 정확도가 크게 저하 • 최종적으로 기존 방법과 거의 비슷한 결과 Tree구조의 선형화(linearization) 구문해석(구구조)
  • 60. Tree 구조 모델링 : 결론 59 • 언어의 구문해석에서는 Tree구조를 출력하는 것이 목적 • 기존 동적계획법, Shift-reduce법에 기반한 알고리즘의 경우, 점수함수를 뉴럴넷으로 바꿈. → (조합해서)특징량의 설계가 불필요하게 됨. • Tree구조의 선형화에 의해 계열모델링의 기술을 그대로 사용하는 방법과 기존과 동일형태 Tree구조의 학습을 직접 수행하는 방법도 있음.
  • 62. 61 질의응답 Hermann et al., “Teaching Machines to Read and Comprehend”, Arxiv, 2015 독해문제의 자동응답 • CNN으로부터 데이터 수집 • Bi-directional LSTM
  • 63. 62 Hermann et al., “Teaching Machines to Read and Comprehend”, Arxiv, 2015 • Attention의 예 질의응답 독해문제의 자동응답
  • 64. 63 Facebook bAbi Task • Facebook이 개발한 질의응답 Task • Task 1 부터 Task 20 까지 있음 • “기계가 언어이해를 할 수 있는가”를 평가하기 위한 데이터셋 (인간은 100% 정확히 답한다고 기대하고 Weston et al., “Towards AI-Complete Question Answering: A Set of Prerequisite Toy Tasks”, arXiv, 2015
  • 65. 64 Facebook bAbi Task Weston et al., “Towards AI-Complete Question Answering: A Set of Prerequisite Toy Tasks”, arXiv, 2015 • 가장 어려운 Task
  • 66. 65 Dynamic Memory Networks Kumar et al., “Ask Me Anything: Dynamic Memory Networks for Natural Language Processing”, arXiv, 2015 • 입력모듈: 입력문(또는 문장)을 벡터로 변환 • 질문모듈: 질문문을 벡터로 변환 • 에피소드 기억모듈: 입력문(과 질문문)을 순서대로 보면서,입력의 어느 부분에 주목할까 ?(Attention)를 결정하여, 기억벡터를 만들어 나감. 이것을 몇번 반복 • 응답모듈: 응답을 만듬
  • 67. 66 Dynamic Memory Networks Kumar et al., “Ask Me Anything: Dynamic Memory Networks for Natural Language Processing”, arXiv, 2015
  • 68. 67 Dynamic Memory Networks Kumar et al., “Ask Me Anything: Dynamic Memory Networks for Natural Language Processing”, arXiv, 2015 • 17: Positional Reasoning, 19: Path Finding 은 어려움 • 대체로 정확함 → 좀더 어려운 문제가 필요
  • 69. 68 Xiong et al., “Dynamic Memory Networks for Visual and Textual Question Answering”, arXiv, 2016 Dynamic Memory Networks DMN for Visual QA CNN으로 사진으로부터 특징벡터를 만듬
  • 70. 69 의미해석 + Visual QA Andreas et al., “Learning to Compose Neural Networks for Question Answering”, NAACL, 2016 (Best Paper Award) Visual QA
  • 71. 70 Andreas et al., “Learning to Compose Neural Networks for Question Answering”, NAACL, 2016 (Best Paper Award) 1. 질문문을 해석 2. 대응하는 뉴럴넷으로 변환 3. 지식 데이터 베이스로 응답을 질의 Visual QA 의미해석 + Visual QA
  • 73. 72 계산 그래프 계산그래프 A, B: 변수행렬 x, y: 데이터 벡터 Merlin.jl에 의한 실행 예 >> x = Var() >> y = Var() >> A = Var(rand(8,5)) >> B = Var(rand(8,5)) >> z = A*x + B*y >> f = Graph(z) >> fx = f(rand(8,3),rand(8,3)) >> backward!(fx)
  • 74. 73 계산그래프의 최적화 • 중간 object를 만들지 않고 한번에 계산하는 쪽이 빠름. gemm! BLAS에 의한 in-place연산
  • 75. 74 • Pre-computation: 변수가 고정된 Task시에 유효 W 단어 embeddings The auto maker ... X concat x1 W 1 x2 W 2 한번 계산해서 기억해 놈 별도로 계산해서 Cache함 계산그래프의 최적화
  • 76. 오늘의 데모 75 딥러닝에 의한 언어해석(Simple version) 에 링크가 있음
  • 77. 76 in getting their money back ... ... ... ... g e t t i n gi n b a c k ... ... ... ... ... ... 문장레벨 CNN 특징벡터 단어레벨 CNN CNN based POS-Tagging [Santos+ 14]
  • 78. g e t t i n g 10 dim. <s> <e> CNN based POS-Tagging [Santos+ 14]
  • 79. g e t t i g ... ... ... ... max-pooling 10 dim. max n<s> <e> 문자열로부터 중요한 특징을 추출 CNN based POS-Tagging [Santos+ 14]
  • 80. 79 Mini-batch화 • 언어 데이터는 계열길이가 가변적 • 모델에 따라서 mini-batch화(복수 샘플을 묶어서 처리함으로써 고속화)가 어려운 경우도 있음 • 바로 전의 품사 Tagger에서는 문자레벨의 CNN과 단어레벨의 CNN이 계층적으로 결합되어 있으므로, mini-batch화가 어려움. • CPU의 실행에서는 속도의 차가 발생
  • 81. 실험결과 80 Method Tagging 정확도 단어CNN만 96.83 단어CNN + 문자CNN 97.28 • 학습데이터 : WSJ newswire text, 40k sentences • Test : WSJ newswire text, 2k sentences
  • 82. 81 0 200 400 600 800 1000 1 2 4 8 16 32 64 실행시간[sec] Batch size Merlin.jl Theano Chainer 학습시간의 계측결과 (CPU) 進藤ら, “Julia言語による深層学習ライブラリの実装と評価”, 人工知能学会全国大会, 2016 실험결과
  • 83. 82 Test시간의 계측결과 (CPU) (1문씩 처리한 경우) 進藤ら, “Julia言語による深層学習ライブラリの実装と評価”, 人工知能学会全国大会, 2016 ※mini-batch 사이즈를 크게 하면 차는 줄어든다. 실험결과
  • 84. 83 결론 • 딥러닝의 최신 논문에 대한 소개 • 딥러닝의 방법도 중요하지만, 데이터셋의 개발과 공개도 동시에 중요 • Text의 의미이해는 앞으로의 큰 과제 • 멀티모달(사진, 음성)과 같은 동시 모델이 앞으로 발전이 기대됨.