SlideShare una empresa de Scribd logo
1 de 32
Descargar para leer sin conexión
Kyung-Min Kim
딥러닝을 활용한 비디오 스토리 질의응답:
뽀로로QA와 심층 임베딩 메모리망
2017-06-22
목차
 문제 정의
 데이터
 모델
 실험 결과
 결론
2
질의응답 에이전트
3
문제 정의
Siri
Pepper Amazon EchoMIT Jibo
IBM Watson Facebook M
비디오 질의응답 에이전트
4
문제 정의
비디오 스토리 질의응답 문제 (1/2)
5
문제 정의
 기계학습을 활용한 전형적인 NLP 문제는 함수 f_1을 근사화
 예> 감성분석
f_1(s) ∈ [0,1] where s is a sequence of tokens
 때로는 좀 더 어려운 NLP 문제도 존재
 예> 문장간 내용 유사도 측정
f_2(s1,s2) ∈ [0,1] * c where c is a rescaling factor
 비디오 질의응답 문제는 함수 f_2에서 비디오를 추가로 고려
f_3(v, s1, s2) ∈ [0,1] where v is a video
비디오 스토리 질의응답 문제 (2/2)
문제 정의
왜 만화 비디오 시리즈를 사용했는가?
7
데이터
 어린이 만화 비디오 시리즈
‘뽀로로’의 특징
 쉬운 문장
 간단 명료한 스토리 구조
• 에피소드당 평균 7.2 분
• 비슷한 이벤트 반복발생
 작은 규모의 환경
• 총 단어 종류: 3,729
• 총 등장인물 수: 13
-> 스토리 질의응답 문제의
테스트베드로써 적절 만화 비디오 ‘뽀로로’
데이터 수집을 위한 웹사이트 구축
8
데이터
비디오
컨텐츠
QA (또는화면 설명문) 입력칸
QA를 특정 화면&대화쌍에
배치
화면
(animated
GIF)
대화
(자막)
데이터 (1) – 화면 설명문
9
데이터
Loopy, Poby, Crong
and Eddy are
discussing something
except Pororo.
Pororo are going to
the cave.
Pororo is covered up
in snow resembling a
snowman.
Pororo is away
from
his friends.
Someone is taking a book
from the shelf.
Eddy is holding a book
and talking.
Poby is saying hello
by raising his right paw.
• 화면 설명문 예시
데이터 (2) – QA
10
데이터
-That is we are gonna do -Okay, I am going down
the slide
-It is all done
Let’s go to my place
Q: What does Pororo do to listen the secret?
-Want to change
crongcrongcrong
- (Narration) Crong wanted to
play with the toy plane
-No thanks
Q: Does Pororo accept to change the plane with the car?
Scene
Dialogue
QA
A1: Pororo becomes a snow man. A2: Pororo hides behind the tree.
A3: Pororo becomes a joker. A4: Pororo plays with Crong.
A5: Pororo hides behind the Eddy.
A1: No, he doesn't accept. A2: Yes, he accepts to change.
A3: Yes, He likes the green car. A4: He accepts because he likes Crong.
A5: He accepts to give Crong both the car and the plane.
Scene
Dialogue
QA
• QA 예시
데이터 통계 – 화면 설명문
 27,328 개 화면 설명문
 화면 설명문 하나당 평균 문장 / 단어 개수: 1.7 / 13.6 개
 웹사이트에서 문법과 철자 오류 자동 교정
 PororoQA와 MovieQA의 화면 설명문의 비교설문조사 결과
 각 데이터 셋으로부터 100개의 샘플 추출
 10명의 참가자가 0~1점 사이의 점수 부여
11
데이터
MovieQA* PororoQA
화면 설명문이 비디오의 시각정보로 얻을 수
있는 내용만 서술하고 있는가?
0.46 0.75
화면 설명문이 빠뜨린 정보없이 화면을 정확
히 설명하고 있는가?
0.40 0.71
* Makarand Tapaswi, Yukun Zhu, Rainer Stiefelhagen, Antonio Torralba, Raquel Urtasun, and Sanja Fidler. MovieQA: Understanding Stories in Movies through Question-Answering. In Proceedings of CVPR, 2016.
데이터 통계 - QA
 8,913 개 QA 쌍
 가이드라인을 따르지 않은 ‘모호한’, ‘스토리 무관한’ 질의 제거
 에피소드 1개당 평균 QA 개수: 약 52개
 질의 유형별 예제와 통계
12
데이터
Type Example Ratio
Action What did Pororo do with the egg? 0.20
Person Who lives in the forest? 0.18
Abstract What is the main event of Pororo day? 0.16
Detail What does the little penguin wear? 0.15
Method How did the Crong introduce himself? 0.06
Reason Why did Pororo take egg to home? 0.06
Location Where is the small village situated? 0.04
Statement What did the dinosaur say first? 0.03
Causality What happens with Crong reaches the bottom of the hill? 0.03
Yes/No Did Pororo took shelter with Poby? 0.03
Time When did Pororo and his friends stop sliding downhill? 0.02
데이터 통계
 질의 유형별 통계
 비디오 분석에 대한 다양한 데이터셋 비교
13
데이터
Dataset
TACoS M.L
[Rohrbach et al., 2014]
MPII-MD
[Rohrbach et al., 2015]
LSMDC
[Rohrbach et al., 2015]
M-VAD
[Torabi et al., 2015]
MSR-VTT
[Xu et al., 2016]
TGIF
[Li et al., 2016]
MovieQA
[Tapaswi et al., 2016]
PororoQA
(ours)
# videos 185 94 202 92 7,000 - 140 171
# clips 14,105 68,337 108,503 46,589 10,000 100,000 6,771 16,066
# sent. 52,593 68,375 108,470 46,523 200,000 125,781 N/A 43,394
# QAs - - - - - - 6,462 8,913
Domain Cooking Movie Movie Movie Open Open Movie Cartoon
Coherency X X X X X X X O
14
 U, W, V
 은닉 유닛들은 연속된
벡터공간에서 오래 전 데이터
정보를 저장
 길이가 매우 긴 입력 데이터가
주어진다면 은닉 유닛 벡터는
제한된 저장 공간에 많은 입력
정보를 저장해야함
ⓒ 2017 SNU Biointelligence Laboratory, http://bi.snu.ac.kr/
input
input
input
hidden
hidden
hidden
output
output
output
time 
U U U
W W W
V V V
inputhiddenoutputU
W
V
unfold
st = tanh(Uxt + Wst-1)
yt' = softmax(Vst)
메모리가 필요한 순환 신경망
모델
15
2017년은 앞으로의 산업계를 완전히 바꿔
놓을 새로운 기술이 본격 자리 잡는 한 해가
될 것이다. 앞으로 업계 변화를 주도할
기술은 무엇일까.
…
두 번째는 머신러닝(기계학습)을 통한
창조성 강한 디자인 등장이다. 머신러닝은
학습을 통해 사물을 구별하고 이를
바탕으로 새로운 것을 창조하는 단계에
이르렀다. 최근 `디자인 그래프`라 불리는
프로젝트로 구현됐다.
…
Q. 머신러닝으로 새로운 디자인을 창조하고자 하는
프로젝트 이름은 무엇인가?
QA 모델
A. 디자인 그래프
input
input
input
hidden
hidden
hidden
U U U
W W WW
input
input
input
hidden
hidden
hidden
U U U
W W W
…
문서 정보를 담고 있는 은닉 벡터
Question representation
질의 정보를 담고 있는 벡터
X
답변 생성
순환 신경망으로 QA 모델 만들기
모델
16
 앞방향 재현 신경망: 원본 문장의 가장 앞의 단어부터 인코더 재현 신경
망의 입력으로 주어짐
 뒷방향 재현 신경망: 원본 문장의 가장 뒤의 단어부터 인코더 재현 신경
망의 입력으로 주어짐
 인코더 재현 신경망의 은닉 유닛은 앞방향 / 뒷방향 재현 신경망의 은닉
유닛을 단순 이어붙임 (concatenation)
ⓒ 2017 SNU Biointelligence Laboratory, http://bi.snu.ac.kr/
inp
ut
inp
ut
inp
ut
hidde
n
hidde
n
hidde
n
U U U
W W W
inp
ut
inp
ut
inp
ut
hidde
n
hidde
n
hidde
nU U U
W W W
inp
ut
inp
ut
inp
ut
hidde
n
hidde
n
hidde
n
U U U
W W W W
hidde
n
hidde
n
hidde
n
W’ W’ W’
hidde
n
hidde
n
hidde
n
W’ W’ W’
hidde
n
Hidd
en'
hidde
n
W’ W’ W’ W’
U’ U’ U’ U’ U’ U’ U’ U’ U’
해결책1: 양방향 순환 신경망 (bi-directional RNN)
모델
17ⓒ 2017 SNU Biointelligence Laboratory, http://bi.snu.ac.kr/
2017년은 앞으로의 산업계를 완전히 바꿔
놓을 새로운 기술이 본격 자리 잡는 한 해가
될 것이다. 앞으로 업계 변화를 주도할
기술은 무엇일까.
…
두 번째는 머신러닝(기계학습)을 통한
창조성 강한 디자인 등장이다. 머신러닝은
학습을 통해 사물을 구별하고 이를
바탕으로 새로운 것을 창조하는 단계에
이르렀다. 최근 `디자인 그래프`라 불리는
프로젝트로 구현됐다.
…
Q. 머신러닝으로 새로운 디자인을 창조하고자 하는
프로젝트 이름은 무엇인가?
QA 모델
A. 디자인 그래프
input
input
input
hidden
hidden
hidden
U U U
W W WW
input
input
input
hidden
hidden
hidden
U U U
W W W
…
Question representation
질의 정보를 담고 있는 벡터
X
답변 생성
RAM
저장
해결책2: 히든 유닛 벡터를 저장
모델
18
 질의 응답 모듈
 스토리 (예> 문장) 선택 모듈
• 질의 q에 대해 가장 적절한 답변을 포함하고 있는 스토리 (문장) s*를 탐색
– 적절성 평가를 통해 가장 높은 점수를 받은 스토리가 선택됨
• 스토리 선택 모듈의 출력은 질의 q와 선택된 스토리 s*의 결합
– Ex> 머신러닝으로 새로운 디자인을 창조하고자 하는 프로젝트 이름은 무엇인가? 최근 `디자인 그래프`라 불리는 프로
젝트로 구현됐다.
 답변 선택 모듈
• 가능한 답변의 집합 A={ar}1…k. 중 가장 적합한 답변 a*를 선택
 적절성 평가 함수 (scoring function)
 G(x,y) ∈ [0,1] (H 함수도 동일)
 G(x,y) = U G
TUG (y)
 H(x,y) = U H
TUH (y)
 U는 임베딩 행렬
ⓒ 2017 SNU Biointelligence Laboratory, http://bi.snu.ac.kr/
* argmax ( , )
i
i
s
s G q s
*
arg max ( , )
r
a r
a
a H s a
메모리 네트워크
모델
 학습되어야하는 함수 : G, H
 G, H 함수: 긍정 예(s* 또는 a*)와 부정 예(sㄱ* 또는 a ㄱ*) 의 점수 차이를 이상 차이가 나
게 만드는 것이 목표
 손실값(에러값): 	max	(0, − ,
∗
+ , )
 긍정 예와 질의의 매치 점수가 부정 예와 질의의 매치 점수보다 이상 높을 경우 손실값은 0이 됨
 훈련 데이터 전체에 대한 손실값:
 경사 하강법을 사용하여 파라미터 UG와 UH를 학습
ⓒ 2017 SNU Biointelligence Laboratory, http://bi.snu.ac.kr/
* argmax ( , )
i
i
s
s G q s *
arg max ( , )
r
a r
a
a H s a
G(x,y) = UG
TUG (y)
H(x,y) = UH
TUH (y)
max	(0, − ,
∗
+ , )	 +
max	(0, − [ ;
∗
],
∗
+ [ ;
∗
], )	
메모리 네트워크의 학습: Triplet Loss
모델
메모리 네트워크
20
모델
심층 임베딩 메모리 네트워크
21
모델
비디오 모달리티 추가
언어 특징 차원으로
임베딩
화면 설명문과
화면-대화 통합 특징
임베딩
화면(설명문)-대화 결합
주의집중 기반 모델 사용
주의집중 기반 Scoring 함수
22
모델
 문장 X와 Y의 유사도 계산
( ) tanh( ( ) )
exp( ( ))
' ( ) ( )
t
t
t t
o t
t t o
m W h W X
w m
h h
a y q
T
ms
y y
 


X
averaging
Y
weighted
averaging
cosine_similarity(X,Y)
실험 세팅
 데이터 분리
 분리 비율: PororoQA 에피소드 171개 중 훈련 60%, 검증 20%, 테스트 20%
 데이터 집합별 질의 개수: 5521 / 1955 / 1437개
 성능 측정 모델
 사람 성능
 VQA 모델 (BoW V+Q, W2V V+Q, LSTM V+Q)
 기존 스토리 질의 응답 모델의 성능 (메모리 네트워크, 종단 메모리 네트워크)
 심층 임베딩 메모리 네트워크 성능
 실험 종류 (full ablation experiments)
 모델의 입력 조합이 될 수 있는 모든 경우의 수 생성
 입력:
• 질의 Q
• 대화 L
• 화면 V
• 화면 설명문 E
23
실험 결과
 비디오의 정보를 사용할 수록 성능 향상
 기존 스토리 학습 모델에 비해 더 좋은 결과를 보임
 주의집중 기작을 사용하면 성능 좀 더 향상
 기존 메모리 네트워크 모델은 시각과 언어 정보를 모델의 마지막 부분에
서 결합했음
정량적 평가 결과 - PororoQA
Method Q Q+L Q+V Q+E Q+V+E Q+L+V Q+L+E Q+L+V+E
Human 28.2 68.2 74.3 70.5 74.6 96.9 92.3 96.9
BoW V+Q 32.1 34.6 34.2 34.6 34.6 34.4 34.3 34.2
W2V V+Q 33.3 34.9 33.8 34.8 34.0 34.5 34.6 34.1
LSTM V+Q 34.8 42.6 33.5 36.2 34.6 41.7 36.3 41.1
MemN2N 31.1 41.9 45.6 50.9 53.7 56.5
MemNN 32.1 43.6 (0.16) 48.8 (0.11) 51.6 (0.12) 55.3 58.9
DEMN w/o
attn.
31.9 43.4 (0.15) 48.9 (0.11) 51.6 (0.12) 61.9 (0.19) 63.9 (0.20)
DEMN 32.0 47.5 (0.18) 49.7 (0.12) 54.2 (0.10) 65.1 (0.21) 68.0 (0.26)
24
실험 결과
정량적 평가 결과 – MovieQA
 MovieQA
 140개 영화에 대해 6,462개의 QA 제공
 심층 임베딩 메모리 네트워크가 validation, test 집합에서 기존 스토리 학습
모델에 비해 더 좋은 성능을 보임
 MovieQA가 PororoQA에 비해 보다 복잡한 스토리 구조를 갖는 영화를 보유
하고 있음 -> 낮은 성능의 원인
25
실험 결과
Method
Val Test
Q+L Q+V Q+L+V Q+L Q+V Q+L+V
SSCB* 22.3 21.6 21.9 Rand. Rand. Rand.
MemN2N 38.0 23.1 34.2 Rand. Rand. Rand.
DEMN 42.4 39.5 44.7 28.5 29.4 30.0
* Makarand Tapaswi, Yukun Zhu, Rainer Stiefelhagen, Antonio Torralba, Raquel Urtasun, and Sanja Fidler. MovieQA: Understanding Stories in Movies through Question-Answering. In Proceedings of CVPR, 2016.
정성적 평가 결과
26
실험 결과
정성적 평가 결과
27
실험 결과
정성적 평가 결과
28
실험 결과
정성적 평가 결과
29
실험 결과
결론 및 향후 연구
 비디오 질의 응답 모델 ‘심층 임베딩 메모리망’과 데이터
‘PororoQA’ 제시
 PororoQA, MovieQA 에 성능을 평가했을 때, 기존 스토리
학습 모델인 imageQA 모델들, 메모리망 앙상블, 종단 메모
리망 앙상블보다 우수한 성능 입증
 향후 연구
 Curriculum learning 적용
• PororoQA를 사용하여 보다 복잡한 스토리 구조를 갖는 MovieQA
성능 향상
 답문장 생성 모델
 비디오 이해 모델 개선
30
결론
Appendix
31
The instructions for the AMT QA creators
32
Please read carefully. Your work will be rejected if you don't follow the guide lines.
1. After selecting an episode and watching a Youtube video, please make story-related
QAs in English. Please keep in mind that be sure to watch a video before making any
data.
2. Please select a scene-subtitle pair that is most likely to match with your question
and write down QAs. All questions should be localized in the video contents.
3. Please provide a correct answer to a question that most people would agree on
and four wrong answers for deception.
4. Your answer should be a complete sentence with correct grammar. The
minimum number of words in a sentence is four.
- "lunch" (x) -> "Pororo and Crong are having a lunch" (o)
5. Please avoid vague terms.
- "When did Pororo go there?" (x) -> "When did Pororo go Loopy's house?" (o)
- "What is Pororo doing?" (x) -> "What is Pororo doing when Crong is crying in the
house?" (o)
6. Please avoid completely unrelated questions.
- "How old is the earth" (x)
7. Please avoid image-specific (and not story-related) questions.
- "How many trees are in the video?" (x)
8. Please avoid creating duplicate questions in an episode.
9. Please use character names as follows.

Más contenido relacionado

La actualidad más candente

HPC 的に H100 は魅力的な GPU なのか?
HPC 的に H100 は魅力的な GPU なのか?HPC 的に H100 は魅力的な GPU なのか?
HPC 的に H100 は魅力的な GPU なのか?NVIDIA Japan
 
[NDC2017 : 박준철] Python 게임 서버 안녕하십니까 - 몬스터 슈퍼리그 게임 서버
[NDC2017 : 박준철] Python 게임 서버 안녕하십니까 - 몬스터 슈퍼리그 게임 서버[NDC2017 : 박준철] Python 게임 서버 안녕하십니까 - 몬스터 슈퍼리그 게임 서버
[NDC2017 : 박준철] Python 게임 서버 안녕하십니까 - 몬스터 슈퍼리그 게임 서버준철 박
 
강화학습의 개요
강화학습의 개요강화학습의 개요
강화학습의 개요Dongmin Lee
 
強化学習その1
強化学習その1強化学習その1
強化学習その1nishio
 
" 모바일 롤플레잉게임 인터페이스디자인 문서"
 " 모바일 롤플레잉게임 인터페이스디자인 문서" " 모바일 롤플레잉게임 인터페이스디자인 문서"
" 모바일 롤플레잉게임 인터페이스디자인 문서"multiwriter
 
Graph Neural Network for Phenotype Prediction
Graph Neural Network for Phenotype PredictionGraph Neural Network for Phenotype Prediction
Graph Neural Network for Phenotype Predictiontuxette
 
PS 향유회 세미나 - 머신러닝 맛보기
PS 향유회 세미나 - 머신러닝 맛보기PS 향유회 세미나 - 머신러닝 맛보기
PS 향유회 세미나 - 머신러닝 맛보기SesangCho
 
20170419PFNオープンハウス インターンと採用 公開用
20170419PFNオープンハウス  インターンと採用 公開用20170419PFNオープンハウス  インターンと採用 公開用
20170419PFNオープンハウス インターンと採用 公開用Preferred Networks
 
数式をnumpyに落としこむコツ
数式をnumpyに落としこむコツ数式をnumpyに落としこむコツ
数式をnumpyに落としこむコツShuyo Nakatani
 
第 1 回 Jetson ユーザー勉強会
第 1 回 Jetson ユーザー勉強会第 1 回 Jetson ユーザー勉強会
第 1 回 Jetson ユーザー勉強会NVIDIA Japan
 
[DL輪読会]Deep Learning 第8章 深層モデルの訓練のための最適化
[DL輪読会]Deep Learning 第8章 深層モデルの訓練のための最適化[DL輪読会]Deep Learning 第8章 深層モデルの訓練のための最適化
[DL輪読会]Deep Learning 第8章 深層モデルの訓練のための最適化Deep Learning JP
 
20111015 勉強会 (PCIe / SR-IOV)
20111015 勉強会 (PCIe / SR-IOV)20111015 勉強会 (PCIe / SR-IOV)
20111015 勉強会 (PCIe / SR-IOV)Kentaro Ebisawa
 
A Short Introduction to Generative Adversarial Networks
A Short Introduction to Generative Adversarial NetworksA Short Introduction to Generative Adversarial Networks
A Short Introduction to Generative Adversarial NetworksJong Wook Kim
 
#神奈川大学経営学総論 A マクロ組織論 I (組織構造) : (6/15回)
#神奈川大学経営学総論 A マクロ組織論 I (組織構造) : (6/15回)#神奈川大学経営学総論 A マクロ組織論 I (組織構造) : (6/15回)
#神奈川大学経営学総論 A マクロ組織論 I (組織構造) : (6/15回)Yasushi Hara
 
Introduction to Graph Neural Networks: Basics and Applications - Katsuhiko Is...
Introduction to Graph Neural Networks: Basics and Applications - Katsuhiko Is...Introduction to Graph Neural Networks: Basics and Applications - Katsuhiko Is...
Introduction to Graph Neural Networks: Basics and Applications - Katsuhiko Is...Preferred Networks
 
はじぱた7章F5up
はじぱた7章F5upはじぱた7章F5up
はじぱた7章F5upTyee Z
 
君にもできる! にゅーとろん君になってみよー!! 「Neutronになって理解するOpenStack Net - OpenStack最新情報セミナー ...
君にもできる! にゅーとろん君になってみよー!!  「Neutronになって理解するOpenStack Net - OpenStack最新情報セミナー ...君にもできる! にゅーとろん君になってみよー!!  「Neutronになって理解するOpenStack Net - OpenStack最新情報セミナー ...
君にもできる! にゅーとろん君になってみよー!! 「Neutronになって理解するOpenStack Net - OpenStack最新情報セミナー ...VirtualTech Japan Inc.
 
2015年度GPGPU実践基礎工学 第12回 GPUによる画像処理
2015年度GPGPU実践基礎工学 第12回 GPUによる画像処理2015年度GPGPU実践基礎工学 第12回 GPUによる画像処理
2015年度GPGPU実践基礎工学 第12回 GPUによる画像処理智啓 出川
 
기계학습 / 딥러닝이란 무엇인가
기계학습 / 딥러닝이란 무엇인가기계학습 / 딥러닝이란 무엇인가
기계학습 / 딥러닝이란 무엇인가Yongha Kim
 

La actualidad más candente (20)

HPC 的に H100 は魅力的な GPU なのか?
HPC 的に H100 は魅力的な GPU なのか?HPC 的に H100 は魅力的な GPU なのか?
HPC 的に H100 は魅力的な GPU なのか?
 
[NDC2017 : 박준철] Python 게임 서버 안녕하십니까 - 몬스터 슈퍼리그 게임 서버
[NDC2017 : 박준철] Python 게임 서버 안녕하십니까 - 몬스터 슈퍼리그 게임 서버[NDC2017 : 박준철] Python 게임 서버 안녕하십니까 - 몬스터 슈퍼리그 게임 서버
[NDC2017 : 박준철] Python 게임 서버 안녕하십니까 - 몬스터 슈퍼리그 게임 서버
 
강화학습의 개요
강화학습의 개요강화학습의 개요
강화학습의 개요
 
強化学習その1
強化学習その1強化学習その1
強化学習その1
 
" 모바일 롤플레잉게임 인터페이스디자인 문서"
 " 모바일 롤플레잉게임 인터페이스디자인 문서" " 모바일 롤플레잉게임 인터페이스디자인 문서"
" 모바일 롤플레잉게임 인터페이스디자인 문서"
 
Graph Neural Network for Phenotype Prediction
Graph Neural Network for Phenotype PredictionGraph Neural Network for Phenotype Prediction
Graph Neural Network for Phenotype Prediction
 
PS 향유회 세미나 - 머신러닝 맛보기
PS 향유회 세미나 - 머신러닝 맛보기PS 향유회 세미나 - 머신러닝 맛보기
PS 향유회 세미나 - 머신러닝 맛보기
 
20170419PFNオープンハウス インターンと採用 公開用
20170419PFNオープンハウス  インターンと採用 公開用20170419PFNオープンハウス  インターンと採用 公開用
20170419PFNオープンハウス インターンと採用 公開用
 
数式をnumpyに落としこむコツ
数式をnumpyに落としこむコツ数式をnumpyに落としこむコツ
数式をnumpyに落としこむコツ
 
第 1 回 Jetson ユーザー勉強会
第 1 回 Jetson ユーザー勉強会第 1 回 Jetson ユーザー勉強会
第 1 回 Jetson ユーザー勉強会
 
[DL輪読会]Deep Learning 第8章 深層モデルの訓練のための最適化
[DL輪読会]Deep Learning 第8章 深層モデルの訓練のための最適化[DL輪読会]Deep Learning 第8章 深層モデルの訓練のための最適化
[DL輪読会]Deep Learning 第8章 深層モデルの訓練のための最適化
 
20111015 勉強会 (PCIe / SR-IOV)
20111015 勉強会 (PCIe / SR-IOV)20111015 勉強会 (PCIe / SR-IOV)
20111015 勉強会 (PCIe / SR-IOV)
 
A Short Introduction to Generative Adversarial Networks
A Short Introduction to Generative Adversarial NetworksA Short Introduction to Generative Adversarial Networks
A Short Introduction to Generative Adversarial Networks
 
#神奈川大学経営学総論 A マクロ組織論 I (組織構造) : (6/15回)
#神奈川大学経営学総論 A マクロ組織論 I (組織構造) : (6/15回)#神奈川大学経営学総論 A マクロ組織論 I (組織構造) : (6/15回)
#神奈川大学経営学総論 A マクロ組織論 I (組織構造) : (6/15回)
 
Introduction to Graph Neural Networks: Basics and Applications - Katsuhiko Is...
Introduction to Graph Neural Networks: Basics and Applications - Katsuhiko Is...Introduction to Graph Neural Networks: Basics and Applications - Katsuhiko Is...
Introduction to Graph Neural Networks: Basics and Applications - Katsuhiko Is...
 
はじぱた7章F5up
はじぱた7章F5upはじぱた7章F5up
はじぱた7章F5up
 
Graph Convolutional Network 概説
Graph Convolutional Network 概説Graph Convolutional Network 概説
Graph Convolutional Network 概説
 
君にもできる! にゅーとろん君になってみよー!! 「Neutronになって理解するOpenStack Net - OpenStack最新情報セミナー ...
君にもできる! にゅーとろん君になってみよー!!  「Neutronになって理解するOpenStack Net - OpenStack最新情報セミナー ...君にもできる! にゅーとろん君になってみよー!!  「Neutronになって理解するOpenStack Net - OpenStack最新情報セミナー ...
君にもできる! にゅーとろん君になってみよー!! 「Neutronになって理解するOpenStack Net - OpenStack最新情報セミナー ...
 
2015年度GPGPU実践基礎工学 第12回 GPUによる画像処理
2015年度GPGPU実践基礎工学 第12回 GPUによる画像処理2015年度GPGPU実践基礎工学 第12回 GPUによる画像処理
2015年度GPGPU実践基礎工学 第12回 GPUによる画像処理
 
기계학습 / 딥러닝이란 무엇인가
기계학습 / 딥러닝이란 무엇인가기계학습 / 딥러닝이란 무엇인가
기계학습 / 딥러닝이란 무엇인가
 

Destacado

조음 Goodness-Of-Pronunciation 자질을 이용한 영어 학습자의 조음 오류 진단
조음 Goodness-Of-Pronunciation 자질을 이용한 영어 학습자의 조음 오류 진단조음 Goodness-Of-Pronunciation 자질을 이용한 영어 학습자의 조음 오류 진단
조음 Goodness-Of-Pronunciation 자질을 이용한 영어 학습자의 조음 오류 진단NAVER Engineering
 
Online video object segmentation via convolutional trident network
Online video object segmentation via convolutional trident networkOnline video object segmentation via convolutional trident network
Online video object segmentation via convolutional trident networkNAVER Engineering
 
바둑인을 위한 알파고
바둑인을 위한 알파고바둑인을 위한 알파고
바둑인을 위한 알파고Donghun Lee
 
알파고 풀어보기 / Alpha Technical Review
알파고 풀어보기 / Alpha Technical Review알파고 풀어보기 / Alpha Technical Review
알파고 풀어보기 / Alpha Technical Review상은 박
 
Step-by-step approach to question answering
Step-by-step approach to question answeringStep-by-step approach to question answering
Step-by-step approach to question answeringNAVER Engineering
 
Video Object Segmentation in Videos
Video Object Segmentation in VideosVideo Object Segmentation in Videos
Video Object Segmentation in VideosNAVER Engineering
 
Deep Learning, Where Are You Going?
Deep Learning, Where Are You Going?Deep Learning, Where Are You Going?
Deep Learning, Where Are You Going?NAVER Engineering
 
Introduction of Deep Reinforcement Learning
Introduction of Deep Reinforcement LearningIntroduction of Deep Reinforcement Learning
Introduction of Deep Reinforcement LearningNAVER Engineering
 
알파고 해부하기 1부
알파고 해부하기 1부알파고 해부하기 1부
알파고 해부하기 1부Donghun Lee
 
Multimodal Sequential Learning for Video QA
Multimodal Sequential Learning for Video QAMultimodal Sequential Learning for Video QA
Multimodal Sequential Learning for Video QANAVER Engineering
 
RLCode와 A3C 쉽고 깊게 이해하기
RLCode와 A3C 쉽고 깊게 이해하기RLCode와 A3C 쉽고 깊게 이해하기
RLCode와 A3C 쉽고 깊게 이해하기Woong won Lee
 
Finding connections among images using CycleGAN
Finding connections among images using CycleGANFinding connections among images using CycleGAN
Finding connections among images using CycleGANNAVER Engineering
 
1시간만에 GAN(Generative Adversarial Network) 완전 정복하기
1시간만에 GAN(Generative Adversarial Network) 완전 정복하기1시간만에 GAN(Generative Adversarial Network) 완전 정복하기
1시간만에 GAN(Generative Adversarial Network) 완전 정복하기NAVER Engineering
 
[2017 PYCON 튜토리얼]OpenAI Gym을 이용한 강화학습 에이전트 만들기
[2017 PYCON 튜토리얼]OpenAI Gym을 이용한 강화학습 에이전트 만들기[2017 PYCON 튜토리얼]OpenAI Gym을 이용한 강화학습 에이전트 만들기
[2017 PYCON 튜토리얼]OpenAI Gym을 이용한 강화학습 에이전트 만들기이 의령
 
알파고 (바둑 인공지능)의 작동 원리
알파고 (바둑 인공지능)의 작동 원리알파고 (바둑 인공지능)의 작동 원리
알파고 (바둑 인공지능)의 작동 원리Shane (Seungwhan) Moon
 
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016Taehoon Kim
 
Let Android dream electric sheep: Making emotion model for chat-bot with Pyth...
Let Android dream electric sheep: Making emotion model for chat-bot with Pyth...Let Android dream electric sheep: Making emotion model for chat-bot with Pyth...
Let Android dream electric sheep: Making emotion model for chat-bot with Pyth...Jeongkyu Shin
 
what is_tabs_share
what is_tabs_sharewhat is_tabs_share
what is_tabs_shareNAVER D2
 
밑바닥부터시작하는360뷰어
밑바닥부터시작하는360뷰어밑바닥부터시작하는360뷰어
밑바닥부터시작하는360뷰어NAVER D2
 
[143]알파글래스의 개발과정으로 알아보는 ar 스마트글래스 광학 시스템
[143]알파글래스의 개발과정으로 알아보는 ar 스마트글래스 광학 시스템 [143]알파글래스의 개발과정으로 알아보는 ar 스마트글래스 광학 시스템
[143]알파글래스의 개발과정으로 알아보는 ar 스마트글래스 광학 시스템 NAVER D2
 

Destacado (20)

조음 Goodness-Of-Pronunciation 자질을 이용한 영어 학습자의 조음 오류 진단
조음 Goodness-Of-Pronunciation 자질을 이용한 영어 학습자의 조음 오류 진단조음 Goodness-Of-Pronunciation 자질을 이용한 영어 학습자의 조음 오류 진단
조음 Goodness-Of-Pronunciation 자질을 이용한 영어 학습자의 조음 오류 진단
 
Online video object segmentation via convolutional trident network
Online video object segmentation via convolutional trident networkOnline video object segmentation via convolutional trident network
Online video object segmentation via convolutional trident network
 
바둑인을 위한 알파고
바둑인을 위한 알파고바둑인을 위한 알파고
바둑인을 위한 알파고
 
알파고 풀어보기 / Alpha Technical Review
알파고 풀어보기 / Alpha Technical Review알파고 풀어보기 / Alpha Technical Review
알파고 풀어보기 / Alpha Technical Review
 
Step-by-step approach to question answering
Step-by-step approach to question answeringStep-by-step approach to question answering
Step-by-step approach to question answering
 
Video Object Segmentation in Videos
Video Object Segmentation in VideosVideo Object Segmentation in Videos
Video Object Segmentation in Videos
 
Deep Learning, Where Are You Going?
Deep Learning, Where Are You Going?Deep Learning, Where Are You Going?
Deep Learning, Where Are You Going?
 
Introduction of Deep Reinforcement Learning
Introduction of Deep Reinforcement LearningIntroduction of Deep Reinforcement Learning
Introduction of Deep Reinforcement Learning
 
알파고 해부하기 1부
알파고 해부하기 1부알파고 해부하기 1부
알파고 해부하기 1부
 
Multimodal Sequential Learning for Video QA
Multimodal Sequential Learning for Video QAMultimodal Sequential Learning for Video QA
Multimodal Sequential Learning for Video QA
 
RLCode와 A3C 쉽고 깊게 이해하기
RLCode와 A3C 쉽고 깊게 이해하기RLCode와 A3C 쉽고 깊게 이해하기
RLCode와 A3C 쉽고 깊게 이해하기
 
Finding connections among images using CycleGAN
Finding connections among images using CycleGANFinding connections among images using CycleGAN
Finding connections among images using CycleGAN
 
1시간만에 GAN(Generative Adversarial Network) 완전 정복하기
1시간만에 GAN(Generative Adversarial Network) 완전 정복하기1시간만에 GAN(Generative Adversarial Network) 완전 정복하기
1시간만에 GAN(Generative Adversarial Network) 완전 정복하기
 
[2017 PYCON 튜토리얼]OpenAI Gym을 이용한 강화학습 에이전트 만들기
[2017 PYCON 튜토리얼]OpenAI Gym을 이용한 강화학습 에이전트 만들기[2017 PYCON 튜토리얼]OpenAI Gym을 이용한 강화학습 에이전트 만들기
[2017 PYCON 튜토리얼]OpenAI Gym을 이용한 강화학습 에이전트 만들기
 
알파고 (바둑 인공지능)의 작동 원리
알파고 (바둑 인공지능)의 작동 원리알파고 (바둑 인공지능)의 작동 원리
알파고 (바둑 인공지능)의 작동 원리
 
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
 
Let Android dream electric sheep: Making emotion model for chat-bot with Pyth...
Let Android dream electric sheep: Making emotion model for chat-bot with Pyth...Let Android dream electric sheep: Making emotion model for chat-bot with Pyth...
Let Android dream electric sheep: Making emotion model for chat-bot with Pyth...
 
what is_tabs_share
what is_tabs_sharewhat is_tabs_share
what is_tabs_share
 
밑바닥부터시작하는360뷰어
밑바닥부터시작하는360뷰어밑바닥부터시작하는360뷰어
밑바닥부터시작하는360뷰어
 
[143]알파글래스의 개발과정으로 알아보는 ar 스마트글래스 광학 시스템
[143]알파글래스의 개발과정으로 알아보는 ar 스마트글래스 광학 시스템 [143]알파글래스의 개발과정으로 알아보는 ar 스마트글래스 광학 시스템
[143]알파글래스의 개발과정으로 알아보는 ar 스마트글래스 광학 시스템
 

Similar a 딥러닝을 활용한 비디오 스토리 질의응답: 뽀로로QA와 심층 임베딩 메모리망

Long term feature banks for detailed video understanding (Action Recognition)
Long term feature banks for detailed video understanding (Action Recognition)Long term feature banks for detailed video understanding (Action Recognition)
Long term feature banks for detailed video understanding (Action Recognition)Susang Kim
 
Coding interview
Coding interviewCoding interview
Coding interviewSoohan Ahn
 
제 13회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [경기는 계속되어야 한다] : 실시간 축구 중계 영상 화질개선 모델
제 13회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [경기는 계속되어야 한다] : 실시간 축구 중계 영상 화질개선 모델제 13회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [경기는 계속되어야 한다] : 실시간 축구 중계 영상 화질개선 모델
제 13회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [경기는 계속되어야 한다] : 실시간 축구 중계 영상 화질개선 모델BOAZ Bigdata
 
인공지능 방법론 - Deep Learning 쉽게 이해하기
인공지능 방법론 - Deep Learning 쉽게 이해하기인공지능 방법론 - Deep Learning 쉽게 이해하기
인공지능 방법론 - Deep Learning 쉽게 이해하기Byoung-Hee Kim
 
[컨퍼런스] 모두콘 2018 리뷰
[컨퍼런스] 모두콘 2018 리뷰[컨퍼런스] 모두콘 2018 리뷰
[컨퍼런스] 모두콘 2018 리뷰Donghyeon Kim
 
권기훈_포트폴리오
권기훈_포트폴리오권기훈_포트폴리오
권기훈_포트폴리오Kihoon4
 
인공지능 방법론 - 딥러닝 이해하기
인공지능 방법론 - 딥러닝 이해하기인공지능 방법론 - 딥러닝 이해하기
인공지능 방법론 - 딥러닝 이해하기Byoung-Hee Kim
 
비디오 특성 분석 및 딥러닝을 이용한 실시간 인코딩 효율 최적화
비디오 특성 분석 및 딥러닝을 이용한 실시간 인코딩 효율 최적화비디오 특성 분석 및 딥러닝을 이용한 실시간 인코딩 효율 최적화
비디오 특성 분석 및 딥러닝을 이용한 실시간 인코딩 효율 최적화if kakao
 
코로나 19 상황에서 대학 교수자의 온라인 수업 어려움 탐색
코로나 19 상황에서 대학 교수자의 온라인 수업 어려움 탐색 코로나 19 상황에서 대학 교수자의 온라인 수업 어려움 탐색
코로나 19 상황에서 대학 교수자의 온라인 수업 어려움 탐색 (주) Story21
 
전형규, 가성비 좋은 렌더링 테크닉 10선, NDC2012
전형규, 가성비 좋은 렌더링 테크닉 10선, NDC2012전형규, 가성비 좋은 렌더링 테크닉 10선, NDC2012
전형규, 가성비 좋은 렌더링 테크닉 10선, NDC2012devCAT Studio, NEXON
 
피지컬 컴퓨팅 교육을 위한 프로그래밍 언어 활용 방안 연구
피지컬 컴퓨팅 교육을 위한 프로그래밍 언어 활용 방안 연구피지컬 컴퓨팅 교육을 위한 프로그래밍 언어 활용 방안 연구
피지컬 컴퓨팅 교육을 위한 프로그래밍 언어 활용 방안 연구yunjae jang
 
한국어 MRC 연구를 위한 표준 데이터셋(KorQuAD) 소개 및 B2B를 위한 MRC 연구 사례
한국어 MRC 연구를 위한 표준 데이터셋(KorQuAD) 소개 및 B2B를 위한 MRC 연구 사례한국어 MRC 연구를 위한 표준 데이터셋(KorQuAD) 소개 및 B2B를 위한 MRC 연구 사례
한국어 MRC 연구를 위한 표준 데이터셋(KorQuAD) 소개 및 B2B를 위한 MRC 연구 사례NAVER Engineering
 
딥뉴럴넷 클러스터링 실패기
딥뉴럴넷 클러스터링 실패기딥뉴럴넷 클러스터링 실패기
딥뉴럴넷 클러스터링 실패기Myeongju Kim
 
온라인 게임에서 사례로 살펴보는 디버깅 in NDC2010
온라인 게임에서 사례로 살펴보는 디버깅 in NDC2010온라인 게임에서 사례로 살펴보는 디버깅 in NDC2010
온라인 게임에서 사례로 살펴보는 디버깅 in NDC2010Ryan Park
 
온라인 게임에서 사례로 살펴보는 디버깅 in NDC10
온라인 게임에서 사례로 살펴보는 디버깅 in NDC10온라인 게임에서 사례로 살펴보는 디버깅 in NDC10
온라인 게임에서 사례로 살펴보는 디버깅 in NDC10Ryan Park
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Hands-on 팀] : 수어 번역을 통한 위험 상황 속 의사소통 시스템 구축
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Hands-on 팀] : 수어 번역을 통한 위험 상황 속 의사소통 시스템 구축제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Hands-on 팀] : 수어 번역을 통한 위험 상황 속 의사소통 시스템 구축
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Hands-on 팀] : 수어 번역을 통한 위험 상황 속 의사소통 시스템 구축BOAZ Bigdata
 
파이썬으로 익히는 딥러닝 기본 (18년)
파이썬으로 익히는 딥러닝 기본 (18년)파이썬으로 익히는 딥러닝 기본 (18년)
파이썬으로 익히는 딥러닝 기본 (18년)SK(주) C&C - 강병호
 

Similar a 딥러닝을 활용한 비디오 스토리 질의응답: 뽀로로QA와 심층 임베딩 메모리망 (20)

Long term feature banks for detailed video understanding (Action Recognition)
Long term feature banks for detailed video understanding (Action Recognition)Long term feature banks for detailed video understanding (Action Recognition)
Long term feature banks for detailed video understanding (Action Recognition)
 
Coding interview
Coding interviewCoding interview
Coding interview
 
제 13회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [경기는 계속되어야 한다] : 실시간 축구 중계 영상 화질개선 모델
제 13회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [경기는 계속되어야 한다] : 실시간 축구 중계 영상 화질개선 모델제 13회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [경기는 계속되어야 한다] : 실시간 축구 중계 영상 화질개선 모델
제 13회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [경기는 계속되어야 한다] : 실시간 축구 중계 영상 화질개선 모델
 
인공지능 방법론 - Deep Learning 쉽게 이해하기
인공지능 방법론 - Deep Learning 쉽게 이해하기인공지능 방법론 - Deep Learning 쉽게 이해하기
인공지능 방법론 - Deep Learning 쉽게 이해하기
 
파이썬으로 익히는 딥러닝
파이썬으로 익히는 딥러닝파이썬으로 익히는 딥러닝
파이썬으로 익히는 딥러닝
 
[컨퍼런스] 모두콘 2018 리뷰
[컨퍼런스] 모두콘 2018 리뷰[컨퍼런스] 모두콘 2018 리뷰
[컨퍼런스] 모두콘 2018 리뷰
 
권기훈_포트폴리오
권기훈_포트폴리오권기훈_포트폴리오
권기훈_포트폴리오
 
인공지능 방법론 - 딥러닝 이해하기
인공지능 방법론 - 딥러닝 이해하기인공지능 방법론 - 딥러닝 이해하기
인공지능 방법론 - 딥러닝 이해하기
 
비디오 특성 분석 및 딥러닝을 이용한 실시간 인코딩 효율 최적화
비디오 특성 분석 및 딥러닝을 이용한 실시간 인코딩 효율 최적화비디오 특성 분석 및 딥러닝을 이용한 실시간 인코딩 효율 최적화
비디오 특성 분석 및 딥러닝을 이용한 실시간 인코딩 효율 최적화
 
코로나 19 상황에서 대학 교수자의 온라인 수업 어려움 탐색
코로나 19 상황에서 대학 교수자의 온라인 수업 어려움 탐색 코로나 19 상황에서 대학 교수자의 온라인 수업 어려움 탐색
코로나 19 상황에서 대학 교수자의 온라인 수업 어려움 탐색
 
전형규, 가성비 좋은 렌더링 테크닉 10선, NDC2012
전형규, 가성비 좋은 렌더링 테크닉 10선, NDC2012전형규, 가성비 좋은 렌더링 테크닉 10선, NDC2012
전형규, 가성비 좋은 렌더링 테크닉 10선, NDC2012
 
피지컬 컴퓨팅 교육을 위한 프로그래밍 언어 활용 방안 연구
피지컬 컴퓨팅 교육을 위한 프로그래밍 언어 활용 방안 연구피지컬 컴퓨팅 교육을 위한 프로그래밍 언어 활용 방안 연구
피지컬 컴퓨팅 교육을 위한 프로그래밍 언어 활용 방안 연구
 
한국어 MRC 연구를 위한 표준 데이터셋(KorQuAD) 소개 및 B2B를 위한 MRC 연구 사례
한국어 MRC 연구를 위한 표준 데이터셋(KorQuAD) 소개 및 B2B를 위한 MRC 연구 사례한국어 MRC 연구를 위한 표준 데이터셋(KorQuAD) 소개 및 B2B를 위한 MRC 연구 사례
한국어 MRC 연구를 위한 표준 데이터셋(KorQuAD) 소개 및 B2B를 위한 MRC 연구 사례
 
메이크챗봇 자연어기초
메이크챗봇 자연어기초메이크챗봇 자연어기초
메이크챗봇 자연어기초
 
딥뉴럴넷 클러스터링 실패기
딥뉴럴넷 클러스터링 실패기딥뉴럴넷 클러스터링 실패기
딥뉴럴넷 클러스터링 실패기
 
온라인 게임에서 사례로 살펴보는 디버깅 in NDC2010
온라인 게임에서 사례로 살펴보는 디버깅 in NDC2010온라인 게임에서 사례로 살펴보는 디버깅 in NDC2010
온라인 게임에서 사례로 살펴보는 디버깅 in NDC2010
 
온라인 게임에서 사례로 살펴보는 디버깅 in NDC10
온라인 게임에서 사례로 살펴보는 디버깅 in NDC10온라인 게임에서 사례로 살펴보는 디버깅 in NDC10
온라인 게임에서 사례로 살펴보는 디버깅 in NDC10
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Hands-on 팀] : 수어 번역을 통한 위험 상황 속 의사소통 시스템 구축
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Hands-on 팀] : 수어 번역을 통한 위험 상황 속 의사소통 시스템 구축제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Hands-on 팀] : 수어 번역을 통한 위험 상황 속 의사소통 시스템 구축
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Hands-on 팀] : 수어 번역을 통한 위험 상황 속 의사소통 시스템 구축
 
파이썬으로 익히는 딥러닝 기본 (18년)
파이썬으로 익히는 딥러닝 기본 (18년)파이썬으로 익히는 딥러닝 기본 (18년)
파이썬으로 익히는 딥러닝 기본 (18년)
 
Etri Retrospect
Etri RetrospectEtri Retrospect
Etri Retrospect
 

Más de NAVER Engineering

디자인 시스템에 직방 ZUIX
디자인 시스템에 직방 ZUIX디자인 시스템에 직방 ZUIX
디자인 시스템에 직방 ZUIXNAVER Engineering
 
진화하는 디자인 시스템(걸음마 편)
진화하는 디자인 시스템(걸음마 편)진화하는 디자인 시스템(걸음마 편)
진화하는 디자인 시스템(걸음마 편)NAVER Engineering
 
서비스 운영을 위한 디자인시스템 프로젝트
서비스 운영을 위한 디자인시스템 프로젝트서비스 운영을 위한 디자인시스템 프로젝트
서비스 운영을 위한 디자인시스템 프로젝트NAVER Engineering
 
BPL(Banksalad Product Language) 무야호
BPL(Banksalad Product Language) 무야호BPL(Banksalad Product Language) 무야호
BPL(Banksalad Product Language) 무야호NAVER Engineering
 
이번 생에 디자인 시스템은 처음이라
이번 생에 디자인 시스템은 처음이라이번 생에 디자인 시스템은 처음이라
이번 생에 디자인 시스템은 처음이라NAVER Engineering
 
날고 있는 여러 비행기 넘나 들며 정비하기
날고 있는 여러 비행기 넘나 들며 정비하기날고 있는 여러 비행기 넘나 들며 정비하기
날고 있는 여러 비행기 넘나 들며 정비하기NAVER Engineering
 
쏘카프레임 구축 배경과 과정
 쏘카프레임 구축 배경과 과정 쏘카프레임 구축 배경과 과정
쏘카프레임 구축 배경과 과정NAVER Engineering
 
플랫폼 디자이너 없이 디자인 시스템을 구축하는 프로덕트 디자이너의 우당탕탕 고통 연대기
플랫폼 디자이너 없이 디자인 시스템을 구축하는 프로덕트 디자이너의 우당탕탕 고통 연대기플랫폼 디자이너 없이 디자인 시스템을 구축하는 프로덕트 디자이너의 우당탕탕 고통 연대기
플랫폼 디자이너 없이 디자인 시스템을 구축하는 프로덕트 디자이너의 우당탕탕 고통 연대기NAVER Engineering
 
200820 NAVER TECH CONCERT 15_Code Review is Horse(코드리뷰는 말이야)(feat.Latte)
200820 NAVER TECH CONCERT 15_Code Review is Horse(코드리뷰는 말이야)(feat.Latte)200820 NAVER TECH CONCERT 15_Code Review is Horse(코드리뷰는 말이야)(feat.Latte)
200820 NAVER TECH CONCERT 15_Code Review is Horse(코드리뷰는 말이야)(feat.Latte)NAVER Engineering
 
200819 NAVER TECH CONCERT 03_화려한 코루틴이 내 앱을 감싸네! 코루틴으로 작성해보는 깔끔한 비동기 코드
200819 NAVER TECH CONCERT 03_화려한 코루틴이 내 앱을 감싸네! 코루틴으로 작성해보는 깔끔한 비동기 코드200819 NAVER TECH CONCERT 03_화려한 코루틴이 내 앱을 감싸네! 코루틴으로 작성해보는 깔끔한 비동기 코드
200819 NAVER TECH CONCERT 03_화려한 코루틴이 내 앱을 감싸네! 코루틴으로 작성해보는 깔끔한 비동기 코드NAVER Engineering
 
200819 NAVER TECH CONCERT 10_맥북에서도 아이맥프로에서 빌드하는 것처럼 빌드 속도 빠르게 하기
200819 NAVER TECH CONCERT 10_맥북에서도 아이맥프로에서 빌드하는 것처럼 빌드 속도 빠르게 하기200819 NAVER TECH CONCERT 10_맥북에서도 아이맥프로에서 빌드하는 것처럼 빌드 속도 빠르게 하기
200819 NAVER TECH CONCERT 10_맥북에서도 아이맥프로에서 빌드하는 것처럼 빌드 속도 빠르게 하기NAVER Engineering
 
200819 NAVER TECH CONCERT 08_성능을 고민하는 슬기로운 개발자 생활
200819 NAVER TECH CONCERT 08_성능을 고민하는 슬기로운 개발자 생활200819 NAVER TECH CONCERT 08_성능을 고민하는 슬기로운 개발자 생활
200819 NAVER TECH CONCERT 08_성능을 고민하는 슬기로운 개발자 생활NAVER Engineering
 
200819 NAVER TECH CONCERT 05_모르면 손해보는 Android 디버깅/분석 꿀팁 대방출
200819 NAVER TECH CONCERT 05_모르면 손해보는 Android 디버깅/분석 꿀팁 대방출200819 NAVER TECH CONCERT 05_모르면 손해보는 Android 디버깅/분석 꿀팁 대방출
200819 NAVER TECH CONCERT 05_모르면 손해보는 Android 디버깅/분석 꿀팁 대방출NAVER Engineering
 
200819 NAVER TECH CONCERT 09_Case.xcodeproj - 좋은 동료로 거듭나기 위한 노하우
200819 NAVER TECH CONCERT 09_Case.xcodeproj - 좋은 동료로 거듭나기 위한 노하우200819 NAVER TECH CONCERT 09_Case.xcodeproj - 좋은 동료로 거듭나기 위한 노하우
200819 NAVER TECH CONCERT 09_Case.xcodeproj - 좋은 동료로 거듭나기 위한 노하우NAVER Engineering
 
200820 NAVER TECH CONCERT 14_야 너두 할 수 있어. 비전공자, COBOL 개발자를 거쳐 네이버에서 FE 개발하게 된...
200820 NAVER TECH CONCERT 14_야 너두 할 수 있어. 비전공자, COBOL 개발자를 거쳐 네이버에서 FE 개발하게 된...200820 NAVER TECH CONCERT 14_야 너두 할 수 있어. 비전공자, COBOL 개발자를 거쳐 네이버에서 FE 개발하게 된...
200820 NAVER TECH CONCERT 14_야 너두 할 수 있어. 비전공자, COBOL 개발자를 거쳐 네이버에서 FE 개발하게 된...NAVER Engineering
 
200820 NAVER TECH CONCERT 13_네이버에서 오픈 소스 개발을 통해 성장하는 방법
200820 NAVER TECH CONCERT 13_네이버에서 오픈 소스 개발을 통해 성장하는 방법200820 NAVER TECH CONCERT 13_네이버에서 오픈 소스 개발을 통해 성장하는 방법
200820 NAVER TECH CONCERT 13_네이버에서 오픈 소스 개발을 통해 성장하는 방법NAVER Engineering
 
200820 NAVER TECH CONCERT 12_상반기 네이버 인턴을 돌아보며
200820 NAVER TECH CONCERT 12_상반기 네이버 인턴을 돌아보며200820 NAVER TECH CONCERT 12_상반기 네이버 인턴을 돌아보며
200820 NAVER TECH CONCERT 12_상반기 네이버 인턴을 돌아보며NAVER Engineering
 
200820 NAVER TECH CONCERT 11_빠르게 성장하는 슈퍼루키로 거듭나기
200820 NAVER TECH CONCERT 11_빠르게 성장하는 슈퍼루키로 거듭나기200820 NAVER TECH CONCERT 11_빠르게 성장하는 슈퍼루키로 거듭나기
200820 NAVER TECH CONCERT 11_빠르게 성장하는 슈퍼루키로 거듭나기NAVER Engineering
 
200819 NAVER TECH CONCERT 07_신입 iOS 개발자 개발업무 적응기
200819 NAVER TECH CONCERT 07_신입 iOS 개발자 개발업무 적응기200819 NAVER TECH CONCERT 07_신입 iOS 개발자 개발업무 적응기
200819 NAVER TECH CONCERT 07_신입 iOS 개발자 개발업무 적응기NAVER Engineering
 

Más de NAVER Engineering (20)

React vac pattern
React vac patternReact vac pattern
React vac pattern
 
디자인 시스템에 직방 ZUIX
디자인 시스템에 직방 ZUIX디자인 시스템에 직방 ZUIX
디자인 시스템에 직방 ZUIX
 
진화하는 디자인 시스템(걸음마 편)
진화하는 디자인 시스템(걸음마 편)진화하는 디자인 시스템(걸음마 편)
진화하는 디자인 시스템(걸음마 편)
 
서비스 운영을 위한 디자인시스템 프로젝트
서비스 운영을 위한 디자인시스템 프로젝트서비스 운영을 위한 디자인시스템 프로젝트
서비스 운영을 위한 디자인시스템 프로젝트
 
BPL(Banksalad Product Language) 무야호
BPL(Banksalad Product Language) 무야호BPL(Banksalad Product Language) 무야호
BPL(Banksalad Product Language) 무야호
 
이번 생에 디자인 시스템은 처음이라
이번 생에 디자인 시스템은 처음이라이번 생에 디자인 시스템은 처음이라
이번 생에 디자인 시스템은 처음이라
 
날고 있는 여러 비행기 넘나 들며 정비하기
날고 있는 여러 비행기 넘나 들며 정비하기날고 있는 여러 비행기 넘나 들며 정비하기
날고 있는 여러 비행기 넘나 들며 정비하기
 
쏘카프레임 구축 배경과 과정
 쏘카프레임 구축 배경과 과정 쏘카프레임 구축 배경과 과정
쏘카프레임 구축 배경과 과정
 
플랫폼 디자이너 없이 디자인 시스템을 구축하는 프로덕트 디자이너의 우당탕탕 고통 연대기
플랫폼 디자이너 없이 디자인 시스템을 구축하는 프로덕트 디자이너의 우당탕탕 고통 연대기플랫폼 디자이너 없이 디자인 시스템을 구축하는 프로덕트 디자이너의 우당탕탕 고통 연대기
플랫폼 디자이너 없이 디자인 시스템을 구축하는 프로덕트 디자이너의 우당탕탕 고통 연대기
 
200820 NAVER TECH CONCERT 15_Code Review is Horse(코드리뷰는 말이야)(feat.Latte)
200820 NAVER TECH CONCERT 15_Code Review is Horse(코드리뷰는 말이야)(feat.Latte)200820 NAVER TECH CONCERT 15_Code Review is Horse(코드리뷰는 말이야)(feat.Latte)
200820 NAVER TECH CONCERT 15_Code Review is Horse(코드리뷰는 말이야)(feat.Latte)
 
200819 NAVER TECH CONCERT 03_화려한 코루틴이 내 앱을 감싸네! 코루틴으로 작성해보는 깔끔한 비동기 코드
200819 NAVER TECH CONCERT 03_화려한 코루틴이 내 앱을 감싸네! 코루틴으로 작성해보는 깔끔한 비동기 코드200819 NAVER TECH CONCERT 03_화려한 코루틴이 내 앱을 감싸네! 코루틴으로 작성해보는 깔끔한 비동기 코드
200819 NAVER TECH CONCERT 03_화려한 코루틴이 내 앱을 감싸네! 코루틴으로 작성해보는 깔끔한 비동기 코드
 
200819 NAVER TECH CONCERT 10_맥북에서도 아이맥프로에서 빌드하는 것처럼 빌드 속도 빠르게 하기
200819 NAVER TECH CONCERT 10_맥북에서도 아이맥프로에서 빌드하는 것처럼 빌드 속도 빠르게 하기200819 NAVER TECH CONCERT 10_맥북에서도 아이맥프로에서 빌드하는 것처럼 빌드 속도 빠르게 하기
200819 NAVER TECH CONCERT 10_맥북에서도 아이맥프로에서 빌드하는 것처럼 빌드 속도 빠르게 하기
 
200819 NAVER TECH CONCERT 08_성능을 고민하는 슬기로운 개발자 생활
200819 NAVER TECH CONCERT 08_성능을 고민하는 슬기로운 개발자 생활200819 NAVER TECH CONCERT 08_성능을 고민하는 슬기로운 개발자 생활
200819 NAVER TECH CONCERT 08_성능을 고민하는 슬기로운 개발자 생활
 
200819 NAVER TECH CONCERT 05_모르면 손해보는 Android 디버깅/분석 꿀팁 대방출
200819 NAVER TECH CONCERT 05_모르면 손해보는 Android 디버깅/분석 꿀팁 대방출200819 NAVER TECH CONCERT 05_모르면 손해보는 Android 디버깅/분석 꿀팁 대방출
200819 NAVER TECH CONCERT 05_모르면 손해보는 Android 디버깅/분석 꿀팁 대방출
 
200819 NAVER TECH CONCERT 09_Case.xcodeproj - 좋은 동료로 거듭나기 위한 노하우
200819 NAVER TECH CONCERT 09_Case.xcodeproj - 좋은 동료로 거듭나기 위한 노하우200819 NAVER TECH CONCERT 09_Case.xcodeproj - 좋은 동료로 거듭나기 위한 노하우
200819 NAVER TECH CONCERT 09_Case.xcodeproj - 좋은 동료로 거듭나기 위한 노하우
 
200820 NAVER TECH CONCERT 14_야 너두 할 수 있어. 비전공자, COBOL 개발자를 거쳐 네이버에서 FE 개발하게 된...
200820 NAVER TECH CONCERT 14_야 너두 할 수 있어. 비전공자, COBOL 개발자를 거쳐 네이버에서 FE 개발하게 된...200820 NAVER TECH CONCERT 14_야 너두 할 수 있어. 비전공자, COBOL 개발자를 거쳐 네이버에서 FE 개발하게 된...
200820 NAVER TECH CONCERT 14_야 너두 할 수 있어. 비전공자, COBOL 개발자를 거쳐 네이버에서 FE 개발하게 된...
 
200820 NAVER TECH CONCERT 13_네이버에서 오픈 소스 개발을 통해 성장하는 방법
200820 NAVER TECH CONCERT 13_네이버에서 오픈 소스 개발을 통해 성장하는 방법200820 NAVER TECH CONCERT 13_네이버에서 오픈 소스 개발을 통해 성장하는 방법
200820 NAVER TECH CONCERT 13_네이버에서 오픈 소스 개발을 통해 성장하는 방법
 
200820 NAVER TECH CONCERT 12_상반기 네이버 인턴을 돌아보며
200820 NAVER TECH CONCERT 12_상반기 네이버 인턴을 돌아보며200820 NAVER TECH CONCERT 12_상반기 네이버 인턴을 돌아보며
200820 NAVER TECH CONCERT 12_상반기 네이버 인턴을 돌아보며
 
200820 NAVER TECH CONCERT 11_빠르게 성장하는 슈퍼루키로 거듭나기
200820 NAVER TECH CONCERT 11_빠르게 성장하는 슈퍼루키로 거듭나기200820 NAVER TECH CONCERT 11_빠르게 성장하는 슈퍼루키로 거듭나기
200820 NAVER TECH CONCERT 11_빠르게 성장하는 슈퍼루키로 거듭나기
 
200819 NAVER TECH CONCERT 07_신입 iOS 개발자 개발업무 적응기
200819 NAVER TECH CONCERT 07_신입 iOS 개발자 개발업무 적응기200819 NAVER TECH CONCERT 07_신입 iOS 개발자 개발업무 적응기
200819 NAVER TECH CONCERT 07_신입 iOS 개발자 개발업무 적응기
 

딥러닝을 활용한 비디오 스토리 질의응답: 뽀로로QA와 심층 임베딩 메모리망

  • 1. Kyung-Min Kim 딥러닝을 활용한 비디오 스토리 질의응답: 뽀로로QA와 심층 임베딩 메모리망 2017-06-22
  • 2. 목차  문제 정의  데이터  모델  실험 결과  결론 2
  • 3. 질의응답 에이전트 3 문제 정의 Siri Pepper Amazon EchoMIT Jibo IBM Watson Facebook M
  • 5. 비디오 스토리 질의응답 문제 (1/2) 5 문제 정의
  • 6.  기계학습을 활용한 전형적인 NLP 문제는 함수 f_1을 근사화  예> 감성분석 f_1(s) ∈ [0,1] where s is a sequence of tokens  때로는 좀 더 어려운 NLP 문제도 존재  예> 문장간 내용 유사도 측정 f_2(s1,s2) ∈ [0,1] * c where c is a rescaling factor  비디오 질의응답 문제는 함수 f_2에서 비디오를 추가로 고려 f_3(v, s1, s2) ∈ [0,1] where v is a video 비디오 스토리 질의응답 문제 (2/2) 문제 정의
  • 7. 왜 만화 비디오 시리즈를 사용했는가? 7 데이터  어린이 만화 비디오 시리즈 ‘뽀로로’의 특징  쉬운 문장  간단 명료한 스토리 구조 • 에피소드당 평균 7.2 분 • 비슷한 이벤트 반복발생  작은 규모의 환경 • 총 단어 종류: 3,729 • 총 등장인물 수: 13 -> 스토리 질의응답 문제의 테스트베드로써 적절 만화 비디오 ‘뽀로로’
  • 8. 데이터 수집을 위한 웹사이트 구축 8 데이터 비디오 컨텐츠 QA (또는화면 설명문) 입력칸 QA를 특정 화면&대화쌍에 배치 화면 (animated GIF) 대화 (자막)
  • 9. 데이터 (1) – 화면 설명문 9 데이터 Loopy, Poby, Crong and Eddy are discussing something except Pororo. Pororo are going to the cave. Pororo is covered up in snow resembling a snowman. Pororo is away from his friends. Someone is taking a book from the shelf. Eddy is holding a book and talking. Poby is saying hello by raising his right paw. • 화면 설명문 예시
  • 10. 데이터 (2) – QA 10 데이터 -That is we are gonna do -Okay, I am going down the slide -It is all done Let’s go to my place Q: What does Pororo do to listen the secret? -Want to change crongcrongcrong - (Narration) Crong wanted to play with the toy plane -No thanks Q: Does Pororo accept to change the plane with the car? Scene Dialogue QA A1: Pororo becomes a snow man. A2: Pororo hides behind the tree. A3: Pororo becomes a joker. A4: Pororo plays with Crong. A5: Pororo hides behind the Eddy. A1: No, he doesn't accept. A2: Yes, he accepts to change. A3: Yes, He likes the green car. A4: He accepts because he likes Crong. A5: He accepts to give Crong both the car and the plane. Scene Dialogue QA • QA 예시
  • 11. 데이터 통계 – 화면 설명문  27,328 개 화면 설명문  화면 설명문 하나당 평균 문장 / 단어 개수: 1.7 / 13.6 개  웹사이트에서 문법과 철자 오류 자동 교정  PororoQA와 MovieQA의 화면 설명문의 비교설문조사 결과  각 데이터 셋으로부터 100개의 샘플 추출  10명의 참가자가 0~1점 사이의 점수 부여 11 데이터 MovieQA* PororoQA 화면 설명문이 비디오의 시각정보로 얻을 수 있는 내용만 서술하고 있는가? 0.46 0.75 화면 설명문이 빠뜨린 정보없이 화면을 정확 히 설명하고 있는가? 0.40 0.71 * Makarand Tapaswi, Yukun Zhu, Rainer Stiefelhagen, Antonio Torralba, Raquel Urtasun, and Sanja Fidler. MovieQA: Understanding Stories in Movies through Question-Answering. In Proceedings of CVPR, 2016.
  • 12. 데이터 통계 - QA  8,913 개 QA 쌍  가이드라인을 따르지 않은 ‘모호한’, ‘스토리 무관한’ 질의 제거  에피소드 1개당 평균 QA 개수: 약 52개  질의 유형별 예제와 통계 12 데이터 Type Example Ratio Action What did Pororo do with the egg? 0.20 Person Who lives in the forest? 0.18 Abstract What is the main event of Pororo day? 0.16 Detail What does the little penguin wear? 0.15 Method How did the Crong introduce himself? 0.06 Reason Why did Pororo take egg to home? 0.06 Location Where is the small village situated? 0.04 Statement What did the dinosaur say first? 0.03 Causality What happens with Crong reaches the bottom of the hill? 0.03 Yes/No Did Pororo took shelter with Poby? 0.03 Time When did Pororo and his friends stop sliding downhill? 0.02
  • 13. 데이터 통계  질의 유형별 통계  비디오 분석에 대한 다양한 데이터셋 비교 13 데이터 Dataset TACoS M.L [Rohrbach et al., 2014] MPII-MD [Rohrbach et al., 2015] LSMDC [Rohrbach et al., 2015] M-VAD [Torabi et al., 2015] MSR-VTT [Xu et al., 2016] TGIF [Li et al., 2016] MovieQA [Tapaswi et al., 2016] PororoQA (ours) # videos 185 94 202 92 7,000 - 140 171 # clips 14,105 68,337 108,503 46,589 10,000 100,000 6,771 16,066 # sent. 52,593 68,375 108,470 46,523 200,000 125,781 N/A 43,394 # QAs - - - - - - 6,462 8,913 Domain Cooking Movie Movie Movie Open Open Movie Cartoon Coherency X X X X X X X O
  • 14. 14  U, W, V  은닉 유닛들은 연속된 벡터공간에서 오래 전 데이터 정보를 저장  길이가 매우 긴 입력 데이터가 주어진다면 은닉 유닛 벡터는 제한된 저장 공간에 많은 입력 정보를 저장해야함 ⓒ 2017 SNU Biointelligence Laboratory, http://bi.snu.ac.kr/ input input input hidden hidden hidden output output output time  U U U W W W V V V inputhiddenoutputU W V unfold st = tanh(Uxt + Wst-1) yt' = softmax(Vst) 메모리가 필요한 순환 신경망 모델
  • 15. 15 2017년은 앞으로의 산업계를 완전히 바꿔 놓을 새로운 기술이 본격 자리 잡는 한 해가 될 것이다. 앞으로 업계 변화를 주도할 기술은 무엇일까. … 두 번째는 머신러닝(기계학습)을 통한 창조성 강한 디자인 등장이다. 머신러닝은 학습을 통해 사물을 구별하고 이를 바탕으로 새로운 것을 창조하는 단계에 이르렀다. 최근 `디자인 그래프`라 불리는 프로젝트로 구현됐다. … Q. 머신러닝으로 새로운 디자인을 창조하고자 하는 프로젝트 이름은 무엇인가? QA 모델 A. 디자인 그래프 input input input hidden hidden hidden U U U W W WW input input input hidden hidden hidden U U U W W W … 문서 정보를 담고 있는 은닉 벡터 Question representation 질의 정보를 담고 있는 벡터 X 답변 생성 순환 신경망으로 QA 모델 만들기 모델
  • 16. 16  앞방향 재현 신경망: 원본 문장의 가장 앞의 단어부터 인코더 재현 신경 망의 입력으로 주어짐  뒷방향 재현 신경망: 원본 문장의 가장 뒤의 단어부터 인코더 재현 신경 망의 입력으로 주어짐  인코더 재현 신경망의 은닉 유닛은 앞방향 / 뒷방향 재현 신경망의 은닉 유닛을 단순 이어붙임 (concatenation) ⓒ 2017 SNU Biointelligence Laboratory, http://bi.snu.ac.kr/ inp ut inp ut inp ut hidde n hidde n hidde n U U U W W W inp ut inp ut inp ut hidde n hidde n hidde nU U U W W W inp ut inp ut inp ut hidde n hidde n hidde n U U U W W W W hidde n hidde n hidde n W’ W’ W’ hidde n hidde n hidde n W’ W’ W’ hidde n Hidd en' hidde n W’ W’ W’ W’ U’ U’ U’ U’ U’ U’ U’ U’ U’ 해결책1: 양방향 순환 신경망 (bi-directional RNN) 모델
  • 17. 17ⓒ 2017 SNU Biointelligence Laboratory, http://bi.snu.ac.kr/ 2017년은 앞으로의 산업계를 완전히 바꿔 놓을 새로운 기술이 본격 자리 잡는 한 해가 될 것이다. 앞으로 업계 변화를 주도할 기술은 무엇일까. … 두 번째는 머신러닝(기계학습)을 통한 창조성 강한 디자인 등장이다. 머신러닝은 학습을 통해 사물을 구별하고 이를 바탕으로 새로운 것을 창조하는 단계에 이르렀다. 최근 `디자인 그래프`라 불리는 프로젝트로 구현됐다. … Q. 머신러닝으로 새로운 디자인을 창조하고자 하는 프로젝트 이름은 무엇인가? QA 모델 A. 디자인 그래프 input input input hidden hidden hidden U U U W W WW input input input hidden hidden hidden U U U W W W … Question representation 질의 정보를 담고 있는 벡터 X 답변 생성 RAM 저장 해결책2: 히든 유닛 벡터를 저장 모델
  • 18. 18  질의 응답 모듈  스토리 (예> 문장) 선택 모듈 • 질의 q에 대해 가장 적절한 답변을 포함하고 있는 스토리 (문장) s*를 탐색 – 적절성 평가를 통해 가장 높은 점수를 받은 스토리가 선택됨 • 스토리 선택 모듈의 출력은 질의 q와 선택된 스토리 s*의 결합 – Ex> 머신러닝으로 새로운 디자인을 창조하고자 하는 프로젝트 이름은 무엇인가? 최근 `디자인 그래프`라 불리는 프로 젝트로 구현됐다.  답변 선택 모듈 • 가능한 답변의 집합 A={ar}1…k. 중 가장 적합한 답변 a*를 선택  적절성 평가 함수 (scoring function)  G(x,y) ∈ [0,1] (H 함수도 동일)  G(x,y) = U G TUG (y)  H(x,y) = U H TUH (y)  U는 임베딩 행렬 ⓒ 2017 SNU Biointelligence Laboratory, http://bi.snu.ac.kr/ * argmax ( , ) i i s s G q s * arg max ( , ) r a r a a H s a 메모리 네트워크 모델
  • 19.  학습되어야하는 함수 : G, H  G, H 함수: 긍정 예(s* 또는 a*)와 부정 예(sㄱ* 또는 a ㄱ*) 의 점수 차이를 이상 차이가 나 게 만드는 것이 목표  손실값(에러값): max (0, − , ∗ + , )  긍정 예와 질의의 매치 점수가 부정 예와 질의의 매치 점수보다 이상 높을 경우 손실값은 0이 됨  훈련 데이터 전체에 대한 손실값:  경사 하강법을 사용하여 파라미터 UG와 UH를 학습 ⓒ 2017 SNU Biointelligence Laboratory, http://bi.snu.ac.kr/ * argmax ( , ) i i s s G q s * arg max ( , ) r a r a a H s a G(x,y) = UG TUG (y) H(x,y) = UH TUH (y) max (0, − , ∗ + , ) + max (0, − [ ; ∗ ], ∗ + [ ; ∗ ], ) 메모리 네트워크의 학습: Triplet Loss 모델
  • 21. 심층 임베딩 메모리 네트워크 21 모델 비디오 모달리티 추가 언어 특징 차원으로 임베딩 화면 설명문과 화면-대화 통합 특징 임베딩 화면(설명문)-대화 결합 주의집중 기반 모델 사용
  • 22. 주의집중 기반 Scoring 함수 22 모델  문장 X와 Y의 유사도 계산 ( ) tanh( ( ) ) exp( ( )) ' ( ) ( ) t t t t o t t t o m W h W X w m h h a y q T ms y y     X averaging Y weighted averaging cosine_similarity(X,Y)
  • 23. 실험 세팅  데이터 분리  분리 비율: PororoQA 에피소드 171개 중 훈련 60%, 검증 20%, 테스트 20%  데이터 집합별 질의 개수: 5521 / 1955 / 1437개  성능 측정 모델  사람 성능  VQA 모델 (BoW V+Q, W2V V+Q, LSTM V+Q)  기존 스토리 질의 응답 모델의 성능 (메모리 네트워크, 종단 메모리 네트워크)  심층 임베딩 메모리 네트워크 성능  실험 종류 (full ablation experiments)  모델의 입력 조합이 될 수 있는 모든 경우의 수 생성  입력: • 질의 Q • 대화 L • 화면 V • 화면 설명문 E 23 실험 결과
  • 24.  비디오의 정보를 사용할 수록 성능 향상  기존 스토리 학습 모델에 비해 더 좋은 결과를 보임  주의집중 기작을 사용하면 성능 좀 더 향상  기존 메모리 네트워크 모델은 시각과 언어 정보를 모델의 마지막 부분에 서 결합했음 정량적 평가 결과 - PororoQA Method Q Q+L Q+V Q+E Q+V+E Q+L+V Q+L+E Q+L+V+E Human 28.2 68.2 74.3 70.5 74.6 96.9 92.3 96.9 BoW V+Q 32.1 34.6 34.2 34.6 34.6 34.4 34.3 34.2 W2V V+Q 33.3 34.9 33.8 34.8 34.0 34.5 34.6 34.1 LSTM V+Q 34.8 42.6 33.5 36.2 34.6 41.7 36.3 41.1 MemN2N 31.1 41.9 45.6 50.9 53.7 56.5 MemNN 32.1 43.6 (0.16) 48.8 (0.11) 51.6 (0.12) 55.3 58.9 DEMN w/o attn. 31.9 43.4 (0.15) 48.9 (0.11) 51.6 (0.12) 61.9 (0.19) 63.9 (0.20) DEMN 32.0 47.5 (0.18) 49.7 (0.12) 54.2 (0.10) 65.1 (0.21) 68.0 (0.26) 24 실험 결과
  • 25. 정량적 평가 결과 – MovieQA  MovieQA  140개 영화에 대해 6,462개의 QA 제공  심층 임베딩 메모리 네트워크가 validation, test 집합에서 기존 스토리 학습 모델에 비해 더 좋은 성능을 보임  MovieQA가 PororoQA에 비해 보다 복잡한 스토리 구조를 갖는 영화를 보유 하고 있음 -> 낮은 성능의 원인 25 실험 결과 Method Val Test Q+L Q+V Q+L+V Q+L Q+V Q+L+V SSCB* 22.3 21.6 21.9 Rand. Rand. Rand. MemN2N 38.0 23.1 34.2 Rand. Rand. Rand. DEMN 42.4 39.5 44.7 28.5 29.4 30.0 * Makarand Tapaswi, Yukun Zhu, Rainer Stiefelhagen, Antonio Torralba, Raquel Urtasun, and Sanja Fidler. MovieQA: Understanding Stories in Movies through Question-Answering. In Proceedings of CVPR, 2016.
  • 30. 결론 및 향후 연구  비디오 질의 응답 모델 ‘심층 임베딩 메모리망’과 데이터 ‘PororoQA’ 제시  PororoQA, MovieQA 에 성능을 평가했을 때, 기존 스토리 학습 모델인 imageQA 모델들, 메모리망 앙상블, 종단 메모 리망 앙상블보다 우수한 성능 입증  향후 연구  Curriculum learning 적용 • PororoQA를 사용하여 보다 복잡한 스토리 구조를 갖는 MovieQA 성능 향상  답문장 생성 모델  비디오 이해 모델 개선 30 결론
  • 32. The instructions for the AMT QA creators 32 Please read carefully. Your work will be rejected if you don't follow the guide lines. 1. After selecting an episode and watching a Youtube video, please make story-related QAs in English. Please keep in mind that be sure to watch a video before making any data. 2. Please select a scene-subtitle pair that is most likely to match with your question and write down QAs. All questions should be localized in the video contents. 3. Please provide a correct answer to a question that most people would agree on and four wrong answers for deception. 4. Your answer should be a complete sentence with correct grammar. The minimum number of words in a sentence is four. - "lunch" (x) -> "Pororo and Crong are having a lunch" (o) 5. Please avoid vague terms. - "When did Pororo go there?" (x) -> "When did Pororo go Loopy's house?" (o) - "What is Pororo doing?" (x) -> "What is Pororo doing when Crong is crying in the house?" (o) 6. Please avoid completely unrelated questions. - "How old is the earth" (x) 7. Please avoid image-specific (and not story-related) questions. - "How many trees are in the video?" (x) 8. Please avoid creating duplicate questions in an episode. 9. Please use character names as follows.