SlideShare una empresa de Scribd logo
1 de 45
Descargar para leer sin conexión
2017.09.16
NAIST  ⾃自然⾔言語処理理学研究室
D1  Masayoshi  Kondo  
論論⽂文紹介-‐‑‒  最先端NLP勉強会@2017  
Selective  Encoding
for  Abstractive  Sentence  Summarization
ACLʼ’17
Qingyu  Zhou,  Nan  Yang,  Furu  Wei,  Ming  Zhou	
Harbin  Institute  of  Technology,  Harbin  China	
Microsoft  Research,  Beijing  China
00:  論論⽂文の概要
•  Seq2seqモデルを改良良したニューラル要約モデルの研究.
•  EncからDecへ引き渡す情報を取捨選択する  Selective  Gate  機構を導⼊入.
•  短⽂文⽣生成要約のデータセット  :  3つ  で最⾼高精度度を更更新.
•  評価指標:ROUGEスコア  (R-‐‑‒1,  R-‐‑‒2,  R-‐‑‒L)
【まとめ】
【モデル概略略図】
Encoding Selectcion Decoding
Sentence  Encoder Summary  DecoderSelective  gate  network
【データセット】
Train  Set
Annotated  English
Gigaword  dataset
Test  Set
Annotated  English  Gigaword  Test-‐‑‒Set
DUC2004  Test  Set
MSR-‐‑‒ATC  Test  Set
 Preliminaries  
  Introduction
  Model
  Experiments
  Discussion  &  Conclusion
  *  Plus  Alpha
01:近年年の  Text  Summarization  タスクの発展状況
トップカンファレンスでの要約タスク論論⽂文数の推移.
0
5
10
15
20
25
30
2014 2015 2016 2017
Total
using  Neural  Net
company  papers  
using  Neural  Net
(注:過去4年年分の  ACL  /  EMNLP  を調査.検索索クエリ:summari)
初登場  !  
Neural  Abstractive  Summarization  
[EMNLPʼ’15,  Rush  et  al.]
NNを⽤用いた⾔言語⽣生成系タスクは企業も活発
に研究を進めている.現状は、Google,
Facebook,  IBM  が、三強.
Summarization  Tasks
(year)
(count)
02:Neural  Text  Summarization  について
【  Text  Summarization  】
「原⽂文」の主要な情報を抽出し、より「短い⽂文章」で記述するタスク.
[Input]
[Output  (predicted)]:
the  microsoft  corporation  will  open  its  office  in  dhaka  on  november  
##  to  expand  its  sales  and  fight  piracy  in  the  market  of  this  country  ,  
reported  the  daily  new  age  on  saturday  .
microsoft  to  open  new  office  in  sri  lanka.
[Output  (correct)]: microsoft  to  open  office  in  dhaka.
03:Neural  Text  Summarization  について
【  Text  Summarization  】
「原⽂文」の主要な情報を抽出し、より「短い⽂文章」で記述するタスク.
⽂文書要約タスク:2種類
Extractive  Summarization  :
  -‐‑‒  従来の多くの⽂文書要約(⾃自動要約)の研究枠組み
Abstractive  Summarization  :
  -‐‑‒  近年年、NNを利利⽤用して⾶飛躍的な精度度向上
•  原⽂文の⽂文章を直接使って(copyして)、要約⽂文を
構築.
•  精度度や⽂文法構造も⼀一定の⽔水準を満たしている.
•  原⽂文に依らないフレーズや単語も含めて⽣生成的に
⽂文章を構築.
•  「⾔言い換え」や「常識識(世界知識識)」等を含んだ
⾼高度度な要約⽂文を⽣生成出来る可能性がある.
Src(原⽂文) Trg(要約⽂文)
Src(原⽂文) Trg(要約⽂文)
-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒
-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒
-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒
-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒
-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒
-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒
-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒
-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒
-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒
-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒
-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒
-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒
-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒
-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒
-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒
-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒
-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒
-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒
-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒
-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒
xxxxxxxxxxxxx
xxxxxxxxxxxxx
xxxxxxxxxxxxx
xxxxxxx
04:Neural  Text  Summarization  について
Decoder  (RNN)Encoder  (RNN)
Output  (trg/summ)
Input  (src/ref)
attention
Encoder Decoder
[Input]:  Reference
word_̲id  -‐‑‒  seq
[Output]:  Summary
word_̲id  -‐‑‒  seq
Deep  Neural  
Networks
Seq2Seq  Neural  Model  (RNN-‐‑‒RNN)
【  Train  】:    [src,  trg]ペアデータからモデルパラメータを学習.
【  Test  】:  srcデータを⼊入⼒力力し、trgを逐次予測して要約⽂文を⽣生成.
•  前ステップの予測語を現在のステップの⼊入⼒力力として利利⽤用.逐次予測を⾏行行う.
•  予測系列列⻑⾧長は、予め設定して決めてあることが多い.
•  Decoder側の出⼒力力は、Vocab次元で1つだけ1が⽴立立つ1-‐‑‒of-‐‑‒Vベクトル.
•  Loss関数:Cross-‐‑‒Entropy.
05:Neural  Text  Summarization  について
⽣生成要約の研究で利利⽤用される代表的なデータセット  と  評価指標
【Gigaword  Corpus】:  [src]  単⽂文  →  [trg]  単⽂文
【CNN/Daily  Mail】:[src]  複⽂文  →  [trg]  複⽂文
•  ⼤大規模データセット
•  Train:  約400万ペア  /  Dev:  約20万ペア/  Test:  約40万ペア
•  Testset  は、ランダムに2000サンプル抽出して使うのが⼀一般的.
•  Shared  taskのDUCʼ’04の  Test  set  を使う場合もある.
【評価指標】:ROUGE-‐‑‒score  (ROUGE値)
•  正解⽂文  と  ⽣生成⽂文  のn-‐‑‒gramの⼀一致率率率を指標化したもの.
•  スコアが⾼高い⽅方が良良い.
•  平均  ⼊入⼒力力系列列⻑⾧長:781  tokens  /  平均  出⼒力力系列列⻑⾧長:56  tokens
•  Train:  約29万ペア  /  Dev:  約13000ペア/  Test:  約11000ペア
•  multi-‐‑‒sentencesのデータセット.
06:Recent  Researches  in  Abstractive  Summarization
近年年のシンプルな設定の(王道の)ニューラル⽣生成要約タスク.  
Get  To  The  Point:  Summarization  with  Pointer-‐‑‒Generator  Networks
[ACLʼ’17  /  Stanford  Unv  (D.Manning  lab)  with  Google]
Selective  Encoding  for  Abstractive  Sentence  Summarization
[ACLʼ’17  /  with  Microsoft]
キーコンセプト  2つ:  
  -‐‑‒-‐‑‒  Copy  Mechanism                :  元記事の意味を抜出する仕組み.
  -‐‑‒-‐‑‒  Coverage  Mechanism  :  repetitionを回避する仕組み.
キーコンセプト  :  
  -‐‑‒-‐‑‒  Selective  Mechanism  (Selective  Gate)  :
            EncからDecにどの情報を流流すのかを選択的に⾏行行う(制御する)仕組み.
Dataset CNN/DailyMail  dataset   Model bilstm-‐‑‒lstm-‐‑‒attention
⻑⾧長⽂文のニューラル⽣生成要約  (src  :  複数⽂文,  trg  :  複数⽂文)
ニューラル⽣生成要約
Dataset Gigaword  and  etc… Model seq2seq-‐‑‒attention
07:Recent  Researches  in  Abstractive  Summarization
Learning  to  Generate  Market  Comments  from  Stock  Prices
[Y.Miyao,  ACLʼ’17]
⼀一⽅方で、応⽤用設定の⽣生成要約タスクが増加傾向.  
  Generate  :株価  →  短信レポート
Program  Induction  for  Rationale  Generation:  Learning  to  Solve  
and  Explain  Algebraic  Word  Problems  [ACLʼ’17/Oxford  with  DeepMind]
Neural  AMR:  Sequence-‐‑‒to-‐‑‒Sequence  Models  for  Parsing  and  Generation  
[Ioannis  Konstas  et  al,  ACLʼ’17]
•  代数の数学問題を解く.
•  Generate  :  代数の問題→  解答  (選択肢  解答)
•  解答を選択するだけでなく、同時に解答までのロジックを⽣生成.
•  Parsing  と  ⾔言語⽣生成  を同時に.
•  Dataset  :  Gigaword  /  Original  dataset.
 Preliminaries  
  Introduction
  Model
  Experiments
  Discussion  &  Conclusion
  *  Plus  Alpha
08:  Introduction
Attentionモデル  :  機械翻訳タスク  での成功  →  ⽣生成要約タスク  への展開
:要約タスクにおける  Input/Output  間のalignmentって何を意味するの?【  疑問  】
-‐‑‒  I/O間で共通の単語が利利⽤用される場合を除いて、要約タスクにおける
alignmentの意味は明確ではない.
【  解釈  】
Input  から⼆二次情報を取り出す際の(重要な情報を)ハイライトを⾏行行う仕組み  
として考える.
Attention  Mechanism
⼊入⼒力力系列列の重要部を
ハイライトする仕組み
要約タスク
【  ニューラル要約モデル  】
Encoder  +  Attention  Mechanism Decoder
•  ⼊入⼒力力系列列をエンコード
•  重要情報の保持と選択
•  表現の変換(⾔言い換え)
•  要約⽂文の構築
Attention機構によって重要情報の選択が⾏行行われるが、明⽰示的に何が重要かの判断
はしていない.
09:  Introduction
【  ニューラル要約モデル  】
Encoder  +  Attention  Mechanism Decoder
•  ⼊入⼒力力系列列をエンコード
•  重要情報の保持と選択
•  表現の変換(⾔言い換え)
•  要約⽂文の構築
Attention機構によって重要情報の選択が⾏行行われるが、明⽰示的に何が重要かの判断
はしていない.
【  提案モデル  】:  SEASS  (Selective  Encoding  for  Abstractive  Sentence  Summarization)
仮説:⼊入⼒力力系列列の重要部の選択を明⽰示的に⾏行行う仕組みを導⼊入すれば、
      精度度向上するんじゃね?
Encoding Selectcion Decoding
Sentence  Encoder Summary  DecoderSelective  gate  network
•    [Encoding]    :  RNNで⼊入⼒力力系列列を読込み、first  level  sentence  repr  の獲得.    
•    [Selection]    :  selective  gate  networkによる情報の選別とsecond  level  
                  sentence  repr  の獲得.
•    [Decoding]    :  second  level  sentence  pepr  を⽤用いてデコード.
 Preliminaries  
  Introduction
  Model
  Experiments
  Discussion  &  Conclusion
  *  Plus  Alpha
 Preliminaries  
  Introduction
  Model
1.  Summary  Encoder
2.  Selective  Mechanism
3.  Summary  Decoder
-‐‑‒-‐‑‒  Objective  Function
  Experiments
  Discussion  &  Conclusion
  *  Plus  Alpha
10:  Selective  Encoder  概要図
x0 x1 xt-‐‑‒k xTxt xt+k
0 Ttt-‐‑‒k t+k
単語系列列データ...
Word
Embed
<Bi-‐‑‒GRU>:  Forward  /  Backward
<Selective  Gate>
σ(                                    )+UW +b=
xt  の  encoder  output
11:  Model  -‐‑‒  selective  mechanism
【提案ニューラルネットの構造図】
Summary  Encoder
Encoder  :  BiGRU
12:  Model  –  summary  encoder
•  Forword/Backwordの初期状態は、zero-‐‑‒vector  で設定.
•  Forword/Backwordの隠れ状態(hidden  state)は、concatenate  で統合.
•  センテンスの  representation  を獲得.
 Preliminaries  
  Introduction
  Model
1.  Summary  Encoder
2.  Selective  Mechanism
3.  Summary  Decoder
-‐‑‒-‐‑‒  Objective  Function
  Experiments
  Discussion  &  Conclusion
  *  Plus  Alpha
13:  Model  -‐‑‒  selective  mechanism
【提案ニューラルネットの構造図】
Selective  Mechanism
Seq2Seqモデルを使う機械翻訳(MT)は、⼊入⼒力力系列列から出⼒力力系列列をマップする
ように  encoder  と  decoder  のモジュールを学習させる.
14:  Model  -‐‑‒  selective  mechanism
これは、これまでの⽣生成要約タスクにも応⽤用されてきたものだ.
⽣生成要約(abstractive  sentence  summarization)は、機械翻訳(MT)
とは2つの異異なるポイントがある.
1.    ⼊入⼒力力センテンスと出⼒力力センテンスの間の関係に対して、共通する単語を
除いてアラインメントが明確ではない.
2.    要約タスク:ʼ’不不必要な情報を取り除いて重要な情報をハイライトする
ものʼ’であるが、機械翻訳タスクは全ての情報を⽂文字通り(⼊入出⼒力力間の系
列列に対して)保有する.
Selective  Mechanism  :  ⽣生成要約タスクに適合したrepresentationを
構築するためのseq2seqの拡張⽅方式.
15:  Model  -‐‑‒  selective  mechanism
s  is  the  concatenated  vector  of  the  last  forward  hidden  state  hn
  
and  backward  hidden  state  h1  .
→
←
s  is  the  sentence  representation  vector.
For  each  word  xi  ,  the  selective  gate  network  generates  a  
gate  vector  sGatei  using  hi  and  s,  then  tailored  representation  
is  hʼ’i.
 Preliminaries  
  Introduction
  Model
1.  Summary  Encoder
2.  Selective  Mechanism
3.  Summary  Decoder
-‐‑‒-‐‑‒  Objective  Function
  Experiments
  Discussion  &  Conclusion
  *  Plus  Alpha
16:  Model  -‐‑‒  summary  decoder
【提案ニューラルネットの構造図】
Summary  Decoder
17:  Model  -‐‑‒  summary  decoder
•    wt-‐‑‒1  :  previous  word  embedding
•    ct-‐‑‒1      :  previous  context  vector
•    st            :  new  hidden  state
Decoder  :  GRU  with  attention
Context  vector  の作り⽅方
1.  (12式)  st-‐‑‒1  と  hʼ’i  のベクトル
とアテンションベクトル  :  
va  との内積を計算
2.  (13式)ソフトマックス計算
3.  (14式)重み付き和  計算
18:  Model  -‐‑‒  summary  decoder
•    wt-‐‑‒1  :  previous  word  embedding
•    ct          :  context  vector
•    st            :  (current)  decoder  state
•    rt            :  readout  state  
Decoder  :  GRU  with  attention  (つづき)
[15式]  :  readout  state  の計算式(特徴量量毎の単純な線形和)
[16式]  :  マックスアウト関数の操作
[17式]  :  ソフトマックス関数の操作(最終出⼒力力)
 Preliminaries  
  Introduction
  Model
1.  Summary  Encoder
2.  Selective  Mechanism
3.  Summary  Decoder
-‐‑‒-‐‑‒  Objective  Function
  Experiments
  Discussion  &  Conclusion
  *  Plus  Alpha
19:  Model  –  objective  function
Loss関数:Negative  Log-‐‑‒Likelihood  Loss  
D  :  a  set  of  parallel  sentence  summary  pairs
θ    :  the  model  parameter
•  ⼊入⼒力力系列列が与えられた下で⽣生成する要約⽂文の確率率率を最⼤大化
•  最適化法  :  Stochastic  Gradient  Desent  (SGD)
 Preliminaries  
  Introduction
  Model
  Experiments
  Discussion  &  Conclusion
  *  Plus  Alpha
20:  Experiments
【Training  Set】:  Annotated  English  Gigaword  dataset
【Test  Set】:  3つ
English  Gigaword  Test  Set
DUC2004  Test  Set
MSR-‐‑‒ATC  Test  Set  [Toutanova  et  al.  2016]
•  (src,  trg)  :  (記事の冒頭1⽂文,  記事の⾒見見出し⽂文)  
•  PTBトークナイズ・⼩小⽂文字化  処理理
•  数字は、♯(シャープ)記号  に変換
•  出現回数5回以下の単語を  <unk>  変換
•  訓練データ:380万ペア  /  開発データ:18.9万ペア
•  Rush  et  al.の研究[Rush  et  al.,  EMNLPʼ’15]で⽤用いられたテストセット
•  2000ペア  (summ側空データを除いた1951ペア、[Chopra  et  al.,    2016])
•  src:1に対してtrg:4の⼈人⼿手で作成された要約データ.
•  500ペア.⽣生成⽂文を75byte打切切で評価.
•  Croudsourcingにより作成.総データ数:6000ペア.
•  Test  Set  サイズ:785ペア
【Evaluation  Metric】:  Rouge  Score
•  R-‐‑‒1  :  uni-‐‑‒gram  の⼀一致率率率.
•  R-‐‑‒2  :  bi-‐‑‒gram  の⼀一致率率率.
•  R-‐‑‒L  :  longest  common  subsequence(LCS)  の⼀一致率率率.
正解要約  と  ⽣生成要約  のn-‐‑‒gramの⼀一致率率率(overlapping)で精度度を定量量化.
DUC  Shared  Taskにおいて要約評価に⽤用いられた⼀一般的な指標.
21:  Experiments
【Implementation  Details】
Vocab-‐‑‒Size In  :  119,504    /    Out  :  68,883
Word-‐‑‒Emb 300
Unit  Type(Hidden-‐‑‒size) GRU  (Hidden-‐‑‒Size  :  512)
Batch  Size 64
Dropout 0.5
Optimization  Method Adam(β=0.001,  α1=0.9,  α2=0.999,  ε=10^-‐‑‒8)
Dev-‐‑‒Evaluation For  every  2000  training  batches
Grad-‐‑‒Clipping [-‐‑‒5,  5]
Beam-‐‑‒Search  Size 12
22:  Experiments
【Baselines】­−  ⽐比較モデル
ABS •  [Rush  et  al.EMNLPʼ’15]  の提案⼿手法.
•  CNN-‐‑‒enc  +  Attention  /  NNLM(FFNN)-‐‑‒dec
•  公開されているオリジナルコードを利利⽤用
ABS+ •  ABSモデル.
•  Loss関数に特殊項を追加.
CAs2s •  [Chopra  et  al.  2016]  の提案⼿手法.
•  ABSモデルの改良良型.精度度でABSモデルに勝る.
•  CNN-‐‑‒Enc  +  Attention  /  RNN-‐‑‒dec
Feats2s •  [Nallapati  et  al.  2016]  の提案⼿手法
•  RNN-‐‑‒Seq2Seq  モデル  +  他の特徴量量の導⼊入
•  他の特徴量量:POSタグ、NERタグ
Luong-‐‑‒NMT •  [Loung  et  al.  2015]  の提案⼿手法.
•  2層LSTM(500-‐‑‒dim)のenc-‐‑‒decモデル.
s2s-‐‑‒att •  Seq2Seqモデル+Attention
23:  Experiments
-‐‑‒  Rushのテストセット  -‐‑‒ -‐‑‒  本研究のテストセット  -‐‑‒
【  Gigaword  test  set  】
24:  Experiments
【  DUC2004  test  set  】
25:  Experiments
【  MSR-‐‑‒ATC  test  set  】
 Preliminaries  
  Introduction
  Model
  Experiments
  Discussion  &  Conclusion
  *  Plus  Alpha
【Effectiveness  of  Selective  Encoding】
26:  Discussion
【議論論】:  提案⼿手法(SEASS)  と  ベースライン(seq2seq-‐‑‒attention)  の性能⽐比較
•  2つの検証.
•  提案⼿手法である「Selective  Encoding」の有効性を調べたい.
•  ⼊入⼒力力系列列の⻑⾧長さ毎の要約精度度を検証.
•  データ:Gigawordテストセット.
•  ⼊入⼒力力系列列の⻑⾧長さ:10  ~∼  80  のデータ
•  Gigaword  テストセットに対して、4区切切りで18つのデータグループを作成.
•  各グループの要約精度度(ROUGE-‐‑‒2  F1値)をグラフにして⽰示す.
【Saliency  Heat  Map  of  Selective  Gate】
•  Selective  Gateの効果を⾒見見るため、(エンコード側の)ある出⼒力力を可視化.
•  ある出⼒力力:(エンコード側の)最終出⼒力力をselective  gateの項で⼀一次近似
微分したもの.
27:  Discussion  :  Effectiveness  of  Selective  Encoding
28:  Discussion  :  Saliency  Heat  Map  of  Selective  Gate
[Input]  :  the  council  of  europe  ʼ’s  human  rights  commissioner  
slammed  thursday  as    “  unacceptable  “    conditions  in  france  ʼ’s  
overcrowded  and  dilapidated  jails  ,  where  some  ##  inmates  have  
committed  suicide  this  year  .
[System]  :  council  of  europe  slams  french  prison  conditions.
[True]  :  council  of  europe  again  slams  french  prison  conditions.
29:  Conclusion
•  本論論⽂文では、⽣生成要約タスクにおけるseq2seqモデルを拡張した
Selective  Encode  Model  を提案.
•  このSelective  Mechanism  (選択機構)は、要約を書き下す前に⾏行行う重要
な情報の選択という⼈人間の要約⾏行行為を模倣するものだ.
•  我々は、ニューラル要約モデルを3つの仕組みで構成した:
ー  Encoding  /  Selection  /  Decoding  
•  実験の結果、English  Gigaword,  DUC2004,  MSR-‐‑‒ATC  test  set  
で、それぞれ最⾼高精度度を達成した.
【感想】
•  Selective  Gate  と⽴立立派な名前の割にアテンション⽤用のモジュールを付け加え
ただけに⾒見見える.
•  Input  と  Output  間の重要な情報抽出操作に関するモデリングは未だ出来て
いない.
•  簡単な仕組みで精度度が向上出来ているのは◎.
 Preliminaries  
  Introduction
  Model
  Experiments
  Discussion  &  Conclusion
  *  Plus  Alpha
31  :  *Plus  Alpha  ­−  ⻑⾧長⽂文要約でSEASSを試してみる
Get  To  The  Point:  Summarization  with  Pointer-‐‑‒Generator  Networks
[ACLʼ’17  /  Stanford  Unv  (D.Manning  lab)  with  Google]
Selective  Encoding  for  Abstractive  Sentence  Summarization
[ACLʼ’17  /  with  Microsoft]
キーコンセプト  2つ:  
  -‐‑‒-‐‑‒  Copy  Mechanism                :  元記事の意味を抜出する仕組み.
  -‐‑‒-‐‑‒  Coverage  Mechanism  :  repetitionを回避する仕組み.
キーコンセプト  :  
  -‐‑‒-‐‑‒  Selective  Mechanism  (Selective  Gate)  :
            EncからDecにどの情報を流流すのかを選択的に⾏行行う(制御する)仕組み.
Dataset CNN/DailyMail  dataset   Model bilstm-‐‑‒lstm-‐‑‒attention
⻑⾧長⽂文のニューラル⽣生成要約  (src  :  複数⽂文,  trg  :  複数⽂文)
ニューラル⽣生成要約
Dataset Gigaword  and  etc… Model seq2seq-‐‑‒attention
紹介論論⽂文のSEASSは、短⽂文要約での精度度は良良いことが分かった.
では、⻑⾧長⽂文要約の⽅方で試すと?
32  :  *Plus  Alpha  ­−  ⻑⾧長⽂文要約でSEASSを試してみる
【実験設定】
•  「Get  To  The  Point:  Summarization  with  Pointer-‐‑‒Generator  
Networks」の  実験設定  と  ソースコード  を利利⽤用.
•  先⾏行行研究のエンコーダー  と  紹介論論⽂文のSEASSのエンコーダー  を取り替えて検証.
実装・設定・その他の仕組みは、先⾏行行研究に従った(pointer-‐‑‒generator  
mechanism/coverage  mechanismは、双⽅方のモデルで利利⽤用した.)
[先⾏行行研究Enc  (Get  To  The  Point  ~∼)]
Bi-‐‑‒LSTM
[  紹介論論⽂文  :  SEASS  のEnc  ]
Bi-‐‑‒GRU  +  Selective  Mechanism
【CNN/Daily  Mail  dataset  】:[src]  複⽂文  →  [trg]  複⽂文
•  平均  ⼊入⼒力力系列列⻑⾧長:781  tokens  /  平均  出⼒力力系列列⻑⾧長:56  tokens
•  Train:  約29万ペア  /  Dev:  約13000ペア/  Test:  約11000ペア
•  multi-‐‑‒sentencesのデータセット.  /  Vocab-‐‑‒size:  50k
•  ⼊入⼒力力系列列:最⼤大400words  /  出⼒力力系列列:最⼤大100words  で打切切.
•  予測時:最⼤大120words  で打切切.
33:  実験結果:⻑⾧長⽂文要約  (CNN/Dailymail  Dataset:  50k)
Model Rouge-‐‑‒1 Rouge-‐‑‒2 Rouge-‐‑‒L #  of  params
Abigail  et  al.  2017
-‐‑‒  ENC  :  BiLSTM
-‐‑‒  pointer-‐‑‒generator
36.44 15.66 33.42 -‐‑‒
Abigail  et  al.  2017
                      <re-‐‑‒exam>
37.88 16.39 33.46 -‐‑‒
SEASS  [ACLʼ’17]
-‐‑‒  BiGRU
-‐‑‒  Selective  Enc
37.44 16.00 33.35 -‐‑‒
ACLʼ’17のshort  text  summarization論論⽂文のNNモデルをlong  text  
summarization  で実験.(SEASSのチューニングは⽢甘い.)
Abigail  et  al.  2017
+  coverage
39.53 17.28 36.38 -‐‑‒
Abigail  et  al.  2017
                      <re-‐‑‒exam>
+  coverage
39.86 17.50 35.38 -‐‑‒
SEASS  [ACLʼ’17]
+  coverage
38.65 16.88 34.36 -‐‑‒
END

Más contenido relacionado

La actualidad más candente

[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence Learning[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence LearningDeep Learning JP
 
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKSDeep Learning JP
 
Recurrent Neural Networks
Recurrent Neural NetworksRecurrent Neural Networks
Recurrent Neural NetworksSeiya Tokui
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoderSho Tatsuno
 
深層学習フレームワーク Chainerとその進化
深層学習フレームワークChainerとその進化深層学習フレームワークChainerとその進化
深層学習フレームワーク Chainerとその進化Yuya Unno
 
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9Yuya Unno
 
Learning to forget continual prediction with lstm
Learning to forget continual prediction with lstmLearning to forget continual prediction with lstm
Learning to forget continual prediction with lstmFujimoto Keisuke
 
Deep Learning基本理論とTensorFlow
Deep Learning基本理論とTensorFlowDeep Learning基本理論とTensorFlow
Deep Learning基本理論とTensorFlowTadaichiro Nakano
 
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」Naonori Nagano
 
Chainerチュートリアル -v1.5向け- ViEW2015
Chainerチュートリアル -v1.5向け- ViEW2015Chainerチュートリアル -v1.5向け- ViEW2015
Chainerチュートリアル -v1.5向け- ViEW2015Ryosuke Okuta
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習Preferred Networks
 
DL Hacks輪読 Semi-supervised Learning with Deep Generative Models
DL Hacks輪読 Semi-supervised Learning with Deep Generative ModelsDL Hacks輪読 Semi-supervised Learning with Deep Generative Models
DL Hacks輪読 Semi-supervised Learning with Deep Generative ModelsYusuke Iwasawa
 
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会Shotaro Sano
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解するAtsukiYamaguchi1
 
ディープラーニングフレームワーク とChainerの実装
ディープラーニングフレームワーク とChainerの実装ディープラーニングフレームワーク とChainerの実装
ディープラーニングフレームワーク とChainerの実装Ryosuke Okuta
 
ChainerによるRNN翻訳モデルの実装+@
ChainerによるRNN翻訳モデルの実装+@ChainerによるRNN翻訳モデルの実装+@
ChainerによるRNN翻訳モデルの実装+@Yusuke Oda
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説Preferred Networks
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説弘毅 露崎
 

La actualidad más candente (20)

[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence Learning[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence Learning
 
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
 
Recurrent Neural Networks
Recurrent Neural NetworksRecurrent Neural Networks
Recurrent Neural Networks
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
深層学習フレームワーク Chainerとその進化
深層学習フレームワークChainerとその進化深層学習フレームワークChainerとその進化
深層学習フレームワーク Chainerとその進化
 
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
 
Learning to forget continual prediction with lstm
Learning to forget continual prediction with lstmLearning to forget continual prediction with lstm
Learning to forget continual prediction with lstm
 
Deep Learning基本理論とTensorFlow
Deep Learning基本理論とTensorFlowDeep Learning基本理論とTensorFlow
Deep Learning基本理論とTensorFlow
 
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
 
音声認識と深層学習
音声認識と深層学習音声認識と深層学習
音声認識と深層学習
 
Chainerチュートリアル -v1.5向け- ViEW2015
Chainerチュートリアル -v1.5向け- ViEW2015Chainerチュートリアル -v1.5向け- ViEW2015
Chainerチュートリアル -v1.5向け- ViEW2015
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習
 
DL Hacks輪読 Semi-supervised Learning with Deep Generative Models
DL Hacks輪読 Semi-supervised Learning with Deep Generative ModelsDL Hacks輪読 Semi-supervised Learning with Deep Generative Models
DL Hacks輪読 Semi-supervised Learning with Deep Generative Models
 
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解する
 
ディープラーニングフレームワーク とChainerの実装
ディープラーニングフレームワーク とChainerの実装ディープラーニングフレームワーク とChainerの実装
ディープラーニングフレームワーク とChainerの実装
 
ChainerによるRNN翻訳モデルの実装+@
ChainerによるRNN翻訳モデルの実装+@ChainerによるRNN翻訳モデルの実装+@
ChainerによるRNN翻訳モデルの実装+@
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
 
bigdata2012ml okanohara
bigdata2012ml okanoharabigdata2012ml okanohara
bigdata2012ml okanohara
 

Destacado

最先端NLP勉強会 Context Gates for Neural Machine Translation
最先端NLP勉強会 Context Gates for  Neural Machine Translation最先端NLP勉強会 Context Gates for  Neural Machine Translation
最先端NLP勉強会 Context Gates for Neural Machine TranslationMasahiro Yamamoto
 
Selective encoding for abstractive sentence summarization
Selective encoding for abstractive sentence summarizationSelective encoding for abstractive sentence summarization
Selective encoding for abstractive sentence summarizationKodaira Tomonori
 
Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介
Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介
Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介Masayoshi Kondo
 
[DL輪読会] Residual Attention Network for Image Classification
[DL輪読会] Residual Attention Network for Image Classification[DL輪読会] Residual Attention Network for Image Classification
[DL輪読会] Residual Attention Network for Image ClassificationDeep Learning JP
 
Text Summarization Talk @ Saama Technologies
Text Summarization Talk @ Saama TechnologiesText Summarization Talk @ Saama Technologies
Text Summarization Talk @ Saama TechnologiesSiddhartha Banerjee
 
[DL輪読会]Deep Recurrent Generative Decoder For Abstractive Text Summarization(E...
[DL輪読会]Deep Recurrent Generative Decoder For Abstractive Text Summarization(E...[DL輪読会]Deep Recurrent Generative Decoder For Abstractive Text Summarization(E...
[DL輪読会]Deep Recurrent Generative Decoder For Abstractive Text Summarization(E...Deep Learning JP
 
A Neural Attention Model for Sentence Summarization [Rush+2015]
A Neural Attention Model for Sentence Summarization [Rush+2015]A Neural Attention Model for Sentence Summarization [Rush+2015]
A Neural Attention Model for Sentence Summarization [Rush+2015]Yuta Kikuchi
 

Destacado (7)

最先端NLP勉強会 Context Gates for Neural Machine Translation
最先端NLP勉強会 Context Gates for  Neural Machine Translation最先端NLP勉強会 Context Gates for  Neural Machine Translation
最先端NLP勉強会 Context Gates for Neural Machine Translation
 
Selective encoding for abstractive sentence summarization
Selective encoding for abstractive sentence summarizationSelective encoding for abstractive sentence summarization
Selective encoding for abstractive sentence summarization
 
Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介
Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介
Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介
 
[DL輪読会] Residual Attention Network for Image Classification
[DL輪読会] Residual Attention Network for Image Classification[DL輪読会] Residual Attention Network for Image Classification
[DL輪読会] Residual Attention Network for Image Classification
 
Text Summarization Talk @ Saama Technologies
Text Summarization Talk @ Saama TechnologiesText Summarization Talk @ Saama Technologies
Text Summarization Talk @ Saama Technologies
 
[DL輪読会]Deep Recurrent Generative Decoder For Abstractive Text Summarization(E...
[DL輪読会]Deep Recurrent Generative Decoder For Abstractive Text Summarization(E...[DL輪読会]Deep Recurrent Generative Decoder For Abstractive Text Summarization(E...
[DL輪読会]Deep Recurrent Generative Decoder For Abstractive Text Summarization(E...
 
A Neural Attention Model for Sentence Summarization [Rush+2015]
A Neural Attention Model for Sentence Summarization [Rush+2015]A Neural Attention Model for Sentence Summarization [Rush+2015]
A Neural Attention Model for Sentence Summarization [Rush+2015]
 

Similar a 最先端NLP勉強会2017_ACL17

2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門
2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門
2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門Daiyu Hatakeyama
 
Bind Peek をもっと使おうぜ!(柴田 歩) - JPOUG Advent Calendar 2014(Day 5) -
Bind Peek をもっと使おうぜ!(柴田 歩) - JPOUG Advent Calendar 2014(Day 5) -Bind Peek をもっと使おうぜ!(柴田 歩) - JPOUG Advent Calendar 2014(Day 5) -
Bind Peek をもっと使おうぜ!(柴田 歩) - JPOUG Advent Calendar 2014(Day 5) -歩 柴田
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTURE Project
 
第64回情報科学談話会(滝沢 寛之 准教授)
第64回情報科学談話会(滝沢 寛之 准教授) 第64回情報科学談話会(滝沢 寛之 准教授)
第64回情報科学談話会(滝沢 寛之 准教授) gsis gsis
 
130710 02
130710 02130710 02
130710 02openrtm
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)Hideki Okada
 
アドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニングアドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニングYosuke Mizutani
 
Spring2概論@第1回JSUG勉強会
Spring2概論@第1回JSUG勉強会Spring2概論@第1回JSUG勉強会
Spring2概論@第1回JSUG勉強会Mitsuhiro Okamoto
 
Hadoopによるリクルートでの技術調査とその活用
Hadoopによるリクルートでの技術調査とその活用Hadoopによるリクルートでの技術調査とその活用
Hadoopによるリクルートでの技術調査とその活用Chiaki Hatanaka
 
C++ Transactional Memory言語拡張の紹介
C++ Transactional Memory言語拡張の紹介C++ Transactional Memory言語拡張の紹介
C++ Transactional Memory言語拡張の紹介yohhoy
 
Toxic comment classification
Toxic comment classificationToxic comment classification
Toxic comment classificationNasuka Sumino
 
kagami_comput2016_14
kagami_comput2016_14kagami_comput2016_14
kagami_comput2016_14swkagami
 
ソフトウェア自動チューニング研究紹介
ソフトウェア自動チューニング研究紹介ソフトウェア自動チューニング研究紹介
ソフトウェア自動チューニング研究紹介Takahiro Katagiri
 
Jubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組みJubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組みJubatusOfficial
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge
 
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...harmonylab
 
クラウドを最大限活用するinfrastructure as codeを考えよう
クラウドを最大限活用するinfrastructure as codeを考えようクラウドを最大限活用するinfrastructure as codeを考えよう
クラウドを最大限活用するinfrastructure as codeを考えようNTT Communications Technology Development
 
若気の至りを精算する
若気の至りを精算する若気の至りを精算する
若気の至りを精算するKenji Daikoku
 
VLDB’11勉強会 -Session 9-
VLDB’11勉強会 -Session 9-VLDB’11勉強会 -Session 9-
VLDB’11勉強会 -Session 9-Takeshi Yamamuro
 

Similar a 最先端NLP勉強会2017_ACL17 (20)

2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門
2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門
2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門
 
Bind Peek をもっと使おうぜ!(柴田 歩) - JPOUG Advent Calendar 2014(Day 5) -
Bind Peek をもっと使おうぜ!(柴田 歩) - JPOUG Advent Calendar 2014(Day 5) -Bind Peek をもっと使おうぜ!(柴田 歩) - JPOUG Advent Calendar 2014(Day 5) -
Bind Peek をもっと使おうぜ!(柴田 歩) - JPOUG Advent Calendar 2014(Day 5) -
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
 
第64回情報科学談話会(滝沢 寛之 准教授)
第64回情報科学談話会(滝沢 寛之 准教授) 第64回情報科学談話会(滝沢 寛之 准教授)
第64回情報科学談話会(滝沢 寛之 准教授)
 
Overview and Roadmap
Overview and RoadmapOverview and Roadmap
Overview and Roadmap
 
130710 02
130710 02130710 02
130710 02
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)
 
アドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニングアドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニング
 
Spring2概論@第1回JSUG勉強会
Spring2概論@第1回JSUG勉強会Spring2概論@第1回JSUG勉強会
Spring2概論@第1回JSUG勉強会
 
Hadoopによるリクルートでの技術調査とその活用
Hadoopによるリクルートでの技術調査とその活用Hadoopによるリクルートでの技術調査とその活用
Hadoopによるリクルートでの技術調査とその活用
 
C++ Transactional Memory言語拡張の紹介
C++ Transactional Memory言語拡張の紹介C++ Transactional Memory言語拡張の紹介
C++ Transactional Memory言語拡張の紹介
 
Toxic comment classification
Toxic comment classificationToxic comment classification
Toxic comment classification
 
kagami_comput2016_14
kagami_comput2016_14kagami_comput2016_14
kagami_comput2016_14
 
ソフトウェア自動チューニング研究紹介
ソフトウェア自動チューニング研究紹介ソフトウェア自動チューニング研究紹介
ソフトウェア自動チューニング研究紹介
 
Jubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組みJubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組み
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
 
クラウドを最大限活用するinfrastructure as codeを考えよう
クラウドを最大限活用するinfrastructure as codeを考えようクラウドを最大限活用するinfrastructure as codeを考えよう
クラウドを最大限活用するinfrastructure as codeを考えよう
 
若気の至りを精算する
若気の至りを精算する若気の至りを精算する
若気の至りを精算する
 
VLDB’11勉強会 -Session 9-
VLDB’11勉強会 -Session 9-VLDB’11勉強会 -Session 9-
VLDB’11勉強会 -Session 9-
 

Más de Masayoshi Kondo

attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介Masayoshi Kondo
 
GeneratingWikipedia_ICLR18_論文紹介
GeneratingWikipedia_ICLR18_論文紹介GeneratingWikipedia_ICLR18_論文紹介
GeneratingWikipedia_ICLR18_論文紹介Masayoshi Kondo
 
Semantic_Matching_AAAI16_論文紹介
Semantic_Matching_AAAI16_論文紹介Semantic_Matching_AAAI16_論文紹介
Semantic_Matching_AAAI16_論文紹介Masayoshi Kondo
 
深層学習(岡本孝之著) Deep learning chap.5_2
深層学習(岡本孝之著) Deep learning chap.5_2深層学習(岡本孝之著) Deep learning chap.5_2
深層学習(岡本孝之著) Deep learning chap.5_2Masayoshi Kondo
 
深層学習(岡本 孝之 著)Deep learning chap.5_1
深層学習(岡本 孝之 著)Deep learning chap.5_1深層学習(岡本 孝之 著)Deep learning chap.5_1
深層学習(岡本 孝之 著)Deep learning chap.5_1Masayoshi Kondo
 
深層学習(岡本孝之 著)Deep learning Chap.4_2
深層学習(岡本孝之 著)Deep learning Chap.4_2深層学習(岡本孝之 著)Deep learning Chap.4_2
深層学習(岡本孝之 著)Deep learning Chap.4_2Masayoshi Kondo
 
深層学習(岡本孝之 著)Deep learning chap.4_1
深層学習(岡本孝之 著)Deep learning chap.4_1深層学習(岡本孝之 著)Deep learning chap.4_1
深層学習(岡本孝之 著)Deep learning chap.4_1Masayoshi Kondo
 
深層学習(岡本孝之 著) - Deep Learning chap.3_2
深層学習(岡本孝之 著) - Deep Learning chap.3_2深層学習(岡本孝之 著) - Deep Learning chap.3_2
深層学習(岡本孝之 著) - Deep Learning chap.3_2Masayoshi Kondo
 
深層学習(岡本孝之 著) - Deep Learning chap.3_1
深層学習(岡本孝之 著) - Deep Learning chap.3_1深層学習(岡本孝之 著) - Deep Learning chap.3_1
深層学習(岡本孝之 著) - Deep Learning chap.3_1Masayoshi Kondo
 
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2Masayoshi Kondo
 

Más de Masayoshi Kondo (11)

attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介
 
GeneratingWikipedia_ICLR18_論文紹介
GeneratingWikipedia_ICLR18_論文紹介GeneratingWikipedia_ICLR18_論文紹介
GeneratingWikipedia_ICLR18_論文紹介
 
Deep Learning
Deep LearningDeep Learning
Deep Learning
 
Semantic_Matching_AAAI16_論文紹介
Semantic_Matching_AAAI16_論文紹介Semantic_Matching_AAAI16_論文紹介
Semantic_Matching_AAAI16_論文紹介
 
深層学習(岡本孝之著) Deep learning chap.5_2
深層学習(岡本孝之著) Deep learning chap.5_2深層学習(岡本孝之著) Deep learning chap.5_2
深層学習(岡本孝之著) Deep learning chap.5_2
 
深層学習(岡本 孝之 著)Deep learning chap.5_1
深層学習(岡本 孝之 著)Deep learning chap.5_1深層学習(岡本 孝之 著)Deep learning chap.5_1
深層学習(岡本 孝之 著)Deep learning chap.5_1
 
深層学習(岡本孝之 著)Deep learning Chap.4_2
深層学習(岡本孝之 著)Deep learning Chap.4_2深層学習(岡本孝之 著)Deep learning Chap.4_2
深層学習(岡本孝之 著)Deep learning Chap.4_2
 
深層学習(岡本孝之 著)Deep learning chap.4_1
深層学習(岡本孝之 著)Deep learning chap.4_1深層学習(岡本孝之 著)Deep learning chap.4_1
深層学習(岡本孝之 著)Deep learning chap.4_1
 
深層学習(岡本孝之 著) - Deep Learning chap.3_2
深層学習(岡本孝之 著) - Deep Learning chap.3_2深層学習(岡本孝之 著) - Deep Learning chap.3_2
深層学習(岡本孝之 著) - Deep Learning chap.3_2
 
深層学習(岡本孝之 著) - Deep Learning chap.3_1
深層学習(岡本孝之 著) - Deep Learning chap.3_1深層学習(岡本孝之 著) - Deep Learning chap.3_1
深層学習(岡本孝之 著) - Deep Learning chap.3_1
 
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
 

最先端NLP勉強会2017_ACL17

  • 1. 2017.09.16 NAIST  ⾃自然⾔言語処理理学研究室 D1  Masayoshi  Kondo   論論⽂文紹介-‐‑‒  最先端NLP勉強会@2017   Selective  Encoding for  Abstractive  Sentence  Summarization ACLʼ’17 Qingyu  Zhou,  Nan  Yang,  Furu  Wei,  Ming  Zhou Harbin  Institute  of  Technology,  Harbin  China Microsoft  Research,  Beijing  China
  • 2. 00:  論論⽂文の概要 •  Seq2seqモデルを改良良したニューラル要約モデルの研究. •  EncからDecへ引き渡す情報を取捨選択する  Selective  Gate  機構を導⼊入. •  短⽂文⽣生成要約のデータセット  :  3つ  で最⾼高精度度を更更新. •  評価指標:ROUGEスコア  (R-‐‑‒1,  R-‐‑‒2,  R-‐‑‒L) 【まとめ】 【モデル概略略図】 Encoding Selectcion Decoding Sentence  Encoder Summary  DecoderSelective  gate  network 【データセット】 Train  Set Annotated  English Gigaword  dataset Test  Set Annotated  English  Gigaword  Test-‐‑‒Set DUC2004  Test  Set MSR-‐‑‒ATC  Test  Set
  • 3.  Preliminaries    Introduction  Model  Experiments  Discussion  &  Conclusion  *  Plus  Alpha
  • 4. 01:近年年の  Text  Summarization  タスクの発展状況 トップカンファレンスでの要約タスク論論⽂文数の推移. 0 5 10 15 20 25 30 2014 2015 2016 2017 Total using  Neural  Net company  papers   using  Neural  Net (注:過去4年年分の  ACL  /  EMNLP  を調査.検索索クエリ:summari) 初登場  !   Neural  Abstractive  Summarization   [EMNLPʼ’15,  Rush  et  al.] NNを⽤用いた⾔言語⽣生成系タスクは企業も活発 に研究を進めている.現状は、Google, Facebook,  IBM  が、三強. Summarization  Tasks (year) (count)
  • 5. 02:Neural  Text  Summarization  について 【  Text  Summarization  】 「原⽂文」の主要な情報を抽出し、より「短い⽂文章」で記述するタスク. [Input] [Output  (predicted)]: the  microsoft  corporation  will  open  its  office  in  dhaka  on  november   ##  to  expand  its  sales  and  fight  piracy  in  the  market  of  this  country  ,   reported  the  daily  new  age  on  saturday  . microsoft  to  open  new  office  in  sri  lanka. [Output  (correct)]: microsoft  to  open  office  in  dhaka.
  • 6. 03:Neural  Text  Summarization  について 【  Text  Summarization  】 「原⽂文」の主要な情報を抽出し、より「短い⽂文章」で記述するタスク. ⽂文書要約タスク:2種類 Extractive  Summarization  :   -‐‑‒  従来の多くの⽂文書要約(⾃自動要約)の研究枠組み Abstractive  Summarization  :   -‐‑‒  近年年、NNを利利⽤用して⾶飛躍的な精度度向上 •  原⽂文の⽂文章を直接使って(copyして)、要約⽂文を 構築. •  精度度や⽂文法構造も⼀一定の⽔水準を満たしている. •  原⽂文に依らないフレーズや単語も含めて⽣生成的に ⽂文章を構築. •  「⾔言い換え」や「常識識(世界知識識)」等を含んだ ⾼高度度な要約⽂文を⽣生成出来る可能性がある. Src(原⽂文) Trg(要約⽂文) Src(原⽂文) Trg(要約⽂文) -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ -‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒-‐‑‒ xxxxxxxxxxxxx xxxxxxxxxxxxx xxxxxxxxxxxxx xxxxxxx
  • 7. 04:Neural  Text  Summarization  について Decoder  (RNN)Encoder  (RNN) Output  (trg/summ) Input  (src/ref) attention Encoder Decoder [Input]:  Reference word_̲id  -‐‑‒  seq [Output]:  Summary word_̲id  -‐‑‒  seq Deep  Neural   Networks Seq2Seq  Neural  Model  (RNN-‐‑‒RNN) 【  Train  】:    [src,  trg]ペアデータからモデルパラメータを学習. 【  Test  】:  srcデータを⼊入⼒力力し、trgを逐次予測して要約⽂文を⽣生成. •  前ステップの予測語を現在のステップの⼊入⼒力力として利利⽤用.逐次予測を⾏行行う. •  予測系列列⻑⾧長は、予め設定して決めてあることが多い. •  Decoder側の出⼒力力は、Vocab次元で1つだけ1が⽴立立つ1-‐‑‒of-‐‑‒Vベクトル. •  Loss関数:Cross-‐‑‒Entropy.
  • 8. 05:Neural  Text  Summarization  について ⽣生成要約の研究で利利⽤用される代表的なデータセット  と  評価指標 【Gigaword  Corpus】:  [src]  単⽂文  →  [trg]  単⽂文 【CNN/Daily  Mail】:[src]  複⽂文  →  [trg]  複⽂文 •  ⼤大規模データセット •  Train:  約400万ペア  /  Dev:  約20万ペア/  Test:  約40万ペア •  Testset  は、ランダムに2000サンプル抽出して使うのが⼀一般的. •  Shared  taskのDUCʼ’04の  Test  set  を使う場合もある. 【評価指標】:ROUGE-‐‑‒score  (ROUGE値) •  正解⽂文  と  ⽣生成⽂文  のn-‐‑‒gramの⼀一致率率率を指標化したもの. •  スコアが⾼高い⽅方が良良い. •  平均  ⼊入⼒力力系列列⻑⾧長:781  tokens  /  平均  出⼒力力系列列⻑⾧長:56  tokens •  Train:  約29万ペア  /  Dev:  約13000ペア/  Test:  約11000ペア •  multi-‐‑‒sentencesのデータセット.
  • 9. 06:Recent  Researches  in  Abstractive  Summarization 近年年のシンプルな設定の(王道の)ニューラル⽣生成要約タスク.   Get  To  The  Point:  Summarization  with  Pointer-‐‑‒Generator  Networks [ACLʼ’17  /  Stanford  Unv  (D.Manning  lab)  with  Google] Selective  Encoding  for  Abstractive  Sentence  Summarization [ACLʼ’17  /  with  Microsoft] キーコンセプト  2つ:     -‐‑‒-‐‑‒  Copy  Mechanism                :  元記事の意味を抜出する仕組み.   -‐‑‒-‐‑‒  Coverage  Mechanism  :  repetitionを回避する仕組み. キーコンセプト  :     -‐‑‒-‐‑‒  Selective  Mechanism  (Selective  Gate)  :            EncからDecにどの情報を流流すのかを選択的に⾏行行う(制御する)仕組み. Dataset CNN/DailyMail  dataset   Model bilstm-‐‑‒lstm-‐‑‒attention ⻑⾧長⽂文のニューラル⽣生成要約  (src  :  複数⽂文,  trg  :  複数⽂文) ニューラル⽣生成要約 Dataset Gigaword  and  etc… Model seq2seq-‐‑‒attention
  • 10. 07:Recent  Researches  in  Abstractive  Summarization Learning  to  Generate  Market  Comments  from  Stock  Prices [Y.Miyao,  ACLʼ’17] ⼀一⽅方で、応⽤用設定の⽣生成要約タスクが増加傾向.    Generate  :株価  →  短信レポート Program  Induction  for  Rationale  Generation:  Learning  to  Solve   and  Explain  Algebraic  Word  Problems  [ACLʼ’17/Oxford  with  DeepMind] Neural  AMR:  Sequence-‐‑‒to-‐‑‒Sequence  Models  for  Parsing  and  Generation   [Ioannis  Konstas  et  al,  ACLʼ’17] •  代数の数学問題を解く. •  Generate  :  代数の問題→  解答  (選択肢  解答) •  解答を選択するだけでなく、同時に解答までのロジックを⽣生成. •  Parsing  と  ⾔言語⽣生成  を同時に. •  Dataset  :  Gigaword  /  Original  dataset.
  • 11.  Preliminaries    Introduction  Model  Experiments  Discussion  &  Conclusion  *  Plus  Alpha
  • 12. 08:  Introduction Attentionモデル  :  機械翻訳タスク  での成功  →  ⽣生成要約タスク  への展開 :要約タスクにおける  Input/Output  間のalignmentって何を意味するの?【  疑問  】 -‐‑‒  I/O間で共通の単語が利利⽤用される場合を除いて、要約タスクにおける alignmentの意味は明確ではない. 【  解釈  】 Input  から⼆二次情報を取り出す際の(重要な情報を)ハイライトを⾏行行う仕組み   として考える. Attention  Mechanism ⼊入⼒力力系列列の重要部を ハイライトする仕組み 要約タスク 【  ニューラル要約モデル  】 Encoder  +  Attention  Mechanism Decoder •  ⼊入⼒力力系列列をエンコード •  重要情報の保持と選択 •  表現の変換(⾔言い換え) •  要約⽂文の構築 Attention機構によって重要情報の選択が⾏行行われるが、明⽰示的に何が重要かの判断 はしていない.
  • 13. 09:  Introduction 【  ニューラル要約モデル  】 Encoder  +  Attention  Mechanism Decoder •  ⼊入⼒力力系列列をエンコード •  重要情報の保持と選択 •  表現の変換(⾔言い換え) •  要約⽂文の構築 Attention機構によって重要情報の選択が⾏行行われるが、明⽰示的に何が重要かの判断 はしていない. 【  提案モデル  】:  SEASS  (Selective  Encoding  for  Abstractive  Sentence  Summarization) 仮説:⼊入⼒力力系列列の重要部の選択を明⽰示的に⾏行行う仕組みを導⼊入すれば、       精度度向上するんじゃね? Encoding Selectcion Decoding Sentence  Encoder Summary  DecoderSelective  gate  network •   [Encoding]    :  RNNで⼊入⼒力力系列列を読込み、first  level  sentence  repr  の獲得.     •   [Selection]    :  selective  gate  networkによる情報の選別とsecond  level                     sentence  repr  の獲得. •   [Decoding]    :  second  level  sentence  pepr  を⽤用いてデコード.
  • 14.  Preliminaries    Introduction  Model  Experiments  Discussion  &  Conclusion  *  Plus  Alpha
  • 15.  Preliminaries    Introduction  Model 1.  Summary  Encoder 2.  Selective  Mechanism 3.  Summary  Decoder -‐‑‒-‐‑‒  Objective  Function  Experiments  Discussion  &  Conclusion  *  Plus  Alpha
  • 16. 10:  Selective  Encoder  概要図 x0 x1 xt-‐‑‒k xTxt xt+k 0 Ttt-‐‑‒k t+k 単語系列列データ... Word Embed <Bi-‐‑‒GRU>:  Forward  /  Backward <Selective  Gate> σ(                                    )+UW +b= xt  の  encoder  output
  • 17. 11:  Model  -‐‑‒  selective  mechanism 【提案ニューラルネットの構造図】 Summary  Encoder
  • 18. Encoder  :  BiGRU 12:  Model  –  summary  encoder •  Forword/Backwordの初期状態は、zero-‐‑‒vector  で設定. •  Forword/Backwordの隠れ状態(hidden  state)は、concatenate  で統合. •  センテンスの  representation  を獲得.
  • 19.  Preliminaries    Introduction  Model 1.  Summary  Encoder 2.  Selective  Mechanism 3.  Summary  Decoder -‐‑‒-‐‑‒  Objective  Function  Experiments  Discussion  &  Conclusion  *  Plus  Alpha
  • 20. 13:  Model  -‐‑‒  selective  mechanism 【提案ニューラルネットの構造図】 Selective  Mechanism
  • 21. Seq2Seqモデルを使う機械翻訳(MT)は、⼊入⼒力力系列列から出⼒力力系列列をマップする ように  encoder  と  decoder  のモジュールを学習させる. 14:  Model  -‐‑‒  selective  mechanism これは、これまでの⽣生成要約タスクにも応⽤用されてきたものだ. ⽣生成要約(abstractive  sentence  summarization)は、機械翻訳(MT) とは2つの異異なるポイントがある. 1.   ⼊入⼒力力センテンスと出⼒力力センテンスの間の関係に対して、共通する単語を 除いてアラインメントが明確ではない. 2.   要約タスク:ʼ’不不必要な情報を取り除いて重要な情報をハイライトする ものʼ’であるが、機械翻訳タスクは全ての情報を⽂文字通り(⼊入出⼒力力間の系 列列に対して)保有する. Selective  Mechanism  :  ⽣生成要約タスクに適合したrepresentationを 構築するためのseq2seqの拡張⽅方式.
  • 22. 15:  Model  -‐‑‒  selective  mechanism s  is  the  concatenated  vector  of  the  last  forward  hidden  state  hn   and  backward  hidden  state  h1  . → ← s  is  the  sentence  representation  vector. For  each  word  xi  ,  the  selective  gate  network  generates  a   gate  vector  sGatei  using  hi  and  s,  then  tailored  representation   is  hʼ’i.
  • 23.  Preliminaries    Introduction  Model 1.  Summary  Encoder 2.  Selective  Mechanism 3.  Summary  Decoder -‐‑‒-‐‑‒  Objective  Function  Experiments  Discussion  &  Conclusion  *  Plus  Alpha
  • 24. 16:  Model  -‐‑‒  summary  decoder 【提案ニューラルネットの構造図】 Summary  Decoder
  • 25. 17:  Model  -‐‑‒  summary  decoder •   wt-‐‑‒1  :  previous  word  embedding •   ct-‐‑‒1      :  previous  context  vector •   st            :  new  hidden  state Decoder  :  GRU  with  attention Context  vector  の作り⽅方 1.  (12式)  st-‐‑‒1  と  hʼ’i  のベクトル とアテンションベクトル  :   va  との内積を計算 2.  (13式)ソフトマックス計算 3.  (14式)重み付き和  計算
  • 26. 18:  Model  -‐‑‒  summary  decoder •   wt-‐‑‒1  :  previous  word  embedding •   ct          :  context  vector •   st            :  (current)  decoder  state •   rt            :  readout  state   Decoder  :  GRU  with  attention  (つづき) [15式]  :  readout  state  の計算式(特徴量量毎の単純な線形和) [16式]  :  マックスアウト関数の操作 [17式]  :  ソフトマックス関数の操作(最終出⼒力力)
  • 27.  Preliminaries    Introduction  Model 1.  Summary  Encoder 2.  Selective  Mechanism 3.  Summary  Decoder -‐‑‒-‐‑‒  Objective  Function  Experiments  Discussion  &  Conclusion  *  Plus  Alpha
  • 28. 19:  Model  –  objective  function Loss関数:Negative  Log-‐‑‒Likelihood  Loss   D  :  a  set  of  parallel  sentence  summary  pairs θ    :  the  model  parameter •  ⼊入⼒力力系列列が与えられた下で⽣生成する要約⽂文の確率率率を最⼤大化 •  最適化法  :  Stochastic  Gradient  Desent  (SGD)
  • 29.  Preliminaries    Introduction  Model  Experiments  Discussion  &  Conclusion  *  Plus  Alpha
  • 30. 20:  Experiments 【Training  Set】:  Annotated  English  Gigaword  dataset 【Test  Set】:  3つ English  Gigaword  Test  Set DUC2004  Test  Set MSR-‐‑‒ATC  Test  Set  [Toutanova  et  al.  2016] •  (src,  trg)  :  (記事の冒頭1⽂文,  記事の⾒見見出し⽂文)   •  PTBトークナイズ・⼩小⽂文字化  処理理 •  数字は、♯(シャープ)記号  に変換 •  出現回数5回以下の単語を  <unk>  変換 •  訓練データ:380万ペア  /  開発データ:18.9万ペア •  Rush  et  al.の研究[Rush  et  al.,  EMNLPʼ’15]で⽤用いられたテストセット •  2000ペア  (summ側空データを除いた1951ペア、[Chopra  et  al.,    2016]) •  src:1に対してtrg:4の⼈人⼿手で作成された要約データ. •  500ペア.⽣生成⽂文を75byte打切切で評価. •  Croudsourcingにより作成.総データ数:6000ペア. •  Test  Set  サイズ:785ペア
  • 31. 【Evaluation  Metric】:  Rouge  Score •  R-‐‑‒1  :  uni-‐‑‒gram  の⼀一致率率率. •  R-‐‑‒2  :  bi-‐‑‒gram  の⼀一致率率率. •  R-‐‑‒L  :  longest  common  subsequence(LCS)  の⼀一致率率率. 正解要約  と  ⽣生成要約  のn-‐‑‒gramの⼀一致率率率(overlapping)で精度度を定量量化. DUC  Shared  Taskにおいて要約評価に⽤用いられた⼀一般的な指標. 21:  Experiments 【Implementation  Details】 Vocab-‐‑‒Size In  :  119,504    /    Out  :  68,883 Word-‐‑‒Emb 300 Unit  Type(Hidden-‐‑‒size) GRU  (Hidden-‐‑‒Size  :  512) Batch  Size 64 Dropout 0.5 Optimization  Method Adam(β=0.001,  α1=0.9,  α2=0.999,  ε=10^-‐‑‒8) Dev-‐‑‒Evaluation For  every  2000  training  batches Grad-‐‑‒Clipping [-‐‑‒5,  5] Beam-‐‑‒Search  Size 12
  • 32. 22:  Experiments 【Baselines】­−  ⽐比較モデル ABS •  [Rush  et  al.EMNLPʼ’15]  の提案⼿手法. •  CNN-‐‑‒enc  +  Attention  /  NNLM(FFNN)-‐‑‒dec •  公開されているオリジナルコードを利利⽤用 ABS+ •  ABSモデル. •  Loss関数に特殊項を追加. CAs2s •  [Chopra  et  al.  2016]  の提案⼿手法. •  ABSモデルの改良良型.精度度でABSモデルに勝る. •  CNN-‐‑‒Enc  +  Attention  /  RNN-‐‑‒dec Feats2s •  [Nallapati  et  al.  2016]  の提案⼿手法 •  RNN-‐‑‒Seq2Seq  モデル  +  他の特徴量量の導⼊入 •  他の特徴量量:POSタグ、NERタグ Luong-‐‑‒NMT •  [Loung  et  al.  2015]  の提案⼿手法. •  2層LSTM(500-‐‑‒dim)のenc-‐‑‒decモデル. s2s-‐‑‒att •  Seq2Seqモデル+Attention
  • 33. 23:  Experiments -‐‑‒  Rushのテストセット  -‐‑‒ -‐‑‒  本研究のテストセット  -‐‑‒ 【  Gigaword  test  set  】
  • 34. 24:  Experiments 【  DUC2004  test  set  】
  • 36.  Preliminaries    Introduction  Model  Experiments  Discussion  &  Conclusion  *  Plus  Alpha
  • 37. 【Effectiveness  of  Selective  Encoding】 26:  Discussion 【議論論】:  提案⼿手法(SEASS)  と  ベースライン(seq2seq-‐‑‒attention)  の性能⽐比較 •  2つの検証. •  提案⼿手法である「Selective  Encoding」の有効性を調べたい. •  ⼊入⼒力力系列列の⻑⾧長さ毎の要約精度度を検証. •  データ:Gigawordテストセット. •  ⼊入⼒力力系列列の⻑⾧長さ:10  ~∼  80  のデータ •  Gigaword  テストセットに対して、4区切切りで18つのデータグループを作成. •  各グループの要約精度度(ROUGE-‐‑‒2  F1値)をグラフにして⽰示す. 【Saliency  Heat  Map  of  Selective  Gate】 •  Selective  Gateの効果を⾒見見るため、(エンコード側の)ある出⼒力力を可視化. •  ある出⼒力力:(エンコード側の)最終出⼒力力をselective  gateの項で⼀一次近似 微分したもの.
  • 38. 27:  Discussion  :  Effectiveness  of  Selective  Encoding
  • 39. 28:  Discussion  :  Saliency  Heat  Map  of  Selective  Gate [Input]  :  the  council  of  europe  ʼ’s  human  rights  commissioner   slammed  thursday  as    “  unacceptable  “    conditions  in  france  ʼ’s   overcrowded  and  dilapidated  jails  ,  where  some  ##  inmates  have   committed  suicide  this  year  . [System]  :  council  of  europe  slams  french  prison  conditions. [True]  :  council  of  europe  again  slams  french  prison  conditions.
  • 40. 29:  Conclusion •  本論論⽂文では、⽣生成要約タスクにおけるseq2seqモデルを拡張した Selective  Encode  Model  を提案. •  このSelective  Mechanism  (選択機構)は、要約を書き下す前に⾏行行う重要 な情報の選択という⼈人間の要約⾏行行為を模倣するものだ. •  我々は、ニューラル要約モデルを3つの仕組みで構成した: ー  Encoding  /  Selection  /  Decoding   •  実験の結果、English  Gigaword,  DUC2004,  MSR-‐‑‒ATC  test  set   で、それぞれ最⾼高精度度を達成した. 【感想】 •  Selective  Gate  と⽴立立派な名前の割にアテンション⽤用のモジュールを付け加え ただけに⾒見見える. •  Input  と  Output  間の重要な情報抽出操作に関するモデリングは未だ出来て いない. •  簡単な仕組みで精度度が向上出来ているのは◎.
  • 41.  Preliminaries    Introduction  Model  Experiments  Discussion  &  Conclusion  *  Plus  Alpha
  • 42. 31  :  *Plus  Alpha  ­−  ⻑⾧長⽂文要約でSEASSを試してみる Get  To  The  Point:  Summarization  with  Pointer-‐‑‒Generator  Networks [ACLʼ’17  /  Stanford  Unv  (D.Manning  lab)  with  Google] Selective  Encoding  for  Abstractive  Sentence  Summarization [ACLʼ’17  /  with  Microsoft] キーコンセプト  2つ:     -‐‑‒-‐‑‒  Copy  Mechanism                :  元記事の意味を抜出する仕組み.   -‐‑‒-‐‑‒  Coverage  Mechanism  :  repetitionを回避する仕組み. キーコンセプト  :     -‐‑‒-‐‑‒  Selective  Mechanism  (Selective  Gate)  :            EncからDecにどの情報を流流すのかを選択的に⾏行行う(制御する)仕組み. Dataset CNN/DailyMail  dataset   Model bilstm-‐‑‒lstm-‐‑‒attention ⻑⾧長⽂文のニューラル⽣生成要約  (src  :  複数⽂文,  trg  :  複数⽂文) ニューラル⽣生成要約 Dataset Gigaword  and  etc… Model seq2seq-‐‑‒attention 紹介論論⽂文のSEASSは、短⽂文要約での精度度は良良いことが分かった. では、⻑⾧長⽂文要約の⽅方で試すと?
  • 43. 32  :  *Plus  Alpha  ­−  ⻑⾧長⽂文要約でSEASSを試してみる 【実験設定】 •  「Get  To  The  Point:  Summarization  with  Pointer-‐‑‒Generator   Networks」の  実験設定  と  ソースコード  を利利⽤用. •  先⾏行行研究のエンコーダー  と  紹介論論⽂文のSEASSのエンコーダー  を取り替えて検証. 実装・設定・その他の仕組みは、先⾏行行研究に従った(pointer-‐‑‒generator   mechanism/coverage  mechanismは、双⽅方のモデルで利利⽤用した.) [先⾏行行研究Enc  (Get  To  The  Point  ~∼)] Bi-‐‑‒LSTM [  紹介論論⽂文  :  SEASS  のEnc  ] Bi-‐‑‒GRU  +  Selective  Mechanism 【CNN/Daily  Mail  dataset  】:[src]  複⽂文  →  [trg]  複⽂文 •  平均  ⼊入⼒力力系列列⻑⾧長:781  tokens  /  平均  出⼒力力系列列⻑⾧長:56  tokens •  Train:  約29万ペア  /  Dev:  約13000ペア/  Test:  約11000ペア •  multi-‐‑‒sentencesのデータセット.  /  Vocab-‐‑‒size:  50k •  ⼊入⼒力力系列列:最⼤大400words  /  出⼒力力系列列:最⼤大100words  で打切切. •  予測時:最⼤大120words  で打切切.
  • 44. 33:  実験結果:⻑⾧長⽂文要約  (CNN/Dailymail  Dataset:  50k) Model Rouge-‐‑‒1 Rouge-‐‑‒2 Rouge-‐‑‒L #  of  params Abigail  et  al.  2017 -‐‑‒  ENC  :  BiLSTM -‐‑‒  pointer-‐‑‒generator 36.44 15.66 33.42 -‐‑‒ Abigail  et  al.  2017                      <re-‐‑‒exam> 37.88 16.39 33.46 -‐‑‒ SEASS  [ACLʼ’17] -‐‑‒  BiGRU -‐‑‒  Selective  Enc 37.44 16.00 33.35 -‐‑‒ ACLʼ’17のshort  text  summarization論論⽂文のNNモデルをlong  text   summarization  で実験.(SEASSのチューニングは⽢甘い.) Abigail  et  al.  2017 +  coverage 39.53 17.28 36.38 -‐‑‒ Abigail  et  al.  2017                      <re-‐‑‒exam> +  coverage 39.86 17.50 35.38 -‐‑‒ SEASS  [ACLʼ’17] +  coverage 38.65 16.88 34.36 -‐‑‒
  • 45. END