Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.
ACL読み会2015-­‐09-­‐18	
  
	
  
Domain-­‐Specific	
  Paraphrase	
  Extrac5on	
  
	
  	
  
Ellie	
  Pavlick,	
  Juri	
  Ganitk...
概要	
•  言い換えの正当性	
  
•  言い換え適用先のテキストのドメインによる	
  
•  提案手法	
  
•  二言語間のピボッティングによる言い換えを用い
訓練データを言い換え先のドメインに偏らせる	
  
•  適合率ー再現率...
はじめに	
•  言い換えが適切かどうかの判断は難しい	
  
•  言い換え後の文法が正しいかどうか	
  
•  単語の意味が正しいかどうか	
  
•  言い換えでのドメインの影響は不明	
  
•  言い換えの信頼性はドメインにより異な...
言い換えの抽出	
•  二言語間でのピボッティング	
  
•  e1,	
  e2	
  :	
  英語のフレーズ	
  ,	
  f	
  :	
  他言語のフレーズ	
  
•  e1	
  à	
  f,	
  e2	
  à	
 ...
ドメイン特有のサンプル	
•  2つの言語モデルからなる大きなコーパスの	
  
                各文に重みを付与	
  
  一般ドメイン ターゲット分野テキストのサンプル	
  
	
  
•  ドメイン特有らしさ	
  :...
ドメイン特有の言い換え	
•  ドメイン特有らしさの計算	
  
– 単一言語の専門的ドメインのサンプルが必要	
  
•  言い換え抽出ではなく、ターゲットドメイン言語の	
  
nグラムモデルの訓練に使用する	
  
– σi	
  を計算...
実験設定	
•  ターゲットドメイン	
  :	
  生物学(biology)	
  
•  単一言語ドメインデータ	
  
•  GENIA	
  database	
  ,	
  生物学の教科書の序論	
  
•  一般ドメイン	
  :	...
実験評価	
•  評価指標	
  :	
  適合率と再現率	
  
•  評価数	
  
•  生物学ドメイン	
  :	
  15,000文、一般ドメイン	
  :	
  10,000文	
  
•  評価方法	
  :	
  言い換えが適切...
実験手法	
•  ベースライン(General)	
  
– パラレルコーパスそのまま使用	
  
目標ドメインに対する重み付けなし	
  
•  サブサンプリング(M-­‐L,T=τ)	
  
– パラレルコーパスをソート、上位τ語を使用	
...
実験結果(biology)	
10	
2015/09/18
実験結果(biology)	
•  ベースラインよりも良くなっている	
  
•  再現率が減少	
  
•  サブサンプリングで	
  
全単語は出現しない	
  
•  τが大きい	
  
à	
  再現率上昇	
  
11	
2015/...
生物ドメインと一般ドメインの合体	
•  これまでの方法	
  :	
  テキストの一部分を使用	
  
•  全部は考慮していない à	
  再現率に限界あり	
  
•  部分サンプリングしたモデルと一般ドメインを
ロジスティック回帰によ...
生物ドメインと一般ドメインの合体	
2015/09/18	
 13
生物ドメインと一般ドメインの合体	
2015/09/18	
 14
おわりに	
•  本研究が行ったこと	
  
•  ドメイン依存の言い換え抽出	
  
•  機械翻訳の方法で抽出	
  
•  目標ドメインに近いものを使用	
  
•  実験結果	
  
•  ベースラインと比較してP	
  –	
  R曲...
Próxima SlideShare
Cargando en…5
×

Acl読み会@2015 09-18

313 visualizaciones

Publicado el

ACL P15-2010

Publicado en: Educación
  • Sé el primero en comentar

  • Sé el primero en recomendar esto

Acl読み会@2015 09-18

  1. 1. ACL読み会2015-­‐09-­‐18     Domain-­‐Specific  Paraphrase  Extrac5on       Ellie  Pavlick,  Juri  Ganitkevitch,   Tsz  Ping  Chan,  Xuchen  Yao,   Benjamin  Van  Durme,  Chris  Callison-­‐Burch     プレゼンテーション   関沢祐樹 2015/09/18 1
  2. 2. 概要 •  言い換えの正当性   •  言い換え適用先のテキストのドメインによる   •  提案手法   •  二言語間のピボッティングによる言い換えを用い 訓練データを言い換え先のドメインに偏らせる   •  適合率ー再現率曲線の曲線下面積が   ベースラインの10%だけ増加   2015/09/18 2
  3. 3. はじめに •  言い換えが適切かどうかの判断は難しい   •  言い換え後の文法が正しいかどうか   •  単語の意味が正しいかどうか   •  言い換えでのドメインの影響は不明   •  言い換えの信頼性はドメインにより異なるのでは?   •  特定のドメインでのみ言い換えできるものもある 2015/09/18 3
  4. 4. 言い換えの抽出 •  二言語間でのピボッティング   •  e1,  e2  :  英語のフレーズ  ,  f  :  他言語のフレーズ   •  e1  à  f,  e2  à  f  ならば,  e1  と  e2  は似た意味である   •  e1,  e2  は言い換えペアであると言える   •  言い換えらしさ   •  様々な他言語、翻訳確率を使用   •  多義語で、頻度が少ないと確率が低くなる   2015/09/18 4
  5. 5. ドメイン特有のサンプル •  2つの言語モデルからなる大きなコーパスの                   各文に重みを付与     一般ドメイン ターゲット分野テキストのサンプル     •  ドメイン特有らしさ  :     •  si  :  文   •  Htgt  :  ターゲットドメイン言語モデルでのクロスエントロピー   •  Hgen  :  一般ドメイン言語モデルでのクロスエントロピー   •  σi  が小さいほど、ドメイン依存な文と言える     2015/09/18 5
  6. 6. ドメイン特有の言い換え •  ドメイン特有らしさの計算   – 単一言語の専門的ドメインのサンプルが必要   •  言い換え抽出ではなく、ターゲットドメイン言語の   nグラムモデルの訓練に使用する   – σi  を計算し、より近い文のペア à  リストの先頭   •  ソートの方法   1.  σi  の閾値を決め、残ったものをターゲットドメイン   2.  訓練サンプルの重みをσi  に比例したものにする   2015/09/18 6
  7. 7. 実験設定 •  ターゲットドメイン  :  生物学(biology)   •  単一言語ドメインデータ   •  GENIA  database  ,  生物学の教科書の序論   •  一般ドメイン  :  Wikipediaのデータ   •  二言語間ドメインデータ   •  仏ー英、10億単語のパラレルコーパス   •  言語モデル  :  5-­‐gram   2015/09/18 7
  8. 8. 実験評価 •  評価指標  :  適合率と再現率   •  評価数   •  生物学ドメイン  :  15,000文、一般ドメイン  :  10,000文   •  評価方法  :  言い換えが適切かどうかの2値評価   5人で評価し、多数決   ある文のフレーズに対して、   その言い換え候補のリストがある   2015/09/18 8
  9. 9. 実験手法 •  ベースライン(General)   – パラレルコーパスそのまま使用   目標ドメインに対する重み付けなし   •  サブサンプリング(M-­‐L,T=τ)   – パラレルコーパスをソート、上位τ語を使用   •  M-­‐L  Change  Point     – σi  の正負が変化する部分を閾値(τ=20Mに相当)   •  M-­‐L  Weighted     – 言い換えスコアをσi  に比例させる   2015/09/18 9
  10. 10. 実験結果(biology) 10 2015/09/18
  11. 11. 実験結果(biology) •  ベースラインよりも良くなっている   •  再現率が減少   •  サブサンプリングで   全単語は出現しない   •  τが大きい   à  再現率上昇   11 2015/09/18
  12. 12. 生物ドメインと一般ドメインの合体 •  これまでの方法  :  テキストの一部分を使用   •  全部は考慮していない à  再現率に限界あり   •  部分サンプリングしたモデルと一般ドメインを ロジスティック回帰によって合体   •  p(e2|e1)  を見積もることができる   2015/09/18 12
  13. 13. 生物ドメインと一般ドメインの合体 2015/09/18 13
  14. 14. 生物ドメインと一般ドメインの合体 2015/09/18 14
  15. 15. おわりに •  本研究が行ったこと   •  ドメイン依存の言い換え抽出   •  機械翻訳の方法で抽出   •  目標ドメインに近いものを使用   •  実験結果   •  ベースラインと比較してP  –  R曲線下面積が10%向上 2015/09/18 15

×