Publicidad

Paraphrasing 4 Microblog Normalization

7 de Jul de 2016
Publicidad

Más contenido relacionado

Último(20)

Publicidad

Paraphrasing 4 Microblog Normalization

  1. Paraphrasing 4 Microblog Normalization 長岡技術科学大学 自然言語処理研究室 高橋寛治 Ling, W., Dyer, C., Black, A. W., & Trancoso, I. (2013). Paraphrasing 4 Microblog Normalization. Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, (October), 73–84. 文献紹介 2016年7月8日
  2. 概要 •マイクロブログのテキストは崩れており解析しず らい •対訳コーパスから換言対を取得する要領で、表 記・語彙を正規化する規則を獲得 •英中翻訳において、正規化した英語により翻訳の 向上 Paraphrasing 4 Microblog Normalization2016/7/8
  3. はじめに •Twitter, Weibo, Facebookなどマイクロブログ を対象とした研究が増えている •既存の解析器は崩れた言語に対応しない •社会言語学など表記に着目する研究を行わない限 りテキスト正規化は必須 •対訳コーパスからのピポッド法による換言対抽出 を利用する Paraphrasing 4 Microblog Normalization2016/7/8
  4. なぜ正規化に取り組むか? • 見ての通り、砕けた文を取り扱えない • 略語 Øyea, inkw -> yes, I know Øimma -> I am going to (伊马(yi ma)と認識される) Paraphrasing 4 Microblog Normalization2016/7/8
  5. アイデア •教師有り学習問題として扱いたい •しかし手製のコーパス作成は大変だから自動で •μtopia parallel corpus(対訳が含まれる投稿か ら作成したコーパス)を翻訳することで、正規化 候補を獲得 Paraphrasing 4 Microblog Normalization2016/7/8
  6. アイデア Paraphrasing 4 Microblog Normalization Microtopia コーパス 機械翻訳の 結果 2016/7/8
  7. 機械翻訳の傾向 •機械翻訳の傾向 Ø<e, f>: eが異表記を含んでいても、fは正規形にな りやすい •表記ゆれ以外 Ø言語依存 Ø英語だとiknw, imma Paraphrasing 4 Microblog Normalization2016/7/8
  8. 対訳コーパス •著者らが以前の研究で作成したコーパス Ø英語と多言語の対訳コーパス Øコーパスの整形は省略 Ø 𝑝" "#$ % u英語の投稿 o un 個の換言 (機械翻訳システム) Paraphrasing 4 Microblog Normalization2016/7/8
  9. 正規化のモデル • 文から句へ • アラインメント(Dyer et al.,2013のfast alignment) Ø点線は翻訳、実線は正規化 • 句のテンプレートによる抽出 Øgo 4, go for Paraphrasing 4 Microblog Normalization2016/7/8
  10. 句の抽出 • 句の素性 Ø句のペア<o,n> Ø𝑓 𝑛|𝑜 = + %,- + - ØC(n,o)はoが正規化された回数 ØC(o)はoが抽出された句のペアに出現する回数 Paraphrasing 4 Microblog Normalization2016/7/8
  11. 句から文字 •cat, catt, kat, caaat •句単位で処理 Ø<start>と<end> Ø文字はスペース区切り •ルールでもいくつか処 理 Paraphrasing 4 Microblog Normalization2016/7/8
  12. 正規化デコーダー •フレーズベースモデルは文脈が使える Ø4はそのままだが、4everなら forever •文字ベースと句ベースをどうやって同時に扱うか ØN-bestの正規化候補を取得 Ø異表記は普通の表記よりも低頻度と仮定した手法 ØBrownクラスタリングでクラスタリング Paraphrasing 4 Microblog Normalization2016/7/8
  13. 単言語での異表記の学習 •Brown clusterを利用(k=3000) Ø○:never, neverrrr, neva, nevahhh Ø×:gladly, glady •有効比巡回グラフ(DAG) Øwi→wjに線を追加 uwi->wjにデコードされる uかつ、wiよりwjが高頻度 Paraphrasing 4 Microblog Normalization2016/7/8
  14. 実験 • 英中マイクロブログ • 各正規化を比較 • Mosesで訓練 Ø並び替えはMSD reordering model Ø言語モデルは5-gram ØMERTでチューニング • BLEU-4で評価 Øいくつかの翻訳機でも評価 Paraphrasing 4 Microblog Normalization2016/7/8
  15. 結果 • 文字ベースのモデルが性能向上に寄与 • Mosesで下がっているのは、Weiboによるもの • 例 ØLookinをlooking, nutzをnutsなど Øpeaceofをpeace of Paraphrasing 4 Microblog Normalization2016/7/8
  16. まとめ •対訳コーパスを元にした換言によるマイクロブロ グの正規化 •フレーズレベルと文字レベルでモデルを学習 •結果、様々な翻訳システムで性能が向上 Paraphrasing 4 Microblog Normalization2016/7/8
Publicidad