Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)

344 visualizaciones

Publicado el

特定の文書のみに大量に出現する語彙を特定する手法を提案する。コーパス全体における出現確率と、コーパスから文書単位で再標本した部分コーパスにおける出現確率を繰り返し求めその中央値とのズレを評価する方法である。科学雑誌Natureをコーパスとした検証を行った。また昨年提案の文書頻度的最尤推定手法との比較を行う。

Publicado en: Datos y análisis
  • Sé el primero en comentar

  • Sé el primero en recomendar esto

ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)

  1. 1. ブートストラップ手法を用 いた学習不用語の除去 株式会社VOYAGE GROUP 中野智文
  2. 2. 目的 ● 専門英語コーパスから学習語彙の抽出 ● 科学技術英語コーパス →理工学部向け 語彙学習教材 語彙を含む文章
  3. 3. 語彙の抽出 ● 一般的には語彙の頻度 コーパス中の語彙の出現数 本当にOK?
  4. 4. 特定の文書のみ語彙が大量に出現 ● 特定の文書のみに大量に出現する語彙(提 案した手法の名称やシステム名) ● 頻度で見ると上位に ● 本当にその語彙は学習者にとって重要? →これを学習不要語とよぶことに
  5. 5. 文書頻度(Document Frequency) 語彙の出現数ではなく、出現した文書の数 ● 一つの文書に1000回出現した語彙 ● 1000の文書に1回づつ出現した語彙 ● 1文書 ● 1000文書
  6. 6. 文書頻度の欠点 文書長が無視される 文書長が異なるコーパスでの比較 ● 4000語の論文のコーパス ● 100語のアブストラクト
  7. 7. 昨年の研究 文書長を考慮した文書頻度的な最尤推定手法 [中野 2014] (ちょっとタイトルは違います)
  8. 8. 語彙の出現確率の最尤推定 ざっくりいうと、 100万語のコーパスで、100回出現しました。 100/1,000,000 = 0.01% なぜ0.01%ですか? 0.01%のときに最も尤度(次の式)が大きい
  9. 9. 文書長付き文書頻度的な語彙出現確率 文書長(語数)が(102, 403, 1500, 3234, … )となるそれぞれの文書で1回以上出現し、 文書長が(323, 6040, ….) となる文書で1回も出 現しませんでした。 次の尤度式を最も大きくする出現頻度を求める
  10. 10. つづき いろいろと近似して次を最大化します さっきよりも難しくなったようにも見えますが いいんです。これで。 (以上昨年の研究の紹介でした)
  11. 11. 中央値 平均値のかわりに中央値を使うと、外れ値にた いしてロバスト(堅牢)になる
  12. 12. 特定の文書のみに出現するのも一種の外れ値。 使えないだろうか。 延べ語数100万語に100語。 有るか無いかの2値なので、中央値は無い。
  13. 13. 再標本(リサンプリング)して中央値 11/20 4/10 4/9 7/10 4/9 9/15
  14. 14. サンプル文書数のトレードオフ 外れ値(すなわち特定文書)が50%以上で含ま れるようなサンプリングを行ってしまうと、中 央値も外れ値の影響を受ける →サンプル文書数は少ないほうが良い サンプル文書数が少な過ぎると、サンプリング 後の語彙頻度が0となり、その結果、中央値が0 となる。 →サンプル文書数は多いほうが良い
  15. 15. サンプル文書数 その語彙の文書出現率: その語彙の文書頻度/全文書数 その逆数より少し多い程度をサンプル文書数と する。 中央値が0になった場合は上記の数を少し増や し再試行する。
  16. 16. 実験 コーパス:Nature ● 1,377文書 ● 総語数260万語 実験方法:[中野 2014]に準じる ● 提案手法(リサンプリングによる中央値) ● コーパス全体による単語出現頻度との差 o この差をズレと呼び特定文書のみ出現す る語彙では大きくなる傾向がある o →ズレが大きい物を不要語とよんでいる
  17. 17. 結果 提案手法 昨年手法
  18. 18. 結果 提案手法 昨年手法
  19. 19. 結果 (fig) 提案手法 昨年手法 昨年手法だと、fig は学習不要語
  20. 20. 結果(we, was, were など) 提案手法 昨年手法
  21. 21. 結果 (cells) 提案手法 昨年手法
  22. 22. 結果 (cell) 提案手法 昨年手法
  23. 23. 結果 (supplementary) supplementary firing として使われることが多い 提案手法 昨年手法
  24. 24. 特定の文書にしか出現しない場合 5/20 0/10 0/9 5/10 0/9 5/15
  25. 25. まとめ ● 特定の文書に集中する語を見つけるために、 再標本をして中央値を求め、それと元の出 現率とのズレを求める。 ● 昨年の手法と比べシンプルではあるが、か なり似た結果となった。 ● ただし、この方法は、 o 特定の文書以外に多少出現しないとうま くいかない可能性がある。 o リサンプリングなので、毎回結果が多少 異なる
  26. 26. コメント もっと複雑になっていくのですか? →シンプルにしたつもりです。 よくなったのですか? →結果は良くなっていません。 むしろ悪くなりました。 ただ、方法としてはシンプルになりました。 語彙の分布を単独に評価すればよいのでは。 →次はそこをターゲットとします。

×