Improving text simplification language modeling using unsimplified text data

•

0 recomendaciones•449 vistas

Kodaira Tomonori

Ciencias

Improving Text Simpliﬁcation
Language Modeling
Using Unsimpliﬁed Text Data
In Proceedings of the 51st Annual Meeting of the Association
for Computational Linguistics, pp.1537‒1546, 2013.
Presented by Kodaira Tomonori
1

概要
• 研究目的：平易化されていないテキストデータを 
用いてテキスト平易化言語モデルの改善
• 実験：普通の英語と平易な英語のテキストで 
学習したモデルを比較
• 結果：平易な英語データでの学習より、perplexityが 
２種類の英語の共同の言語モデルでは２３％ 
モデル学習では、語彙平易化タスクにおいて２４％向上
2

使用コーパス
• English Wikipedia と Simple English Wikipedia 
＊Simple English Wikipediaから６０Kの記事 
＊English Wikipediaから６０Kの共通記事を抽出
simple normal
sentences 385K 2540K
words 7.15M 64.7M
vocab size 78K 307K
3

言語モデル評価：Perplexity
• 実験設定：SRILMを用いてtrigramモデルを学習
4

Language Model
Adaptation
• 線形補完による領域適応の手法を用いる
• 線形補完モデルは２つの言語モデルの 
確率を加重和として、合わせた
6

• 学習した言語モデルを用いて、SemEval２０１２
のデータセットの候補をランキング
• システムが出力したランキングを評価するために 
Cohen s kappa coeﬃcientを用いた。
8
言語モデル評価：語彙平易化
Word: tight 
Context: With the physical market as tight as it has been … 
Candidates: constricted, pressurised, low, high-strung, tight
Human ranking: tight, low, constricted, pressurised, high-strung

まとめ
• perplexyタスクにおいて、混合モデルは２３％ 
語彙平易化タスクに於いては２４％向上
• 言語モデル適応において、ノーマルデータの役割は、
部分的なタスクに依存している
• 少ないデータしかない英語じゃない言語において、
テキスト平易化やテキスト圧縮などで使える
12

simple language model
に関する研究課題
• 膨大なノーマルデータを使った実験では、 
分野外のデータを加える限界を理解する必要性
• wiki以外のソースデータやサイズと分野の影響を 
調べなければならない
• どのように言語モデルの性能は文レベル、 
文平易化章レベルの平易化に影響を与えるかつきとめる
• 線形補完言語モデル以外の分野適応技術 
より良いものがあるかもしれない。
13

Recomendados

文献紹介：SemEval(SENSEVAL)におけるWSDタスクについてShohei Okada

Text simplification for reading assistanceswenbe

WordNet-Based Lexical Simplification of DocumentKodaira Tomonori

コーディングが上達するコツevol-ni

単語の分散表現と構成性の計算モデルの発展Naoaki Okazaki

Deep recurrent generative decoder for abstractive text summarizationKodaira Tomonori

Selective encoding for abstractive sentence summarizationKodaira Tomonori

Abstractive Text Summarization @Retrieva seminarKodaira Tomonori

AttSum: Joint Learning of Focusing and Summarization with Neural AttentionKodaira Tomonori

障害情報レポートに対する同時関連文章圧縮Kodaira Tomonori

Neural Summarization by Extracting Sentences and WordsKodaira Tomonori

Poster: Controlled and Balanced Dataset for Japanese Lexical SimplificationKodaira Tomonori

[Introduction] Neural Network-Based Abstract Generation for Opinions and Argu...Kodaira Tomonori

[ポスター]均衡コーパスを用いた語彙平易化データセットの構築Kodaira Tomonori

Noise or additional information? Leveraging crowdsource annotation item agree...Kodaira Tomonori

語彙平易化システム評価のためのデータセット改良[ブースター]Kodaira Tomonori

語彙平易化システム評価のためのデータセットの改良[ポスター]Kodaira Tomonori

PPDB 2.0: Better paraphrase ranking,  fine-grained entailment relations, word...Kodaira Tomonori

文レベルの機械翻訳評価尺度に関する調査Kodaira Tomonori

Simp lex rankng based on contextual and psycholinguistic featuresKodaira Tomonori

Aligning sentences from standard wikipedia to simple wikipediaKodaira Tomonori

日本語の語彙平易化評価セットの構築Kodaira Tomonori

言い換えを用いたテキスト要約の自動評価Kodaira Tomonori

聾者向け文章読解支援における構文的言い換えの効果についてKodaira Tomonori

国語辞典を使った放送ニュースの名詞の平易化Kodaira Tomonori

Más contenido relacionado

Más de Kodaira Tomonori

AttSum: Joint Learning of Focusing and Summarization with Neural AttentionKodaira Tomonori

障害情報レポートに対する同時関連文章圧縮Kodaira Tomonori

Neural Summarization by Extracting Sentences and WordsKodaira Tomonori

Poster: Controlled and Balanced Dataset for Japanese Lexical SimplificationKodaira Tomonori

[Introduction] Neural Network-Based Abstract Generation for Opinions and Argu...Kodaira Tomonori

[ポスター]均衡コーパスを用いた語彙平易化データセットの構築Kodaira Tomonori

Noise or additional information? Leveraging crowdsource annotation item agree...Kodaira Tomonori

語彙平易化システム評価のためのデータセット改良[ブースター]Kodaira Tomonori

語彙平易化システム評価のためのデータセットの改良[ポスター]Kodaira Tomonori

PPDB 2.0: Better paraphrase ranking,  fine-grained entailment relations, word...Kodaira Tomonori

文レベルの機械翻訳評価尺度に関する調査Kodaira Tomonori

Simp lex rankng based on contextual and psycholinguistic featuresKodaira Tomonori

Aligning sentences from standard wikipedia to simple wikipediaKodaira Tomonori

日本語の語彙平易化評価セットの構築Kodaira Tomonori

言い換えを用いたテキスト要約の自動評価Kodaira Tomonori

聾者向け文章読解支援における構文的言い換えの効果についてKodaira Tomonori

国語辞典を使った放送ニュースの名詞の平易化Kodaira Tomonori

Más de Kodaira Tomonori (17)

AttSum: Joint Learning of Focusing and Summarization with Neural Attention

障害情報レポートに対する同時関連文章圧縮

Neural Summarization by Extracting Sentences and Words

Poster: Controlled and Balanced Dataset for Japanese Lexical Simplification

[Introduction] Neural Network-Based Abstract Generation for Opinions and Argu...

[ポスター]均衡コーパスを用いた語彙平易化データセットの構築

Noise or additional information? Leveraging crowdsource annotation item agree...

語彙平易化システム評価のためのデータセット改良[ブースター]

語彙平易化システム評価のためのデータセットの改良[ポスター]

PPDB 2.0: Better paraphrase ranking,  fine-grained entailment relations, word...

文レベルの機械翻訳評価尺度に関する調査

Simp lex rankng based on contextual and psycholinguistic features

Aligning sentences from standard wikipedia to simple wikipedia

日本語の語彙平易化評価セットの構築

言い換えを用いたテキスト要約の自動評価

聾者向け文章読解支援における構文的言い換えの効果について

国語辞典を使った放送ニュースの名詞の平易化

Improving text simplification language modeling using unsimplified text data

1. Improving Text Simpliﬁcation Language Modeling Using Unsimpliﬁed Text Data In Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics, pp.1537‒1546, 2013. Presented by Kodaira Tomonori 1

2. 概要 • 研究目的：平易化されていないテキストデータを  用いてテキスト平易化言語モデルの改善 • 実験：普通の英語と平易な英語のテキストで  学習したモデルを比較 • 結果：平易な英語データでの学習より、perplexityが  ２種類の英語の共同の言語モデルでは２３％  モデル学習では、語彙平易化タスクにおいて２４％向上 2

3. 使用コーパス • English Wikipedia と Simple English Wikipedia  ＊Simple English Wikipediaから６０Kの記事  ＊English Wikipediaから６０Kの共通記事を抽出 simple normal sentences 385K 2540K words 7.15M 64.7M vocab size 78K 307K 3

4. 言語モデル評価：Perplexity • 実験設定：SRILMを用いてtrigramモデルを学習 4

5. 言語モデル評価：Perplexity 5

6. Language Model Adaptation • 線形補完による領域適応の手法を用いる • 線形補完モデルは２つの言語モデルの  確率を加重和として、合わせた 6

7. Language Model Adaptation 7

8. • 学習した言語モデルを用いて、SemEval２０１２のデータセットの候補をランキング • システムが出力したランキングを評価するために  Cohen s kappa coeﬃcientを用いた。 8 言語モデル評価：語彙平易化 Word: tight  Context: With the physical market as tight as it has been …  Candidates: constricted, pressurised, low, high-strung, tight Human ranking: tight, low, constricted, pressurised, high-strung

9. 言語モデル評価：語彙平易化 9

10. 10 言語モデル評価：語彙平易化

11. kappa rank scores 11

12. まとめ • perplexyタスクにおいて、混合モデルは２３％  語彙平易化タスクに於いては２４％向上 • 言語モデル適応において、ノーマルデータの役割は、部分的なタスクに依存している • 少ないデータしかない英語じゃない言語において、テキスト平易化やテキスト圧縮などで使える 12

13. simple language model に関する研究課題 • 膨大なノーマルデータを使った実験では、  分野外のデータを加える限界を理解する必要性 • wiki以外のソースデータやサイズと分野の影響を  調べなければならない • どのように言語モデルの性能は文レベル、  文平易化章レベルの平易化に影響を与えるかつきとめる • 線形補完言語モデル以外の分野適応技術  より良いものがあるかもしれない。 13