SlideShare una empresa de Scribd logo
1 de 32
Descargar para leer sin conexión
長岡技術科学大学 電気系
杢 真奈見、 山本 和英
現在、日本には十分な日本語能力を持たな
い外国人が数十万人いる。
これらの人々のために日本語をやさしくする
「やさしい日本語」プロジェクトがある。
「やさしい日本語」
・・・対象は留学生や外国人労働者等の日本語
能力の低い人々(日本語初学者)。
1/14
 国語辞典を使った放送ニュースの名詞の平易化
(美野秀弥ら, 2010)
◦ 国語辞典の見出しとその説明文より平易化対を取得し、
日本語能力試験(JLPT)を基にした単語への級の付与によ
り難語と平易語を定めた。
 Plain Japanese (PJ) システム
(松田真希子ら, 2009)
◦ 日本での工学教育で使用するために開発された。留学生
のために工学の文章の語彙と文法を制限する。
2/14
 対象:公的文書
・・・市役所、学校、病院などで配布される文書。生
活する上で重要な情報を含む。
 しかし、公的文書は日本語初学者が学習する文
に比べ理解が困難であり、特有な表現も含む。
(筒井千絵, 2009)
日本語初学者の公的文書の理解のため、
容易に「やさしい日本語」を
得ることができる
システムを構築することを目的とした。
3/14
 「やさしい日本語」コーパスから確立させた
ルールベースによる以下の4つのステップで
システムを構成した。
デザイン
文の分割
表現意図を用いた図示への変換
重要部分の強調
変換
「やさしい日本語」への変換
4/14
※「やさしい日本語」コーパス:
約40名の日本語教師が45,209文の公的文書を
「やさしい日本語」へ変換したもの
5/14
「やさしい日本語」へ変換することによって語
彙がやさしくなり、理解しやすくなると考える。
 使用データ:「やさしい日本語」変換対
例)ご不明な点がありましたら(原文)
→わからないことがありましたら(逐語訳)
 方法:原文-逐語訳の6236対を用いて、入
力文の一部が原文側と一致した場合に逐語
訳側へ変換する。
6/14
システムの出力例
入力:
入学手続が済めば、日本語学校の職員が代理
で就学ビザの在留資格認定証明書を申請する
ことができます。
出力:
入学手続が済めば、日本語学校の人が代わり
で就学ビザの在留資格認定証明の紙を申し込
みすることができます。
複合名詞処理(赤字)と形態素解析(/) の結果:
入学手続/が/済め/ば/、/日本語学校/の/職員
/が/代理/で/就学ビザ/の/在留資格認定証明/
書/を/申請/すること/が/でき/ます/。
7/14
・名詞連続、数字+助数詞、
動詞+「こと」は複合名詞とする
(名詞中の接尾辞にあたるものは除く)
「やさしい日本語」への変換について、
小規模な評価実験を行った。
① 正しさの評価
日本語母語話者(発表者)による日本語の
文法と意味の評価
② やさしさの評価
日本語非母語話者による入力文(公的文
書)と出力文のやさしさの評価
8/14
 「やさしい日本語」コーパスより無作為に300
文を公的文書から抽出し、原文-逐語訳の
変換対を用いて評価文を作成する
 評価者(発表者)は入力文と出力文を見て、
出力文の日本語の意味と文法の適切さにつ
いてそれぞれ2択で評価する
9/14
評価文の例)
入力:健康被害発生時の保障は、太田市のみの保障と
なります。
出力:体の調子が悪くなるようなことが
起こったの時の保 障は、太田市だけ
の保障となってます。
意味→○
文法→×
意味
合計
○ ×
文法
○ 137 53 190
× 35 20 55
合計 172 73 245
変換された文: 245文 / 300文
(変換率:81.7%)
10/14
結果、助詞や用言の活用の変化・
複合名詞処理を含む変換ルールについて、
まだ改良が必要である。
意味の間違い
複合名詞ではないとした「名詞+接尾辞」のうちの
「名詞」だけが変化したもの
変換例) 費用は対象外 → お金はのため外
文法の間違い
助詞や用言の活用の変化に対応していないことが
原因
変換例) 意味のある単語 → 意味のあります言葉
11/14
 ①正しさの評価で「日本語が正しい」と評価さ
れた137文より無作為に100文を抽出する
 評価者は入力文と出力文を見て、どちらの文
がやさしいか、または同じくらいかと評価する
 評価文それぞれに対してどちらがやさしいか
を多数決方式で決定する
例) 入力:離乳食のお話
出力:子どもの食べ物の話
12/14
13/14
やさしいと評価した
評価者数が多い文
変換後 同程度 変換前
全員 8名 15 85 0
日本在住期間
1年以上
4名 11 89 0
日本在住期間
1年未満
4名 46 54 0
「変換後の方が
やさしい」
という評価が
増えた
結果、「やさしい日本語」変換は
日本在住期間の短い
「日本語初学者」に効果があった。
 デザインと変換から構成される「やさしい日本
語」変換システムの構築を目指した。
 「やさしい日本語」への変換について評価実
験を行い、ルールの改善方針や日本語初学
者への効果が確認できた。
 全工程において、高精度なもの(81%以上)
はできたが、ルールの改善によりさらに精度
が向上する可能性がある。
 最終的に、市役所で「やさしい日本語」による
文書の作成支援や日本語初学者が直接利
用できる環境づくりを目指したい。
14/14
予備スライド
出身国 人数 [名]
マレーシア 3
タイ 1
中国 1
ドイツ 1
ベネズエラ 1
ベトナム 1
 評価者が保有するJLPTの級
JLPTの保有級 人数 [名]
N1 0
N2 4
N3 3
N4 0
N5 0
なし 1
合計 8
※ただしN3には
N2の試験に僅差で
不合格してJLPTの
級を保有していない
者を含み、
「保有級なし」は
点数の情報が
なかったために
「保有級なし」とした。
 評価者の日本在住歴
人数 [名] 期間 人数 [名]
現在も在住 8
~1年 4
1~2年 2
2~3年 0
3~4年 2
4~5年 0
5年~ 0
 評価者の日本語学習歴
※5年以上の評価者は学習期間が約6年
日本語学習期間 人数 [名]
~1年 2
1~2年 1
2~3年 0
3~4年 2
4~5年 1
5年~ 2
合計 8
 「やさしい日本語」コーパスの公的文書と対応する
「やさしい日本語」の差異(句)を対とし構成している。
 文単位で言い換えているため、句単位では等価で
ない場合もある。
例)
 公的文書:その他、申請に関してご不明な点があり
ましたら、下記までお問い合わせください。
タグ対象語(原文): ご不明な点がありましたら
逐語訳: わからないことがありましたら
意訳: わからなかった
要約: わからなかった
 原文、逐語訳、意訳、要約の4つの組み合わせで
以下の3つの変換対を作成した。
 原文-逐語訳: 6236対
 原文-意訳: 4772対
 原文-要約: 3944対
 変換の際には、原文側の句を
以下の順で優先順位を付けている。
i. 文字数が多いもの
ii. 出現頻度の多いもの
iii. Sort順
 表現意図タグの網羅性
旧ルール・・・9種類のタグを初期のルールで付与
新ルール・・・11種類のタグを最終ルールで付与
総文数 総節数 タグの付与数 網羅性
旧ルール
45209
[文]
53375
[節]
19380
[節]
34.8
[%]
新ルール
53322
[節]
24291
[節]
45.6
[%]
公的文書の性質と精度を基にタグを決定
13/14
タグの種類 タグ数 [節] 付与誤り [節] 精度 [%]
忠告・助言 0 0 -
勧告 15 0 100
指示・命令 37 0 100
理由 40 1 98
条件・仮定・項目 164 3 98
通知・事実 207 12 94
禁止 0 0 -
接続詞 15 0 100
平均 98
タグの種類 例
忠告・助言 ~したほうがいいですよ
勧告 ~しませんか・しましょうよ
依頼 ~してもらえますか/くれませんか
指示・命令 ~してください・しなさい・お願いします
許可与え ~してもいいです
申し出 ~してあげましょうか
許可求め ~してもいいですか
確認 ~してもいいですね
通知・宣言 ~します・させてもらいます
条件・仮定 ~の場合・際、~方は、~として、~すれば(用言の仮定形)
理由 ~ので、~ため、~により
題目・タイトル ~について
項目 (各種項目の形式となっているもの)
既定の事実 (過去形)
禁止 ~いけません
新ルール
文字列・・・「場合」「際」「について」「ので」「ため」
「により」「方は」
品詞・・・接続詞、接続助詞、用言の仮定形
11/20
文数
[文]
節数
[節]
分割誤り
[節]
精度
[%]
旧ルール
500
669 13 96
新ルール 706 20 97
分割誤りの例)
①また、
②口座振替の指定口座が残高不足等により振替に
よるお支払いがいただけない場合は、
③年金からのお支払いに切り替える場合が
④あります。←※この節1つで意味を成していない。
3. 表現意図を用いた図示への変換
システムの出力例
14/14
出力:
しかし、
【予防接種を受けることの義務はなく、
ご本人が接種を希望する場合のみに】
予防接種を行います。
接続詞以降は
インデントを増やす
条件や理由は
【 】で囲み、
次の節へ矢印を引く
評価文 (1) 文で表示
(2) 節で表示
(3) 関係を図で表示
① 25% 83%
② 100% 0%
③ 67% 58%
④ 79% 54%
⑤ 67% 46%
⑥ 63% 71%
⑦ 58% 63%
⑧ 46% 71%
下線・・・半数の評価者がわかりやすいとしたもの
斜体・・・何らかの変化を加えた方がわかりやすいもの
4. 重要部分の強調
システムの出力例
入力:
保護者の判断で登校を見合わせてください。
句:
1) 保護者の判断で見合わせてください。
2) 登校を見合わせてください。
係り受け解析の結果:
保護者の –D
判断で –D
登校を –D
見合わせてください。
⇒ 強調
16/14
順位 助詞 分類 種類 備考
1 ト 格助詞 一般
2 ヲ 格助詞 一般 動詞数が多い句が優先
3 カラ 格助詞 一般 ヲより動詞数が多いとカラが優先
3 マデ 副助詞 * ヲより動詞数が多いとマデが優先
5 ニヨリ 格助詞 連語
6 ガ 格助詞 一般 動詞数が少ない句が優先
7 へ 格助詞 一般
8 ニ 格助詞 一般
9 ハ 係助詞 *
10 デ 格助詞 一般
-1 カ
副助詞
/並立助詞
/終助詞
*
並立助詞があると、
その句の重要度が下がる。
※全27個の助詞に重みを付けた。
 重要部分の正解を人手で作成したが、人手
でも1つに絞ることが難しいものが多かったた
め、正解を1つとした正解データ、重要部分で
あれば複数でも可とする正解データの2種類
で行った。
 評価文1文20文字以上の40文
節数
正解が単一 正解が複数可
正解節数 精度 正解節数 精度
45節 30節 64% 38節 81%
「やさしい日本語」変換システムの試作

Más contenido relacionado

Destacado

TFEA 2016 - Sponsors & Social: The Art of Parnership Promotions
TFEA 2016 - Sponsors & Social: The Art of Parnership PromotionsTFEA 2016 - Sponsors & Social: The Art of Parnership Promotions
TFEA 2016 - Sponsors & Social: The Art of Parnership PromotionsSaffire
 
Keynote technicals currency intraday levels for 031012
Keynote technicals   currency intraday levels for 031012Keynote technicals   currency intraday levels for 031012
Keynote technicals currency intraday levels for 031012Keynote Capitals Ltd.
 
Mapas conceptuales aime
Mapas conceptuales aimeMapas conceptuales aime
Mapas conceptuales aimeAloondrasc
 
3Q 2015 Quarterly Presentation
3Q 2015 Quarterly Presentation3Q 2015 Quarterly Presentation
3Q 2015 Quarterly PresentationResources1Smith
 
Soundtrack production for the moving image
Soundtrack production for the moving imageSoundtrack production for the moving image
Soundtrack production for the moving imageRedDreamsJosh
 
ArtSpan Workshop: Email Marketing for Artists
ArtSpan Workshop: Email Marketing for ArtistsArtSpan Workshop: Email Marketing for Artists
ArtSpan Workshop: Email Marketing for Artistsdialogworks
 
主観表現と客観表現を用いたTwitterにおける有益なツイートの推定
主観表現と客観表現を用いたTwitterにおける有益なツイートの推定主観表現と客観表現を用いたTwitterにおける有益なツイートの推定
主観表現と客観表現を用いたTwitterにおける有益なツイートの推定Tatsuya Coike
 
日本企業における外国人への日本語教育
日本企業における外国人への日本語教育日本企業における外国人への日本語教育
日本企業における外国人への日本語教育Kei Koike
 
Ngữ pháp trong tiếng Nhật 1 - 2
Ngữ pháp trong tiếng Nhật 1 - 2Ngữ pháp trong tiếng Nhật 1 - 2
Ngữ pháp trong tiếng Nhật 1 - 2Japanese Club
 
Asia HealthTech Investments by Julien de Salaberry (30 June 2015)
Asia HealthTech Investments by Julien de Salaberry (30 June 2015)Asia HealthTech Investments by Julien de Salaberry (30 June 2015)
Asia HealthTech Investments by Julien de Salaberry (30 June 2015)KickstartPH
 
Sound Design - From Zero to Hero
Sound Design - From Zero to HeroSound Design - From Zero to Hero
Sound Design - From Zero to Herophoutmeyers
 
Ngữ pháp trong tiếng Nhật 8 - 9
Ngữ pháp trong tiếng Nhật 8 - 9Ngữ pháp trong tiếng Nhật 8 - 9
Ngữ pháp trong tiếng Nhật 8 - 9Japanese Club
 
Organization culture
Organization cultureOrganization culture
Organization cultureshubham gupta
 
Kanzen master 1kyuu_grammar_vietnamese
Kanzen master 1kyuu_grammar_vietnameseKanzen master 1kyuu_grammar_vietnamese
Kanzen master 1kyuu_grammar_vietnameseShinichi Kudo
 
検索と自然言語処理
検索と自然言語処理検索と自然言語処理
検索と自然言語処理Wataru ONO
 

Destacado (19)

Disaster Risk Reduction
Disaster Risk ReductionDisaster Risk Reduction
Disaster Risk Reduction
 
TFEA 2016 - Sponsors & Social: The Art of Parnership Promotions
TFEA 2016 - Sponsors & Social: The Art of Parnership PromotionsTFEA 2016 - Sponsors & Social: The Art of Parnership Promotions
TFEA 2016 - Sponsors & Social: The Art of Parnership Promotions
 
Keynote technicals currency intraday levels for 031012
Keynote technicals   currency intraday levels for 031012Keynote technicals   currency intraday levels for 031012
Keynote technicals currency intraday levels for 031012
 
Mapas conceptuales aime
Mapas conceptuales aimeMapas conceptuales aime
Mapas conceptuales aime
 
3Q 2015 Quarterly Presentation
3Q 2015 Quarterly Presentation3Q 2015 Quarterly Presentation
3Q 2015 Quarterly Presentation
 
Soundtrack production for the moving image
Soundtrack production for the moving imageSoundtrack production for the moving image
Soundtrack production for the moving image
 
ArtSpan Workshop: Email Marketing for Artists
ArtSpan Workshop: Email Marketing for ArtistsArtSpan Workshop: Email Marketing for Artists
ArtSpan Workshop: Email Marketing for Artists
 
主観表現と客観表現を用いたTwitterにおける有益なツイートの推定
主観表現と客観表現を用いたTwitterにおける有益なツイートの推定主観表現と客観表現を用いたTwitterにおける有益なツイートの推定
主観表現と客観表現を用いたTwitterにおける有益なツイートの推定
 
日本企業における外国人への日本語教育
日本企業における外国人への日本語教育日本企業における外国人への日本語教育
日本企業における外国人への日本語教育
 
Ngữ pháp trong tiếng Nhật 1 - 2
Ngữ pháp trong tiếng Nhật 1 - 2Ngữ pháp trong tiếng Nhật 1 - 2
Ngữ pháp trong tiếng Nhật 1 - 2
 
12 texte argumentatif
12 texte argumentatif12 texte argumentatif
12 texte argumentatif
 
Asia HealthTech Investments by Julien de Salaberry (30 June 2015)
Asia HealthTech Investments by Julien de Salaberry (30 June 2015)Asia HealthTech Investments by Julien de Salaberry (30 June 2015)
Asia HealthTech Investments by Julien de Salaberry (30 June 2015)
 
Sound Design - From Zero to Hero
Sound Design - From Zero to HeroSound Design - From Zero to Hero
Sound Design - From Zero to Hero
 
Ngữ pháp trong tiếng Nhật 8 - 9
Ngữ pháp trong tiếng Nhật 8 - 9Ngữ pháp trong tiếng Nhật 8 - 9
Ngữ pháp trong tiếng Nhật 8 - 9
 
Organization culture
Organization cultureOrganization culture
Organization culture
 
Kanzen master 1kyuu_grammar_vietnamese
Kanzen master 1kyuu_grammar_vietnameseKanzen master 1kyuu_grammar_vietnamese
Kanzen master 1kyuu_grammar_vietnamese
 
Sound in film
Sound in filmSound in film
Sound in film
 
検索と自然言語処理
検索と自然言語処理検索と自然言語処理
検索と自然言語処理
 
Strategic planning
Strategic planningStrategic planning
Strategic planning
 

Más de 長岡技術科学大学 自然言語処理研究室

Más de 長岡技術科学大学 自然言語処理研究室 (20)

小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
 
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
 
Selecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for ChildrenSelecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for Children
 
Automatic Selection of Predicates for Common Sense Knowledge Expression
Automatic Selection of Predicates for Common Sense Knowledge ExpressionAutomatic Selection of Predicates for Common Sense Knowledge Expression
Automatic Selection of Predicates for Common Sense Knowledge Expression
 
用言等換言辞書を用いた換言結果の考察
用言等換言辞書を用いた換言結果の考察用言等換言辞書を用いた換言結果の考察
用言等換言辞書を用いた換言結果の考察
 
用言等換言辞書の構築
用言等換言辞書の構築用言等換言辞書の構築
用言等換言辞書の構築
 
質問意図によるQAサイト質問文の自動分類
質問意図によるQAサイト質問文の自動分類質問意図によるQAサイト質問文の自動分類
質問意図によるQAサイト質問文の自動分類
 
役所からの公的文書に対する「やさしい日本語」への変換システムの構築
役所からの公的文書に対する「やさしい日本語」への変換システムの構築役所からの公的文書に対する「やさしい日本語」への変換システムの構築
役所からの公的文書に対する「やさしい日本語」への変換システムの構築
 
対訳コーパスから生成したワードグラフによる部分的機械翻訳
対訳コーパスから生成したワードグラフによる部分的機械翻訳対訳コーパスから生成したワードグラフによる部分的機械翻訳
対訳コーパスから生成したワードグラフによる部分的機械翻訳
 
用言等換言辞書を人手で作りました
用言等換言辞書を人手で作りました用言等換言辞書を人手で作りました
用言等換言辞書を人手で作りました
 
文字列の出現頻度情報を用いた分かち書き単位の自動取得
文字列の出現頻度情報を用いた分かち書き単位の自動取得文字列の出現頻度情報を用いた分かち書き単位の自動取得
文字列の出現頻度情報を用いた分かち書き単位の自動取得
 
「やさしい日本語」変換システムの試作
「やさしい日本語」変換システムの試作「やさしい日本語」変換システムの試作
「やさしい日本語」変換システムの試作
 
常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討
 
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
 
二格深層格の定量的分析
二格深層格の定量的分析二格深層格の定量的分析
二格深層格の定量的分析
 
大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得
 
文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案
 
保険関連文書を対象とした文章校正支援のための変換誤り検出
保険関連文書を対象とした文章校正支援のための変換誤り検出保険関連文書を対象とした文章校正支援のための変換誤り検出
保険関連文書を対象とした文章校正支援のための変換誤り検出
 
Developing User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text AnalyzerDeveloping User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text Analyzer
 
普通名詞換言辞書の構築
普通名詞換言辞書の構築普通名詞換言辞書の構築
普通名詞換言辞書の構築
 

「やさしい日本語」変換システムの試作