SlideShare una empresa de Scribd logo
1 de 14
Descargar para leer sin conexión
ACL網羅的サーベイ
NLP Applications
山本晋太郎
Twitter: @yshin55
ACL網羅的サーベイ報告
自己紹介
山本晋太郎 (Twitter:@yshin55)
● 所属
早稲田大学先進理工学研究科 物理学及応用物理学専攻博士後期課程2年
nlpaper.challenge運営メンバー
兼cvpaper.challenge研究メンバー(産総研AIセンターRA)
● 研究内容
科学論文のマルチモーダル(テキスト+図)要約
2
ACL網羅的サーベイ報告
NLP Applications
● 採択論文779本中50本が該当
● その名の通り,NLP技術の応用に関する論文が採択
● 「応用」以外に共通の枠組みは特になく,自由な印象
● 体系化が難しいので,論文10本をピックアップしてファストフォワード形式で紹介
● 概要のみを紹介するので,詳細を知りたい場合元論文を参照
※以後図は全て論文中より引用
3
ACL網羅的サーベイ報告
Cohan et al. “SPECTER:Document-level Representation
Learning using Citation-informed Transformers”
論文の特徴表現を獲得するTransformerの提案
● 論文のタイトル,アブストラクトを入力
● 引用している論文同士の特徴が類似するように
SciBERTをファインチューニング
● 学習にはSemantic Scholarの論文146kを使用
● SciBERTと比較して,分野間の関係性が反映され
ている(BusinessとEconomicsが近づく等)
4
ACL網羅的サーベイ報告
Jin et al. “Language to Network: Conditional Parameter
Adaptation with Natural Language Description”
クラスの説明文を入力とすることで,画像を学習すること
なく画像認識を実現する手法を提案
● 犬種の説明など,言葉で特徴を説明することで人
間は実物を見たことがなくても推測できる.
● クラスの説明文から,ネットワークのパラメータをど
のように更新するかを予測.
● 4つのベンチマークで従来手法を上回る性能を確
認.
5
ACL網羅的サーベイ報告
Liu et al. “Hiring Now: A Skill-Aware Multi-Attention Model for
Job Posting Generation”
基本情報(ポジション,会社規模)と仕事内容から,応募
者への要求スキルを記述した分を生成
● 中国語の求人サイトより11,221件の求人情報を抽
出し,データセットを構築.
● 要求スキルの推定と,推定結果に基づく文章の生
成の2段階から構成される手法を提案.
● BLEU, ROUGEによる定量的評価とユーザ評価によ
り有効性を検証.
6
ACL網羅的サーベイ報告
Mahmood et al. “A Girl Has A Name: Detecting Authorship
Obfuscation”
著者が誰か分からなくするAuthorship obfuscationが
検出可能かを調査
● Authorship obfuscationとは,テキストのスタイル
を変えることで著者が誰か特定することができなく
する技術を指す.
● Authorship obfuscationが行われたかの検出が可
能であることを確認(F1 score 0.87).
● 文章のsmoothnessが損なわれるためだと結論付
けている.
7
ACL網羅的サーベイ報告
Zhou et al. “The Boating Store Had Its Best Sail Ever:
Pronunciation-attentive Contextualized Pun Recognition”
音素情報を考慮したダジャレ検出手法を提案
● 発音が類似した単語がダジャレでは頻繁に使われ
る(weakとweekなど).
● Contextualized word embeddingsに加え,音素情
報を使用する手法を提案.
● タスクとしては,ダジャレが含まれているか,文中の
どこに含まれているかの2種類を扱う.
8
ACL網羅的サーベイ報告
Mukherjee et al. “Smart To-Do: Automatic Generation of
To-Do Items from Emails”
メールからTo-Do Listを作成する新しいタスクを提案
● 既存のメールデータセットにアノテーションすること
により,タスク用データセットを構築.
● 行動に関する文章(メールを送るなど)の検出と
seq2seqによる生成の2段階の手法を提案.
● BLEUが0.23,ROUGEが0.63という実験結果が得ら
れたと報告.
9
ACL網羅的サーベイ報告
Lange et al. “Closing the Gap: Joint De-Identification and
Concept Extraction in the Clinical Domain”
医療ドメインにおける,匿名化と情報抽出を
End-to-Endに
● 医療文書を扱う際,個人情報(例:氏名,年
齢)を匿名化する必要がある.
● 従来研究では匿名化とその後のタスク(情報
抽出など)がが独立して扱われていた.
● 2つの処理をまとめて行う手法を提案.
● 英語とスペイン語のデータで実験し,匿名化
及び抽出の性能を評価.
10
ACL網羅的サーベイ報告
Xu et al. “Distinguish Confusing Law Articles for Legal
Judgment Prediction”
裁判の自動判決において,類似する法を区別する手
法を提案
● Legal Judgment Prediction:事件の記述から法
律や罪名,罰則を予測するタスク.
● 類似した法律の集合であるcommunityという概
念を導入.
● GNNにより,community内の各法律の違いを取
り扱い可能に.
11
ACL網羅的サーベイ報告
Tan et al. “Neural-DINF: A Neural Network based Framework
for Measuring Document Influence”
科学論文の学術的影響を予測する手法を提案
● 論文の引用数は,ブログや政府の公的文書にお
ける引用は含まないため,文書自体からの予測
が必要という考え.
● 単語の出現頻度及び意味の変化を基に論文の
影響力を予測.
● 実験はACL Anthologyの論文を使用し,従来手
法と比べて引用数と予測結果の相関が向上.
12
ACL網羅的サーベイ報告
Xia et al. “Predicting Performance for Natural Language
Processing Tasks”
モデルの性能を実際に実験せずに予測する手法を提案
● 手法の有効性を検証するには従来法との比較などが不可欠.
● 考えうる全実験設定を試行するのは多大な時間を要する(例:多言語).
● 実験条件から実験結果を予測する回帰モデルを構築.
13
ACL網羅的サーベイ報告
ご清聴ありがとうございました
14

Más contenido relacionado

La actualidad más candente

TermLink:言語横断論文推薦のための専門用語処理
TermLink:言語横断論文推薦のための専門用語処理TermLink:言語横断論文推薦のための専門用語処理
TermLink:言語横断論文推薦のための専門用語処理Analytics2014
 
論文に関する基礎知識2016
 論文に関する基礎知識2016 論文に関する基礎知識2016
論文に関する基礎知識2016Mai Otsuki
 
社会人のためのシンポジウム発表入門 リーン論文作法
社会人のためのシンポジウム発表入門   リーン論文作法社会人のためのシンポジウム発表入門   リーン論文作法
社会人のためのシンポジウム発表入門 リーン論文作法Makoto SAKAI
 
ジャストシステムの形態素解析技術
ジャストシステムの形態素解析技術ジャストシステムの形態素解析技術
ジャストシステムの形態素解析技術JustSystems Corporation
 
文献調査をどのように行うべきか?
文献調査をどのように行うべきか?文献調査をどのように行うべきか?
文献調査をどのように行うべきか?Yuichi Goto
 
効果的な文献検索と最新論文の情報を入手する秘訣
効果的な文献検索と最新論文の情報を入手する秘訣 効果的な文献検索と最新論文の情報を入手する秘訣
効果的な文献検索と最新論文の情報を入手する秘訣 英文校正エディテージ
 

La actualidad más candente (8)

形態素解析器 売ってみた
形態素解析器 売ってみた形態素解析器 売ってみた
形態素解析器 売ってみた
 
JMAT Groonga Tokenizer Talks
JMAT Groonga  Tokenizer TalksJMAT Groonga  Tokenizer Talks
JMAT Groonga Tokenizer Talks
 
TermLink:言語横断論文推薦のための専門用語処理
TermLink:言語横断論文推薦のための専門用語処理TermLink:言語横断論文推薦のための専門用語処理
TermLink:言語横断論文推薦のための専門用語処理
 
論文に関する基礎知識2016
 論文に関する基礎知識2016 論文に関する基礎知識2016
論文に関する基礎知識2016
 
社会人のためのシンポジウム発表入門 リーン論文作法
社会人のためのシンポジウム発表入門   リーン論文作法社会人のためのシンポジウム発表入門   リーン論文作法
社会人のためのシンポジウム発表入門 リーン論文作法
 
ジャストシステムの形態素解析技術
ジャストシステムの形態素解析技術ジャストシステムの形態素解析技術
ジャストシステムの形態素解析技術
 
文献調査をどのように行うべきか?
文献調査をどのように行うべきか?文献調査をどのように行うべきか?
文献調査をどのように行うべきか?
 
効果的な文献検索と最新論文の情報を入手する秘訣
効果的な文献検索と最新論文の情報を入手する秘訣 効果的な文献検索と最新論文の情報を入手する秘訣
効果的な文献検索と最新論文の情報を入手する秘訣
 

ACL2020 分野サーベイLT会 NLP Applications

  • 3. ACL網羅的サーベイ報告 NLP Applications ● 採択論文779本中50本が該当 ● その名の通り,NLP技術の応用に関する論文が採択 ● 「応用」以外に共通の枠組みは特になく,自由な印象 ● 体系化が難しいので,論文10本をピックアップしてファストフォワード形式で紹介 ● 概要のみを紹介するので,詳細を知りたい場合元論文を参照 ※以後図は全て論文中より引用 3
  • 4. ACL網羅的サーベイ報告 Cohan et al. “SPECTER:Document-level Representation Learning using Citation-informed Transformers” 論文の特徴表現を獲得するTransformerの提案 ● 論文のタイトル,アブストラクトを入力 ● 引用している論文同士の特徴が類似するように SciBERTをファインチューニング ● 学習にはSemantic Scholarの論文146kを使用 ● SciBERTと比較して,分野間の関係性が反映され ている(BusinessとEconomicsが近づく等) 4
  • 5. ACL網羅的サーベイ報告 Jin et al. “Language to Network: Conditional Parameter Adaptation with Natural Language Description” クラスの説明文を入力とすることで,画像を学習すること なく画像認識を実現する手法を提案 ● 犬種の説明など,言葉で特徴を説明することで人 間は実物を見たことがなくても推測できる. ● クラスの説明文から,ネットワークのパラメータをど のように更新するかを予測. ● 4つのベンチマークで従来手法を上回る性能を確 認. 5
  • 6. ACL網羅的サーベイ報告 Liu et al. “Hiring Now: A Skill-Aware Multi-Attention Model for Job Posting Generation” 基本情報(ポジション,会社規模)と仕事内容から,応募 者への要求スキルを記述した分を生成 ● 中国語の求人サイトより11,221件の求人情報を抽 出し,データセットを構築. ● 要求スキルの推定と,推定結果に基づく文章の生 成の2段階から構成される手法を提案. ● BLEU, ROUGEによる定量的評価とユーザ評価によ り有効性を検証. 6
  • 7. ACL網羅的サーベイ報告 Mahmood et al. “A Girl Has A Name: Detecting Authorship Obfuscation” 著者が誰か分からなくするAuthorship obfuscationが 検出可能かを調査 ● Authorship obfuscationとは,テキストのスタイル を変えることで著者が誰か特定することができなく する技術を指す. ● Authorship obfuscationが行われたかの検出が可 能であることを確認(F1 score 0.87). ● 文章のsmoothnessが損なわれるためだと結論付 けている. 7
  • 8. ACL網羅的サーベイ報告 Zhou et al. “The Boating Store Had Its Best Sail Ever: Pronunciation-attentive Contextualized Pun Recognition” 音素情報を考慮したダジャレ検出手法を提案 ● 発音が類似した単語がダジャレでは頻繁に使われ る(weakとweekなど). ● Contextualized word embeddingsに加え,音素情 報を使用する手法を提案. ● タスクとしては,ダジャレが含まれているか,文中の どこに含まれているかの2種類を扱う. 8
  • 9. ACL網羅的サーベイ報告 Mukherjee et al. “Smart To-Do: Automatic Generation of To-Do Items from Emails” メールからTo-Do Listを作成する新しいタスクを提案 ● 既存のメールデータセットにアノテーションすること により,タスク用データセットを構築. ● 行動に関する文章(メールを送るなど)の検出と seq2seqによる生成の2段階の手法を提案. ● BLEUが0.23,ROUGEが0.63という実験結果が得ら れたと報告. 9
  • 10. ACL網羅的サーベイ報告 Lange et al. “Closing the Gap: Joint De-Identification and Concept Extraction in the Clinical Domain” 医療ドメインにおける,匿名化と情報抽出を End-to-Endに ● 医療文書を扱う際,個人情報(例:氏名,年 齢)を匿名化する必要がある. ● 従来研究では匿名化とその後のタスク(情報 抽出など)がが独立して扱われていた. ● 2つの処理をまとめて行う手法を提案. ● 英語とスペイン語のデータで実験し,匿名化 及び抽出の性能を評価. 10
  • 11. ACL網羅的サーベイ報告 Xu et al. “Distinguish Confusing Law Articles for Legal Judgment Prediction” 裁判の自動判決において,類似する法を区別する手 法を提案 ● Legal Judgment Prediction:事件の記述から法 律や罪名,罰則を予測するタスク. ● 類似した法律の集合であるcommunityという概 念を導入. ● GNNにより,community内の各法律の違いを取 り扱い可能に. 11
  • 12. ACL網羅的サーベイ報告 Tan et al. “Neural-DINF: A Neural Network based Framework for Measuring Document Influence” 科学論文の学術的影響を予測する手法を提案 ● 論文の引用数は,ブログや政府の公的文書にお ける引用は含まないため,文書自体からの予測 が必要という考え. ● 単語の出現頻度及び意味の変化を基に論文の 影響力を予測. ● 実験はACL Anthologyの論文を使用し,従来手 法と比べて引用数と予測結果の相関が向上. 12
  • 13. ACL網羅的サーベイ報告 Xia et al. “Predicting Performance for Natural Language Processing Tasks” モデルの性能を実際に実験せずに予測する手法を提案 ● 手法の有効性を検証するには従来法との比較などが不可欠. ● 考えうる全実験設定を試行するのは多大な時間を要する(例:多言語). ● 実験条件から実験結果を予測する回帰モデルを構築. 13