SlideShare una empresa de Scribd logo
1 de 17
Descargar para leer sin conexión
⾸都⼤学東京 ⼩町研, ⽵中誠
(図・式は論⽂より引⽤)
2017年9⽉19⽇ ACL読み会@すずかけ台
この論⽂でやりたいこと
• マルチタスク学習の枠組みで、タスク固有とタスク不変の特徴
をキレイに⾒分けてキレイに分類したい
• The infantile cart is simple and easy to use. -> positive
• This kind of humour is infantile and boring. -> negative
private feature
shared feature
汚染
1
こうしたい
この論⽂の貢献
• マルチタスク学習の枠組みにおいて、タスク固有とタスク不変
の特徴を、より精緻に分けるモデルを提案した
• タスク不変の特徴をキレイに抽出し流⽤することで、未知タス
クを解けるようにした
2
RNN(LSTM)でテキスト分類
• 正解ラベルyと予測ラベルy^のクロスエントロピーを最⼩化す
るように学習
3
• FS-MTL:隠れ層の全てをタスク間で共有
• SP-MTL:隠れ層の⼀部をタスク間で共有
LSTMのマルチタスク学習モデル
4
提案モデル: 敵対的マルチタスク学習
• Task Discriminator
• “タスク(bookとかmovieとか)の分類問題を解く”タスクを同時に解く
• sharedなのでタスクを識別できる情報は排除したい、という気持ち
→θDについてはクロスエントロピー最⼤化を考える
• トータルの損失
正解 予測
5
Sk: sharedの出⼒を並べた⾏列
Hk: privateの出⼒を並べた⾏列
LDiff: Orthogonality constraints[Bousmalis+, 2016 ]
同じ⼊⼒に対して異なる特徴をencodeさせるための制約
実験
• 2値分類
• データセット
• 商品レビュー(Amazonレビュー, 14カテゴリ)
• 映画レビュー(IMDB, MR)
• 評価指標
• エラーレート
• ベースライン
• SingleTask(LSTM, Bi-LSTM, s-LSTM)の平均
• マルチタスク学習の⽐較⼿法
• MT-CNN[Collobert and Weston, 2008]
• embed層だけ共有したモデル
• MT-DNN[Liu+, 2015]
• 隠れ層を共有したMLPモデ
6
ハイパパラメターとか
• GloVe:200次元
• パラメータ:[-0.1, 0.1]の⼀様分布で初期化
• ミニバッチサイズ:16
• learning rate:0.01
• λ:0.05
• γ:0.01
7
実験
• 実験1
• 提案モデル(ASP-MTL)の性能評価
• 実験2
• ASP-MTLにおいて、sharedレイヤは shared feature を捕捉できてい
るか
8
実験
• 実験1
• 提案モデル(ASP-MTL)の性能評価
• 実験2
• ASP-MTLにおいて、sharedレイヤは shared feature を捕捉できてい
るか
9
実験1の結果
• ASPモデルが⼀番良かった
10
実験
• 実験1
• 提案モデル(ASP-MTL)の性能評価
• 実験2
• ASP-MTLにおいて、sharedレイヤは shared feature を捕捉できてい
るか
11
実験2の設定
• ⽬的タスク以外の15タスクで SP-MTL, ASP-MTL を訓練
• 訓練後のモデルを⽤い、残りの未知タスクを解く
• そのまま使う⽅法:Single-Channel
• タスク固有レイヤを新たに設ける⽅法:Bi-Channel
12SP-MTL ASP-MTL再掲
実験2の結果
• 同じChannelで⽐較すると、SP-MTLよりASP-MTLが良い
• Single-ChannelよりBi-Channelが良い
• → ASP-MTLがshared featureをより捕捉できている
13
ポジネガ判定への寄与の可視化
• ⾚ちゃん⽤品のレビュー⽂において”asleep”を⾒たときの隠れ層の振る舞
いを調べた
• 「Five stars, my baby can fall asleep soon in the stroller」
• 結果
• ASP-MTL:ネガティブに振れない
• SP-MTL :ネガティブに触れる(他タスクのsharedに引きずられていると思われ)
ポジ
ネガ
14
汚染は解消されたか
• された。
• SP-MTL
• sharedが汚染されている(Task固有のものがsharedに混⼊)
• ASP-MTL
• 混⼊はなく積集合が⼩さい(Ldiffの効果)
15
private feature
shared feature
汚染 こうしたかった
再掲
まとめ
• タスク固有とタスク不変の特徴を分ける敵対的マルチタスク学
習モデルを提案した
• タスク不変の特徴を流⽤することで、異なるタスクへの適⽤可
能性を⽰した
16

Más contenido relacionado

Más de Makoto Takenaka

[論文紹介] Understanding and improving transformer from a multi particle dynamic ...
[論文紹介] Understanding and improving transformer from a multi particle dynamic ...[論文紹介] Understanding and improving transformer from a multi particle dynamic ...
[論文紹介] Understanding and improving transformer from a multi particle dynamic ...Makoto Takenaka
 
[論文紹介] Towards Understanding Linear Word Analogies
[論文紹介] Towards Understanding Linear Word Analogies[論文紹介] Towards Understanding Linear Word Analogies
[論文紹介] Towards Understanding Linear Word AnalogiesMakoto Takenaka
 
Lpixel論文読み会資料 "Interpretation of neural network is fragile"
Lpixel論文読み会資料 "Interpretation of neural network is fragile"Lpixel論文読み会資料 "Interpretation of neural network is fragile"
Lpixel論文読み会資料 "Interpretation of neural network is fragile"Makoto Takenaka
 
Understanding the origin of bias in word embeddings
Understanding the origin of bias in word embeddingsUnderstanding the origin of bias in word embeddings
Understanding the origin of bias in word embeddingsMakoto Takenaka
 
[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding
[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding
[NeurIPS2018読み会@PFN] On the Dimensionality of Word EmbeddingMakoto Takenaka
 
[研究室論文紹介用スライド] Adversarial Contrastive Estimation
[研究室論文紹介用スライド] Adversarial Contrastive Estimation[研究室論文紹介用スライド] Adversarial Contrastive Estimation
[研究室論文紹介用スライド] Adversarial Contrastive EstimationMakoto Takenaka
 
Probabilistic fasttext for multi sense word embeddings
 Probabilistic fasttext for multi sense word embeddings Probabilistic fasttext for multi sense word embeddings
Probabilistic fasttext for multi sense word embeddingsMakoto Takenaka
 
Deep neural models of semantic shift
Deep neural models of semantic shiftDeep neural models of semantic shift
Deep neural models of semantic shiftMakoto Takenaka
 
All-but-the-Top: Simple and Effective Postprocessing for Word Representations
All-but-the-Top: Simple and Effective Postprocessing for Word RepresentationsAll-but-the-Top: Simple and Effective Postprocessing for Word Representations
All-but-the-Top: Simple and Effective Postprocessing for Word RepresentationsMakoto Takenaka
 
multimodal word distributions
multimodal word distributionsmultimodal word distributions
multimodal word distributionsMakoto Takenaka
 

Más de Makoto Takenaka (10)

[論文紹介] Understanding and improving transformer from a multi particle dynamic ...
[論文紹介] Understanding and improving transformer from a multi particle dynamic ...[論文紹介] Understanding and improving transformer from a multi particle dynamic ...
[論文紹介] Understanding and improving transformer from a multi particle dynamic ...
 
[論文紹介] Towards Understanding Linear Word Analogies
[論文紹介] Towards Understanding Linear Word Analogies[論文紹介] Towards Understanding Linear Word Analogies
[論文紹介] Towards Understanding Linear Word Analogies
 
Lpixel論文読み会資料 "Interpretation of neural network is fragile"
Lpixel論文読み会資料 "Interpretation of neural network is fragile"Lpixel論文読み会資料 "Interpretation of neural network is fragile"
Lpixel論文読み会資料 "Interpretation of neural network is fragile"
 
Understanding the origin of bias in word embeddings
Understanding the origin of bias in word embeddingsUnderstanding the origin of bias in word embeddings
Understanding the origin of bias in word embeddings
 
[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding
[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding
[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding
 
[研究室論文紹介用スライド] Adversarial Contrastive Estimation
[研究室論文紹介用スライド] Adversarial Contrastive Estimation[研究室論文紹介用スライド] Adversarial Contrastive Estimation
[研究室論文紹介用スライド] Adversarial Contrastive Estimation
 
Probabilistic fasttext for multi sense word embeddings
 Probabilistic fasttext for multi sense word embeddings Probabilistic fasttext for multi sense word embeddings
Probabilistic fasttext for multi sense word embeddings
 
Deep neural models of semantic shift
Deep neural models of semantic shiftDeep neural models of semantic shift
Deep neural models of semantic shift
 
All-but-the-Top: Simple and Effective Postprocessing for Word Representations
All-but-the-Top: Simple and Effective Postprocessing for Word RepresentationsAll-but-the-Top: Simple and Effective Postprocessing for Word Representations
All-but-the-Top: Simple and Effective Postprocessing for Word Representations
 
multimodal word distributions
multimodal word distributionsmultimodal word distributions
multimodal word distributions
 

Último

IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directoryosamut
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdfUPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdffurutsuka
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 

Último (9)

IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdfUPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdf
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 

Adversarial Multi-task Learning for Text Classification