今日からできる構造学習(主に構造化パーセプトロンについて)

今日からできる構造学習
(主に構造化パーセプトロンについて)
id:syou6162

自己紹介
•  id:syou6162
•  ブックマークのエンジニア
•  前職は自然言語処理や機械学習の研究
– 4年間ひたすらclojureを書いていた
•  アイコンは卓球のラケット
– 8年くらいやっていました

今日の目標 => 構造化パーセプトロン
でできることを広げよう!
•  機械学習のライブラリが充実。参入のハードル
は低下
–  ただし、それは解きたい問題が単純な場合が多い
–  ただの分類問題
•  単純な分類問題だけでは解けない問題も多い
•  構造学習が扱えると、やれることがぐっと増える
•  構造学習を簡単に扱える方法を紹介
•  簡単なサンプルも書いてみた(品詞タグ付け)
–  h8p://;nyurl.com/struct-perceptron

対象にしている人
•  機械学習よく聞くけど、Pythonのライブラリばっ
かりで、Perlでは厳しそうと思っている人
•  Courseraで機械学習勉強して、自分でロジステッ
ク回帰くらいまでは使えるようになった。でも、分
類問題以外はどう解いていいか分からない
•  機械学習で新しいサービスを作ってみたい。でも、
ただただ分類するだけじゃ面白くないじゃん
•  宗教上の理由で深層学習を使えない人

目次
•  機械学習の問題の種類
•  構造学習とは何か
•  線形識別器について
•  パーセプトロンについて
– 平均化
•  コードを見ながら具体例
•  発展的話題

機械学習の問題の種類
•  教師なし学習
–  クラスタリング(k-means、LDAなど)
–  密度予測(言語モデル、異常値検出。word2vecはこっち)
•  教師あり学習
–  (回帰問題)
–  二値分類
–  多値分類
–  構造予測
•  強化学習
–  alphaGo、対話処理
–  どういう行動がベストかは分からないが、何かアクション
をしたときに報酬が与えられる

教師あり学習
•  二値分類
–  スパム分類
•  多値分類
–  はてなブックマークのカテゴリ分類
•  構造予測
–  形態素解析(mecabとか) [Kudo2004]
–  単語の係り受け解析(cabochaとか)
[Kudo2002,McDonald2005]
–  Webページのランキング(Learning to rank) [He2008]
–  二部グラフマッチング
•  機械翻訳[Taskar2005]
•  (合コンのマッチング問題…?)
二値分類、多値分類:
出力がスカラー
構造学習:
出力がスカラーではなく
構造を持つオブジェクト

例: Webページランキング
•  キーワードとの
マッチング率
•  サイトの重要度
•  最終更新日
•  などを加味して
ランキングを決
めたい

例: 係り受け解析
h8p://www.seas.upenn.edu/~strctlrn/bib/PDF/nonprojec;veHLT-EMNLP2005.pdf より引用
•  どの単語(品詞)がどの単語(品詞)と結び付きやすいか
•  兄弟にはどんな単語がいるのか
•  単語間の距離はどれくらいあるか
•  などを加味して、構文木を出力したい

例: 二部グラフマッチング
合コンマッチング問題…???
A君 B君 C君
Xさん Yさん Zさん
•  共通の趣味..?
•  年上/年下…?
•  年収…?

例: 二部グラフマッチング:
機械翻訳(単語アライメント)
h8p://www.phontron.com/slides/alagin2014-align.pdf より引用
英語の単語と日本語の単語が
対になるスコア(確率値)が表の中身

Q: 多値分類で独立に解くのはダメ?
•  A: 解けるけど、精度がぐっと落ちます
•  入力だけでなく出力の構造も特徴量に組み込んで精度を
上げることができるのが構造学習のメリット
–  品詞タグ付けの例[Liang2008]
•  構造学習 =>精度: 95.0%
•  多値分類で独立に解く => 精度: 91.7%
•  タスクが難しくなるほど差は広がる
はてなが上場
名詞
格助詞
(文頭) (文末)

線形識別器
•  入力xと出力ラベルy∈Yについて考える
•  xとyに対してに対して特徴量ベクトルfx,y∈RMを
作る
•  重みベクトルw∈RMを用意
•  スコア関数を特徴量ベクトルと重みベクトルの内
積で定義
–  s(x,y; w) := wT fx,y
•  スコア関数が最大となる出力ラベルを出力として
取る
–  y* = arg maxy∈Y s(x,y; w)

分かりやすく言うと…?(文書分類の例)
入力: Webページ x ワールドカップの速報Webページ

特徴ベクトルは
(1)エンタメ && 本文にサッカーが含まれているか
(2)経済 && 本文にサッカーが含まれているか
(3)エンタメ && タグにサッカーが含まれているか
(4)経済 && タグにサッカーが含まれているか
を表現している(こういうのが数万次元くらいあるイメージ)。

出力ラベル集合: Y = {エンタメ, 経済}
重みベクトル:
特徴ベクトル:
特徴ベクトル:
w= [3, 1, 3, 2]T
fx,エンタメ = [1, 0, 1, 0]T
fx,経済 = [0, 0, 0, 1]T

分かりやすく言うと…?(文書分類の例)
スコア: s(x, エンタメ; w) = wTfx,エンタメ = 6
スコア: s(x, 経済; w) = wTfx,経済 = 2
スコアが最大の
「エンタメ」が入力xの
カテゴリと判定される!
入力: Webページ x ワールドカップの速報Webページ
出力ラベル集合: Y = {エンタメ, 経済}
重みベクトル:
特徴ベクトル:
特徴ベクトル:
w= [3, 1, 3, 2]T
fx,エンタメ = [1, 0, 1, 0]T
fx,経済 = [0, 0, 0, 1]T

線形識別器(再掲)
•  入力xと出力ラベルy∈Yについて考える
•  xとyに対してに対して特徴量ベクトルfx,y∈RMを
作る
•  重みベクトルw∈RMを用意
•  スコア関数を特徴量ベクトルと重みベクトルの内
積で定義
–  s(x,y; w) := wT fx,y
•  スコア関数が最大となる出力ラベルを出力として
取る
–  y* = arg maxy∈Y s(x,y; w)
多値分類は全てのクラスのスコアを計算。
構造学習では、動的計画法や貪欲法、
ビームサーチなどを使うことが多い。

線形でいいの???
•  こんなに簡単でいいのか
•  NLPやIRでよく使われる教師あり学習の手法
はほとんど線形
– カーネルを使わないSVMやロジステック回帰、条
件付き確率場(CRF)など
– これらは重みベクトルの学習の方法が違うだけ
•  深層学習で非線形性がもてはやされている
が、NLPやIRの分野では線形なモデルとそれ
ほど精度が変わらない

目次
•  機械学習の問題の種類
•  構造学習とは何か
•  線形識別器について
•  パーセプトロンについて
– 平均化
•  コードを見ながら具体例
•  発展的話題
重みベクトルwがあれば
構造学習できることは分かった。
だけど、重みベクトルwってどう
やって決めればいいんだろう?

パーセプトロンについて
•  線形識別器の中で以下のような重みベクトル
を更新する方法のこと
•  訓練事例(x, y)に対して、現在の重みベクトル
wで予測。予測したものをy*とする
•  y = y*の場合は更新しない。そうでない場合は
以下の更新則で重みベクトルを更新
– w* = w + fx,y – fx,y*
– 正解の特徴量ベクトルを足して、予測したものの特徴量ベクトルを引く
– ただそれだけ!!!

こんなのでいいのか?!
•  雑なことしかしてないけど、うまく行くのか?!
•  証明がちゃんとされている[Collins 2002]
–  訓練事例が線形識別器で分類可能な場合、有限回
の重みベクトルwの更新で全ての訓練事例を分類で
きるパラメータを見つけられる
•  線形識別器で分類可能でない場合でも、多くの
訓練事例を(びっくりするほど)正しく分類できる
•  非線形だと分類できることもあるけど、非線形だ
と、学習がそもそもうまく行かないことが多い

平均化
•  そのままでもそこそこの性能はでるが、精度
が安定しない問題がある
•  評価の時にはitera;on毎の重みベクトルを平
均化(wﬁnal = Σi wi / T)して使うと安定していい
精度が出ることが知られている[Collins 2002]
– ナイーブにitera;on毎の重みベクトルを持つと大
変。以下のp26に解決方法
– h8p://www.ss.cs.tut.ac.jp/nlp2011/
nlp2010_tutorial_okanohara.pdf

構造化パーセプトロンを勧める理由
•  広いクラスの問題に適用可能!
–  文書分類から合コン(???)まで
•  実装するのが超簡単
–  今の重みベクトルwを使って予測する(y* = argmax…)
–  正解yと予測したものy*が異なっていたら
–  現在の重みベクトルwに
–  正解の特徴量fx,yを足して
–  予測した特徴量fx,y*を引くだけ

日本語の品詞タグ付けで試す
h8ps://github.com/syou6162/
structured_perceptron

学習部分(1)
my $weight = {};!
my $cum_weight = {};!
my $n = 1;!
for my $iter ( 0 .. 10 ) {!
print "Iter: $itern";!
for my $gold ( List::Util::shuffle @$train_data) {!
my $predict = argmax($gold, $weight, $pos_labels);!
if (pos_labels_str($gold) ne pos_labels_str($predict)) {!
update_weight( $weight, $cum_weight, $gold, $predict,
$n, $pos_labels );!
$n++;!
}!
}!
}!
データの偏りがあると学習が
うまく進まないのでシャッフルする

学習部分(2)
sub update_weight {!
my ( $weight, $cum_weight, $sentence, $predict_sentence, $n,
$pos_labels ) = @_;!
my $gold_features = get_features($sentence);!
my $predict_features = get_features($predict_sentence);!
!
for my $feature (@$gold_features) {!
$weight->{$feature} += 1;!
$cum_weight->{$feature} += $n;!
}!
for my $feature (@$predict_features) {!
$weight->{$feature} -= 1;!
$cum_weight->{$feature} -= $n;!
}!
}!
正解の特徴量fx,y($gold_features)と
予測の特徴量fx,y*($predict_features)を
それぞれ取ってくる
正解の特徴量は足す、
予測の特徴量は引く!

どう特徴量に組み込むか?
sub extract_features {
my ( $sentence, $index, $pos_prev, $pos_next ) = @_;
my $features = List::Rubyish->new;
my $w = $index < $sentence->size ? $sentence->[$index]->{w} : "EOS";
my $w_prev = $index - 1 >= 0 ? $sentence->[$index - 1]->{w} : "";
my $w_next = $index + 1 < $sentence->size ? $sentence->[$index + 1]->{w} : "";
$features->push( "transi;on_feature:" . $pos_prev . "+" . $pos_next );
$features->push( "emission_feature:" . $pos_next . "+" . $w );
$features->push( "emission_feature_prev:" . $pos_next . "+" . $w_prev );
$features->push( "emission_feature_next:" . $pos_next . "+" . $w_next );
$features;
}
wt-1 wt Wt+1
pt-1 pt
使う素性は以下の2種類
(1) 現在の品詞ptと直前の品詞
pt-1(transi;on_feature)
(2) 現在の品詞ptと周辺の単語
(wt-1,wt,wt+1)の素性(emission_feature)

argmaxはどうやるか?
文頭から文末まで品詞を
選択するグラフ上のスコアを
最大にするパスを選択する
問題と見なせる
クラスラベルYは指数個存在するが、argmaxを選ぶのは動的計画法で
単語数に線形時間で可能(ビタビアルゴリズム)
はてなが上場
名詞
格助詞
(文頭) (文末)
コードではforward関数である文頭から
ノードまでの最適なスコアを埋めていき、
backword関数で文末から
最適なパスを逆向きに辿っている

実験(バッチ学習との比較)
手法精度(Accuracy)
構造化パーセプトロン 94.4%
構造化パーセプトロン(平均化) 95.5%
CRF++(バッチ学習) 95.9%
LSTM(流行りの深層学習) 間に合わず…
•  日本語の品詞タグ付けデータ
– h8ps://github.com/neubig/nlptutorial
•  学習用818文、テスト用84文

時間があれば発展的話題(1)
•  ミニバッチ学習[Zhao2013]
–  パーセプトロンはオンライン学習。精度に関してはバッチ
学習のほうが高いことが多い
– mini-batchにしても収束保証。学習も早くなり、精度
も向上
•  Max-viola;on perceptron[Huang2012]
•  argmaxが厳密解ではなく何らかの近似(例えばビー
ムサーチ)を使った場合にも収束性を保証。ビーム
サーチを使う場合には、ほぼ必須の方法
•  精度79%が92%になったりすることもある(係り受け
解析)

時間があれば発展的話題(2)
•  様々なパーセプトロンの亜種
–  (K-best) MIRA[McDonald2005]
–  Passive aggressive perceptron[Crammer2006]
–  Conﬁdence weighted perceptron[Dredze2008]
–  基本的にどれも解の更新の比率を変えるもの
•  L1正則化[Duchi2009]
–  構造学習は特徴量が高次元になりがち
•  数百万次元とか普通にある
–  重みベクトルをコンパクトに。省メモリ化
–  精度とトレードオフだが、ほぼ精度を落とさず重みベクト
ルの次元を1/100にできる場合も

まとめ:
構造化パーセプトロンを勧める理由
•  広いクラスの問題に適用可能
•  実装するのが超簡単
•  様々な亜種でさらに精度向上できる
•  PerlにはPythonほど機械学習のライブラリは揃っ
ていないが、構造化パーセプトロンで幅広い機
械学習の問題を扱える!
•  はてなには面白いデータがたくさんあるので、構
造化パーセプトロンで色々遊んでみよう!

おまけ
•  NLPの人は新しいアルゴリズムができると係り
受け解析でベンチマークを取るのが好き
•  自分もいくつか構造化パーセプトロンを使っ
た係り受け解析器を実装してます
– h8ps://github.com/syou6162/
simple_shi|_reduce_parsing
– h8ps://github.com/syou6162/mst-clj
– PerlじゃなくてClojure

参考資料(1)
•  日本語入力を支える技術 by tkngさん
–  h8ps://www.amazon.co.jp/dp/4774149934
•  GramさんのNLPチュートリアル
–  h8p://www.phontron.com/teaching.php
•  [Huang2012]Liang Huang, Suphan Fayong, and Yang Guo. 2012. Structured perceptron with
inexact search. In Proceedings of the 2012 Conference of the North American Chapter of the
Associa8on for Computa8onal Linguis8cs: Human Language Technologies (NAACL HLT '12).
Associa;on for Computa;onal Linguis;cs, Stroudsburg, PA, USA, 142-151.
•  [Zhao2013]K. Zhao and L. Huang. Minibatch and paralleliza;on for online large margin
structured learning. In NAACL, pages 370–379, 2013.
•  [Collins 2002]Michael Collins. 2002. Discrimina;ve training methods for hidden Markov
models: theory and experiments with perceptron algorithms. In Proceedings of the ACL-02
conference on Empirical methods in natural language processing - Volume 10 (EMNLP '02),
Vol. 10. Associa;on for Computa;onal Linguis;cs, Stroudsburg, PA, USA, 1-8.
•  [Taskar2005]Ben Taskar, Simon Lacoste-Julien, and Dan Klein. 2005. A discrimina;ve
matching approach to word alignment. In Proceedings of the conference on Human Language
Technology and Empirical Methods in Natural Language Processing (HLT '05). Associa;on for
Computa;onal Linguis;cs, Stroudsburg, PA, USA, 73-80.

参考資料(2)
•  [He2008]C. He, C. Wang, YX. Zhong and RF. Li. A Survey on Learning to Rank. Proceedings of
the Seventh Interna;onal Conference on Machine Learning and Cyberne;cs, Kunming, 12-15
July 2008.
•  [McDonald2005]Ryan McDonald, Koby Crammer, and Fernando Pereira. 2005. Online large-
margin training of dependency parsers. In Proceedings of the 43rd Annual Mee8ng on
Associa8on for Computa8onal Linguis8cs (ACL '05). Associa;on for Computa;onal Linguis;cs,
Stroudsburg, PA, USA, 91-98.
•  [Kudo2004]Taku Kudo, Kaoru Yamamoto, and Yuji Matsumoto. 2004. Applying condi;onal
random ﬁelds to Japanese morphological analysis. In Proceedings of the Conference on
Emprical Methods in Natural Language Processing (EMNLP 2004), volume 2004.
•  [Kudo2002]Taku Kudo and Yuji Matsumoto. 2002. Japanese dependency analysis using
cascaded chunking. In proceedings of the 6th conference on Natural language learning -
Volume 20 (COLING-02), Vol. 20. Associa;on for Computa;onal Linguis;cs, Stroudsburg, PA,
USA, 1-7.
•  [Liang2008]Percy Liang, Hal Daumé, III, and Dan Klein. 2008. Structure compila;on: trading
structure for features. In Proceedings of the 25th interna;onal conference on Machine
learning (ICML '08). ACM, New York, NY, USA, 592-599.

参考資料(3)
•  [Crammer2006]Koby Crammer, Ofer Dekel, Joseph Keshet, Shai Shalev-Shwartz, and Yoram
Singer. 2006. Online Passive-Aggressive Algorithms. J. Mach. Learn. Res. 7 (December 2006),
551-585.
•  [Dredze2008]Mark Dredze, Koby Crammer, and Fernando Pereira. 2008. Confidence-
weighted linear classifica;on. In Proceedings of the 25th interna;onal conference on
Machine learning (ICML '08). ACM, New York, NY, USA, 264-271.
•  [Duchi2009]John Duchi and Yoram Singer. 2009. Efficient Online and Batch Learning Using
Forward Backward Spli‚ng. J. Mach. Learn. Res. 10 (December 2009), 2899-2934.

今日からできる構造学習(主に構造化パーセプトロンについて)

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a 今日からできる構造学習(主に構造化パーセプトロンについて)

Similar a 今日からできる構造学習(主に構造化パーセプトロンについて) (20)

Más de syou6162

Más de syou6162 (20)

今日からできる構造学習(主に構造化パーセプトロンについて)