dont_count_predict_in_acl2014

Don’t count, predict!
A systematic comparison of context-counting vs.
context-predicting semantic vectors
Marco Baroni, Georgiana Dinu,
German Kruszewski
ACL 2014
読む人：東北大学 D1 高瀬翔

単語の意味をどう表現する？
• 分布仮説[Harris, 64]
– 似た文脈で出現する単語は似た意味を持つ
– 単語の意味を文脈の分布で表現できる
• 様々な工夫
– 単語間の共起情報尺度（e.g., 共起頻度，PMI）
– 次元圧縮（e.g., PCA，Matrix Factorization）
代表作作家陸上競技文学賞時速筋肉順位書く
フランツ・カフカ 1 1 0 1 0 0 0 1
大江健三郎 1 1 0 1 0 0 0 1
パオロ・バチガルピ 1 1 0 1 0 0 0 1
ウサイン・ボルト 0 0 1 0 1 1 1 0
カール・ルイス 0 0 1 0 1 1 1 0
作家
陸上
選手
作家

最近：predictiveモデルが流行
• 低次元，密な空間で単語のベクトルを予測（学習）
– 利点１：既存手法（カウントモデル）を一つのモデルで表現
• カウントモデル：共起頻度カウント→PMI計算→次元圧縮
– 利点２：大規模データに対してもスケールする
• 補足（個人の意見）：火付け役はword2vec？
– 実装が公開されていて，簡単に使用可能
• コンパイルしてコーパスを突っ込むだけ
– ACL2014ではword2vecを引用した論文が大量に

カウントモデル vs. predictiveモデル
• どちらが良いのか気になるのが人情
• 個々のタスクでの比較は報告されている
– 単語の類似度[Huang+ 12]，フレーズの類似度[Blacoe+ 12]，
analogy[Mikolov+ 13]
– タスク横断的に検証，報告したものはない
• 本研究の目的：単語の意味表現の質について，
カウントモデルとpredictiveモデルの性能を様々
な実験を通して比較
– 実質的にはカウントモデル vs. word2vec
– （他のpredictiveモデルも載ってるが，ほぼ比較なし）

論文の概要図
コーパス
共起情報の集計
（頻度，PMI，…）
代表作作家 …
フランツ・カフカ 3.4 5.6 …
大江健三郎 3.8 4.2 …
… … … …
フランツ・カフカ 6.9 -3.2
大江健三郎 7.8 -2.8
… … …
次元圧縮
（NMF，
SVD，…）
フランツ・カフカ -5.8 1.7
大江健三郎 -6.9 1.2
… … …word2vec
（CBOW）
カウントモデル
VS.
predictiveモデル
様々なタスクで比較

まずはカウントモデルの概要説明
コーパス
（頻度，PMI，…）
代表作作家 …
フランツ・カフカ 3.4 5.6 …
大江健三郎 3.8 4.2 …
… … … …
フランツ・カフカ 6.9 -3.2
大江健三郎 7.8 -2.8
… … …
次元圧縮
（NMF，
SVD，…）

• 窓幅 n 以内の単語との
• Pointwise Mutual Information(PMI)
– 二単語（wi, wj）の相関の強さ
– 片方が出現したとき必ずもう一方も出現で最大に
• Local Mutual Information(LMI)[Evert+ 05]
PMI(wi,wj ) = log(
p(wi,wj )
p(wi )* p(wj )
)
LMI(wi,wj ) = p(wi,wj )*log(
p(wi,wj )
p(wi )* p(wj )
)
In 1912, Kafka wrote the story…
n n

次元圧縮
• 単語の文脈ベクトルの次元を k に圧縮
– 行列の圧縮テクニックを利用（SVD，NMF）
• SVD（特異値分解）
– UkとΣkから m × k の行列を作成
• NMF（Nonnegative Matrix Factorization）[Lee+ 00]
– 行列を非負の要素からなる二つの行列で近似
U
（m×m
）
行列
（m × n）
＝
VT
（n × n）
Σ
（m × n）
k
Uk
k
Σk
行列
（m × n）
≅
k
m
m
m × k の行列を
圧縮結果とする

word2vecの概要を説明
コーパス
フランツ・カフカ -5.8 1.7
大江健三郎 -6.9 1.2
… … …word2vec
（CBOW）

word2vec(CBOW)
• 周辺（窓幅 n）の単語から中央の単語ベクトルを予測
• skip-gram（周辺単語を予測するモデル）より高速，大規模
データでは高性能
• 高速化，精度向上のための様々な工夫
– Hierarchical softmax，negative sampling，subsampling
– （時間の都合上今回は説明しません…）
n
n
training time. The basic Skip-gram formulation defines p(wt + j |wt ) using the softmax fun
p(wO |wI ) =
exp v′
wO
⊤
vwI
W
w= 1 exp v′
w
⊤
vwI
where vw and v′
w are the “input” and “output” vector representations of w, and W is
ber of words in the vocabulary. This formulation is impractical because the cost of c
∇ logp(wO |wI ) is proportional to W, which is often large (105
–107
terms).
2.1 Hierarchical Softmax
A computationally efficient approximation of the full softmax is the hierarchical softma
context of neural network language models, it was first introduced by Morin and Bengio
main advantage is that instead of evaluating W output nodes in the neural network to o
probability distribution, it is needed to evaluate only about log2(W) nodes.
The hierarchical softmax uses a binary tree representation of the output layer with the W
its leaves and, for each node, explicitly represents the relative probabilities of its child nod
define a random walk that assigns probabilities to words.
More precisely, each word w can be reached by an appropriate path from the root of the
n(w, j ) be the j -th node on the path from the root to w, and let L(w) be the length of thi
wI wO ここの計算が大変（全単語対象）
なので様々な工夫を行う

カウントモデル vs. word2vec
• 訓練コーパス（モデルの作成用）：28億単語
– ukWaC，English Wikipedia，British National Corpusを結合
• 単語：頻出単語30万個
• 評価タスク：5種類のタスク，14個のデータセット（既存研究から）
– Semantic relatedness
– Synonym detection
– Concept categorization
– Selectional preference
– Analogy
• 評価対象
– パラメータを変えてタスクに適用，モデルの性能や頑健さを検証

Semantic relatedness
• 単語ペアについて人手で意味的に似ているか／関連があるかを
付与したデータを用意
– 単語間に人手による類似度付与
– king，queen：9
– tiger，cat：8
– drink，ear：1
– king，cabbage：0
• モデルから得たベクトルで計算した類似度と人手による類似度が
対応するか検証
– 類似度：コサイン類似度
– 相関の測定：類似度順に並べ，順位の一致率を見る
• 5種類のデータセット
king，queen：0.8
tiger，cat：0.6
king，cabbage：0.04
drink，ear：0.01
単語ベクトル間のコサイン類似度
順位の一致率を見る

Synonym detection
• 同義語を選ぶ4択問題
• 入力と最もコサイン類似度の高い候補を出力
• 正解率を測定
• 1種類のデータセット（TOEFL）
入力：levied
候補
imposed（正解）
believed
requested
correlated

Concept categorization
• 単語とその意味カテゴリのデータを用意
– helicopters，motorcycles→vehicle
– dogs，elephants→animal
• モデルから得たベクトルに基づきクラスタリン
グ，正確なクラスタができているか検証
– クラスタリング：CLUTOを利用
– Repeated bisectionでクラスタリング
• データを二つのクラスタに分割，を繰り返す

Selectional preference
• ある動詞とその主語や目的語として典型的な名詞の
ペアを集めたデータを用意
– personはeatの主語として典型的
– personはeatの目的語としては非典型的
• 動詞の主語／目的語に頻出の20単語のベクトルの平
均と対象の単語のコサイン類似度測定，データと比較
eat
I
He
Animal
……
20単語
↓
単語ベクトルの平均personのベクトル
類似度測定

Analogy
• 単語対の意味的／統語的関係の類推テスト
– 意味的関係
• man-woman，king-?（正解：queen）
• brother-sister，grandson-? (正解：granddaughter）
– 統語的関係
• work-works，speak-? （正解：speaks）
• have-had，eat-? （正解：ate）
• モデルから得たベクトルの足し引き結果と最も類似度
の高い単語
– v(man)-v(woman)+v(king)と最も近い単語は？
– 統語のみ，意味のみ，両方

カウントモデル vs. word2vec（再掲）
• 訓練コーパス（モデルの作成用）：28億単語
– ukWaC，English Wikipedia，British National Corpusを結合
• 単語：頻出単語30万個
• 評価タスク：5種類のタスク，14個のデータセット（既存研究から）
– Semantic relatedness
– Synonym detection
– Concept categorization
– Selectional preference
– Analogy
• 評価対象
– パラメータを変えてタスクに適用，モデルの性能や頑健さを検証

各手法でのパラメータ
窓幅共起情報次元圧縮次元
2，5 PMI，LMI なし，SVD，NMF 300k（次元圧縮なし），
200，300，400，500
窓幅 hs negative
sampling
subsampling 次元
2，5 なし，
あり
なし（hsあり），
5，10
なし，あり 200，300，400，500
カウントモデルのパラメータ
2 * 2（次元圧縮なし） + 2 * 2 * 2 * 4（次元圧縮） = 36通り
word2vecのパラメータ
2 * 3 * 2 * 4 = 48通り

各タスクで最も良い結果の比較
（各結果のパラメータが異なる）
• word2vec（pre）はどのタスクでもカウントモデル（cnt）
より良い性能
– カウントモデルもそれほど悪い訳ではない
• 一部のタスクではword2vecはstate-of-the-artの結果
よりも高性能
– state-of-the-artは各タスクに特化した手法で得た値
• 知識の利用，人手のルール，大規模コーパスの利用…
– state-of-the-artに勝てるword2vecはスゴい
semantic
relatedness
concept
categorization
synonym
detection analogy
selectional
preference

Semantic relatednessに最適化
（パラメータ固定）
• Semantic relatednessの一部のデータで最も性
能が良かったパラメータでの結果
– 開発データでチューニングした状況を想定
• カウントモデル，word2vecともにそこそこ高い値
– カウントモデルもきちんとチューニングすれば悪くな
い結果を出せる
semantic
relatedness
concept
categorization
synonym
detection analogy
selectional
preference

タスク横断で最も悪い結果
（パラメータ固定）
• 全タスクに適用し，最も悪かったパラメータでの比較
• カウントモデルはボロボロ
– パラメータ設定に失敗すると酷い結果になる
• word2vecはそこそこ高い値
– カウントモデルのベスト時と同等の性能
• word2vecは非常に頑健
– パラメータの設定を誤ってもそこそこの結果が出せる
semantic
relatedness
concept
categorization
synonym
detection analogy
selectional
preference

各パラメータでのタスク横断の順位
• 各パラメータで作成したベクトルを全タスクに適用，性能の良い順
– 各タスクでの順位の平均が高い順
• word2vecの平均ランク＞カウントモデルの平均ランク
– 全体的にword2vec＞カウントモデルという傾向
• カウントモデルではPMI，SVDを使用すると良い
• word2vecではnegative sampling，subsamplingを利用すると良い
カウントモデル word2vec

まとめ
• カウントモデルとpredictiveモデル（主にword2vec）を
様々な実験を通して比較
• 性能はword2vec＞カウントモデル
– word2vecで得た単語ベクトルはstate-of-the-artな性能
– パラメータに対して頑健
• 残る疑問：predictiveモデルの次元とは何なのか？
– 潜在的な意味を表現しているのか？
– カウントモデルで得られるベクトルとの表現力の差は？
• Predictiveモデルの研究はまだ始まったばかりだ！
– この先は君の目で確かめてみてくれ！

dont_count_predict_in_acl2014

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (20)

Similar a dont_count_predict_in_acl2014

Similar a dont_count_predict_in_acl2014 (20)

Más de Sho Takase

Más de Sho Takase (9)

dont_count_predict_in_acl2014

Notas del editor