SlideShare una empresa de Scribd logo
1 de 20
Descargar para leer sin conexión
word2vecの理論背景
mabonki0725
2016/12/17
自己紹介
• データ分析と統計モデル構築15年
– 学習データ以外の運用データでも予測が当たることに驚く
• 統計数理研究所の機械学習ゼミに6年間在籍
– 殆どの統計モデルを構築
 判別木 SVM ベイジアンネット DeepLearning等
• ロボット技術習得のため産業技術大学院に入学
– 知覚・機械学習・制御理論の統合が必要で発展途上の技術
• 経験的には米国の機械学習の論文を読み、できれば
実装するのが一番近道と思っている
– NIPS ICML論文読会したい(隔週開催)
• 教師あり学習のXGBOOSTの性能に驚いている
word2vecとは
• 大量の文書をよんで文字をvectorで表現にする
– vectorなので加減算で推論・推薦ができる
• 連想
 vec(日本) - vec(東京) + vec(パリ) → vec(フランス)
• 推奨 映画のBacktoFutureにviolenceを強くした映画は?
 vec(バックツウザフューチャ) + 2×vec(暴力) → vec(ターミネータ)
+ =2×violence
word2vecの背景理論
①なぜword2vecはvectorを使うのか
②なぜword2vecは学習できるのか
③なぜword2vecは加減算で推論できるのか
word2vecの理論背景には以下の論文と解説がある
①A Latent Variable Model Approach to PMI-basedWord
Embeddings  Sanjeev Arora+ (TACL 2016)
②統数研 持橋大地先生の解説資料 (最先端NLP8)
   http://chasen.org/~daiti-m/paper/SNLP8-latent.pdf
①word2vecはvectorを使うのか
• word2vecのvectorの推定方法(skip-gram)
– 最適なvector算出するためvectorの内積を使う
– 発生確率を教師データとするsoftmaxの回帰モデル
単語Wiとその前後の単語Woの発生確率
教師データ softmax関数
①word2vecはvectorを使うのか(理論)
A Latent Variable Model Approach to PMI-basedWord Embeddings
単語の発生確率をsoftmax関数で算出できると仮定する
上記論文では以下の定理2.2(a) (b)が成立する
定理2.2(a) 隣合う文字v wの同時生起確率の対数はvector演算となる
softmax関数
①word2vecはvectorを使うのか(理論)
A Latent Variable Model Approach to PMI-basedWord Embeddings
定理2.2 (b)
  単語v w間の内積がPMI(相互情報量)に近似できる
定理2.2(a)を代入すると上式が求まる
 
   
     wpvpwvp
wpvp
wvp
loglog,log
,
log 
PMI情報量
• (he has) (are the) 等のよく出てくる結びつきは意味がない。
  (beer wine) (oil economy)の結びつきは意味がある
• 頻繁に出てこない単語でよく見るペアに意味がある
• PMI情報量は頻繁に出ないが、よく見るペアを表す
word2vecはPMI情報量(単語の内積)で回帰してvectorを求めている。
教師データ softmax関数
①word2vecはvectorを使うのか(証明)
A Latent Variable Model Approach to PMI-basedWord Embeddings
<前提>
時刻t において, ランダムウォークする文脈ベクトルct があり
単語vecotor wt の発生確率はsoftmax関数に従がうと仮定
この前提で観測するとZはCtに拘らず1
• 定理2.2 (a)の証明
①word2vecはvectorを使うのか(証明)
A Latent Variable Model Approach to PMI-basedWord Embeddings
定理2.2(a)
• 定理2.2の証明
①word2vecはvectorを使うのか(証明)
A Latent Variable Model Approach to PMI-basedWord Embeddings
※
②word2vecは学習できるのか
• 文字wiとその前後の複数文字wo1~Cの発生頻度で
最適なVectorをsoftmax関数の最尤値で解く
最尤値の更新式
Softmax関数を解く
Wovwji
v'ij
全単語について加算(事実上不可能)
wi
②word2vecは学習できるのか
• word2vecの最尤値解の簡便化?
 分母側を全単語ではなく、ランダム抽出とする
NegativeSampling法 計算量の削減
 V(全語)→VNeg(ランダム抽出)
σ:シグモイド関数
Wovwji
v'ij
wi
②word2vecは学習できるのか(理論)
• 対数尤度Lを最大となるVector v w を学習できればよい
Xvwは生起回数
これから
②word2vecの学習できるのか(証明)
よって
②word2vecは学習できるのか(証明)
※
生起回数Xvwを教師データとしてwは最小二乗解で算出できる
③word2vecの加法推論
• vec(king) - vec(man) + vec(woman) → vec(queen)
vec(king) - vec(qeen) = vec(man) - vec(woman)
)|(
)|(
log
)|(
)|(
log
),(
)(
)(
),(
log
),(
)(
)(
),(
log
),(
)()(
)()(
),(
log
),(
)()(
)()(
),(
log
)()(
),(
log
)()(
),(
log
)()(
),(
log
)()(
),(
log
)()(
),(
log
)(2.2
womanxp
manxp
queenxp
kingxp
womanxp
womanp
manp
manxp
queenxp
queenp
kingp
kingxp
womanxp
womanpxp
manpxp
manxp
queenxp
queenpxp
kingpxp
kingxp
manpxp
womanxp
manpxp
manxp
queenpxp
queenxp
kingpxp
kingxp
d
kingx
kingpxp
kingxp
b
womanxmanxqueenxkingx
x
womanmanqueenking
womanqueenmanking
t
tttt








これを用いると
より定理
を掛けて任意
加法則はこれを示す
証明
③word2vecの加法推論
定理2.2(a)より
Vの意味空間の存在
<x,y>は内積を示す
③word2vecの加法推論
>
<x,y>は内積を示す
まとめ
• 偶然発見されたword2vecの加法則は今回の
論文で限定的だが明らかにされた
• 今迄の自然言語解析は意味解析が殆ど無った
– 東大ロボは意味解析で失敗した (情報研 宮尾先生)
• 自然言語の意味理解には分散表現が加わった
– 記号表現(構文解析)
– 隠れ因子分析(LDAモデル)
– 分散表現(vector演算)
この融合が研究が期待される
<参考> 「自然言語の意味に対する2つのアプローチ」情報研 宮尾

Más contenido relacionado

La actualidad más candente

強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
Shota Imai
 

La actualidad más candente (20)

グラフニューラルネットワーク入門
グラフニューラルネットワーク入門グラフニューラルネットワーク入門
グラフニューラルネットワーク入門
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
 
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
 
グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
 
数式からみるWord2Vec
数式からみるWord2Vec数式からみるWord2Vec
数式からみるWord2Vec
 
[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
 
レコメンドアルゴリズムの基本と周辺知識と実装方法
レコメンドアルゴリズムの基本と周辺知識と実装方法レコメンドアルゴリズムの基本と周辺知識と実装方法
レコメンドアルゴリズムの基本と周辺知識と実装方法
 
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
 
強化学習その2
強化学習その2強化学習その2
強化学習その2
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
ブースティング入門
ブースティング入門ブースティング入門
ブースティング入門
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 

Similar a Word2vecの理論背景

情報システム概論 Kanban Pizza Game
情報システム概論 Kanban Pizza Game情報システム概論 Kanban Pizza Game
情報システム概論 Kanban Pizza Game
Yoshiaki Rikitake
 
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
Shuji Morisaki
 

Similar a Word2vecの理論背景 (20)

分析・モニタリングのために作文活動を測定するシステムの設計
分析・モニタリングのために作文活動を測定するシステムの設計分析・モニタリングのために作文活動を測定するシステムの設計
分析・モニタリングのために作文活動を測定するシステムの設計
 
情報システム概論 Kanban Pizza Game
情報システム概論 Kanban Pizza Game情報システム概論 Kanban Pizza Game
情報システム概論 Kanban Pizza Game
 
データ分析コンペでスキルアップしよう.pdf
データ分析コンペでスキルアップしよう.pdfデータ分析コンペでスキルアップしよう.pdf
データ分析コンペでスキルアップしよう.pdf
 
100614 構造方程式モデリング基本の「き」
100614 構造方程式モデリング基本の「き」100614 構造方程式モデリング基本の「き」
100614 構造方程式モデリング基本の「き」
 
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
 
新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて
新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて
新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて
 
組込みSW開発技術研究会キックオフミーティング
組込みSW開発技術研究会キックオフミーティング組込みSW開発技術研究会キックオフミーティング
組込みSW開発技術研究会キックオフミーティング
 
[DL輪読会]Parity Models: A General Framework for Coding-Based Resilience in ML I...
[DL輪読会]Parity Models: A General Framework for Coding-Based Resilience in ML I...[DL輪読会]Parity Models: A General Framework for Coding-Based Resilience in ML I...
[DL輪読会]Parity Models: A General Framework for Coding-Based Resilience in ML I...
 
マトリックス型テキスト編集モデルによる編集操作ログの実際と分析方針
マトリックス型テキスト編集モデルによる編集操作ログの実際と分析方針マトリックス型テキスト編集モデルによる編集操作ログの実際と分析方針
マトリックス型テキスト編集モデルによる編集操作ログの実際と分析方針
 
Cvpr2017事前読み会
Cvpr2017事前読み会Cvpr2017事前読み会
Cvpr2017事前読み会
 
機械学習モデルのサービングとは?
機械学習モデルのサービングとは?機械学習モデルのサービングとは?
機械学習モデルのサービングとは?
 
強化学習の汎用化Ai
強化学習の汎用化Ai強化学習の汎用化Ai
強化学習の汎用化Ai
 
M2M製品開発におけるmrubyの効果160726
M2M製品開発におけるmrubyの効果160726M2M製品開発におけるmrubyの効果160726
M2M製品開発におけるmrubyの効果160726
 
モデルベースソフトウェア開発
モデルベースソフトウェア開発モデルベースソフトウェア開発
モデルベースソフトウェア開発
 
Tokai radical20131128
Tokai radical20131128Tokai radical20131128
Tokai radical20131128
 
ChatGPT Impact - その社会的/ビジネス価値を考える -
ChatGPT Impact - その社会的/ビジネス価値を考える -ChatGPT Impact - その社会的/ビジネス価値を考える -
ChatGPT Impact - その社会的/ビジネス価値を考える -
 
視覚化サービス構築の際に気をつけること
視覚化サービス構築の際に気をつけること視覚化サービス構築の際に気をつけること
視覚化サービス構築の際に気をつけること
 
ICDE 2014参加報告資料
ICDE 2014参加報告資料ICDE 2014参加報告資料
ICDE 2014参加報告資料
 
論文執筆の環境をめぐる最新の状況と、学会の査読・編集システムを持続可能とするための方策の検討
論文執筆の環境をめぐる最新の状況と、学会の査読・編集システムを持続可能とするための方策の検討論文執筆の環境をめぐる最新の状況と、学会の査読・編集システムを持続可能とするための方策の検討
論文執筆の環境をめぐる最新の状況と、学会の査読・編集システムを持続可能とするための方策の検討
 
5 1
5 15 1
5 1
 

Más de Masato Nakai

Más de Masato Nakai (20)

Padoc_presen4R.pdf
Padoc_presen4R.pdfPadoc_presen4R.pdf
Padoc_presen4R.pdf
 
Factor analysis for ml by padoc 6 r
Factor analysis for ml by padoc 6 rFactor analysis for ml by padoc 6 r
Factor analysis for ml by padoc 6 r
 
報酬が殆ど得られない場合の強化学習
報酬が殆ど得られない場合の強化学習報酬が殆ど得られない場合の強化学習
報酬が殆ど得られない場合の強化学習
 
Padocview anonimous2
Padocview anonimous2Padocview anonimous2
Padocview anonimous2
 
presentation for padoc
presentation for padocpresentation for padoc
presentation for padoc
 
Ai neuro science_pdf
Ai neuro science_pdfAi neuro science_pdf
Ai neuro science_pdf
 
Deep IRL by C language
Deep IRL by C languageDeep IRL by C language
Deep IRL by C language
 
Open pose時系列解析7
Open pose時系列解析7Open pose時系列解析7
Open pose時系列解析7
 
Team ai 3
Team ai 3Team ai 3
Team ai 3
 
Semi vae memo (2)
Semi vae memo (2)Semi vae memo (2)
Semi vae memo (2)
 
Open posedoc
Open posedocOpen posedoc
Open posedoc
 
Dr.raios papers
Dr.raios papersDr.raios papers
Dr.raios papers
 
Deep genenergyprobdoc
Deep genenergyprobdocDeep genenergyprobdoc
Deep genenergyprobdoc
 
Irs gan doc
Irs gan docIrs gan doc
Irs gan doc
 
Semi vae memo (1)
Semi vae memo (1)Semi vae memo (1)
Semi vae memo (1)
 
Ai論文サイト
Ai論文サイトAi論文サイト
Ai論文サイト
 
Vae gan nlp
Vae gan nlpVae gan nlp
Vae gan nlp
 
機械学習の全般について 4
機械学習の全般について 4機械学習の全般について 4
機械学習の全般について 4
 
粒子フィルターによる自動運転
粒子フィルターによる自動運転粒子フィルターによる自動運転
粒子フィルターによる自動運転
 
Icpによる原画像推定
Icpによる原画像推定Icpによる原画像推定
Icpによる原画像推定
 

Word2vecの理論背景