2. 背景:「モノ」から「コトへ」
車 vs
家族でのドライブ
家 vs 家庭生活
SNS
vs
知人の近況、いいね
SNS
vs
膨大な広告視聴者
SNS
vs
行動変容・社会変革
ビッグデータ(ベース)
vs
リアルな社会情勢
(凄い)「モノ」 そのものよりも、
「モノ」を通じて得られる(善いこと)「コト」が大事!
27. [PLSA]
y
x
u
P(u)
P(x|u) P(y|u)
Customer xi
Item yj
Observed variables
Latent class uk
スーパーのID-POS データ
“購買履歴+customer and item ID”
• 期間:Oct.1. 2008 – Sep.30.2009 (1 year)
• データ数 : 669,511,467 transactions.
ProbabilisCc
Latent
SemanCc
Analysis
(PLSA)
Step 1 : 顧客と商品の共起行列を作成
Step 2 : 対数尤度を最大化するような P(x|u), P(y|u), P(u) をEM法で探索
Step 3 : uを増やし1,2を繰り返して情報量規準により潜在クラスの数を決定
Step 4: argmaxu P(u|x) and P(u|y) により顧客xと商品yが所属
する潜在クラスu を決める。
うち、アンケートにも回答している
3,981 人のデータと売上が上位の
1,000 items を抽出
→ 約420万 transactions を対象
P(xi, yj) = P(xi | uk)P(yj | uk)
k
∑ P(uk)
28. Step1
:
共起行列
User1 buy Item1 and Item M,
User2 buy Item1 and Item2,
:
User N buy Item2
ID POS data
Co-occurrence matrix
顧客iと商品j共起頻度: Nij
共起行列:N11, …. NNM
29. P(uk | xi, yj ) =
P(xi, yj,uk )
P(xi, yj )
=
P(uk )P(xi | uk )P(yj | uk )
P(uk )P(xi | uk )P(yj | uk )
k
U
∑
P(xi | uk ) =
Nij P(uk | xi, yj )
i
X
∑
Nij P(uk | xi, yj )
j
Y
∑i
X
∑ P(uk ) =
Nij P(uk | xi, yj )
j
Y
∑i
X
∑
Nij P(uk | xi, yj )
k
U
∑j
Y
∑i
X
∑
P(yj | uk ) =
Nij P(uk | xi, yj )
i
X
∑
Nij P(uk | xi, yj )
j
Y
∑i
X
∑
[E-step]
[M-step] 対数尤度 L を最大化する P(xi|uk), P(yj|uk) , P(uk) の更新式.
Step2
:
EMアルゴリズムによるパラメータ推定
1 PLSAのパラメータ の初期値は乱数で設定.
2 次のE-step (expectation), M-step (Maximization) を
対数尤度 が収束するまで繰り返す L = Nij logP(xi, yj )
j
∑
i
∑
P(xi | uk), P(yj | uk), P(uk)
30. Step3
:
潜在クラスの数を増やしながら情報量規準
を観測→ 最小のモデル(潜在クラス数 U
)を採用
122600000
122800000
123000000
123200000
123400000
123600000
123800000
124000000
124200000
124400000
124600000
AICscore
The number of latent item category U
Averagely, optimal
number