傾向スコアでみるソーシャルネットワーク分析

傾向スコアでみる
ソーシャルネットワーク分析
-
⼝口コミとメディア広告ではどちらの影響⼒力力が強いのか
-

おしゃれStatisticsⅥ
6th
of
June,
2012
@millionsmile

Behavior
Correlation
in
Network
• ⼈人間の⾏行行動は時空間ネットワーク上ではクラスター化しやすい。
例）Christakis
&
Fowlerの有名な研究である「肥満は伝染する」

• ⼈人間の⾏行行動はしばしばネットワークの構造に「相関」があると⾔言われる。
-
Peer
inﬂuence(仲間による影響など：友達が買ったから⾃自分も買う)
-
Homophily(類友：似たもの同⼠士は似たような⾏行行動を起こしやすい)
-
Confounding
Factors(交絡因⼦子：周辺環境など外部の影響によって起こす⾏行行動)
-
Selection(選択：トライアスロンをしている者同⼠士は友達になりやすい)

• 注意！「相関関係は必ずしも因果関係を意味しない」
例）朝ごはんを⾷食べると成績があがる？
　　　朝ごはんを⾷食べたら成績があがるという因果関係はない。
　　　朝ごはんを⾷食べている⼦子は成績の平均が⾼高いという統計的に関連があるのだよ、というお話。

情報が伝播する上で重要となってくる
２つのネットワークの特徴

• Assortative
mixing
-
ネットワーク上の繋がっているノード（⼈人）同⼠士が似ている
傾向、あるいはその特性に何かしらの正の相関(assortative)がある。
mixingは⼈人間関係の場合であれば、話す⾔言語や⼈人種といった離散的性質のデータと、
年齢といったスカラー的性質のデータをmixして計算するということ[Newman
03]

• Temporal
clustering
-
ネットワーク上の繋がっているノード（⼈人）の⾏行行動は時空間
的には独⽴立立している。例えば、幸せが伝染するといったときに、同時タイミングで幸せ
になるわけではない。誰かが幸せになって、別の誰かが幸せになると時間的なタイミン
グは独⽴立立している。とはいえ、ある程度時間的には固まって発⽣生するものである。

⾏行行動を起こしやすい情報伝播ネットワーク

情報伝播というと、複雑ネットワークではSISモデルやSIRモデルといった感染の数
理モデルが有名。※定義については[増⽥田
01]参照。

今⽇日はちょっと味⽅方を変え、
「⾏行行動を起こしやすいの情報伝播ネットワーク」
をみていく。

例）iPhoneを買ったのは、友達の影響なのか、メディアや広告の影響なのか。

InﬂuenceとHomophilyの定義する

Inﬂuence Homophily
j君がiPhoneよかったよ！と⾔言うので iさんとj君はiPhoneを買った。⼆二⼈人は友達
iさんはiPhoneを買った。ではない。年齢、⾏行行動パターンが類似。

×
∗
ai ← ∗
aj ai ← ci .
∗
ai . si .
aj ← cj .
∗
aj . sj .
∗
　：iやjの⾏行行動や選択（例：肥満の伝染、友達が買ったので⾃自分も買う）
a
a 　：iやjの他の⾏行行動や選択
c 　：iやjの個⼈人属性（例：性別、年齢など）
s 　：iやjの状態（例：肥満、幸福など）

InfluenceとHomophilyの違い

• マーケティング戦略におけるInfluenceとHomophilyの違い
-
⼝口コミ戦略vsメディア広告戦略
-
インフルエンサーをターゲットにするvs顧客プロフィールから市場セグメントをする

• 情報の伝播におけるInfluenceとHomophilyの違い
-
influence-basedの情報伝播
-
連鎖反応、迅速、指数関数的な変化、予測が難しい
-
homophily-basedの情報伝播
-
ノードの特性から予測可能であり統制しやすい

InfluenceとHomophilyでは
どちらの⽅方が影響⼒力力があるのだろうか

• Yahoo!
Goという新サービスが、InfluenceとHomophilyのどちらの効果によって広
まっていったのかを観察した論⽂文がある[Sinan
Aral
et
al.(2009)]
-
Homophilyは傾向スコアによるマッチングで算出
-
Influenceはランダムマッチングで算出

実際の研究論⽂文をみつつ
傾向スコアについて理解する

DATA
• データはYahoo!のメッセンジャーユーザ2700万
⼈人のデータを利⽤用

• デモグラや地理情報などの詳細データを利⽤用

• 2007年7⽉月にローンチされたYahoo!
Goのアダ
プト率や利⽤用率を5ヶ⽉月に渡って⽇日々計測した

• サンプリングできたアダプターは53万ノード
ランダムサンプルしたノードは320万ノード

• 解析にはC++とComplex
Networks
Toolbox

for
Matlabを使ったらしい。共著者のLev
※Yahoo!
GoはYahoo!
MailやYahoo!
Photなどのサービスや
MuchnikさんのHPからDownloadできるみた Web上のコンテンツをPC、携帯、テレビからシームレスに利
⽤用できるサービス。2010年にサービス停⽌止しているらしい。
い。http://www.levmuchnik.net/Content/woomplexNetworksPackage.html

傾向スコアとは？
実験することができない調査観察のデータなどの交絡因子の調整方法のこと。
処理変数と結果変数の両方に相関する外部変数のことで、
交絡因子を解析時に調整しないと因果関係が推定できない。

処理変数結果変数

飲酒癌

喫煙
例えば、癌になる人は飲酒との相関が高
いと出たとする。しかし、飲酒している
人は喫煙との相関も考えられるし、メタ
ボとの相関も考えられる。メタボ
なので、癌の因果関係を求めるには、喫
煙とメタボの交絡も含めて計算する必要
がある。
交絡因子たち

Treated
Group Untreated
Group

Ti = 1 Ti = 0
Treated
Outcome

y1 Treated
Data Missing
Data

Untreated
Outcome

Missing
Data Untreated
Data
y0

Covariance Xi

因果関係を求める際、Treated
Groupの間での効果を調べるため、
Treated
Groupのy1とy0を使って計算したいのだが、
y0の⽅方は観測されていない⽋欠測データ(Missing
Data)なので⽤用いることができない。

Treated
Group Untreated
Group

Ti = 1 Ti = 0
Treated
Outcome

y1 Treated
Data Missing
Data

Untreated
Outcome

y0 Missing
Data
＝ Untreated
Data

Covariance Xi

そこで共変量(Covariance)の値がTreated
GroupとUntreated
Groupで
等しい時の割り当てはランダムと仮定をおき、
また共変量(Covariance)が同じならば
T=0のy0の期待を代⽤用できるとすれば因果関係を計算することができる。
※数式的証明は[宮川
04,
星野09]を参照

共変量共変量を説明変数に加える

傾向スコアよりどちらの処理に傾向スコア
割り付けられやすいか計算する

Treated
Group Untreated
Group

Ti = 1 Ti = 0
Treated
Outcome

y1 Treated
Data Missing
Data

Untreated
Outcome

Missing
Data Untreated
Data
y0

Covariance Xi

傾向スコアの定義
傾向スコアとは、割り付けられやすさの指標のこと。確率なので範囲は 0 ≤ ei ≤ 1.

ei = p(zi = 1 | xi )
Xiの条件付きで処置１(z=1)に割り当てられる確率

ei : 対象者iがグループ1に割り当てられる確率

zi = 1 : 処置１に割り当て　※割り当て変数は⼆二値{0,1}

xi : 対象者iの共変量ベクトル

傾向スコアの推定
傾向スコアの真値はわからないので、データから推定する。

通常ロジスティック回帰モデルが使⽤用される。
1
ei =
1 + exp(−(α + βx))

ˆ ˆ
この尤度を最⼤大化する最尤推定値{ 　,
β }を⽤用いることで傾向スコアの推定値が求める。
α 　
1
ei =
ˆ
α ˆ
1 + exp(−(ˆ + βx)) (式1)

ARAL論⽂文の傾向スコア
Aral論⽂文では傾向スコアを使ってhomophily
eﬀect(類友効果)を計測している。

exp[αit + βit Xit + it ]
pit = P (Tit = 1) | Xit ) =
1 + exp[αit + βit Xit + it ]

Tit = 1 : ある時間間隔ΔtにおいてYahoo!Goをアダプトした友⼈人が⼀一⼈人以上いる
Xit : 対象者iの共変量ベクトル(33個のベクトルを使ったようだ)
it : 対象者iの個体差

※Δtは、　　　　　　　で計算される。 ∆t = ti − tj = R
a a

a

-
t

は、対象者iがアダプトした時間。

i
a
　-
tj は、対象者jがアダプトした時間。対象者iの友達である。
　
※分⺟母分⼦子に

+

it

it
+

を掛けると(式1)となる。どちらでも同じこと。
exp[αit

β

X

it ]

この傾向スコアを使い、Adopt率=Treatedの数(n+)/Untreatedの数(n-)を計算する。

ARAL論⽂文の傾向スコア
ロジスティック回帰にε(個体差)を含めるかどうかの判断。

exp[αit + βit Xit + it ]
pit =
1 + exp[αit + βit Xit + it ]

-
ε(個体差)は観察者が観測していない興味のない量
-
個体差の過分散が⼤大きい場合、計算に含めないと結果が正しく推定できない
　※
αit + βit Xit
　　　　　　はpの平均値を変化させている→fixed
effect
　はpの平均値を変化させずばらつきだけをかえている→random
effect
　※
　it
　※
fixed
effectとrandom
effectの両⽅方を含む統計モデルを混合モデルという。
　※
過分散の⾒見見つけ⽅方については[久保
07]参照。

Aral論⽂文では、具体的にεにどんな値を設定しているのか記載されていないが
何かしらの調整を⾏行行なっているらしい、というのが数式よりわかる。

類友でべき分布

Adoptした友達が多いほど自分もadoptする確率が高まる
人間関係でよくみられる次数分布である。
→ほとんどがadpotした友達は圧倒的に少ない(1人)なので図がベキ分布する

時間軸でみるADOPT率

時間間隔を0日から6日間(Δt∈[0,6])で区切ってみたAdopt率
0日は対象者iと対象者jが同じ日にadoptしたということ

結果発表

Inﬂuenceによるadoptが49.8%, Homophilyによるadoptが50.2%
よって、微差ではあるがHomphilyの方が影響度が高い
※マーケティング施策としてはバイラルマーケティングもメディア広告も両方やったほうがよさげ

おまけ
多変量解析をする際によく使われるモデル：
-
Coxの⽐比例ハザードモデル
-
ロジスティック回帰モデル
-
傾向スコア

多変量解析をする際に時々使われるモデル：
-
ベイジアンモデル
-
ブーストラップ
-
マッチング
-
混合効果モデル
[Biondi-Zoccai
11]

2000年のアメリカ⼤大統領選挙でブッシュとゴアでほぼ互⾓角の戦いだったが、結果を正
確に予測したのは１社だけ。この1社はネット調査を傾向スコアで調整し予測した。
[星野・楠⽊木
07]

今やっている「複雑ネットワーク勉強会」の開催場所
Facebookページ『複雑ネットワーク』：
http://www.facebook.com/pages/%E8%A4%87%E9%9B
%91%E3%83%8D%E3%83%83%E3%83%88%E3%83%AF
%E3%83%BC%E3%82%AF/309875385698514

References
• Sinan
Aral,
Lev
Muhnik,
Arun
Sundararajan,
Distinguishing
influence-based
contagion
from
homophily-driven
diffusion
in
dynamic

networks (2009)
• Aris
Anagnostopoulos,
Ravi
Kumar,
Mohammad
Mahdian,
Influence
and
Correlation
in
Social
Networks (2008)
• M.
E.
J.
Newman,
Mixing
patterns
in
networks (2003)
• Paul
R.
Rosenbaum,
Donald
B.
Robin,
The
central
Role
of
the
propensity
score
in
observational
studies
for
causal
effects (1983)
• Giuseppe
Biondi-Zoccai,
et
al.,
Are
propensity
scores
really
superior
to
standard
multivariable
analysis? (2011)
• M.
Scoledad
Cepeda,
et
al.,
Comparison
of
Logistic
Regression
versus
Propensity
Score
When
the
Number
of
Events
Is
Low
and
There

Are
Multiple
Confounders (2003)
• 宮川雅⺒巳：『統計的因果推論』，朝倉書店(2009)
• 星野崇宏：『調査観察データの統計科学』，岩波書店(2010)
• Annette
J.
Dobson著/⽥田中豊・森川敏彦・⼭山中⽵竹春・冨⽥田誠訳：『⼀一般化線形モデル⼊入⾨門第2版』，共⽴立立出版(2011)
• 増⽥田直紀・今野紀雄：『複雑ネットワーク-基礎から応⽤用まで』，近代科学社(2010)
• 増⽥田直紀：『なぜ3⼈人いると噂が広まるのか』，⽇日本経済新聞出版社(2012)
• ニコラス・A・クリスタキス、ジェイムズ・H・ファウラー著、⻤⿁鬼澤忍訳：『つながり-社会的ネットワークの驚くべき⼒力力』，講談社(2010)
• 『⼈人の好みにクチコミは効かない』(2011).Wired
Japanese
Edition:
http://wired.jp/2011/12/26/%E3%80%8C%E4%BA%BA%E3%81%AE%E5%A5%BD%E3%81%BF%E3%81%AB
%E3%82%AF%E3%83%81%E3%82%B3%E3%83%9F%E3%81%AF%E5%8A%B9%E3%81%8B%E3%81%AA%E3%81%84%E3%80%8D%E2%94%80%E2%94%80%E3%83%8F%E3%83%BC%E3%83%B4%E3%82%A1/

• @yokkuns：『Rで学ぶ傾向スコア解析⼊入⾨門』(2011).
slideshare:
http://www.slideshare.net/yokkuns/r-9387843
• @isseing333：『観測データでの効果推定(傾向スコア、IPW、DR)』(2011).
blog:
http://d.hatena.ne.jp/isseing333/20110511/1305124310
• 林岳彦：『傾向スコア：その概念とRによる実装』(2012).
slideshare:
http://www.slideshare.net/takehikoihayashi/propensity-score-
analysis-seminar-japanese
• 久保拓弥：『「個体差」を階層ベイズモデルであつかう』(2007).
pdf:
http://hosho.ees.hokudai.ac.jp/~kubo/stat/2006/b/kubostat2006b.pdf
• 星野崇宏・楠⽊木良⼀一対談：『ネット調査を補正する「傾向スコア」の可能性』，(2007)
article:
http://adv.yomiuri.co.jp/ojo/02number/200709/09toku2.html

傾向スコアでみるソーシャルネットワーク分析

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a 傾向スコアでみるソーシャルネットワーク分析

Similar a 傾向スコアでみるソーシャルネットワーク分析 (18)

Más de Hiroko Onari

Más de Hiroko Onari (13)

Último

Último (16)