5. InfluenceとHomophilyの定義する
Influence Homophily
j君がiPhoneよかったよ!と⾔言うので iさんとj君はiPhoneを買った。⼆二⼈人は友達
iさんはiPhoneを買った。 ではない。年齢、⾏行行動パターンが類似。
×
∗
ai ← ∗
aj ai ← ci .
∗
ai . si .
aj ← cj .
∗
aj . sj .
∗
:iやjの⾏行行動や選択(例:肥満の伝染、友達が買ったので⾃自分も買う)
a
a :iやjの他の⾏行行動や選択
c :iやjの個⼈人属性(例:性別、年齢など)
s :iやjの状態(例:肥満、幸福など)
10. 傾向スコアとは?
Treated
Group Untreated
Group
Ti = 1 Ti = 0
Treated
Outcome
y1 Treated
Data Missing
Data
Untreated
Outcome
Missing
Data Untreated
Data
y0
Covariance Xi
因果関係を求める際、Treated
Groupの間での効果を調べるため、
Treated
Groupのy1とy0を使って計算したいのだが、
y0の⽅方は観測されていない⽋欠測データ(Missing
Data)なので⽤用いることができない。
11. 傾向スコアとは?
Treated
Group Untreated
Group
Ti = 1 Ti = 0
Treated
Outcome
y1 Treated
Data Missing
Data
Untreated
Outcome
y0 Missing
Data
= Untreated
Data
Covariance Xi
そこで共変量(Covariance)の値がTreated
GroupとUntreated
Groupで
等しい時の割り当てはランダムと仮定をおき、
また共変量(Covariance)が同じならば
T=0のy0の期待を代⽤用できるとすれば因果関係を計算することができる。
※数式的証明は[宮川
04,
星野09]を参照
12. 傾向スコアとは?
共変量 共変量を説明変数に加える
傾向スコアよりどちらの処理に 傾向スコア
割り付けられやすいか計算する
Treated
Group Untreated
Group
Ti = 1 Ti = 0
Treated
Outcome
y1 Treated
Data Missing
Data
Untreated
Outcome
Missing
Data Untreated
Data
y0
Covariance Xi
13. 傾向スコアの定義
傾向スコアとは、割り付けられやすさの指標のこと。確率なので範囲は 0 ≤ ei ≤ 1.
ei = p(zi = 1 | xi )
Xiの条件付きで処置1(z=1)に割り当てられる確率
ei : 対象者iがグループ1に割り当てられる確率
zi = 1 : 処置1に割り当て ※割り当て変数は⼆二値{0,1}
xi : 対象者iの共変量ベクトル
15. ARAL論⽂文の傾向スコア
Aral論⽂文では傾向スコアを使ってhomophily
effect(類友効果)を計測している。
exp[αit + βit Xit + it ]
pit = P (Tit = 1) | Xit ) =
1 + exp[αit + βit Xit + it ]
Tit = 1 : ある時間間隔ΔtにおいてYahoo!Goをアダプトした友⼈人が⼀一⼈人以上いる
Xit : 対象者iの共変量ベクトル(33個のベクトルを使ったようだ)
it : 対象者iの個体差
※Δtは、 で計算される。 ∆t = ti − tj = R
a a
a
-
t
は、対象者iがアダプトした時間。
i
a
-
tj は、対象者jがアダプトした時間。対象者iの友達である。
※分⺟母分⼦子に
+
it
it
+
を掛けると(式1)となる。どちらでも同じこと。
exp[αit
β
X
it ]
この傾向スコアを使い、Adopt率=Treatedの数(n+)/Untreatedの数(n-)を計算する。
21. 今やっている「複雑ネットワーク勉強会」の開催場所
Facebookページ『複雑ネットワーク』:
http://www.facebook.com/pages/%E8%A4%87%E9%9B
%91%E3%83%8D%E3%83%83%E3%83%88%E3%83%AF
%E3%83%BC%E3%82%AF/309875385698514
References
• Sinan
Aral,
Lev
Muhnik,
Arun
Sundararajan,
Distinguishing
influence-based
contagion
from
homophily-driven
diffusion
in
dynamic
networks (2009)
• Aris
Anagnostopoulos,
Ravi
Kumar,
Mohammad
Mahdian,
Influence
and
Correlation
in
Social
Networks (2008)
• M.
E.
J.
Newman,
Mixing
patterns
in
networks (2003)
• Paul
R.
Rosenbaum,
Donald
B.
Robin,
The
central
Role
of
the
propensity
score
in
observational
studies
for
causal
effects (1983)
• Giuseppe
Biondi-Zoccai,
et
al.,
Are
propensity
scores
really
superior
to
standard
multivariable
analysis? (2011)
• M.
Scoledad
Cepeda,
et
al.,
Comparison
of
Logistic
Regression
versus
Propensity
Score
When
the
Number
of
Events
Is
Low
and
There
Are
Multiple
Confounders (2003)
• 宮川雅⺒巳:『統計的因果推論』,朝倉書店(2009)
• 星野崇宏:『調査観察データの統計科学』,岩波書店(2010)
• Annette
J.
Dobson著/⽥田中豊・森川敏彦・⼭山中⽵竹春・冨⽥田誠訳:『⼀一般化線形モデル⼊入⾨門第2版』,共⽴立立出版(2011)
• 増⽥田直紀・今野紀雄:『複雑ネットワーク-基礎から応⽤用まで』,近代科学社(2010)
• 増⽥田直紀:『なぜ3⼈人いると噂が広まるのか』,⽇日本経済新聞出版社(2012)
• ニコラス・A・クリスタキス、ジェイムズ・H・ファウラー著、⻤⿁鬼澤忍訳:『つながり-社会的ネットワークの驚くべき⼒力力』,講談社(2010)
• 『⼈人の好みにクチコミは効かない』(2011).Wired
Japanese
Edition:
http://wired.jp/2011/12/26/%E3%80%8C%E4%BA%BA%E3%81%AE%E5%A5%BD%E3%81%BF%E3%81%AB
%E3%82%AF%E3%83%81%E3%82%B3%E3%83%9F%E3%81%AF%E5%8A%B9%E3%81%8B%E3%81%AA%E3%81%84%E3%80%8D%E2%94%80%E2%94%80%E3%83%8F%E3%83%BC%E3%83%B4%E3%82%A1/
• @yokkuns:『Rで学ぶ傾向スコア解析⼊入⾨門』(2011).
slideshare:
http://www.slideshare.net/yokkuns/r-9387843
• @isseing333:『観測データでの効果推定(傾向スコア、IPW、DR)』(2011).
blog:
http://d.hatena.ne.jp/isseing333/20110511/1305124310
• 林岳彦:『傾向スコア:その概念とRによる実装』(2012).
slideshare:
http://www.slideshare.net/takehikoihayashi/propensity-score-
analysis-seminar-japanese
• 久保拓弥:『「個体差」を階層ベイズモデルであつかう』(2007).
pdf:
http://hosho.ees.hokudai.ac.jp/~kubo/stat/2006/b/kubostat2006b.pdf
• 星野崇宏・楠⽊木良⼀一対談:『ネット調査を補正する「傾向スコア」の可能性』,(2007)
article:
http://adv.yomiuri.co.jp/ojo/02number/200709/09toku2.html