SlideShare a Scribd company logo
1 of 37
Download to read offline
DID , Synthetic Control and
CausalImpact
TokyoR #75
自己紹介
● Yusuke Kaneko
● 新卒1年目
● 東大経研統計コース → サイバーエージェント
● twitter:@coldstart_p
● github:https://github.com/ykaneko1992
● 趣味: Kaggle(Kaggle Master)
kaggleのアイコン
今日の話
Difference-in-Difference(DID),
Synthetic Control Methodの手法紹介 +
CasusalImpactパッケージの紹介
Part1.
Difference-in-Difference
(DID)
Case Study 1(最低賃金)
● 最低賃金引き上げが雇用に与える影響を考える
○ 労働経済学の理論的には「 最低賃金引き上げは雇用を減らす 」のが通説だった
○ 雇用コストが上がると企業は雇用調整を行い労働量を調整するという均衡理論に基づく
○ これが理論的に正しいのかを検証した Card and Krueger(1994)の例を取り上げる
● 1992年のニュージャージー州での最低賃金引き上げのデータを用いる
○ 最低賃金を4.25ドルから5.05ドルへ引き上げ
● この事例を用いてどのように 因果効果を検証をするのか?
Which is True?
● 一番確実な方法は,賃金引き上げを州ごとにランダムに割り当てて差を見る (RCT)
○ しかし社会的にRCTはコストが高い
○ 今回の事例ではニュージャージー州のデータがあり,それを上手く用いたい
● 特に社会的な事例ではランダムな施策割当が困難なケースが多い.
○ 主に経済学ではこのような Research Problemを持つケースが多い
○ そのため,因果推論の手法が多く開発されてきた
○ 今回はDifference-in-Difference(DID)を用いる
RCT & 因果推論
Ideas
● 処置を受けたか否かを二値変数 Tで表す
● Card and Kruegerではペンシルバニア (T=0)のデータを使用
● idea1 : 「C - A」で求める
○ これだと時間経過による影響 (トレンド)と処置による影響を分離できていないのでダメ
● idea2 : 「C - E」で求める
○ これだと元からあった AとBの差を考慮できていないのでダメ
ニュージャージー(T=1)
ペンシルバニア(T=0)
A
B
C
E
時間
引き上げ前(t0) 引き上げ後(t1)
就業率
= C-A
= C-E
DID
● 本来比べなくてはいけないのは,ニュージャージー (T=1)とニュージャージ(T=0)の差
● 上の点Cと点Dの差が因果効果( = τ)となるが,T=0の時のニュージャージーは観測不可能
● ペンシルバニアとニュージャージーのトレンドが等しい と仮定(平行トレンド仮定)
○ このとき,τは,τ = C - D = (C - A) - (E - B)で求めることが可能
○ これをDID法と呼ぶ
ニュージャージー(T=1)
ニュージャージー(T=0)
ペンシルバニア(T=0)
A
B
C
D
E
時間
引き上げ前(t0) 引き上げ後(t1)
= 因果効果
就業率
= E - B
= C-A
平行トレンド仮定
DID(R)
● Naiveに導出するならば,集計だけで可能
● 2.7で正なため「最低賃金引き上げは雇用を減らす」 という理論的な結果とは 逆の結果に
CA
B E
(C - A) - (E - B) = 2.753
回帰DID(R)
● Card and Krueger(1994)のデータでは,チェーン店か否かなどのダミー変数が存在
○ バーガーキングか,ケンタッキーか,共同経営か,など
● これらの共変量を追加して線形回帰を回すのが 回帰DID
○ lm関数で簡単に実行可能
○ 上記では,要はチェーン店などの影響をコントロールしている
● 回帰DIDには以下の例のようなメリットが有る
○ 地域ごとに固有の変数をいれることで,平行トレンド仮定を妥当にする
○ 対照群の追加や期間の追加などが可能
回帰DID(R)
● NJ変数の効果は2.78
● 集計の結果とはあまり変わらず
● (余談) : 「最低賃金引き上げは雇用を減らす」
という理論的な結果と逆になったことで色々
な反証,検証論文が出ている
Problem
● DIDの問題点として以下の 2つが挙げられる
1. 対照群の選び方
■ DIDは対照群の選び方で結果が大きく変わることが知られている
■ 研究者は主観的に平行トレンド仮定を満たすような対照群を選ぶ
■ 上記の選び方は恣意的にならざるを得ない
2. 集計データを用いることの問題
■ 集計データの不確実性が推定値に与える誤差を排除できない
● 上の2つを解決するために Synthetic Control Methodを用いる
● 「データから,適した対照群を生成する 」というのがアイディア
Part2.
Synthetic Control Method
(Synth)
Case Study 2(GDP & Terror)
● スペインのバスク地方では ETA(バスク組織と自由)という民族組織によるテロが頻発
○ ETAは1968年に初の死者が発生
○ 上は1968年から97年にかけてのバスク地方での ETAのテロ被害の要約
○ バスク地方のみで全体の約 70%, 他の地方に比べて約 37倍の年間ごと死者数
● このテロ活動が,バスク地方の GDPにどれだけ負の影響を与えたのかを分析したい
Case Study 2(GDP & Terror)
● ETAの活動記録
● 特に72年以降は毎年死者が発生死者数
Data
● Synthパッケージから取得
● バスク含めて18の地域のデータの1955年 ~ 1997年の年次データ
● 被説明変数は一人当たり実質GDP
● 以下の共変量などが存在
○ 農業やサービス業などの産業セクターの対 GDP比率
○ 人的資本として中学や高校の卒業者数 (前処理で卒業率に変換が必要 )
○ 対GDPに対する投資比率
Plot
バスク地方
Synthetic Control
● 対照群の重み付け平均を行うことで,仮想のバスク地方を構成する
● 現実のバスクの共変量との誤差が最小になるよう に,重みを構成する
● 右図の点線と実線の差がテロの影響となる
現実のバスク
テロが起きなかった
仮想のバスク
バスク以外の地区
重み付け
平均 比較
Synth Package
● detaprep関数でsynthの実行用のデータを用意
Synth Package
● synth関数で実行
現実のバスク
仮想のバスク
一番右の対照群平均から
仮想のバスクを上手く重み
付け平均で構成出来てい
る
Plot(Path)
実線が現実のバスク,点線が仮想のバスク
Plot(Gap)
現実のバスクと仮想のバスクの Gapをプロットしたもの
Placebo
● 分析の検証のためにプラシーボテストが推奨されている
● 要はバスクではなくテロの影響が薄い別の地域を処置群にしてみる
● 上のPlotはカタロニアを処置群にした時の結果 = 「マイナス効果は薄い 」
Merit
● Synthetic Controlのメリットとして以下の 2つが挙げられる
1. 対照群の選択に対して恣意性を排除可能
■ 仮想のバスクをdata-drivenに構成するため,主観性を排除可能
2. 推定値の信頼性
■ Synthetic Controlでは,バスクの各期における共変量と仮想のバスクの被説明変数が
重みが正かつ和が1になるような重み付けで表現可能という仮定をおいている
■ これにより,極度におかしな外挿値を出すことはない
Problem
● Synthetic Controlの問題点として以下の 2つが挙げられる
1. 対照群の数が多くないといけない
■ 重み付けで仮想のバスクを構成している
■ そのため,十分なサイズの対照群がないとうまく構成ができない
2. 重みにおける制約
■ 前のページにおける仮定,制約は相当強いため,検討が必要
■ 最新の研究だと重みの和についての制約を除いた拡張が出ているらしい
● 上記の問題に対して CausalImpactが提案
→ 処置0の仮想のバスクを再現するのに対照群なんていらなくない ? というアイディア
Part3.
CausalImpact
CausalImpact
● 左は先程のバスクの推定結果
● ここの処置を受けてない部分について考える
○ 処置に影響受けてない = 構造変化なし
● CausalImpactの実行
○ 点線部を状態空間モデル + MCMCで予測
Data
● Synthとの比較のためにgsynthパッケージからシミュレーションデータを使用
● 対照群45個,処置群5個で,期間20において処置がされる
CausalImpact
● id = 105を使用
● 処置前と処置後の期間を指定
● CausalImpact関数で実行
CausalImpact(Plot)
● plot関数で表示可能
● 上から,再現されたPath , 実際のid105と仮想105との差分,累積効果
CausalImpact & Synth(Path)
● SynthとCausalImpactの比較図(Path)
● Synthはid 106以降から仮想105を生成
● 処置後の傾向はある程度再現できている ?
CausalImpact & Synth(Gap)
● SynthとCausalImpactの比較図(Gap)
● 上昇傾向は一致
Merit
● CausalImpactのメリットとして以下が挙げられる
○ 対照群が必要ない
■ DIDやSynthetic Contolでは対照群が必要だった
■ データ取得の制約によって適切な対照群が得られないケースも有る
■ このようなケースにおいて上手く使える
■ (Google製なのもあり)ネット広告キャンペーンの効果推定などに使うケースあり
Problem
● CausalImpactの問題点として以下が挙げられる
○ 構造変化のショックに弱い
■ 処置後にTreatment以外に強い変動が起きた場合はその検出はできない
■ 右図は論文からの引用
■ 縦軸は推定の誤差
■ 青は構造ショックなし
■ 赤は構造ショックあり
■ 赤のほうが誤差が非常に大きい
まとめ
● DID , Synthetic Control , CausalImpactの手法紹介 + Rでの実行方法の紹介
○ 各手法の欠点などを紹介し,新規手法が提案された背景も紹介
● また,DIDやSynthetic Controlを用いた因果推論の実証例を紹介
スライドの内容について
● 内容は主に以下の論文を参照しました.
○ DID
■ CARD, DAVID, and ALAN B. KRUEGER. "Minimum Wages and Employment: A Case Study of the Fast-Food
Industry in New Jersey and Pennsylvania." The American. Economic Review84.4 (1994)..
○ Synthetic Control
■ Abadie, Alberto, Alexis Diamond, and Jens Hainmueller. "Synthetic control methods for comparative case studies:
Estimating the effect of California’s tobacco control program." Journal of the American statistical Association 105.490
(2010): 493-505.
■ Abadie, Alberto, and Javier Gardeazabal. "The economic costs of conflict: A case study of the Basque Country."
American economic review 93.1 (2003): 113-132.
■ Abadie, Alberto, Alexis Diamond, and Jens Hainmueller. "Synth: An r package for synthetic control methods in
comparative case studies." (2011).
スライドの内容について
● 内容は主に以下の論文を参照しました.
○ CausalImpact
■ Brodersen, Kay H., et al. "Inferring causal impact using Bayesian structural time-series models." The Annals of
Applied Statistics9.1 (2015): 247-274.

More Related Content

What's hot

ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定Akira Masuda
 
Stanコードの書き方 中級編
Stanコードの書き方 中級編Stanコードの書き方 中級編
Stanコードの書き方 中級編Hiroshi Shimizu
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介Naoki Hayashi
 
2 4.devianceと尤度比検定
2 4.devianceと尤度比検定2 4.devianceと尤度比検定
2 4.devianceと尤度比検定logics-of-blue
 
相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心takehikoihayashi
 
統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)Kota Mori
 
因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説Shiga University, RIKEN
 
心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理するHiroshi Shimizu
 
構造方程式モデルによる因果探索と非ガウス性
構造方程式モデルによる因果探索と非ガウス性構造方程式モデルによる因果探索と非ガウス性
構造方程式モデルによる因果探索と非ガウス性Shiga University, RIKEN
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門Kawamoto_Kazuhiko
 
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章Shuyo Nakatani
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデルYohei Sato
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Kota Matsui
 
Cmdstanr入門とreduce_sum()解説
Cmdstanr入門とreduce_sum()解説Cmdstanr入門とreduce_sum()解説
Cmdstanr入門とreduce_sum()解説Hiroshi Shimizu
 
因果推論の奥へ: "What works" meets "why it works"
因果推論の奥へ: "What works" meets "why it works"因果推論の奥へ: "What works" meets "why it works"
因果推論の奥へ: "What works" meets "why it works"takehikoihayashi
 

What's hot (20)

ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
 
Stanコードの書き方 中級編
Stanコードの書き方 中級編Stanコードの書き方 中級編
Stanコードの書き方 中級編
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
 
2 4.devianceと尤度比検定
2 4.devianceと尤度比検定2 4.devianceと尤度比検定
2 4.devianceと尤度比検定
 
相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心
 
統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)
 
Stan超初心者入門
Stan超初心者入門Stan超初心者入門
Stan超初心者入門
 
因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説
 
心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する
 
WAICとWBICのご紹介
WAICとWBICのご紹介WAICとWBICのご紹介
WAICとWBICのご紹介
 
構造方程式モデルによる因果探索と非ガウス性
構造方程式モデルによる因果探索と非ガウス性構造方程式モデルによる因果探索と非ガウス性
構造方程式モデルによる因果探索と非ガウス性
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM) 一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
 
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデル
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
 
Cmdstanr入門とreduce_sum()解説
Cmdstanr入門とreduce_sum()解説Cmdstanr入門とreduce_sum()解説
Cmdstanr入門とreduce_sum()解説
 
因果推論の奥へ: "What works" meets "why it works"
因果推論の奥へ: "What works" meets "why it works"因果推論の奥へ: "What works" meets "why it works"
因果推論の奥へ: "What works" meets "why it works"
 
MICの解説
MICの解説MICの解説
MICの解説
 
因果推論の基礎
因果推論の基礎因果推論の基礎
因果推論の基礎
 

More from Yusuke Kaneko

Kdd 2021 読み会(clustering for private interest-based advertising & learning a l...
Kdd 2021 読み会(clustering for private interest-based advertising & learning a l...Kdd 2021 読み会(clustering for private interest-based advertising & learning a l...
Kdd 2021 読み会(clustering for private interest-based advertising & learning a l...Yusuke Kaneko
 
企業の中の経済学
企業の中の経済学企業の中の経済学
企業の中の経済学Yusuke Kaneko
 
LightGBM: a highly efficient gradient boosting decision tree
LightGBM: a highly efficient gradient boosting decision treeLightGBM: a highly efficient gradient boosting decision tree
LightGBM: a highly efficient gradient boosting decision treeYusuke Kaneko
 
How to correctly estimate the effect of online advertisement(About Double Mac...
How to correctly estimate the effect of online advertisement(About Double Mac...How to correctly estimate the effect of online advertisement(About Double Mac...
How to correctly estimate the effect of online advertisement(About Double Mac...Yusuke Kaneko
 
効果のあるクリエイティブ広告の見つけ方(Contextual Bandit + TS or UCB)
効果のあるクリエイティブ広告の見つけ方(Contextual Bandit + TS or UCB)効果のあるクリエイティブ広告の見つけ方(Contextual Bandit + TS or UCB)
効果のあるクリエイティブ広告の見つけ方(Contextual Bandit + TS or UCB)Yusuke Kaneko
 

More from Yusuke Kaneko (7)

Kdd 2021 読み会(clustering for private interest-based advertising & learning a l...
Kdd 2021 読み会(clustering for private interest-based advertising & learning a l...Kdd 2021 読み会(clustering for private interest-based advertising & learning a l...
Kdd 2021 読み会(clustering for private interest-based advertising & learning a l...
 
企業の中の経済学
企業の中の経済学企業の中の経済学
企業の中の経済学
 
TokyoR_74_RDD
TokyoR_74_RDDTokyoR_74_RDD
TokyoR_74_RDD
 
LightGBM: a highly efficient gradient boosting decision tree
LightGBM: a highly efficient gradient boosting decision treeLightGBM: a highly efficient gradient boosting decision tree
LightGBM: a highly efficient gradient boosting decision tree
 
Hastie_chapter5
Hastie_chapter5Hastie_chapter5
Hastie_chapter5
 
How to correctly estimate the effect of online advertisement(About Double Mac...
How to correctly estimate the effect of online advertisement(About Double Mac...How to correctly estimate the effect of online advertisement(About Double Mac...
How to correctly estimate the effect of online advertisement(About Double Mac...
 
効果のあるクリエイティブ広告の見つけ方(Contextual Bandit + TS or UCB)
効果のあるクリエイティブ広告の見つけ方(Contextual Bandit + TS or UCB)効果のあるクリエイティブ広告の見つけ方(Contextual Bandit + TS or UCB)
効果のあるクリエイティブ広告の見つけ方(Contextual Bandit + TS or UCB)
 

DID, Synthetic Control, CausalImpact