Publicidad
Publicidad

Más contenido relacionado

Publicidad

統計的因果推論の理論と実践10章.pdf

  1. 統計的因果推論の理論と実践 Chapter10 傾向スコア ML輪読会 2023/2/25 担当:寺澤
  2. 傾向スコアに入る前に ベストな因果推論は実験研究(ex:ランダム化比較検証) => なぜなら処置群と統制群で共変量の分布が同じだから Y(0) 年収 ・・・ 男女 比 年齢 平均 10 450 ・・・ 0.51 36 標準 偏差 5 60 ・・・ 0.5 10 中央 値 10.1 370 ・・・ 0 40 Y(1) 年収 ・・・ 男女 比 年齢 平均 15 450 ・・・ 0.51 36 標準 偏差 5.2 60 ・・・ 0.5 10 中央 値 12 370 ・・・ 0 40 <統制群> <処置群>
  3. 傾向スコアに入る前に ベストな因果推論は実験研究(ex:ランダム化比較検証) => なぜなら処置群と統制群で共変量の分布が同じだから Y(0) 年収 ・・・ 男女 比 年齢 平均 10 450 ・・・ 0.51 36 標準 偏差 5 60 ・・・ 0.5 10 中央 値 10.1 370 ・・・ 0 40 Y(1) 年収 ・・・ 男女 比 年齢 平均 15 450 ・・・ 0.51 36 標準 偏差 5.2 60 ・・・ 0.5 10 中央 値 12 370 ・・・ 0 40 <統制群> <処置群> 期待値の差 = 平均処置効果(ATE) 共変量を無視 共変量を無視
  4. 傾向スコアに入る前に しかし、実験研究(=無作為な処置の割り付け)は実現が難しい => そこで、ある条件で無作為実験を再現する(=準実験) => つまり、統制群と処理群の共分散の分布をそろえる => その条件の一つが傾向スコア
  5. 傾向スコアに入る前に しかし、実験研究(=無作為な処置の割り付け)は実現が難しい => そこで、ある条件で無作為実験を再現する(=準実験) => つまり、統制群と処理群の共変量の分布をそろえる => その条件の一つが傾向スコア
  6. 傾向スコアはバランシングスコアの一種 バランシングスコア =>共変量Xの関数b(X)が与えられたときのXの条件付き分布 が、処置群と統制群において同じとなる関数である。
  7. 傾向スコアはバランシングスコアの一種 バランシングスコア =>共変量Xの関数b(X)が与えられたときのXの条件付き分布 が、処置群と統制群において同じとなる関数である。
  8. 傾向スコアはバランシングスコアの一種 被験者 処置 結果 X1 2 0 55 70 3 0 59 70 4 1 77 73 5 0 73 73 8 1 81 77 9 1 77 77 10 0 72 78 11 0 65 78 12 1 81 78 19 1 97 92 20 1 81 92 最もシンプル(かつ詳細)なバ ランシングスコアはXそれ自体 である。 => 式は => Xが1変量の場合・・・
  9. 傾向スコアはバランシングスコアの一種 最もシンプル(かつ詳細)なバ ランシングスコアはXそれ自体 である。 => 式は => Xが1変量の場合・・・ 被験者 処置 結果 X1 2 0 55 70 3 0 59 70 4 1 77 73 5 0 73 73 8 1 81 77 9 1 77 77 10 0 72 78 11 0 65 78 12 1 81 78 19 1 97 92 20 1 81 92 ・処置群:(77+81)/2=79 ・統制群:(73+65)/2=69 ・ATE : 79-69=10 Xが同じ Xが同じ
  10. 傾向スコアはバランシングスコアの一種 しかし、現実の共変量Xは多変量 =>そこで、多変量Xを代表する関数b(X)を導入する 被験者 処置 結果 X1 X2 … Xn 2 0 55 70 83 … 41 3 0 59 70 92 … 61 4 1 77 73 88 … 54 5 0 73 73 41 … 51 8 1 81 77 66 … 51 被験者 処置 結果 b(X) 2 0 55 70 3 0 59 70 4 1 77 73 5 0 73 73 8 1 81 77 Xを 抽象化
  11. 傾向スコアはバランシングスコアの一種 しかし、現実の共変量Xは多変量 =>そこで、多変量Xを代表する関数b(X)を導入する 被験者 処置 結果 X1 X2 … Xn 2 0 55 70 83 … 41 3 0 59 70 92 … 61 4 1 77 73 88 … 54 5 0 73 73 41 … 51 8 1 81 77 66 … 51 被験者 処置 結果 b(X) 2 0 55 0.41 3 0 59 0.80 4 1 77 0.89 5 0 73 0.12 8 1 81 0.55 Xを 抽象化
  12. 傾向スコア 傾向スコアとは => 共変量Xで条件付けときに、処置に割り付けられる確率 => 傾向スコアは、最も荒いバランシングスコア => (最も細かいバランシングスコアはXそれ自体)
  13. 傾向スコア 傾向スコアとは => 共変量Xで条件付けときに、処置に割り付けられる確率 => 傾向スコアは、最も荒いバランシングスコア => (最も細かいバランシングスコアはXそれ自体)
  14. 傾向スコア 傾向スコアの値が似た個 体で分けてみよう。 ID y0t y1t t1 y x1 x2 x3 傾向スコア 1 55 70 0 55 70 75 55 0.05 2 63 74 0 63 66 76 75 0.12 3 59 69 0 59 70 60 73 0.19 4 69 73 1 73 79 74 60 0.26 5 65 79 0 65 78 79 64 0.28 6 69 79 0 69 75 78 73 0.34 7 73 78 0 73 73 79 78 0.35 8 66 77 0 66 74 72 79 0.41 9 71 77 1 77 73 76 82 0.43 10 72 81 0 72 78 76 74 0.48 11 62 77 1 77 77 66 77 0.5 12 68 81 1 81 78 83 79 0.57 13 70 81 1 81 77 75 83 0.62 14 79 93 1 93 83 89 88 0.86 15 75 85 1 85 84 81 90 0.9 16 75 89 0 75 88 78 82 0.9 17 74 81 1 81 92 77 73 0.9 18 80 91 1 91 87 82 86 0.91 19 82 85 1 85 91 84 85 0.95 20 91 97 1 97 92 102 101 0.99
  15. 傾向スコア 傾向スコアの値が似た個 体で分けてみよう。 ID y0t y1t t1 y x1 x2 x3 傾向スコア 1 55 70 0 55 70 75 55 0.05 2 63 74 0 63 66 76 75 0.12 3 59 69 0 59 70 60 73 0.19 4 69 73 1 73 79 74 60 0.26 5 65 79 0 65 78 79 64 0.28 6 69 79 0 69 75 78 73 0.34 7 73 78 0 73 73 79 78 0.35 8 66 77 0 66 74 72 79 0.41 9 71 77 1 77 73 76 82 0.43 10 72 81 0 72 78 76 74 0.48 11 62 77 1 77 77 66 77 0.5 12 68 81 1 81 78 83 79 0.57 13 70 81 1 81 77 75 83 0.62 14 79 93 1 93 83 89 88 0.86 15 75 85 1 85 84 81 90 0.9 16 75 89 0 75 88 78 82 0.9 17 74 81 1 81 92 77 73 0.9 18 80 91 1 91 87 82 86 0.91 19 82 85 1 85 91 84 85 0.95 20 91 97 1 97 92 102 101 0.99
  16. 傾向スコアの定理 ・定理1(バランシング) => 処置の割り付けTと観測された共変量Xは傾向スコアe(X) が与えられた時、条件付き独立である。 => すなわち、傾向スコアe(X)が同じ値であれば、処置群と統制群 における多変量の共変量Xの分布は同じである。
  17. 傾向スコアの定理 ・定理1(バランシング) => 処置の割り付けTと観測された共変量Xは、傾向スコアe(X) が与えられたとき条件付き独立である。 => すなわち、傾向スコアe(X)が同じ値であれば、処置群と統制群 における多変量の共変量Xの分布は同じである。
  18. 傾向スコアの定理 ・定理1(バランシング)の直感的理解 定期預金の申し込み予測に関するデータ https://www.kaggle.com/datasets/kukuroo3/bank-marketing-response-predict <元データ(傾向スコアでの条件付けなし )> データ使用: 定期預金の申し込みに関するデータ 処置の割付け: 職業(technicain)かどうか 傾向スコアe(X): 職業(technicain)の確率
  19. 傾向スコアの定理 ・定理1(バランシング)の直感的理解 定期預金の申し込み予測に関するデータ https://www.kaggle.com/datasets/kukuroo3/bank-marketing-response-predict <傾向スコアe(x) = 0.20で条件付けたデータ > データ使用: 定期預金の申し込みに関するデータ 処置の割付け: 職業(technicain)かどうか 傾向スコアe(X): 職業(technicain)の確率 傾向スコアe(X)が0.20のデータのヒストグラム を見ると、共変量Xの分布が処置群と統制群でそ こまで変わらないことがわかる。 処置 傾向スコア
  20. 傾向スコアの定理 ・定理2(条件付き独立性) => 傾向スコアe(X)が与えられれば、潜在的結果変数{Y(1), Y(0)}と 割り付け変数Tは条件付き独立。 => すなわち、傾向スコアe(X)が同じ値であれば、処置群と統制群 への割り付けは無作為。
  21. 傾向スコアの定理 ・定理2(条件付き独立性) => 傾向スコアe(X)が与えられれば、潜在的結果変数{Y(1), Y(0)}と 割り付け変数Tは条件付き独立。 => すなわち、傾向スコアe(X)が同じ値であれば、処置群と統制群 への割り付けは無作為。
  22. 傾向スコアの定理 2.条件付き独立の直感的理解 e(X) e1 e2 e3 Y 処置群 統制群 0 処置群 統制群 処置群 統制群 処置の割り付けと潜在的結果変数 {Y(0),Y(1)}が独立でない場合を 考える。 => 例えば、Y(0)が低いものだけ に処理を割り付けた場合・・・ τi τi τi τi τi τi <潜在的結果変数:個体処置効果τは一定とする>
  23. 傾向スコアの定理 2.条件付き独立の直感的理解 e(X) e1 e2 e3 Y 処置群 統制群 0 処置群 統制群 処置群 統制群 <実測値> 処置の割り付けと潜在的結果変数 {Y(0),Y(1)}が独立でない場合を 考える。 => 例えば、Y(0)が低いものだけ に処理を割り付けた場合・・・ 観測されない
  24. 傾向スコアの定理 2.条件付き独立の直感的理解 e(X) e1 e2 e3 Y 処置群 統制群 0 処置群 統制群 処置群 統制群 <実測値> e(X) e1 e2 e3 Y 処置群 統制群 0 処置群 統制群 処置群 統制群 <潜在的結果変数> ATE つまり、傾向スコアで条件付けた場合の割り付けは、Y(0)の値と独立でなければならない
  25. 傾向スコアの定理 ・前提条件1:(無交絡性 unconfoundedness) => 共変量Xを条件としたとき、処置の割付けを表す変数T が、潜在的結果変数{Y(0), Y(1)}に依存しない
  26. 傾向スコアの定理 ・前提条件2:(条件付き正値性 conditional positivity) => 共変量Xを条件とした場合、どの個体も処置群または 統制群に割り付けられる確率が0または1でない. => どの個体も処理群もまたは統制群に割付けられる可能性 がある
  27. 傾向スコアの定理 ・前提条件1, 2を満たさない場合は => 操作変数法(13章) => または、回帰不連続デザイン(15章)へ
  28. 傾向スコアのモデル化 傾向スコアとは、 => 共変量Xで条件付けときに、処置に割り付けられる確率 => どうやって確率を出すか? ロジスティック回帰、プロビットモデル、 一般化加法モデル、ニューラルネットワーク、分類木モデル
  29. 傾向スコアのモデル化 傾向スコアとは、 => 共変量Xで条件付けときに、処置に割り付けられる確率 => どうやって確率を出すか? ロジスティック回帰、プロビットモデル、 一般化加法モデル、ニューラルネットワーク、分類木モデル
  30. 傾向スコアのモデル化 ロジスティック回帰モデル => 複数の説明変数から、2値の生起確率を予測するモデル (別表記)
  31. 傾向スコアのモデル化 ロジスティック回帰モデル => 処置Tは、生起確率πのベルヌーイ分布に従うと仮定 => 一般線形モデル => Tをロジット変換
  32. 傾向スコアのモデル化 ロジスティック回帰モデル => 処置Tは、生起確率πのベルヌーイ分布に従うと仮定 => 一般線形モデル => Tをロジット変換 オッズ比
  33. 傾向スコアのモデル化
  34. 傾向スコアのモデル化 では、傾向スコアを使ってどのように平均処置効果(ATE)を推 定するのか? 11章に続く・・・
Publicidad