Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

サンプリングと推定 Siとht推定量

1.635 visualizaciones

Publicado el

  • Sé el primero en comentar

サンプリングと推定 Siとht推定量

  1. 1. 7/20/2013 32th Tokyo.R 1 サンプリングと推定 ~ SI(単純ランダムサンプリング)と HT推定量 @tanimocchi
  2. 2. 7/20/2013 32th Tokyo.R 2 自己紹介  Twitter ID: @tanimocchi (もっちぃ)  数学科出身、博士(情報科学)  所属: タヒにかけ半導体  仕事: マーケティングなのか ブランディングなのか?  統計解析は必要! だと信じてる。  統数研「サンプリング入門と調査データの分析法」に行ってきました。  アンケート分析に着手したばかりですが (これから社内で需要ありそう)  ちなみに、Rは前々回のTokyo.Rでインストールしました。 ⇒ 今回のスライドにRのコードないです、ゴメンなさい(><)
  3. 3. 7/20/2013 32th Tokyo.R 3 本編の前に: 教えてエライ人!  学習で、データを学習データとテストデータに分けるけど、 データが超大量にあるなら、サンプリング理論から考えて、 ホールドアウト法でもおkな気がするのですが。。。  ホールドアウト法、交差確認法、ジャックナイフ法、ブートストラップ法、等  過不足なくイイ感じの学習がしたいなら、例えば層別SIで学 習データを抽出すれば十分?やはり未知のデータが問題?  層別SI:不偏性OK、推定量の分散も(SIに比べて)小さい  ホールドアウト法限定で、サンプリング手法と学習精度(AIC とか?)との関係の、既存結果とかないですか?  学習精度の理論上限は、不偏性OKで、神様的抽出確率の指定で 推定量の分散を0としたPPR(復元不等確率サンプリング)? 機械学習の経験0で、今後触れる予定も不明ですが m(_ _)m
  4. 4. 7/20/2013 32th Tokyo.R 4 母集団、標本、全ての可能な標本 母集団のある要素が、標本に入っているか、 いないかで、2通りの場合があり、これをN個 の要素について組合せて、結局 2N通り の 標本が存在。これらを「すべての可能な標本 (all possible samples)」と呼ぶ 標本抽出(サンプリング)の仕方 に応じた、母集団特性値の推定 (HT推定、HH推定など)
  5. 5. 7/20/2013 32th Tokyo.R 5 サンプリング・デザイン  全ての可能な標本(集合族) S の要素である標本 s の実現 する確率 p(s) の与え方: 0≦p(s)≦1 (s∈S)  具体的なサンプリング方法が、p(s)を定める  母集団の大きさN=2での例 標本の大きさ サンプリング・デザイン 1 2 n(s) p(s) 0 ○ 1 ○ 1 ○ ○ 2 母集団の要素 i全て可能な標本S の要素である標本s 1s 12 s  23 s  2,14 s  1sp  2sp  3sp  4sp
  6. 6. 7/20/2013 32th Tokyo.R 6 基本サンプリング  色々あるけど、今回はSIのみ!  SIの手順: 母集団の大きさ N 、標本の大きさ n と仮定  以下の作業をn回繰り返す I. 1からNの整数iを1つ決める: ex. uを[0,1)の一様乱数として、 i=floor(u×N)+1 II. i が既に抽出された母集団の要素番号ならⅠに戻る III. さもなければ、i を抽出する母集団の要素番号として記録する ⇒ [1,N]上の一様乱数を重複する事なくn個生成し、母集団から対応 する要素を抽出 非復元 復元 等確率(単純ランダム) SI SIR 不等確率(確率比例) PP PPR 系統サンプリング SY
  7. 7. 7/20/2013 32th Tokyo.R 7 不遍性って?  全ての可能な標本それぞれに対して求めた推定量の期 待値 が、母集団特性値 に一致:    ˆE ˆE  Dˆ推定量: Cˆ推定量: Aˆ推定量: Bˆ推定量:     ˆ:,ˆ,ˆ,ˆ,ˆ,: EDCBA の期待値推定量母集団特性値  :母集団特性値
  8. 8. 7/20/2013 32th Tokyo.R 8 推定値の分散が気になる理由  バイアス(偏り、Bias)  ‘期待値’と母集団特性値の差  不偏推定量なら  平均2乗誤差(mean square error)  不偏推定量なら       ˆˆ EBias   0ˆ Bias         22 ˆˆˆˆ  BiasVarEMSE      ˆˆ VarMSE  誤差(=分散)は出来るだけ小さい方が良い                                        2 2 22 22 ˆˆ ˆˆˆˆ2ˆ ˆˆˆˆ2ˆˆ ˆˆˆˆˆ     BiasVar BiasEBiasEEVar EEEEEEE EEEEMSE    
  9. 9. 7/20/2013 32th Tokyo.R 9 HT推定量の定義~準備  包含確率  一次の包含確率  母集団の要素 i が、実現する 標本に含まれる確率  母集団の要素 i を含む標本 s について p(s) を足し挙げて得る  二次の包含確率  母集団の要素 i と j が、同時 に実現する標本に含まれる確率  標本帰属指標  母集団の要素 i が標本 s に 含まれているかどうかを表す確率変数   is i sp        ji ji sp jis i ij        &   サンプリングデザイン      si si sIi       0 1    sIsI ii 2 i を含むsに関する和 i と j を両方含むsに関する和
  10. 10. 7/20/2013 32th Tokyo.R 10 HT推定量の定義  HT推定量(the Horvitz-Thompson estimator)は、 母集団総計 の不偏推定量を与える  標本の各y値を包含確率で割って足しこむ  包含確率がわかればすぐに算出できる   si i i HT y  ˆ  ※ どの母集団の要素も標本に含まれる可能性があると仮定!
  11. 11. 7/20/2013 32th Tokyo.R 11 HT推定量の期待値  HT推定量の期待値  母集団平均 μ の不偏推定量も直ちに作れる                        Ui Ui i Ui i i i i i i Ui i i i si i i HT y y IE y I y E y EE    ˆ 確かに不偏推定量                NN EE N HT HT HT HT ˆ ˆ ˆ ˆ           i isisSs ii spspspsIIE    01  i を含む標本 i を含まない標本
  12. 12. 7/20/2013 32th Tokyo.R 12 HT推定量の分散・分散の推定量  HT推定量の分散  HT推定量の分散の推定量 ここで、   ji Ui ji ji jiij Ui Ui i i i Uj ji ji ijHT yyy yy Var                21 ˆ   ji Ui ji ijjisi Ui i i i sj ji ji ij ij HT yyy yy                      111 ˆ 2 2     ji ji jiij ii ij            1 め、一般に算出不能母集団の要素であるた:iy 、値を算出可能標本の要素であるため:iy ※ 母集団のどの2つの要素も 標本に同時に含まれる 可能性があると仮定!
  13. 13. 7/20/2013 32th Tokyo.R 13 SIにおけるHT推定量 [1/3]  一次と二次の包含確率が解ればHT推定量を算出可能  一次の包含確率  標本の大きさが n の可能な標本数:  従って、サンプリング・デザイン  母集団のある要素 i を含む標本の数:        nsn nsn n N sp                0 1 通り      n N 通り        1 1 n N   N n n Nn N sp is i                  1 1 1  
  14. 14. 7/20/2013 32th Tokyo.R 14 SIにおけるHT推定量 [2/3]  二次の包含確率  母集団のある要素 i と j を含む標本の数: 通り        2 2 n N      1 11 2 2 &                    NN nn n Nn N sp jis ij  
  15. 15. 7/20/2013 32th Tokyo.R 15 SIにおけるHT推定量 [3/3]  HT推定量は母集団総計 の不偏推定量を与える  SIによるものである事を強調して、 と書く 統計量である標本平均 が、SIの場合に、母集団平均 のHT推定量 (不偏推定量)! y N yN N SI SI    ˆ ˆ    si i si i si i i SI yNy n N N n yy  ˆ SIˆ  y  SIˆ
  16. 16. 7/20/2013 32th Tokyo.R 16 SIにおけるHT推定量の分散  抽出率  有限母集団修正項  SIにおけるHT推定量の分散 ここで、 は母集団分散であり一般に不明。従って、その 推定量の算出が必要となる。       n fN n nNNVar SI 2 2 2 1ˆ    N n f  N nN f  1     n f nN nN Var SI 22 1ˆ           2 
  17. 17. 7/20/2013 32th Tokyo.R 17 SIにおけるHT推定量の分散の推定量  標本分散  SIにおけるHT推定量の分散の推定量      n i i yy n s 1 22 1 1       n s fN n s nNNSI 2 2 2 1ˆ      n s f n s N nN SI 22 1ˆ        
  18. 18. 7/20/2013 32th Tokyo.R 18 SIにおける標本分散の期待値  HT推定量の分散の不偏推定量 について が成り立っている。 だから、両者を等しいとおいて下記を得る 統計量である標本分散の が、SIの場合に、母集団分散 の不偏推定量!     n fNVar SI 2 2 1ˆ             n sE fN n s fNEE SI 2 2 2 2 11ˆ         SI ˆ     SISI VarE  ˆˆ     (不偏)22 sE 2 s  2 
  19. 19. 7/20/2013 32th Tokyo.R 19 で、だから何?  SIの場合、標本抽出の仕方から  母集団のどの要素も標本に含まれ、かつ  母集団のどの2つの要素も標本に同時に含まれる 可能性があるため、HT推定量の仮定を満たしており、  標本平均 が母集団平均 の  標本分散 が母集団分散 の 不偏推定量。(つまり、当り前に使ってる事実を証明!) ⇒他のサンプリング手法は、需要あればまたの機会に! サンプリング手法の「学習データとテストデータの分離」へ の影響がやはり気になる。どの方法でも、非復元ランダム 抽出、即ちSI、は当たり前に行ってるような気もするけど。 2 s  2  y 
  20. 20. 7/20/2013 32th Tokyo.R 20 Thanks a lot!

×