Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

推定と標本抽出

2.579 visualizaciones

Publicado el

Publicado en: Tecnología
  • Sé el primero en comentar

推定と標本抽出

  1. 1. 推定と標本抽出 ~小さいデータで精度よく~ やまつ
  2. 2. はじめに Rと私 R歴約1年 卒論(社会調査法について)を書くのに使い始めた SPSSからの乗り換え 今回の発表の元ネタ ブログ 社会学者の研究メモ 「サンプリングについてのひとつのお話」 http://d.hatena.ne.jp/jtsutsui/20110411/1302482023 「Rによるやさしい統計学」 第4章:母集団と標本
  3. 3. 発表の流れ 1. 統計的推定について 1. 「推定」とは 2. 「推定のよさ」とは 2. Rを使ったシミュレーションよる標本抽出法の比較 1. 単純無作為抽出法 2. 多段抽出法 3. 層化抽出法
  4. 4. 「推定」とは (統計的)推定:母集団の特性(=母数)を標本の特性(=推定値)から推測する 母集団の例:日本人全体、この場にいる人たち 母数の例:政党支持率、身長と体重の相関係数 標本抽出 推定 推定値 分析母数 母集団 標本
  5. 5. 標本の分布 推定値は分布する 標本抽出 分析 (平均の) 推定値 =173 推定値 =170 推定値 =168 母数(平均)=170 推定値は平均や分散をもつ 例:「標本の平均」の平均 母集団の分布 「平均の推定値」の分布
  6. 6. よい推定とは 社会学者の研究メモ 「サンプリングについてのひとつのお話」に加筆して引用 1.バイアス=母数と推定値の平均の差 2.偶然の誤差=推定値の分散 推定値の平均と分散から推 定のよさが分かる 円の真ん中が母数 黒丸一つ一つが推定値
  7. 7. いろいろな標本抽出法 単純無作為抽出:母集団から個人を直接抽出する(完全にランダム) 多段抽出:母集団をグループ分けし、 ランダムにいくつかグループを選び、 そこからランダムに個人を抽出 層化抽出:母集団をグループ分け(層化)し、母集団の各グループの割合に標本の それが等しくなるように、各グループからランダムに個人を抽出 以下、それぞれの標本抽出に基づく推定値のよさを、その平均と分散から評価する
  8. 8. シミュレーションの準備 1組から10組まで、各クラス40人、全体で400人のある学年。 番号の若いクラスほど、成績が悪い傾向がある。 40人を標本調査することで、この学年のテストの点の平均(=母数)を知りたい。
  9. 9. 単純無作為抽出 平均の推定値の分散≒母集団の分散/標本サイズ =平均の推定値の分散の理論値 40人選んで、平均の推定値を求めることを、10000回繰り返す 山の中心が平均、裾の広さが分散を表す
  10. 10. 多段抽出 単純無作為抽出の4.156756より大きい ランダムに4つのクラスを選び、各 クラスからランダムに10人選ぶ
  11. 11. 層化抽出 単純無作為抽出の4.156756より小さい 各グループから4人ずつランダムに抽出 母集団における1組の割合40/400 =標本における1組の割合4/40
  12. 12. 標本抽出法を比べる1 平均はどれも母数にかなり近い 分散は 多段抽出>単純無作為抽出>層化抽出 ≒ 𝜎2 𝑛 =理論値
  13. 13. 標本抽出法を比べる2 ① 推定値のよさは平均と分散から評価できる ② 「標本の平均」の平均は 単純無作為抽出=多段抽出=層化抽出=母集団の平均 ③ 「標本の平均」の分散は 多段抽出>単純無作為抽出>層化抽出 ①、②、③から、推定のよさは 多段抽出<単純無作為抽出<層化抽出
  14. 14. 層化抽出の優位性1 つまり、 単純無作為抽出が常に最善ではない 今回のシミュレーションの場合 単純無作為抽出の標本の平均の分散は層化抽出の 約1.8倍 単純無作為抽出の標本の平均の分散は なので、 分散を1/1.8にするには標本サイズnが1.8倍必要 ⇒層化抽出が標本サイズを約半分に節約している 𝜎2 𝑛 単純無作為抽出は標本サイズを1.8倍にして やっと層化抽出と同じ精度
  15. 15. 層化抽出が有効である条件 ① 母集団における各層(グループ)の割合がわかっている 例:ある学年における各クラスの割合 ② 標本抽出枠(名簿)に層のデータが含まれる 例:学年名簿に所属クラスが記されている ③ 層ごとに母数が異なる(⇒理由は後述) 例:クラスごとにテストの平均得点が異なる ①、または②が満たされないとき次善の策として単純無作為抽出がとられる ③が満たされないとき、層化抽出の精度は単純無作為抽出と同じ
  16. 16. 標本抽出法を比べる3 標本抽出法 推定値の平均 推定値の分散 調査コスト 単純無作為抽出 ◯ 母数と同じ △ 普通 計算しやすい △ 調査対象が散らばる 多段抽出 △ (割当てをうまくやれば) 母数と同じ × 層ごとに母数が異なる ほど大きくなりやすい 計算しづらい ◯ グループごとに調査対 象がまとまる 層化抽出 △ (割当てをうまくやれば) 母数と同じ ◯ 層ごとに母数が異なる ほど小さくなりやすい 計算しづらい × 調査対象が散らばる 層の割り当てにコストが かかる
  17. 17. 層化抽出の優位性2 単純無作為抽出の場合 ①標本平均の分散=母分散/標本サイズ ②母分散=母集団の偏差平方和/母集団のサイズ ③母集団の偏差平方和=郡内平方和+群間平方和 #平方和分解 ①に②、③を代入 ④標本平均の分散=(郡内平方和+群間平方和)/母集団のサイズ/標本サイズ 層化抽出の場合 ⑤標本平均の分散=∑(i組の分散×i組のサイズ)/母集団のサイズ/標本サイズ #①と加重平均 ⑥郡内平方和= ∑(i組の分散×i組のサイズ) ⑤に⑥を代入 ⑦標本平均の分散=群内平方和/母集団のサイズ/標本サイズ 単純無作為抽出と層化抽出の差 標本平均の分散の差=④ー⑦=群間平方和/母集団のサイズ/標本サイズ 層ごとに平均(母数)が異なるほど、層化抽出の効果が大きい
  18. 18. 層化抽出の優位性3
  19. 19. おわりに 1.単純無作為抽出が常に最善ではない 既知の情報を意図的に揃えれば、小さいデータで精度のよい推定が可能 2.普通の検定、推定は単純無作為抽出された標本の話 多段抽出、層化抽出された標本の場合の計算は複雑(誤差の独立性) 3.Rで簡単にシミュレーションができる 統計学の理解に役立つ(数式にもとづく理論値の正しさを確認できる) 「割当て」や「重み付け」などは省略しました ⇒より詳しく、正確な話は「サンプリングについてのひとつのお話」で検索

×