SlideShare una empresa de Scribd logo
1 de 34
Descargar para leer sin conexión
分散分析




     id:yokkuns 里 洋平

第 3 回 R 勉強会@東京 (Tokyo.R#03)




                              1
自己紹介
●   id:yokkuns
●
    名前 : 里 洋平
●
    職業 :Web エンジニア
●
    出身 : 種子島
●
    趣味 : プログラミングとかカラオケとか
●
    最近、何故か数学に興味があり、アクチュア
    リーとか金融工学とか勉強してたりする

                           2
アジェンダ
●
    分散分析とは
●
    一元配置分散分析
     –   対応なし
     –   対応あり
●
    二元配置分散分析
     –   対応なし
     –   2 要因とも対応あり
     –   1 要因のみ対応あり
                        3
分散分析とは




         4
3 つ以上の平均値差を比較
●
    2 つの平均値差の検定では t 検定を使うが、 3 つ
    以上の標本には使えない。
      –   検定の多重性の問題
●
    3 つ以上の平均値差の検定は分散分析
      –   3 つ以上の平均値が等しいかどうかを検定
      –   等しい時は、有意差なしと結論
      –   等しくない場合、どの平均対の間に差があるかを検定



                                 5
分散分析の意味
●
     観測データの変動を要因による変動 ( 要因効果 ) と誤差
     による変動に分解し、要因に有意な効果があるかを検定
     する手法
     データ = 全体平均 + 要因効果 + 誤差
A    B    C    D        A    B    C    D         A     B      C      D          A      B       C      D
15   13   10   10       10   10   10   10       4.8   -0.4   -0.8   -3.6       0.2    3.4     0.8    3.6
9    8     6   7        10   10   10   10       4.8   -0.4   -0.8   -3.6       -5.8   -1.6   -3.2    0.6
18   8    11   3    =   10   10   10   10   +   4.8   -0.4   -0.8   -3.6   +   3.2    -1.6    1.8   -3.4
14   12    7   5        10   10   10   10       4.8   -0.4   -0.8   -3.6       -0.8   2.4    -2.2   -1.4
18   7    12   7        10   10   10   10       4.8   -0.4   -0.8   -3.6       3.2    -2.6    2.8    0.6



                                            要因平均 - 全平均 全データ - 要因平均
                                                                                                    6
平方和の分解
●
    平方和とは
     –   観測データのばらつきの大きさを表す指標で、
          個々のデータと平均値との差の 2 乗和
●
    平方和の分解
     –   全体の平方和を要因平方和と誤差平方和に分解す
          ること

    全体平方和 = 要因平方和 + 誤差平方和

                             7
分散分析表
           自由度   平方和       平均平方和      分散比         p値
            df   Sum Sq     Mean Sq   F value    Pr(>F)
    変動要因    3    184.000    61.333    7.1111    0.002988

     誤差    16    138.000     8.625



●
    自由度 : 要因水準数 – 1 、全体ではデータ総数 – 1
●
    平均平方和 : 平方和 ÷ 自由度
●
    分散比 : 要因の平均平方和 ÷ 誤差の平均平方和



                                                           8
多重比較( Tukey の方法)

●
    分散分析で分かるのは、 n 群の母平均が等しく
    ないことであり、具体的にどの群に差があるの
    かまでは分からない。
●
    これを検定するには、多重比較を用いる必要が
    ある




                          9
一元配置分散分析(対応なし)




                 10
概要
●
    帰無仮説と対立仮説
      –   帰無仮説 : n 群の母平均は等しい
      –   対立仮説 : n 群の母平均は等しくない
●
    検定統計量

    F = 群間平方和 / 群間の自由度
        郡内平方和 / 郡内の自由度


                                 11
R で一元配置分散分析 ( 対応なし )
●
    一元配置分散分析(対応なし)
      –   oneway.test(y~x)
      –   summary(aov(y~x))
      –   anova(lm(y~x))
●
    Tukey の多重比較
      –   TukeyHSD(aov(y~x))




                               12
例
●
    p.201 練習問題 (1)
    ある大学の法学部、文学部、理大学部、工学部の 4 学
    部から 8 名ずつの学生を無作為抽出してテストを行っ
    た。学部間でテストの母平均に差があるかを有意水準
    5% で分散分析を実行してください。



法学部     75   61   68   58   66   55   65   63
文学部     62   60   66   63   55   53   59   63
理学部     65   60   78   52   59   66   73   64
工学部     52   59   44   67   47   53   58   49

                                                13
例



5% 水準で有意となったので、多重比較を行う




法学部と工学部、理学部と工学部の間で有意差があることが分かった
                            14
一元配置分散分析(対応あり)




                 15
概要
●
    帰無仮説と対立仮説
      –   帰無仮説 : 条件の母平均は等しい
      –   対立仮説 : 条件の母平均は等しくない
●
    検定統計量

    F = 条件平方和 / 条件の自由度
        残差平方和 / 残差の自由度


                                16
対応の有無による違い
●
    対応ありとは
      –   同じ被験者が複数の条件を経験するようなデータ
      –   個人の違いにより説明出来る部分を分解する必要がある
●
    平方和の分解
      –   対応無し
    全体平方和 = 群間平方和 + 郡内平方和
      –   対応あり
    全体平方和 = 条件平方和 + 個人差平方和 + 残差平方和
                                   17
R で一元配置分散分析 ( 対応あり )
●
    一元配置分散分析(対応あり)
      –   summary(aov(y~x+t))
●
    Tukey の多重比較
      –   TukeyHSD(aov(y~x))




                                18
例
●
    p.201 練習問題 (2)
    7 名の学生を無作為に抽出し、全員が「講義中心
    型」、「問題練習中心型」、「コンピュータ実習中心
    型」の 3 種類の授業を受けて、それぞれ授業後に行う
    定着度テストの得点で効果を比較した。授業形態で有
    意な差があるかを有意水準 5% で分散分析を実行して
    ください。
学生       A    B    C    D    E    F    G
講義       51   66   70   75   73   62   55
問題       47   54   55   39   60   62   56
実習       55   37   47   60   62   53   50
                                            19
例


5% 水準で有意となったので多重比較




講義中心型とコンピュータ実習中心型の間に有意差があることが分かった
                               20
二元配置分散分析




           21
二元配置分散分析
●
    二元配置分散分析とは
     –   2 つの条件の組み合わせによって母平均がこと
           なるかどうかを検定する手法
●
    主効果と交互作用
     –   主効果
          各要因による単独の効果
     –   交互作用効果
          1 つの要因の結果に与える他方の要因の効果

                              22
二元配置分散分析
●
    帰無仮説と対立仮説
     –   2 つの主効果と 1 つの交互作用効果を検定
     –   帰無仮説と対立仮説のペアも 3 つになる
●
    検定統計量
     –   3 ペアそれぞれで F を利用




                                  23
交互作用
    交互作用なし          交互作用あり




単純な要因の効果の足し算で   単純な要因の効果の足し算で
説明出来る場合は平行になる   説明出来ない場合は平行にならない


                              24
R で二元配置分散分析
●
    二元配置分散分析(対応なし)
     –   summary(aov(y~a*b))
●
    二元配置分散分析( 2 要因とも対応あり)
     –   summary(aov(y~a+Error(t+t:a+t:b+t:a:b)))
●
    二元配置分散分析( 1 要因のみ対応あり)
     –   summary(aov(y~a*b+Error(t:a+t:a:b)))
●
    交互作用効果を確認するための平均値プロット
     –   interaction.plot(a, b, y)
                                                25
例(対応なし)
 ●
     p.183 例題
     3 種類の銘柄のミネラルウォーターのおいしさについて、 2 種
     類の温度のもとで、それぞれの条件に 5 人ずつ割当て、計 30
     人に評定してもらった。このデータから銘柄の違いや温度の違
     いによって、おいしさの評定の母平均は異なると言えるか。
         A① 冷蔵庫                    A② 常温
B① イカアン B② ボスビッグB③ ビビッテル B① イカアン B② ボスビッグ B③ ビビッテル

     6     10      11      5        7        12
     4     8       12      4        6        8
     5     10      12      2        5        5
     3     8       10      2        4        6
     2     9       10      2        3        4

                                                  26
例
温度を fa 、銘柄を fb とした。




■ 結果
温度の主効果 : 5% 水準で有意な効果がある
銘柄の主効果 : 5% 水準で有意な効果がある
温度と銘柄の交互作用効果 : 5% 水準で有意な効果はない



                                27
例( 2 要因とも対応あり)
●
    p.192 例題
    5 人の評定者が温度と銘柄を組み合わせた 6 つの条件全てでお
    いしさの評定を行った。
    このデータから銘柄の違いや温度の違いによっておいしさの評
    定の母平均は異なると言えるか
               A① 冷蔵庫             A② 常温
          B①    B②      B③   B①    B②     B③
     A    6      10     11   5      7     12
     B    4      8      12   4      6     8
    C     5      10     12   2      5     5
    D     3      8      10   2      4     6
     E    2      9      10   2      3     4

                                               28
例
                    温度を fa 、銘柄を fb 、
                    人を id ( 1 〜 5 )とした。




■ 結果
温度の主効果 : 5% 水準で有意な効果がある
銘柄の主効果 : 5% 水準で有意な効果がある
温度と銘柄の交互作用効果 : 5% 水準で有意な効果がある
                                      29
例( 1 要因のみ対応あり)
●
    p.195 例題
    各評定者に 6 つの条件の水を全て飲んでもらうのではなく、冷
    蔵か常温のどちらかの温度条件に割り当てた上で、その温度の
    ものだけ 3 種類飲んで評定してもらった。銘柄の違いや温度の
    違いによっておいしさの評定の母平均は異なると言えるか。
             A①                   A②
        B①   B②     B③       B①   B②   B③
    A   6      10   11   F   5    7    12
    B   4      8    12   G   4    6    8
    C   5      10   12   H   2    5    5
    D   3      8    10   I   2    4    6
    E   2      9    10   J   2    3    4

                                            30
例
温度を fa 、銘柄を fb 、人を id ( 1 〜 10 )とした。




■ 結果
温度の主効果 : 5% 水準で有意な効果がある
銘柄の主効果 : 5% 水準で有意な効果がある
温度と銘柄の交互作用効果 : 5% 水準で有意な効果がある
                                       31
まとめ
●
    3 つ以上の平均値差の検定には、分散分析
●
    分散分析とは、データの変動を各要因とそれら
    の交互作用による変動、誤差変動に分解して、
    各要因、交互作用に有意な効果があるかを検定
    する手法
●
    有意差がある場合は多重比較を行い、どの要因
    間で差があるかを調べる


                           32
ご清聴ありがとうございました。




                  33
参考文献
●
    Rによるやさしい統計学
●
    確率統計キャンパスゼミ
●
    Rプログラミングマニュアル
●
    マンガでわかる統計学




                    33

Más contenido relacionado

La actualidad más candente

ベイズモデリングで見る因子分析
ベイズモデリングで見る因子分析ベイズモデリングで見る因子分析
ベイズモデリングで見る因子分析Shushi Namba
 
GEE(一般化推定方程式)の理論
GEE(一般化推定方程式)の理論GEE(一般化推定方程式)の理論
GEE(一般化推定方程式)の理論Koichiro Gibo
 
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会takehikoihayashi
 
MCMCでマルチレベルモデル
MCMCでマルチレベルモデルMCMCでマルチレベルモデル
MCMCでマルチレベルモデルHiroshi Shimizu
 
これからの仮説検証・モデル評価
これからの仮説検証・モデル評価これからの仮説検証・モデル評価
これからの仮説検証・モデル評価daiki hojo
 
Stanコードの書き方 中級編
Stanコードの書き方 中級編Stanコードの書き方 中級編
Stanコードの書き方 中級編Hiroshi Shimizu
 
第4回DARM勉強会 (構造方程式モデリング)
第4回DARM勉強会 (構造方程式モデリング)第4回DARM勉強会 (構造方程式モデリング)
第4回DARM勉強会 (構造方程式モデリング)Yoshitake Takebayashi
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門Kawamoto_Kazuhiko
 
Rで因子分析 商用ソフトで実行できない因子分析のあれこれ
Rで因子分析 商用ソフトで実行できない因子分析のあれこれRで因子分析 商用ソフトで実行できない因子分析のあれこれ
Rで因子分析 商用ソフトで実行できない因子分析のあれこれHiroshi Shimizu
 
重回帰分析で交互作用効果
重回帰分析で交互作用効果重回帰分析で交互作用効果
重回帰分析で交互作用効果Makoto Hirakawa
 
NagoyaStat#7 StanとRでベイズ統計モデリング(アヒル本)4章の発表資料
NagoyaStat#7 StanとRでベイズ統計モデリング(アヒル本)4章の発表資料NagoyaStat#7 StanとRでベイズ統計モデリング(アヒル本)4章の発表資料
NagoyaStat#7 StanとRでベイズ統計モデリング(アヒル本)4章の発表資料nishioka1
 
統計的因果推論勉強会 第1回
統計的因果推論勉強会 第1回統計的因果推論勉強会 第1回
統計的因果推論勉強会 第1回Hikaru GOTO
 
Granger因果による 時系列データの因果推定(因果フェス2015)
Granger因果による時系列データの因果推定(因果フェス2015)Granger因果による時系列データの因果推定(因果フェス2015)
Granger因果による 時系列データの因果推定(因果フェス2015)Takashi J OZAKI
 
ベイズファクターとモデル選択
ベイズファクターとモデル選択ベイズファクターとモデル選択
ベイズファクターとモデル選択kazutantan
 
ベイズ統計モデリングと心理学
ベイズ統計モデリングと心理学ベイズ統計モデリングと心理学
ベイズ統計モデリングと心理学Shushi Namba
 
心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理するHiroshi Shimizu
 
因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説Shiga University, RIKEN
 

La actualidad más candente (20)

ベイズモデリングで見る因子分析
ベイズモデリングで見る因子分析ベイズモデリングで見る因子分析
ベイズモデリングで見る因子分析
 
GEE(一般化推定方程式)の理論
GEE(一般化推定方程式)の理論GEE(一般化推定方程式)の理論
GEE(一般化推定方程式)の理論
 
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
 
MCMCでマルチレベルモデル
MCMCでマルチレベルモデルMCMCでマルチレベルモデル
MCMCでマルチレベルモデル
 
これからの仮説検証・モデル評価
これからの仮説検証・モデル評価これからの仮説検証・モデル評価
これからの仮説検証・モデル評価
 
Stanコードの書き方 中級編
Stanコードの書き方 中級編Stanコードの書き方 中級編
Stanコードの書き方 中級編
 
第4回DARM勉強会 (構造方程式モデリング)
第4回DARM勉強会 (構造方程式モデリング)第4回DARM勉強会 (構造方程式モデリング)
第4回DARM勉強会 (構造方程式モデリング)
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
Rで因子分析 商用ソフトで実行できない因子分析のあれこれ
Rで因子分析 商用ソフトで実行できない因子分析のあれこれRで因子分析 商用ソフトで実行できない因子分析のあれこれ
Rで因子分析 商用ソフトで実行できない因子分析のあれこれ
 
PRML11章
PRML11章PRML11章
PRML11章
 
EMアルゴリズム
EMアルゴリズムEMアルゴリズム
EMアルゴリズム
 
重回帰分析で交互作用効果
重回帰分析で交互作用効果重回帰分析で交互作用効果
重回帰分析で交互作用効果
 
NagoyaStat#7 StanとRでベイズ統計モデリング(アヒル本)4章の発表資料
NagoyaStat#7 StanとRでベイズ統計モデリング(アヒル本)4章の発表資料NagoyaStat#7 StanとRでベイズ統計モデリング(アヒル本)4章の発表資料
NagoyaStat#7 StanとRでベイズ統計モデリング(アヒル本)4章の発表資料
 
統計的因果推論勉強会 第1回
統計的因果推論勉強会 第1回統計的因果推論勉強会 第1回
統計的因果推論勉強会 第1回
 
Granger因果による 時系列データの因果推定(因果フェス2015)
Granger因果による時系列データの因果推定(因果フェス2015)Granger因果による時系列データの因果推定(因果フェス2015)
Granger因果による 時系列データの因果推定(因果フェス2015)
 
Stan超初心者入門
Stan超初心者入門Stan超初心者入門
Stan超初心者入門
 
ベイズファクターとモデル選択
ベイズファクターとモデル選択ベイズファクターとモデル選択
ベイズファクターとモデル選択
 
ベイズ統計モデリングと心理学
ベイズ統計モデリングと心理学ベイズ統計モデリングと心理学
ベイズ統計モデリングと心理学
 
心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する
 
因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説
 

Similar a R Study Tokyo03

ベイズ統計によるデータ解析
ベイズ統計によるデータ解析ベイズ統計によるデータ解析
ベイズ統計によるデータ解析Kunihiro Hisatsune
 
実験計画法入門 Part 1
実験計画法入門 Part 1実験計画法入門 Part 1
実験計画法入門 Part 1haji mizu
 
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-Shiga University, RIKEN
 
第二回統計学勉強会@東大駒場
第二回統計学勉強会@東大駒場第二回統計学勉強会@東大駒場
第二回統計学勉強会@東大駒場Daisuke Yoneoka
 
Rm20140514 5key
Rm20140514 5keyRm20140514 5key
Rm20140514 5keyyouwatari
 
理科教育学研究のための統計分析入門
理科教育学研究のための統計分析入門理科教育学研究のための統計分析入門
理科教育学研究のための統計分析入門Hiroshi Unzai
 
Rm20150513 4key
Rm20150513 4keyRm20150513 4key
Rm20150513 4keyyouwatari
 
Rm20140702 11key
Rm20140702 11keyRm20140702 11key
Rm20140702 11keyyouwatari
 
カテゴリカルデータの解析 (Kashiwa.R#3)
カテゴリカルデータの解析 (Kashiwa.R#3)カテゴリカルデータの解析 (Kashiwa.R#3)
カテゴリカルデータの解析 (Kashiwa.R#3)Takumi Tsutaya
 
13.01.20.第1回DARM勉強会資料#1
13.01.20.第1回DARM勉強会資料#113.01.20.第1回DARM勉強会資料#1
13.01.20.第1回DARM勉強会資料#1Yoshitake Takebayashi
 
2021年度秋学期 統計学 第15回 分布についての仮説を検証する - 仮説検定(2)(2022. 1. 18)
2021年度秋学期 統計学 第15回 分布についての仮説を検証する - 仮説検定(2)(2022. 1. 18)2021年度秋学期 統計学 第15回 分布についての仮説を検証する - 仮説検定(2)(2022. 1. 18)
2021年度秋学期 統計学 第15回 分布についての仮説を検証する - 仮説検定(2)(2022. 1. 18)Akira Asano
 
明日から読める無作為化比較試験: 行動療法研究に求められる統計学
明日から読める無作為化比較試験: 行動療法研究に求められる統計学明日から読める無作為化比較試験: 行動療法研究に求められる統計学
明日から読める無作為化比較試験: 行動療法研究に求められる統計学Yasuyuki Okumura
 
効果測定入門 Rによる傾向スコア解析
効果測定入門  Rによる傾向スコア解析効果測定入門  Rによる傾向スコア解析
効果測定入門 Rによる傾向スコア解析aa_aa_aa
 
03 「重回帰分析」の入門
03 「重回帰分析」の入門03 「重回帰分析」の入門
03 「重回帰分析」の入門Shuhei Ichikawa
 
データ解析4 確率の復習
データ解析4 確率の復習データ解析4 確率の復習
データ解析4 確率の復習Hirotaka Hachiya
 
第2回DARM勉強会.preacherによるmoderatorの検討
第2回DARM勉強会.preacherによるmoderatorの検討第2回DARM勉強会.preacherによるmoderatorの検討
第2回DARM勉強会.preacherによるmoderatorの検討Masaru Tokuoka
 

Similar a R Study Tokyo03 (20)

ベイズ統計によるデータ解析
ベイズ統計によるデータ解析ベイズ統計によるデータ解析
ベイズ統計によるデータ解析
 
実験計画法入門 Part 1
実験計画法入門 Part 1実験計画法入門 Part 1
実験計画法入門 Part 1
 
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-
 
Tokyor24 doradora09
Tokyor24 doradora09Tokyor24 doradora09
Tokyor24 doradora09
 
第二回統計学勉強会@東大駒場
第二回統計学勉強会@東大駒場第二回統計学勉強会@東大駒場
第二回統計学勉強会@東大駒場
 
Rm20140514 5key
Rm20140514 5keyRm20140514 5key
Rm20140514 5key
 
Osaka.stan#2 chap5-1
Osaka.stan#2 chap5-1Osaka.stan#2 chap5-1
Osaka.stan#2 chap5-1
 
理科教育学研究のための統計分析入門
理科教育学研究のための統計分析入門理科教育学研究のための統計分析入門
理科教育学研究のための統計分析入門
 
Rm20150513 4key
Rm20150513 4keyRm20150513 4key
Rm20150513 4key
 
Rm20140702 11key
Rm20140702 11keyRm20140702 11key
Rm20140702 11key
 
Rゼミ 3
Rゼミ 3Rゼミ 3
Rゼミ 3
 
カテゴリカルデータの解析 (Kashiwa.R#3)
カテゴリカルデータの解析 (Kashiwa.R#3)カテゴリカルデータの解析 (Kashiwa.R#3)
カテゴリカルデータの解析 (Kashiwa.R#3)
 
13.01.20.第1回DARM勉強会資料#1
13.01.20.第1回DARM勉強会資料#113.01.20.第1回DARM勉強会資料#1
13.01.20.第1回DARM勉強会資料#1
 
2021年度秋学期 統計学 第15回 分布についての仮説を検証する - 仮説検定(2)(2022. 1. 18)
2021年度秋学期 統計学 第15回 分布についての仮説を検証する - 仮説検定(2)(2022. 1. 18)2021年度秋学期 統計学 第15回 分布についての仮説を検証する - 仮説検定(2)(2022. 1. 18)
2021年度秋学期 統計学 第15回 分布についての仮説を検証する - 仮説検定(2)(2022. 1. 18)
 
Gasshuku98
Gasshuku98Gasshuku98
Gasshuku98
 
明日から読める無作為化比較試験: 行動療法研究に求められる統計学
明日から読める無作為化比較試験: 行動療法研究に求められる統計学明日から読める無作為化比較試験: 行動療法研究に求められる統計学
明日から読める無作為化比較試験: 行動療法研究に求められる統計学
 
効果測定入門 Rによる傾向スコア解析
効果測定入門  Rによる傾向スコア解析効果測定入門  Rによる傾向スコア解析
効果測定入門 Rによる傾向スコア解析
 
03 「重回帰分析」の入門
03 「重回帰分析」の入門03 「重回帰分析」の入門
03 「重回帰分析」の入門
 
データ解析4 確率の復習
データ解析4 確率の復習データ解析4 確率の復習
データ解析4 確率の復習
 
第2回DARM勉強会.preacherによるmoderatorの検討
第2回DARM勉強会.preacherによるmoderatorの検討第2回DARM勉強会.preacherによるmoderatorの検討
第2回DARM勉強会.preacherによるmoderatorの検討
 

Más de Yohei Sato

Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Yohei Sato
 
Tokyor60 opening
Tokyor60 openingTokyor60 opening
Tokyor60 openingYohei Sato
 
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みTokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みYohei Sato
 
Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Yohei Sato
 
Tokyor42 ggplot2
Tokyor42 ggplot2Tokyor42 ggplot2
Tokyor42 ggplot2Yohei Sato
 
Tokyor39 yokkuns
Tokyor39 yokkunsTokyor39 yokkuns
Tokyor39 yokkunsYohei Sato
 
EasyHtmlReportの紹介
EasyHtmlReportの紹介EasyHtmlReportの紹介
EasyHtmlReportの紹介Yohei Sato
 
20131206 japan r
20131206 japan r20131206 japan r
20131206 japan rYohei Sato
 
Tokyor35 人工データの発生
Tokyor35 人工データの発生Tokyor35 人工データの発生
Tokyor35 人工データの発生Yohei Sato
 
ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例Yohei Sato
 
R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略Yohei Sato
 
Rでレポートメール
RでレポートメールRでレポートメール
RでレポートメールYohei Sato
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデルYohei Sato
 
Rでピボットテーブル
RでピボットテーブルRでピボットテーブル
RでピボットテーブルYohei Sato
 
第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッションYohei Sato
 
Tokyor26 data fusion
Tokyor26 data fusionTokyor26 data fusion
Tokyor26 data fusionYohei Sato
 
Tokyor24 yokkuns
Tokyor24 yokkunsTokyor24 yokkuns
Tokyor24 yokkunsYohei Sato
 
Tokyowebmining19 data fusion
Tokyowebmining19 data fusionTokyowebmining19 data fusion
Tokyowebmining19 data fusionYohei Sato
 
傾向スコア解析とUplift Modelling
傾向スコア解析とUplift Modelling傾向スコア解析とUplift Modelling
傾向スコア解析とUplift ModellingYohei Sato
 
Complex network ws_percolation
Complex network ws_percolationComplex network ws_percolation
Complex network ws_percolationYohei Sato
 

Más de Yohei Sato (20)

Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Tokyor60 r data_science_part1
Tokyor60 r data_science_part1
 
Tokyor60 opening
Tokyor60 openingTokyor60 opening
Tokyor60 opening
 
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みTokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
 
Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Tokyor42_r_datamining_18
Tokyor42_r_datamining_18
 
Tokyor42 ggplot2
Tokyor42 ggplot2Tokyor42 ggplot2
Tokyor42 ggplot2
 
Tokyor39 yokkuns
Tokyor39 yokkunsTokyor39 yokkuns
Tokyor39 yokkuns
 
EasyHtmlReportの紹介
EasyHtmlReportの紹介EasyHtmlReportの紹介
EasyHtmlReportの紹介
 
20131206 japan r
20131206 japan r20131206 japan r
20131206 japan r
 
Tokyor35 人工データの発生
Tokyor35 人工データの発生Tokyor35 人工データの発生
Tokyor35 人工データの発生
 
ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例
 
R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略
 
Rでレポートメール
RでレポートメールRでレポートメール
Rでレポートメール
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデル
 
Rでピボットテーブル
RでピボットテーブルRでピボットテーブル
Rでピボットテーブル
 
第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション
 
Tokyor26 data fusion
Tokyor26 data fusionTokyor26 data fusion
Tokyor26 data fusion
 
Tokyor24 yokkuns
Tokyor24 yokkunsTokyor24 yokkuns
Tokyor24 yokkuns
 
Tokyowebmining19 data fusion
Tokyowebmining19 data fusionTokyowebmining19 data fusion
Tokyowebmining19 data fusion
 
傾向スコア解析とUplift Modelling
傾向スコア解析とUplift Modelling傾向スコア解析とUplift Modelling
傾向スコア解析とUplift Modelling
 
Complex network ws_percolation
Complex network ws_percolationComplex network ws_percolation
Complex network ws_percolation
 

R Study Tokyo03

  • 1. 分散分析 id:yokkuns 里 洋平 第 3 回 R 勉強会@東京 (Tokyo.R#03) 1
  • 2. 自己紹介 ● id:yokkuns ● 名前 : 里 洋平 ● 職業 :Web エンジニア ● 出身 : 種子島 ● 趣味 : プログラミングとかカラオケとか ● 最近、何故か数学に興味があり、アクチュア リーとか金融工学とか勉強してたりする 2
  • 3. アジェンダ ● 分散分析とは ● 一元配置分散分析 – 対応なし – 対応あり ● 二元配置分散分析 – 対応なし – 2 要因とも対応あり – 1 要因のみ対応あり 3
  • 5. 3 つ以上の平均値差を比較 ● 2 つの平均値差の検定では t 検定を使うが、 3 つ 以上の標本には使えない。 – 検定の多重性の問題 ● 3 つ以上の平均値差の検定は分散分析 – 3 つ以上の平均値が等しいかどうかを検定 – 等しい時は、有意差なしと結論 – 等しくない場合、どの平均対の間に差があるかを検定 5
  • 6. 分散分析の意味 ● 観測データの変動を要因による変動 ( 要因効果 ) と誤差 による変動に分解し、要因に有意な効果があるかを検定 する手法 データ = 全体平均 + 要因効果 + 誤差 A B C D A B C D A B C D A B C D 15 13 10 10 10 10 10 10 4.8 -0.4 -0.8 -3.6 0.2 3.4 0.8 3.6 9 8 6 7 10 10 10 10 4.8 -0.4 -0.8 -3.6 -5.8 -1.6 -3.2 0.6 18 8 11 3 = 10 10 10 10 + 4.8 -0.4 -0.8 -3.6 + 3.2 -1.6 1.8 -3.4 14 12 7 5 10 10 10 10 4.8 -0.4 -0.8 -3.6 -0.8 2.4 -2.2 -1.4 18 7 12 7 10 10 10 10 4.8 -0.4 -0.8 -3.6 3.2 -2.6 2.8 0.6 要因平均 - 全平均 全データ - 要因平均 6
  • 7. 平方和の分解 ● 平方和とは – 観測データのばらつきの大きさを表す指標で、 個々のデータと平均値との差の 2 乗和 ● 平方和の分解 – 全体の平方和を要因平方和と誤差平方和に分解す ること 全体平方和 = 要因平方和 + 誤差平方和 7
  • 8. 分散分析表 自由度 平方和 平均平方和 分散比 p値 df Sum Sq Mean Sq F value Pr(>F) 変動要因 3 184.000 61.333 7.1111 0.002988 誤差 16 138.000 8.625 ● 自由度 : 要因水準数 – 1 、全体ではデータ総数 – 1 ● 平均平方和 : 平方和 ÷ 自由度 ● 分散比 : 要因の平均平方和 ÷ 誤差の平均平方和 8
  • 9. 多重比較( Tukey の方法) ● 分散分析で分かるのは、 n 群の母平均が等しく ないことであり、具体的にどの群に差があるの かまでは分からない。 ● これを検定するには、多重比較を用いる必要が ある 9
  • 11. 概要 ● 帰無仮説と対立仮説 – 帰無仮説 : n 群の母平均は等しい – 対立仮説 : n 群の母平均は等しくない ● 検定統計量 F = 群間平方和 / 群間の自由度 郡内平方和 / 郡内の自由度 11
  • 12. R で一元配置分散分析 ( 対応なし ) ● 一元配置分散分析(対応なし) – oneway.test(y~x) – summary(aov(y~x)) – anova(lm(y~x)) ● Tukey の多重比較 – TukeyHSD(aov(y~x)) 12
  • 13. 例 ● p.201 練習問題 (1) ある大学の法学部、文学部、理大学部、工学部の 4 学 部から 8 名ずつの学生を無作為抽出してテストを行っ た。学部間でテストの母平均に差があるかを有意水準 5% で分散分析を実行してください。 法学部 75 61 68 58 66 55 65 63 文学部 62 60 66 63 55 53 59 63 理学部 65 60 78 52 59 66 73 64 工学部 52 59 44 67 47 53 58 49 13
  • 16. 概要 ● 帰無仮説と対立仮説 – 帰無仮説 : 条件の母平均は等しい – 対立仮説 : 条件の母平均は等しくない ● 検定統計量 F = 条件平方和 / 条件の自由度 残差平方和 / 残差の自由度 16
  • 17. 対応の有無による違い ● 対応ありとは – 同じ被験者が複数の条件を経験するようなデータ – 個人の違いにより説明出来る部分を分解する必要がある ● 平方和の分解 – 対応無し 全体平方和 = 群間平方和 + 郡内平方和 – 対応あり 全体平方和 = 条件平方和 + 個人差平方和 + 残差平方和 17
  • 18. R で一元配置分散分析 ( 対応あり ) ● 一元配置分散分析(対応あり) – summary(aov(y~x+t)) ● Tukey の多重比較 – TukeyHSD(aov(y~x)) 18
  • 19. 例 ● p.201 練習問題 (2) 7 名の学生を無作為に抽出し、全員が「講義中心 型」、「問題練習中心型」、「コンピュータ実習中心 型」の 3 種類の授業を受けて、それぞれ授業後に行う 定着度テストの得点で効果を比較した。授業形態で有 意な差があるかを有意水準 5% で分散分析を実行して ください。 学生 A B C D E F G 講義 51 66 70 75 73 62 55 問題 47 54 55 39 60 62 56 実習 55 37 47 60 62 53 50 19
  • 22. 二元配置分散分析 ● 二元配置分散分析とは – 2 つの条件の組み合わせによって母平均がこと なるかどうかを検定する手法 ● 主効果と交互作用 – 主効果 各要因による単独の効果 – 交互作用効果 1 つの要因の結果に与える他方の要因の効果 22
  • 23. 二元配置分散分析 ● 帰無仮説と対立仮説 – 2 つの主効果と 1 つの交互作用効果を検定 – 帰無仮説と対立仮説のペアも 3 つになる ● 検定統計量 – 3 ペアそれぞれで F を利用 23
  • 24. 交互作用 交互作用なし 交互作用あり 単純な要因の効果の足し算で 単純な要因の効果の足し算で 説明出来る場合は平行になる 説明出来ない場合は平行にならない 24
  • 25. R で二元配置分散分析 ● 二元配置分散分析(対応なし) – summary(aov(y~a*b)) ● 二元配置分散分析( 2 要因とも対応あり) – summary(aov(y~a+Error(t+t:a+t:b+t:a:b))) ● 二元配置分散分析( 1 要因のみ対応あり) – summary(aov(y~a*b+Error(t:a+t:a:b))) ● 交互作用効果を確認するための平均値プロット – interaction.plot(a, b, y) 25
  • 26. 例(対応なし) ● p.183 例題 3 種類の銘柄のミネラルウォーターのおいしさについて、 2 種 類の温度のもとで、それぞれの条件に 5 人ずつ割当て、計 30 人に評定してもらった。このデータから銘柄の違いや温度の違 いによって、おいしさの評定の母平均は異なると言えるか。 A① 冷蔵庫 A② 常温 B① イカアン B② ボスビッグB③ ビビッテル B① イカアン B② ボスビッグ B③ ビビッテル 6 10 11 5 7 12 4 8 12 4 6 8 5 10 12 2 5 5 3 8 10 2 4 6 2 9 10 2 3 4 26
  • 27. 例 温度を fa 、銘柄を fb とした。 ■ 結果 温度の主効果 : 5% 水準で有意な効果がある 銘柄の主効果 : 5% 水準で有意な効果がある 温度と銘柄の交互作用効果 : 5% 水準で有意な効果はない 27
  • 28. 例( 2 要因とも対応あり) ● p.192 例題 5 人の評定者が温度と銘柄を組み合わせた 6 つの条件全てでお いしさの評定を行った。 このデータから銘柄の違いや温度の違いによっておいしさの評 定の母平均は異なると言えるか A① 冷蔵庫 A② 常温 B① B② B③ B① B② B③ A 6 10 11 5 7 12 B 4 8 12 4 6 8 C 5 10 12 2 5 5 D 3 8 10 2 4 6 E 2 9 10 2 3 4 28
  • 29. 温度を fa 、銘柄を fb 、 人を id ( 1 〜 5 )とした。 ■ 結果 温度の主効果 : 5% 水準で有意な効果がある 銘柄の主効果 : 5% 水準で有意な効果がある 温度と銘柄の交互作用効果 : 5% 水準で有意な効果がある 29
  • 30. 例( 1 要因のみ対応あり) ● p.195 例題 各評定者に 6 つの条件の水を全て飲んでもらうのではなく、冷 蔵か常温のどちらかの温度条件に割り当てた上で、その温度の ものだけ 3 種類飲んで評定してもらった。銘柄の違いや温度の 違いによっておいしさの評定の母平均は異なると言えるか。 A① A② B① B② B③ B① B② B③ A 6 10 11 F 5 7 12 B 4 8 12 G 4 6 8 C 5 10 12 H 2 5 5 D 3 8 10 I 2 4 6 E 2 9 10 J 2 3 4 30
  • 31. 例 温度を fa 、銘柄を fb 、人を id ( 1 〜 10 )とした。 ■ 結果 温度の主効果 : 5% 水準で有意な効果がある 銘柄の主効果 : 5% 水準で有意な効果がある 温度と銘柄の交互作用効果 : 5% 水準で有意な効果がある 31
  • 32. まとめ ● 3 つ以上の平均値差の検定には、分散分析 ● 分散分析とは、データの変動を各要因とそれら の交互作用による変動、誤差変動に分解して、 各要因、交互作用に有意な効果があるかを検定 する手法 ● 有意差がある場合は多重比較を行い、どの要因 間で差があるかを調べる 32
  • 34. 参考文献 ● Rによるやさしい統計学 ● 確率統計キャンパスゼミ ● Rプログラミングマニュアル ● マンガでわかる統計学 33