SlideShare una empresa de Scribd logo
1 de 11
有意差の検出と信頼区間の構成
— R言語による簡便な計算法 —
2015.03.02 T.S.
「差があるのかどうなのか?」という問題に答えることは、
そんなに簡単なことではありません。
ここでは様々な場面で数値が現れた時に即座に使える
R言語などを使った計算の方法を説明します。
1
初めの断り書き
気にしない人に取っては、ここの断り書きはあまり重要でないかもしれませ
ん。しかし、本文書の立場をはっきりさせるための但し書きをこのページに記
すこととします。
• 本文書では、統計学の基本的な考え方である、有意性検定や仮説検定の考え方を用います。
• それに従って、有意性がある/なしを判断したり、信頼区間を構成します。
• 検定のp値は0.05, 信頼区間は95%信頼区間を用います。
• この文書では、尤度比を考えて判断をしたり、ベイズ統計学の考え方は用いません。それでも、そ
の考え方を用いて、本文書の内容を発展させることは有意義なことです。
• 本文書は、「問題設定」に対して、それ以上の背後の状況などは考えません。やや不自然かもしれませ
んが、あえてそういう最小限の情報から、数について算出する方法を説明します。
• 説明を簡潔にするため、あえて専門用語を多用します。意味はご自身でお調べください。途中の考え方
も細かいところは説明しません。自分で考えて、何か間違いがあればご報告して頂くことは歓迎します。
2
本文書のねらい
• 日常生活や社会生活で、やや遭遇する機会の多い基本
的な、統計の数の問題を、扱います。
• その中でも、R言語で即座に算出できる問題を扱います。
– これは必要なときにすぐ使えるノウハウこそ、まとめておくこと
が大事と考えるためです。
– 電車の中でも計算できる位に簡単なノウハウを目指しました。
• 3桁(100〜999)程度の数でも、有意差がなかなか出ないこ
とがあることを知るのも、数の感覚として大事なことだと、
本文書作成者は考えています。
3
R言語に関して
• R言語は、インターネット上で検索して、(英語
のサイトですが)非常に簡単にインストール出
来ます。 Windows, Mac, Linux を問いません。
• 次ページ以降に表示されるコマンドの使い方
が分からなければ、? command のように
? に続けてコマンド名を入力することで、
詳細なヘルプが得られます。
4
2個の数に違いはあるか?
設定 ある商品を売り出したら、男性が515個、女性が459個購入してくれた。
売れ具合に男女差があると考えて良いか?
R言語での計算法 : binom.test を使う。
結論 : p値は 0.07796 > 0.05 であり、有意差は無い。
男女比の信頼区間は [ 0.987 , 1.275] になる。
例-1
5
2個のオッズに違いはあるか?
例「2商品の売れ方に男女差はあるか?」
設定 ある2商品を売り出したら、商品AとBは、それぞれ男性に131個と95個、
女性に120個と65個売れた。商品間の売れ行きで男女差はあるか?
R言語での計算法 : fisher.test を使う。
近似値で良い場合はchisq.testを使う。
結論 : p値は 0.1565 > 0.05 であり、有意差は無い。
オッズ比の信頼区間は [ 0.489 , 1.137] になる。
例-2
6
商品の売り上がる効率の推定
例「ある日の売上げが25個だった」
設定 ある商品のある日の売上げを担当者に聞いたら、25個であった。
一日当たりの売上がる個数の母平均の信頼区間は?
R言語での計算法 : poisson.test を使う。
結論 : 母数の信頼区間は [ 16.17, 36.90 ] になる。
ポアソン分布に従う変数の標準偏差は母平均 λ の平方根 λ1/2 に等しいで
す。信頼区間は [ λ-2λ1/2 , λ+2λ1/2 ] にほぼ等しいことは注目すべきことです。
例-3
7
中央値の信頼区間の構成をしたい。
例「毎日の売上げデータから毎月の様子を知りたい」
設定 ある商品の毎日のデータから、月ごとに1日の売れ行きの中央値の信
頼区間を構成したい。
Rによる計算法 : qbinom(1/40,c(28,29,30,31),1/2)による数値を使う。
結論 :
各月の、毎日の売上げデータ28〜31個を並べ、小さい順に並べる。
そして、2月は両端から9番目の値を信頼区間の上下限とする。それ以外の
月は両端から10番目の値を信頼区間の上下限とする。
この方法を採用すると、5個以下のデータからは中央値の信頼区間は構成できず、6〜8個の
データの場合は、データの最大値と最小値が信頼区間の上下限に一致することは、注目に値
する。
例-4
8
2個のオッズ比に違いはあるか?
例「2個のキャンペーンで新商品への誘導効果に差はあったか?」
設定 古い商品を購入している客を減らして、新しい商品へ移行させたい。
2個のキャンペーンを行った。効果に違いはあっただろうか?
計算法 : ワルド検定の考え方を使う
対数オッズ比とその分散を計算する。
対数オッズ比は θ= log ad/bc
その分散は s2=a-1+b-1+c-1+d-1 である。
(変数は右の図を参照)
z:= (θ1-θ2) / (s1
2+s2
2)1/2 に対して
Rでpnorm(z) の値が[0.025,0.975] の
の外にあれば、有意差ありとする。
ちなみに、右上のような図のことをモザイクプロットと呼ぶ。
なお、「オッズ odds 」と「オッズ比 odds ratio」は違う概念である。
例-5
9
キャンペーン 1
の前後の様子
キャンペーン 2
の前後の様子
a1
b1
c1
d1
a2
b2
c2
d2
4個の四角で構成されるブロックの上側が古い商品、
下側が新商品。左側がキャンペーン前、右側がキャ
ンペーン後。四角の面積が売れ行きに比例する。
この計算法についてはもっと良い
方法があるかもしれません。
付け加え
• 5% = 0.05 の有意水準で、有意差が無かった場
合、それでも「違いがある」と言いたい場合には、
他に十分説得力のある根拠が必要です。
– 観察対象となった標本から取り出した属性が適切で
なかったかもしれません。
– 観測が足りなかったのかもしれません。
– 一般的には、信頼区間の幅が標本サイズの平方根
に反比例して縮むことを用いて、必要なサイズを大雑
把に見積もることが可能です。
10
その他忘れざるべきこと
• 両側検定なのか、片側検定なのか考えること。
• あらかじめ計画立てて、必要観測数を見積もることも重要で
その場合は pwrパッケージのコマンドを使うこと。
• (無)相関についての検定には、cor.testが使えること。
• ちゃんと統計学を学ぶこと。
– 数理的なこともそうで無いことも大事であること。
– t検定やマンホイットニーのU検定は基礎である。
– スコア検定など知っておくべきこと。
– フィッシャーと、ネイマン/ピアソンの間の論争は解決していないこと。多分。
– それだけではないこと。
– 学術レベルの論文でも、統計学的観点から怪しいものがあれば、
それを見破る目を持つべきこと。
11

Más contenido relacionado

La actualidad más candente

第五回統計学勉強会@東大駒場
第五回統計学勉強会@東大駒場第五回統計学勉強会@東大駒場
第五回統計学勉強会@東大駒場
Daisuke Yoneoka
 

La actualidad más candente (20)

ノンパラメトリックベイズ4章クラスタリング
ノンパラメトリックベイズ4章クラスタリングノンパラメトリックベイズ4章クラスタリング
ノンパラメトリックベイズ4章クラスタリング
 
第4回DARM勉強会 (構造方程式モデリング)
第4回DARM勉強会 (構造方程式モデリング)第4回DARM勉強会 (構造方程式モデリング)
第4回DARM勉強会 (構造方程式モデリング)
 
ベイズファクターとモデル選択
ベイズファクターとモデル選択ベイズファクターとモデル選択
ベイズファクターとモデル選択
 
第五回統計学勉強会@東大駒場
第五回統計学勉強会@東大駒場第五回統計学勉強会@東大駒場
第五回統計学勉強会@東大駒場
 
2 3.GLMの基礎
2 3.GLMの基礎2 3.GLMの基礎
2 3.GLMの基礎
 
検定力分析とベイズファクターデザイン分析によるサンプルサイズ設計【※Docswellにも同じものを上げています】
検定力分析とベイズファクターデザイン分析によるサンプルサイズ設計【※Docswellにも同じものを上げています】検定力分析とベイズファクターデザイン分析によるサンプルサイズ設計【※Docswellにも同じものを上げています】
検定力分析とベイズファクターデザイン分析によるサンプルサイズ設計【※Docswellにも同じものを上げています】
 
StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章
StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章
StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章
 
万延する研究報告の質の低さの問題への 総合的対策
万延する研究報告の質の低さの問題への総合的対策万延する研究報告の質の低さの問題への総合的対策
万延する研究報告の質の低さの問題への 総合的対策
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
 
Stanコードの書き方 中級編
Stanコードの書き方 中級編Stanコードの書き方 中級編
Stanコードの書き方 中級編
 
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
 
心理学者のためのJASP入門(操作編)[説明文をよんでください]
心理学者のためのJASP入門(操作編)[説明文をよんでください]心理学者のためのJASP入門(操作編)[説明文をよんでください]
心理学者のためのJASP入門(操作編)[説明文をよんでください]
 
GEE(一般化推定方程式)の理論
GEE(一般化推定方程式)の理論GEE(一般化推定方程式)の理論
GEE(一般化推定方程式)の理論
 
Rによるやさしい統計学第20章「検定力分析によるサンプルサイズの決定」
Rによるやさしい統計学第20章「検定力分析によるサンプルサイズの決定」Rによるやさしい統計学第20章「検定力分析によるサンプルサイズの決定」
Rによるやさしい統計学第20章「検定力分析によるサンプルサイズの決定」
 
(実験心理学徒だけど)一般化線形混合モデルを使ってみた
(実験心理学徒だけど)一般化線形混合モデルを使ってみた(実験心理学徒だけど)一般化線形混合モデルを使ってみた
(実験心理学徒だけど)一般化線形混合モデルを使ってみた
 
因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説
 
Chapter9 一歩進んだ文法(前半)
Chapter9 一歩進んだ文法(前半)Chapter9 一歩進んだ文法(前半)
Chapter9 一歩進んだ文法(前半)
 
最低6回は見よ
最低6回は見よ最低6回は見よ
最低6回は見よ
 
SHAP値の考え方を理解する(木構造編)
SHAP値の考え方を理解する(木構造編)SHAP値の考え方を理解する(木構造編)
SHAP値の考え方を理解する(木構造編)
 
StanとRでベイズ統計モデリング読書会 Chapter 7(7.6-7.9) 回帰分析の悩みどころ ~統計の力で歌うまになりたい~
StanとRでベイズ統計モデリング読書会 Chapter 7(7.6-7.9) 回帰分析の悩みどころ ~統計の力で歌うまになりたい~StanとRでベイズ統計モデリング読書会 Chapter 7(7.6-7.9) 回帰分析の悩みどころ ~統計の力で歌うまになりたい~
StanとRでベイズ統計モデリング読書会 Chapter 7(7.6-7.9) 回帰分析の悩みどころ ~統計の力で歌うまになりたい~
 

Más de Toshiyuki Shimono

新型コロナの感染者数 全国の状況 2021年2月上旬まで
新型コロナの感染者数 全国の状況 2021年2月上旬まで新型コロナの感染者数 全国の状況 2021年2月上旬まで
新型コロナの感染者数 全国の状況 2021年2月上旬まで
Toshiyuki Shimono
 

Más de Toshiyuki Shimono (20)

国際産業数理・応用数理会議のポスター(作成中)
国際産業数理・応用数理会議のポスター(作成中)国際産業数理・応用数理会議のポスター(作成中)
国際産業数理・応用数理会議のポスター(作成中)
 
インターネット等からデータを自動収集するソフトウェアに必要な補助機能とその実装
インターネット等からデータを自動収集するソフトウェアに必要な補助機能とその実装インターネット等からデータを自動収集するソフトウェアに必要な補助機能とその実装
インターネット等からデータを自動収集するソフトウェアに必要な補助機能とその実装
 
extracting only a necessary file from a zip file
extracting only a necessary file from a zip fileextracting only a necessary file from a zip file
extracting only a necessary file from a zip file
 
A Hacking Toolset for Big Tabular Files -- JAPAN.PM 2021
A Hacking Toolset for Big Tabular Files -- JAPAN.PM 2021A Hacking Toolset for Big Tabular Files -- JAPAN.PM 2021
A Hacking Toolset for Big Tabular Files -- JAPAN.PM 2021
 
新型コロナの感染者数 全国の状況 2021年2月上旬まで
新型コロナの感染者数 全国の状況 2021年2月上旬まで新型コロナの感染者数 全国の状況 2021年2月上旬まで
新型コロナの感染者数 全国の状況 2021年2月上旬まで
 
Multiplicative Decompositions of Stochastic Distributions and Their Applicat...
 Multiplicative Decompositions of Stochastic Distributions and Their Applicat... Multiplicative Decompositions of Stochastic Distributions and Their Applicat...
Multiplicative Decompositions of Stochastic Distributions and Their Applicat...
 
Theory to consider an inaccurate testing and how to determine the prior proba...
Theory to consider an inaccurate testing and how to determine the prior proba...Theory to consider an inaccurate testing and how to determine the prior proba...
Theory to consider an inaccurate testing and how to determine the prior proba...
 
Interpreting Multiple Regression via an Ellipse Inscribed in a Square Extensi...
Interpreting Multiple Regressionvia an Ellipse Inscribed in a Square Extensi...Interpreting Multiple Regressionvia an Ellipse Inscribed in a Square Extensi...
Interpreting Multiple Regression via an Ellipse Inscribed in a Square Extensi...
 
Sqlgen190412.pdf
Sqlgen190412.pdfSqlgen190412.pdf
Sqlgen190412.pdf
 
BigQueryを使ってみた(2018年2月)
BigQueryを使ってみた(2018年2月)BigQueryを使ってみた(2018年2月)
BigQueryを使ってみた(2018年2月)
 
Seminar0917
Seminar0917Seminar0917
Seminar0917
 
既存分析ソフトへ
データを投入する前に
簡便な分析するためのソフトの作り方の提案
既存分析ソフトへ
データを投入する前に
簡便な分析するためのソフトの作り方の提案既存分析ソフトへ
データを投入する前に
簡便な分析するためのソフトの作り方の提案
既存分析ソフトへ
データを投入する前に
簡便な分析するためのソフトの作り方の提案
 
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
 
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
 
Make Accumulated Data in Companies Eloquent by SQL Statement Constructors (PDF)
Make Accumulated Data in Companies Eloquent by SQL Statement Constructors (PDF)Make Accumulated Data in Companies Eloquent by SQL Statement Constructors (PDF)
Make Accumulated Data in Companies Eloquent by SQL Statement Constructors (PDF)
 
企業等に蓄積されたデータを分析するための処理機能の提案
企業等に蓄積されたデータを分析するための処理機能の提案企業等に蓄積されたデータを分析するための処理機能の提案
企業等に蓄積されたデータを分析するための処理機能の提案
 
新入社員の頃に教えて欲しかったようなことなど
新入社員の頃に教えて欲しかったようなことなど新入社員の頃に教えて欲しかったようなことなど
新入社員の頃に教えて欲しかったようなことなど
 
ページャ lessを使いこなす
ページャ lessを使いこなすページャ lessを使いこなす
ページャ lessを使いこなす
 
Guiを使わないテキストデータ処理
Guiを使わないテキストデータ処理Guiを使わないテキストデータ処理
Guiを使わないテキストデータ処理
 
データ全貌把握の方法170324
データ全貌把握の方法170324データ全貌把握の方法170324
データ全貌把握の方法170324
 

R言語による簡便な有意差の検出と信頼区間の構成