Tokyor24 doradora09

[入門セッション]
Rによるやさしい統計学
第2,3章

doradora09

●
セキココ
– http://sekico.co/zaseki/35

Outline
●
自己紹介
● お知らせ + ご提案
●
テキスト紹介と振り返り
● 第２章 – 1つの変数の記述統計 −
● 第３章 − 2つの変数の記述統計 −

自己紹介

● 大城信晃 (Twitter:doradora09)
● DB寄りWebエンジニア
– Rは業務では触っていませんが
– いつかレコメンドをやってみたい
●
趣味：お酒、ホルン
●
マイブーム
– ネイバーまとめ

Outline
●
自己紹介
● お知らせ + ご提案
● テキスト紹介 + 前回振り返り
● 第２章 – 1つの変数の記述統計 −
● 第３章 − 2つの変数の記述統計 −

お知らせ(1/3)　セキココ
●
セキココという勉強会の座席共有サービスがあるので、もしよ
ければ使ってみてください
● 席に座っている人のTwitterアカウントが分かるので便利です
● http://sekico.co/

お知らせ(2/3)　懇親会
● TokyoRではセッション終了後に懇親会を実施して
います
●
発表後の参加も可能ですので、プレゼンを聞いて興
味を持たれた方は是非ご参加下さい
● 一般1500円、学生は無料です！

※画面はイメージです

お知らせ(3/3)　本日のウィスキー
● 出張BAR企画
– 今日はシーバスリーガル18年を持ってきました
– リクエストも募集中！（おひねりも大歓迎）

ご提案
●
入門セッションの後に再度入場の時間を作っては
どうでしょうか？

●
現在 ●
提案の流れ
– 14:30 入場 – 14:30 入場1回目
– 15:00 開始
– 15:00 開始
入門セッション
入門セッション
●
●

– 16:00 入場2回目+休憩
●
本編
● LT – 16:30 再開
– 19:00 懇親会
●
本編
● LT
– 21:00 解散 – 19:00 懇親会
– 21:00 解散

テキスト紹介
● Rによるやさしい統計学
● オーム社 (2008/1/25)
– 第２章：１つの変数の記
述統計
– 第３章：２つの変数の記
述統計

http://amazon.jp/dp/4274067106/creazynet-22/ref=nosim/

前回振り返り：Rの導入
● Windows, Mac, Linux版がある
●
いずれも無料
– Windows
● http://cran.md.tsukuba.ac.jp/bin/windows/base/
– Mac, Linux
● http://cran.md.tsukuba.ac.jp/
● 又は「rjpwiki」で検索
●
まだ導入していない方はこの機会にどうぞ

紹介：各Rコミュニティの過去発表資料一覧

● ATNDの下のリンクからどうぞ
http://atnd.org/events/29541
● 「勉強会発表内容一覧 – Japan.R WIki」

第２章
- １つの変数の記述統計 -

１つの変数の要約
●
数値要約
– データの持つ特徴を１つの数値にまとめること
– 平均、中央値、最頻値など
● 数値要約をすることで、例えば1クラス20人のテストの
平均が何点である、というようにクラスの特徴を一言
で表すことができる
● ここでは10人のクラスで心理学と統計のテストを受け
たデータをサンプルとして数値要約を進めていきます

サンプルデータ
> data <- read.csv('http://doradora09.sakura.ne.jp/tokyor/p38.csv');
> #またはこちらで
># read.csv('http://doradora09.sakura.ne.jp/tokyor/p38_sjis.csv');
> data
ID 名前性別数学統計心理学テスト統計テスト１統計テスト２指導法
1 1 大木男嫌い好き 13 6 10 C
2 2 本多男嫌い好き 14 10 13 B
3 3 川崎男好き好き 7 6 8 B
4 4 多村男好き好き 12 10 15 A
5 5 松中男嫌い嫌い 10 5 8 B
6 6 小久保男嫌い嫌い 6 3 6 C
7 7 柴原男嫌い嫌い 8 5 9 A
8 8 井手男嫌い嫌い 15 9 10 D
9 9 田上男嫌い嫌い 4 3 7 D
10 10 松田男嫌い嫌い 14 3 3 D

> attach(data) #データフレームを変数に展開してくれる

変数の種類
●
量的変数
– 大小に関する変数
– 心理学テストの点数など数値化できるもの
●
質的変数
– 構成する要素を分類するもの
– 数学が好きか、嫌いかなど

●
変数の種類によって適用できる統計解析が変わる
ため、区別が重要

データの視覚的表現
●
データをカテゴリ別に > data['指導法'] #指導法のデータ
だけ取り出す
分類 > 指導法
– 度数 [1] C B B A B C A D D D
Levels: A B C D
●
同じカテゴリに含まれ
るデータの個数
●
ここでは指導法の値、 > table(指導法)
例えばAの指導法の度指導法
数は2 ABCD
2323

ヒストグラム (度数の図示)
> data[,'心理学テスト']
[1] 13 14 7 12 10 6 8 15 4 14
> hist(data[,'心理学テスト'])

代表値
●
代表値
– 分布の中心部の位置を示す、そのデータを代表する値
– 平均値：よく利用される代表値
● 平均 =
(１番目のデータ + ２番目のデータ + ... + n番目のデータ) / n

> mean(data['心理学テスト']) #平均値
心理学テスト
10.3

平均以外の代表値
●
中央値
– データの大きさの順に並べた際にちょうど真ん中
に来る値
● 10個のデータの場合は真ん中の２つの値の平均値
– 以下の例だと(10+12)/2 = 11
●
データにはずれ値がある場合に用いられることがある

> sort(data[,'心理学テスト']) #小さい順に並べる
[1] 4 6 7 8 10 12 13 14 14 15

> median(data[,'心理学テスト']) #中央値(10と12の平均)
[1] 11

平均以外の代表値
●
最頻値
– 最も頻繁に観測される値
– 主に質的変数の代表値として用いられる
●
最頻値が２つあるような分布の場合はあまり用いない
方が良い(数値要約になってない)

> table(data[,'心理学テスト']) #最頻値(ここでは14)

4 6 7 8 10 12 13 14 15
1 1 1 1 1 1 1 2 1

散布度

●
散布度
– ここまではデータの中心に関する話(代表値)
– 今度はデータがどれくらいの散らばりがあるかを
見る(散布度)
●
偏差、分散、標準偏差、平均偏差、レンジ

(平均からの)偏差
●
偏差
– 平均と変数の差
> 統計テスト２
[1] 10 13 8 15 8 6 9 10 7 3
> mean(統計テスト２)
[1] 8.9
> 統計テスト２ - mean(統計テス
ト２)
[1] 1.1 4.1 -0.9 6.1 -0.9 -2.9
0.1 1.1 -1.9 -5.9

分散、標準偏差

(標本)分散=

(data[1-n] : 変数の値, mean : 変数の平均, n : データの個数)

標準偏差 = √分散

●
分散、標準偏差の値が大きいほどデータの散
らばりが大きいことを意味する

分散、標準偏差

> テストa <- 統計テスト２
> テストa
[1] 10 13 8 15 8 6 9 10 7 3

> var(テストa) #(標本)分散を求める
[1] 11.65556

> sd(テストa) #標準偏差を求める
[1] 3.414023

補足：不偏分散と標本分散
●
標本分散
– 今回扱う分散
– 手元にすべてのデータがあり、そのデータ自体が
どの程度散らばっているのかを記述する際に用い
る
●
不偏分散
– 手元データが母集団の一部である場合に用いる
– n-1で割る

不偏分散=
(data[1-n] : 変数の値, mean : 変数の平均, n : データの個数)

分散、標準偏差以外の散布度
平均偏差
= (平均からの)偏差の絶対値の平均
> 統計テスト２
[1] 10 13 8 15 8 6 9 10 7 3

> mean(統計テスト２)
[1] 8.9
> 統計テスト２ – mean(統計テスト２) #偏差をもとめる
[1] 1.1 4.1 -0.9 6.1 -0.9 -2.9 0.1 1.1 -1.9 -5.9

> abs(統計テスト２ – mean(統計テスト２)) #絶対値をもとめる
[1] 1.1 4.1 0.9 6.1 0.9 2.9 0.1 1.1 1.9 5.9

> mean(abs(統計テスト２ – mean(統計テスト２))) #平均偏差
[1] 2.5

分散、標準偏差以外の散布度
範囲(レンジ)
= 最大値 - 最小値

#レンジを求める
> max(統計テスト２)
[1] 15
> min(統計テスト２)
[1] 3

> max(統計テスト２) - min(統計テスト２)
[1] 12

標準化
●
標準化
– 平均と標準偏差がある特定の値になるように、すべてのデータ
の値を同じ式を使って変換すること
●
標準得点
– 変換された得点のこと

● z得点
– 平均0, 標準偏差(SD)1の標準得点
– (変数 – 平均値) / 標準偏差で求める

z得点を求める
> 心理学テスト > 心理学z得点 <-
[1] 13 14 7 12 10 6 8 15 4 14 (data['心理学テスト']-心理学平均)/
心理学標準偏差
> 心理学平均 <-
mean(data['心理学テスト']) > 心理学z得点
心理学テスト
> 心理学平均 1 0.73730873
心理学テスト 2 1.01038604
10.3 3 -0.90115511
> 4 0.46423142
> 心理学標準偏差 <- 5 -0.08192319
sqrt(mean((data['心理学テスト'] - 6 -1.17423242
心理学平均)^2)) 7 -0.62807781
8 1.28346334
> 心理学標準偏差 9 -1.72038703
[1] 3.661967 10 1.01038604

z得点の検算
> 心理学z得点平均 <- mean(心理学z得点)
> 心理学z得点平均 #e-16は10のマイナス18乗のこと。ほぼ0
心理学テスト
-1.94289e-16

> 心理学z得点標準偏差 <-
sqrt(mean((心理学z得点-心理学z得点平均)^2))

> 心理学z得点標準偏差 #1になっている
[1] 1

– 平均0, 標準偏差(SD)1になっている

偏差値
●
偏差値
– 平均50,標準偏差10になるように標準かした標準得
点
– 偏差値 = z得点 × 10 + 50
●
偏差値の利用価値が高いのは、母集団の数値の分布が正
規分布に近い状態の時
– 偏差値60以上（あるいは40以下）は、全体の15.866％。
– 偏差値100以上（あるいは0以下）は、全体の0.00002％

偏差値と検算
> 心理学偏差値 <- > 心理学偏差値平均 <-
10*心理学z得点 + 50 mean(心理学偏差値)

> 心理学偏差値 > 心理学偏差値平均
心理学テスト心理学テスト
1 57.37309 50
2 60.10386 >
3 40.98845 > 心理学偏差値標準偏差 <-
4 54.64231 sqrt(mean((心理学偏差値 - 心理
5 49.18077 学偏差値平均)^2))
6 38.25768
7 43.71922 > 心理学偏差値標準偏差
8 62.83463 [1] 10
9 32.79613
10 60.10386

参考：正規分布の場合の対応表

第２章まとめ
1つの変数の記述統計
– 変数の種類
●
量的変数、質的変数
– 代表値
●
平均、中央値、最頻値
– 散布度
●
偏差、分散、標準偏差
– 標準化
● z得点、偏差値

第３章 - 2つの変数の記述統計 -

(スライド10枚)

２つの変数の関係 - 相関と連関 -

●
相関
– 量的変数どうしの関係
●
「国語の得点が高い人ほど英語の得点が高い」など
●
連関
– 質的変数どうしの関係
●
洋食派か和食派か尋ね、洋食派には甘党が多く、和食
派には辛党が多かった場合、など

散布図
> t_test1 <- data[,'統計テスト１']
> t_test2 <- data[,'統計テスト２']
> plot(t_test1, t_test2)

● X軸, Y軸のデータが
– 右上がりの傾向(正の相関)
– 右下がりの傾向(負の相関)
– バラバラ(無相関)
●
統計テスト１と統計テスト２
には正の相関がありそう

共分散
●
共分散
– 相関の強さを数値で表す際に用いる
– 分散は１変数で自乗していたが、共分散はx, y ２変数の偏
差をそれぞれを掛け合わせる

Sxy: 共分散
xの平均 yの平均

共分散
> cov(data['統計テスト１'],data['統計テスト２'])
#不偏共分散

統計テスト２
統計テスト１ 8.555556

共分散と単位の影響
●
共分散は単位により値が変動してしまう
– 例えば身長だとmで計算するか、cmで計算するか
で値が100倍変わるため
●
相関係数を用いることで単位の影響を受けな
くすることが可能

相関係数
●
相関係数は単位に左右されない

rxy:相関係数, Sxy:共分散
Sx: xの標準偏差, Sy: yの標準偏差

> cor(data['統計テスト１'], data['統計テスト２'])
統計テスト２
統計テスト１ 0.8985742

相関係数の大きさの評価
●
相関係数
-0.2 ≦ r ≦ 0.2 : ほとんど相関無し
-0.4 ≦ r ＜ -0.2, 0.2 ＜ r ≦ 0.4 : 弱い相関あり
-0.7 ≦ r ＜ -0.4, 0.4 ＜ r ≦ 0.7 : 中程度の相関あり
-1.0 ≦ r ＜ -0.7, 0.7 ＜ r ≦ 1.0 : 強い相関あり

統計テスト1と2
相関係数 = 0.8985742
(強い相関あり)

クロス集計表
●
質的変数の関係を表す表
● 数学も統計も嫌い、という人は6人いるという読み方

> table(data[,'数学'],data[,'統計'])

統計

嫌い好き
数学嫌い 6 2
好き 0 2

ファイ係数
● クロス集計で利用した好き、嫌いという区別を1,0
で置き換え
●
数値化して相関係数を求める
– 質的変数を量的変数と見なして計算ができる
> 数学イチゼロ <- ifelse(data['数学'] == "好き", 1, 0)
> 統計イチゼロ <- ifelse(data['統計'] == "好き", 1, 0)

> 数学イチゼロ[,1]
[1] 0 0 1 1 0 0 0 0 0 0
> 統計イチゼロ[,1]
[1] 1 1 1 1 0 0 0 0 0 0

> cor(数学イチゼロ, 統計イチゼロ)
統計
数学 0.6123724
>#中程度の相関あり

第３章まとめ
２変数の関係性を調べる方法

● 散布図：plot()
● 共分散：cov()
● 相関係数: 単位に影響されない. cor()
● クロス集計表: table()
● ファイ係数 : 質的変数をifelse等で0,1化してcor()

ご清聴ありがとうございました！

Tokyor24 doradora09

Recomendados

Recomendados

Más contenido relacionado

Similar a Tokyor24 doradora09

Similar a Tokyor24 doradora09 (20)

Más de Nobuaki Oshiro

Más de Nobuaki Oshiro (20)

Tokyor24 doradora09