SlideShare una empresa de Scribd logo
1 de 48
Descargar para leer sin conexión
[入門セッション]
Rによるやさしい統計学
     第2,3章


         doradora09
●
    セキココ
    –   http://sekico.co/zaseki/35
Outline
●
    自己紹介
●   お知らせ + ご提案
●
    テキスト紹介と振り返り
●   第2章 – 1つの変数の記述統計 −
●   第3章 − 2つの変数の記述統計 −
自己紹介

●   大城信晃 (Twitter:doradora09)
●   DB寄りWebエンジニア
    –   Rは業務では触っていませんが
    –   いつかレコメンドをやってみたい
●
    趣味:お酒、ホルン
●
    マイブーム
    –   ネイバーまとめ
Outline
●
    自己紹介
●   お知らせ + ご提案
●   テキスト紹介 + 前回振り返り
●   第2章 – 1つの変数の記述統計 −
●   第3章 − 2つの変数の記述統計 −
お知らせ(1/3) セキココ
●
    セキココという勉強会の座席共有サービスがあるので、もしよ
    ければ使ってみてください
●   席に座っている人のTwitterアカウントが分かるので便利です
●   http://sekico.co/
お知らせ(2/3) 懇親会
●   TokyoRではセッション終了後に懇親会を実施して
    います
●
    発表後の参加も可能ですので、プレゼンを聞いて興
    味を持たれた方は是非ご参加下さい
●   一般1500円、学生は無料です!




                     ※画面はイメージです
お知らせ(3/3) 本日のウィスキー
●   出張BAR企画
    –   今日はシーバスリーガル18年を持ってきました
    –   リクエストも募集中!(おひねりも大歓迎)
ご提案
●
    入門セッションの後に再度入場の時間を作っては
    どうでしょうか?

●
    現在                 ●
                           提案の流れ
    –   14:30 入場           –   14:30 入場1回目
    –   15:00 開始
                           –   15:00 開始
                                   入門セッション
            入門セッション
                               ●
        ●

                           –   16:00 入場2回目+休憩
        ●
            本編
        ●   LT             –   16:30 再開
    –   19:00 懇親会
                               ●
                                   本編
                               ●   LT
    –   21:00 解散           –   19:00 懇親会
                           –   21:00 解散
そろそろ本題へ
テキスト紹介
                          ●   Rによるやさしい統計学
                          ●   オーム社 (2008/1/25)
                              –   第2章:1つの変数の記
                                  述統計
                              –   第3章:2つの変数の記
                                  述統計




http://amazon.jp/dp/4274067106/creazynet-22/ref=nosim/
前回振り返り:Rの導入
●   Windows, Mac, Linux版がある
●
    いずれも無料
    –   Windows
        ●   http://cran.md.tsukuba.ac.jp/bin/windows/base/
    –   Mac, Linux
        ●   http://cran.md.tsukuba.ac.jp/
●   又は「rjpwiki」で検索
●
    まだ導入していない方はこの機会にどうぞ
紹介:各Rコミュニティの過去発表資料一覧

●   ATNDの下のリンクからどうぞ
    http://atnd.org/events/29541
      ●   「勉強会発表内容一覧 – Japan.R WIki」
第2章
- 1つの変数の記述統計 -
1つの変数の要約
●
    数値要約
    –   データの持つ特徴を1つの数値にまとめること
    –   平均、中央値、最頻値など
        ●   数値要約をすることで、例えば1クラス20人のテストの
            平均が何点である、というようにクラスの特徴を一言
            で表すことができる
        ●   ここでは10人のクラスで心理学と統計のテストを受け
            たデータをサンプルとして数値要約を進めていきます
サンプルデータ
> data <- read.csv('http://doradora09.sakura.ne.jp/tokyor/p38.csv');
> #またはこちらで
># read.csv('http://doradora09.sakura.ne.jp/tokyor/p38_sjis.csv');
> data
  ID     名前   性別 数学 統計 心理学テスト 統計テスト1 統計テスト2 指導法
1 1      大木      男 嫌い 好き                13         6        10     C
2 2      本多      男 嫌い 好き                14         10       13     B
3 3      川崎      男 好き 好き                 7          6        8     B
4 4      多村      男 好き 好き                12         10       15     A
5 5      松中      男 嫌い 嫌い                10         5         8     B
6 6      小久保     男 嫌い 嫌い                 6          3        6     C
7 7      柴原      男 嫌い 嫌い                 8         5         9     A
8 8      井手      男 嫌い 嫌い                15         9        10     D
9 9      田上      男 嫌い 嫌い                 4         3         7     D
10 10    松田      男 嫌い 嫌い                14         3         3     D

> attach(data) #データフレームを変数に展開してくれる
変数の種類
●
    量的変数
    –   大小に関する変数
    –   心理学テストの点数など数値化できるもの
●
    質的変数
    –   構成する要素を分類するもの
    –   数学が好きか、嫌いかなど

●
    変数の種類によって適用できる統計解析が変わる
    ため、区別が重要
データの視覚的表現
●
    データをカテゴリ別に           > data['指導法'] #指導法のデータ
                         だけ取り出す
    分類                   > 指導法
    –   度数                [1] C B B A B C A D D D
                         Levels: A B C D
        ●
            同じカテゴリに含まれ
            るデータの個数
        ●
            ここでは指導法の値、   > table(指導法)
            例えばAの指導法の度   指導法
            数は2          ABCD
                         2323
ヒストグラム (度数の図示)
> data[,'心理学テスト']
[1] 13 14 7 12 10 6 8 15 4 14
> hist(data[,'心理学テスト'])
代表値
●
    代表値
    –   分布の中心部の位置を示す、そのデータを代表する値
    –   平均値:よく利用される代表値
        ●   平均 =
            (1番目のデータ + 2番目のデータ + ... + n番目のデータ) / n



    > mean(data['心理学テスト']) #平均値
    心理学テスト
        10.3
平均以外の代表値
●
    中央値
    –   データの大きさの順に並べた際にちょうど真ん中
        に来る値
        ●   10個のデータの場合は真ん中の2つの値の平均値
            –   以下の例だと(10+12)/2 = 11
        ●
            データにはずれ値がある場合に用いられることがある

    > sort(data[,'心理学テスト']) #小さい順に並べる
    [1] 4 6 7 8 10 12 13 14 14 15

    > median(data[,'心理学テスト']) #中央値(10と12の平均)
    [1] 11
平均以外の代表値
●
    最頻値
    –   最も頻繁に観測される値
    –   主に質的変数の代表値として用いられる
         ●
             最頻値が2つあるような分布の場合はあまり用いない
             方が良い(数値要約になってない)



    > table(data[,'心理学テスト']) #最頻値(ここでは14)

        4 6 7 8 10 12 13 14 15
        1 1 1 1 1 1 1 2 1
散布度

●
    散布度
    –   ここまではデータの中心に関する話(代表値)
    –   今度はデータがどれくらいの散らばりがあるかを
        見る(散布度)
        ●
            偏差、分散、標準偏差、平均偏差、レンジ
(平均からの)偏差
 ●
     偏差
     –   平均と変数の差
> 統計テスト2
 [1] 10 13 8 15 8 6 9 10 7 3
> mean(統計テスト2)
[1] 8.9
> 統計テスト2 - mean(統計テス
ト2)
 [1] 1.1 4.1 -0.9 6.1 -0.9 -2.9
0.1 1.1 -1.9 -5.9
分散、標準偏差

(標本)分散=

      (data[1-n] : 変数の値, mean : 変数の平均, n : データの個数)


標準偏差 = √分散

●
    分散、標準偏差の値が大きいほどデータの散
    らばりが大きいことを意味する
分散、標準偏差

> テストa <- 統計テスト2
> テストa
[1] 10 13 8 15 8 6 9 10 7 3

> var(テストa) #(標本)分散を求める
[1] 11.65556

> sd(テストa) #標準偏差を求める
[1] 3.414023
補足:不偏分散と標本分散
●
    標本分散
    –   今回扱う分散
    –   手元にすべてのデータがあり、そのデータ自体が
        どの程度散らばっているのかを記述する際に用い
        る
●
    不偏分散
    –   手元データが母集団の一部である場合に用いる
    –   n-1で割る


不偏分散=
         (data[1-n] : 変数の値, mean : 変数の平均, n : データの個数)
分散、標準偏差以外の散布度
平均偏差
  = (平均からの)偏差の絶対値の平均
> 統計テスト2
[1] 10 13 8 15 8 6 9 10 7 3

> mean(統計テスト2)
[1] 8.9
> 統計テスト2 – mean(統計テスト2) #偏差をもとめる
 [1] 1.1 4.1 -0.9 6.1 -0.9 -2.9 0.1 1.1 -1.9 -5.9

> abs(統計テスト2 – mean(統計テスト2)) #絶対値をもとめる
[1] 1.1 4.1 0.9 6.1 0.9 2.9 0.1 1.1 1.9 5.9

> mean(abs(統計テスト2 – mean(統計テスト2))) #平均偏差
[1] 2.5
分散、標準偏差以外の散布度
範囲(レンジ)
  = 最大値 - 最小値

#レンジを求める
> max(統計テスト2)
[1] 15
> min(統計テスト2)
[1] 3

> max(統計テスト2) - min(統計テスト2)
[1] 12
標準化
●
    標準化
    –   平均と標準偏差がある特定の値になるように、すべてのデータ
        の値を同じ式を使って変換すること
●
    標準得点
    –   変換された得点のこと

●   z得点
    –   平均0, 標準偏差(SD)1の標準得点
    –   (変数 – 平均値) / 標準偏差 で求める
z得点を求める
> 心理学テスト                        > 心理学z得点 <-
[1] 13 14 7 12 10 6 8 15 4 14   (data['心理学テスト']-心理学平均)/
                                心理学標準偏差
> 心理学平均 <-
mean(data['心理学テスト'])            > 心理学z得点
                                  心理学テスト
> 心理学平均                         1 0.73730873
心理学テスト                          2 1.01038604
     10.3                       3 -0.90115511
>                               4 0.46423142
> 心理学標準偏差 <-                    5 -0.08192319
sqrt(mean((data['心理学テスト'] -     6 -1.17423242
心理学平均)^2))                      7 -0.62807781
                                8 1.28346334
> 心理学標準偏差                       9 -1.72038703
[1] 3.661967                    10 1.01038604
z得点の検算
> 心理学z得点平均 <- mean(心理学z得点)
> 心理学z得点平均 #e-16は10のマイナス18乗のこと。ほぼ0
心理学テスト
-1.94289e-16

> 心理学z得点標準偏差 <-
sqrt(mean((心理学z得点-心理学z得点平均)^2))

> 心理学z得点標準偏差     #1になっている
[1] 1

      –   平均0, 標準偏差(SD)1になっている
偏差値
●
    偏差値
    –   平均50,標準偏差10になるように標準かした標準得
        点
    –   偏差値 = z得点 × 10 + 50
        ●
            偏差値の利用価値が高いのは、母集団の数値の分布が正
            規分布に近い状態の時
            –   偏差値60以上(あるいは40以下)は、全体の15.866%。
            –   偏差値70以上(あるいは30以下)は、全体の2.275%。
            –   偏差値80以上(あるいは20以下)は、全体の0.13499%。
            –   偏差値90以上(あるいは10以下)は、全体の0.00315%。
            –   偏差値100以上(あるいは0以下)は、全体の0.00002%
偏差値と検算
> 心理学偏差値 <-      > 心理学偏差値平均 <-
10*心理学z得点 + 50   mean(心理学偏差値)

> 心理学偏差値         > 心理学偏差値平均
  心理学テスト         心理学テスト
1  57.37309            50
2  60.10386      >
3  40.98845      > 心理学偏差値標準偏差 <-
4  54.64231      sqrt(mean((心理学偏差値 - 心理
5  49.18077      学偏差値平均)^2))
6  38.25768
7  43.71922      > 心理学偏差値標準偏差
8  62.83463      [1] 10
9  32.79613
10 60.10386
参考:正規分布の場合の対応表
第2章まとめ
1つの変数の記述統計
–   変数の種類
    ●
        量的変数、質的変数
–   代表値
    ●
        平均、中央値、最頻値
–   散布度
    ●
        偏差、分散、標準偏差
–   標準化
    ●   z得点、偏差値
第3章 - 2つの変数の記述統計 -

    (スライド10枚)
2つの変数の関係 - 相関と連関 -

●
    相関
    –   量的変数どうしの関係
        ●
            「国語の得点が高い人ほど英語の得点が高い」など
●
    連関
    –   質的変数どうしの関係
        ●
            洋食派か和食派か尋ね、洋食派には甘党が多く、和食
            派には辛党が多かった場合、など
散布図
    > t_test1 <- data[,'統計テスト1']
    > t_test2 <- data[,'統計テスト2']
    > plot(t_test1, t_test2)



●    X軸, Y軸のデータが
      –   右上がりの傾向(正の相関)
      –   右下がりの傾向(負の相関)
      –   バラバラ(無相関)
●
     統計テスト1と統計テスト2
     には正の相関がありそう
共分散
●
    共分散
    –   相関の強さを数値で表す際に用いる
    –   分散は1変数で自乗していたが、共分散はx, y 2変数の偏
        差をそれぞれを掛け合わせる




    Sxy: 共分散
          xの平均        yの平均
共分散
> cov(data['統計テスト1'],data['統計テスト2'])
#不偏共分散

    統計テスト2
統計テスト1 8.555556
共分散と単位の影響
●
    共分散は単位により値が変動してしまう
    –   例えば身長だとmで計算するか、cmで計算するか
        で値が100倍変わるため
●
    相関係数を用いることで単位の影響を受けな
    くすることが可能
相関係数
●
    相関係数は単位に左右されない




       rxy:相関係数, Sxy:共分散
      Sx: xの標準偏差, Sy: yの標準偏差


    > cor(data['統計テスト1'], data['統計テスト2'])
              統計テスト2
    統計テスト1 0.8985742
相関係数の大きさの評価
●
    相関係数
      -0.2 ≦ r ≦ 0.2            : ほとんど相関無し
      -0.4 ≦ r < -0.2, 0.2 < r ≦ 0.4 : 弱い相関あり
      -0.7 ≦ r < -0.4, 0.4 < r ≦ 0.7 : 中程度の相関あり
      -1.0 ≦ r < -0.7, 0.7 < r ≦ 1.0 : 強い相関あり

    統計テスト1と2
    相関係数 = 0.8985742
    (強い相関あり)
クロス集計表
●
    質的変数の関係を表す表
     ●   数学も統計も嫌い、という人は6人いるという読み方

                 > table(data[,'数学'],data[,'統計'])

                            統計

                    嫌い 好き
            数学    嫌い 6 2
                  好き 0 2
ファイ係数
●   クロス集計で利用した好き、嫌いという区別を1,0
    で置き換え
●
    数値化して相関係数を求める
    –   質的変数を量的変数と見なして計算ができる
        > 数学イチゼロ <- ifelse(data['数学'] == "好き", 1, 0)
        > 統計イチゼロ <- ifelse(data['統計'] == "好き", 1, 0)

        > 数学イチゼロ[,1]
        [1] 0 0 1 1 0 0 0 0 0 0
        > 統計イチゼロ[,1]
        [1] 1 1 1 1 0 0 0 0 0 0

        > cor(数学イチゼロ, 統計イチゼロ)
               統計
        数学 0.6123724
        >#中程度の相関あり
第3章まとめ
    2変数の関係性を調べる方法

●   散布図:plot()
●   共分散:cov()
●   相関係数: 単位に影響されない. cor()
●   クロス集計表: table()
●   ファイ係数 : 質的変数をifelse等で0,1化してcor()
ご清聴ありがとうございました!

Más contenido relacionado

Similar a Tokyor24 doradora09

効果測定入門 Rによる傾向スコア解析
効果測定入門  Rによる傾向スコア解析効果測定入門  Rによる傾向スコア解析
効果測定入門 Rによる傾向スコア解析aa_aa_aa
 
ベイズ統計によるデータ解析
ベイズ統計によるデータ解析ベイズ統計によるデータ解析
ベイズ統計によるデータ解析Kunihiro Hisatsune
 
Rm20150513 4key
Rm20150513 4keyRm20150513 4key
Rm20150513 4keyyouwatari
 
LET2011: Rによる教育データ分析入門
LET2011: Rによる教育データ分析入門LET2011: Rによる教育データ分析入門
LET2011: Rによる教育データ分析入門Yuichiro Kobayashi
 
理科教育学研究のための統計分析入門
理科教育学研究のための統計分析入門理科教育学研究のための統計分析入門
理科教育学研究のための統計分析入門Hiroshi Unzai
 
R Study Tokyo03
R Study Tokyo03R Study Tokyo03
R Study Tokyo03Yohei Sato
 
状態空間モデルによる心理療法効果の測定と予測
状態空間モデルによる心理療法効果の測定と予測状態空間モデルによる心理療法効果の測定と予測
状態空間モデルによる心理療法効果の測定と予測人斬り 抜刀斎
 
統計ソフトRの使い方_2015.04.17
統計ソフトRの使い方_2015.04.17統計ソフトRの使い方_2015.04.17
統計ソフトRの使い方_2015.04.17hicky1225
 
基本統計量について
基本統計量について基本統計量について
基本統計量についてwada, kazumi
 
外国語教育研究におけるRを用いた統計処理入門
外国語教育研究におけるRを用いた統計処理入門外国語教育研究におけるRを用いた統計処理入門
外国語教育研究におけるRを用いた統計処理入門Yusaku Kawaguchi
 
Rm20140507 4key
Rm20140507 4keyRm20140507 4key
Rm20140507 4keyyouwatari
 
ネットワークメタ分析入門
ネットワークメタ分析入門ネットワークメタ分析入門
ネットワークメタ分析入門Senshu University
 
Rで学ぶ観察データでの因果推定
Rで学ぶ観察データでの因果推定Rで学ぶ観察データでの因果推定
Rで学ぶ観察データでの因果推定Hiroki Matsui
 
順序データでもベイズモデリング
順序データでもベイズモデリング順序データでもベイズモデリング
順序データでもベイズモデリング. .
 
K070k80 点推定 区間推定
K070k80 点推定 区間推定K070k80 点推定 区間推定
K070k80 点推定 区間推定t2tarumi
 
tokyo webmining3 2010.04.17.
tokyo webmining3 2010.04.17.tokyo webmining3 2010.04.17.
tokyo webmining3 2010.04.17.osamu morimoto
 
カテゴリカルデータの解析 (Kashiwa.R#3)
カテゴリカルデータの解析 (Kashiwa.R#3)カテゴリカルデータの解析 (Kashiwa.R#3)
カテゴリカルデータの解析 (Kashiwa.R#3)Takumi Tsutaya
 

Similar a Tokyor24 doradora09 (20)

効果測定入門 Rによる傾向スコア解析
効果測定入門  Rによる傾向スコア解析効果測定入門  Rによる傾向スコア解析
効果測定入門 Rによる傾向スコア解析
 
ベイズ統計によるデータ解析
ベイズ統計によるデータ解析ベイズ統計によるデータ解析
ベイズ統計によるデータ解析
 
JASELE2015-KumamotoWS
JASELE2015-KumamotoWSJASELE2015-KumamotoWS
JASELE2015-KumamotoWS
 
Rm20150513 4key
Rm20150513 4keyRm20150513 4key
Rm20150513 4key
 
LET2011: Rによる教育データ分析入門
LET2011: Rによる教育データ分析入門LET2011: Rによる教育データ分析入門
LET2011: Rによる教育データ分析入門
 
理科教育学研究のための統計分析入門
理科教育学研究のための統計分析入門理科教育学研究のための統計分析入門
理科教育学研究のための統計分析入門
 
R Study Tokyo03
R Study Tokyo03R Study Tokyo03
R Study Tokyo03
 
状態空間モデルによる心理療法効果の測定と予測
状態空間モデルによる心理療法効果の測定と予測状態空間モデルによる心理療法効果の測定と予測
状態空間モデルによる心理療法効果の測定と予測
 
統計ソフトRの使い方_2015.04.17
統計ソフトRの使い方_2015.04.17統計ソフトRの使い方_2015.04.17
統計ソフトRの使い方_2015.04.17
 
基本統計量について
基本統計量について基本統計量について
基本統計量について
 
外国語教育研究におけるRを用いた統計処理入門
外国語教育研究におけるRを用いた統計処理入門外国語教育研究におけるRを用いた統計処理入門
外国語教育研究におけるRを用いた統計処理入門
 
Rm20140507 4key
Rm20140507 4keyRm20140507 4key
Rm20140507 4key
 
Rで学ぶロバスト推定
Rで学ぶロバスト推定Rで学ぶロバスト推定
Rで学ぶロバスト推定
 
Osaka.stan#2 chap5-1
Osaka.stan#2 chap5-1Osaka.stan#2 chap5-1
Osaka.stan#2 chap5-1
 
ネットワークメタ分析入門
ネットワークメタ分析入門ネットワークメタ分析入門
ネットワークメタ分析入門
 
Rで学ぶ観察データでの因果推定
Rで学ぶ観察データでの因果推定Rで学ぶ観察データでの因果推定
Rで学ぶ観察データでの因果推定
 
順序データでもベイズモデリング
順序データでもベイズモデリング順序データでもベイズモデリング
順序データでもベイズモデリング
 
K070k80 点推定 区間推定
K070k80 点推定 区間推定K070k80 点推定 区間推定
K070k80 点推定 区間推定
 
tokyo webmining3 2010.04.17.
tokyo webmining3 2010.04.17.tokyo webmining3 2010.04.17.
tokyo webmining3 2010.04.17.
 
カテゴリカルデータの解析 (Kashiwa.R#3)
カテゴリカルデータの解析 (Kashiwa.R#3)カテゴリカルデータの解析 (Kashiwa.R#3)
カテゴリカルデータの解析 (Kashiwa.R#3)
 

Más de Nobuaki Oshiro

20181117_データ分析プロジェクトの流れを理解する_PDCAとKPIツリー
20181117_データ分析プロジェクトの流れを理解する_PDCAとKPIツリー20181117_データ分析プロジェクトの流れを理解する_PDCAとKPIツリー
20181117_データ分析プロジェクトの流れを理解する_PDCAとKPIツリーNobuaki Oshiro
 
20170909 reafletでお手軽可視化 on_r_20分ver_up用
20170909 reafletでお手軽可視化 on_r_20分ver_up用20170909 reafletでお手軽可視化 on_r_20分ver_up用
20170909 reafletでお手軽可視化 on_r_20分ver_up用Nobuaki Oshiro
 
20170826 fukuoka.r告知_reafletでお手軽可視化_on_r
20170826 fukuoka.r告知_reafletでお手軽可視化_on_r20170826 fukuoka.r告知_reafletでお手軽可視化_on_r
20170826 fukuoka.r告知_reafletでお手軽可視化_on_rNobuaki Oshiro
 
20170707 rでkaggle入門
20170707 rでkaggle入門20170707 rでkaggle入門
20170707 rでkaggle入門Nobuaki Oshiro
 
20170312 r言語環境構築&amp;dplyr ハンズオン
20170312 r言語環境構築&amp;dplyr ハンズオン20170312 r言語環境構築&amp;dplyr ハンズオン
20170312 r言語環境構築&amp;dplyr ハンズオンNobuaki Oshiro
 
20161127 doradora09 japanr2016_lt
20161127 doradora09 japanr2016_lt20161127 doradora09 japanr2016_lt
20161127 doradora09 japanr2016_ltNobuaki Oshiro
 
10分で分かるr言語入門ver2.15 15 1010
10分で分かるr言語入門ver2.15 15 101010分で分かるr言語入門ver2.15 15 1010
10分で分かるr言語入門ver2.15 15 1010Nobuaki Oshiro
 
10分で分かるr言語入門ver2.14 15 0905
10分で分かるr言語入門ver2.14 15 090510分で分かるr言語入門ver2.14 15 0905
10分で分かるr言語入門ver2.14 15 0905Nobuaki Oshiro
 
10分で分かるr言語入門ver2 upload用
10分で分かるr言語入門ver2 upload用10分で分かるr言語入門ver2 upload用
10分で分かるr言語入門ver2 upload用Nobuaki Oshiro
 
15 0117 kh-coderご紹介 for R users
15 0117 kh-coderご紹介 for R users15 0117 kh-coderご紹介 for R users
15 0117 kh-coderご紹介 for R usersNobuaki Oshiro
 
15 0117 kh-coderご紹介
15 0117 kh-coderご紹介15 0117 kh-coderご紹介
15 0117 kh-coderご紹介Nobuaki Oshiro
 
15 0117 r言語活用事例-外部公開用
15 0117 r言語活用事例-外部公開用15 0117 r言語活用事例-外部公開用
15 0117 r言語活用事例-外部公開用Nobuaki Oshiro
 
10分で分かるr言語入門 短縮バージョン 15-0117_upload用
10分で分かるr言語入門 短縮バージョン 15-0117_upload用10分で分かるr言語入門 短縮バージョン 15-0117_upload用
10分で分かるr言語入門 短縮バージョン 15-0117_upload用Nobuaki Oshiro
 
10分で分かるr言語入門ver2.10 14 1101
10分で分かるr言語入門ver2.10 14 110110分で分かるr言語入門ver2.10 14 1101
10分で分かるr言語入門ver2.10 14 1101Nobuaki Oshiro
 
10分で分かるr言語入門ver2.9 14 0920
10分で分かるr言語入門ver2.9 14 0920 10分で分かるr言語入門ver2.9 14 0920
10分で分かるr言語入門ver2.9 14 0920 Nobuaki Oshiro
 
10分で分かるr言語入門ver2.8 14 0712
10分で分かるr言語入門ver2.8 14 0712 10分で分かるr言語入門ver2.8 14 0712
10分で分かるr言語入門ver2.8 14 0712 Nobuaki Oshiro
 
10分で分かるr言語入門ver2.7
10分で分かるr言語入門ver2.710分で分かるr言語入門ver2.7
10分で分かるr言語入門ver2.7Nobuaki Oshiro
 
10分で分かるr言語入門ver2 6
10分で分かるr言語入門ver2 610分で分かるr言語入門ver2 6
10分で分かるr言語入門ver2 6Nobuaki Oshiro
 
10分で分かるr言語入門ver2.5
10分で分かるr言語入門ver2.510分で分かるr言語入門ver2.5
10分で分かるr言語入門ver2.5Nobuaki Oshiro
 
10分で分かるr言語入門ver2.4
10分で分かるr言語入門ver2.410分で分かるr言語入門ver2.4
10分で分かるr言語入門ver2.4Nobuaki Oshiro
 

Más de Nobuaki Oshiro (20)

20181117_データ分析プロジェクトの流れを理解する_PDCAとKPIツリー
20181117_データ分析プロジェクトの流れを理解する_PDCAとKPIツリー20181117_データ分析プロジェクトの流れを理解する_PDCAとKPIツリー
20181117_データ分析プロジェクトの流れを理解する_PDCAとKPIツリー
 
20170909 reafletでお手軽可視化 on_r_20分ver_up用
20170909 reafletでお手軽可視化 on_r_20分ver_up用20170909 reafletでお手軽可視化 on_r_20分ver_up用
20170909 reafletでお手軽可視化 on_r_20分ver_up用
 
20170826 fukuoka.r告知_reafletでお手軽可視化_on_r
20170826 fukuoka.r告知_reafletでお手軽可視化_on_r20170826 fukuoka.r告知_reafletでお手軽可視化_on_r
20170826 fukuoka.r告知_reafletでお手軽可視化_on_r
 
20170707 rでkaggle入門
20170707 rでkaggle入門20170707 rでkaggle入門
20170707 rでkaggle入門
 
20170312 r言語環境構築&amp;dplyr ハンズオン
20170312 r言語環境構築&amp;dplyr ハンズオン20170312 r言語環境構築&amp;dplyr ハンズオン
20170312 r言語環境構築&amp;dplyr ハンズオン
 
20161127 doradora09 japanr2016_lt
20161127 doradora09 japanr2016_lt20161127 doradora09 japanr2016_lt
20161127 doradora09 japanr2016_lt
 
10分で分かるr言語入門ver2.15 15 1010
10分で分かるr言語入門ver2.15 15 101010分で分かるr言語入門ver2.15 15 1010
10分で分かるr言語入門ver2.15 15 1010
 
10分で分かるr言語入門ver2.14 15 0905
10分で分かるr言語入門ver2.14 15 090510分で分かるr言語入門ver2.14 15 0905
10分で分かるr言語入門ver2.14 15 0905
 
10分で分かるr言語入門ver2 upload用
10分で分かるr言語入門ver2 upload用10分で分かるr言語入門ver2 upload用
10分で分かるr言語入門ver2 upload用
 
15 0117 kh-coderご紹介 for R users
15 0117 kh-coderご紹介 for R users15 0117 kh-coderご紹介 for R users
15 0117 kh-coderご紹介 for R users
 
15 0117 kh-coderご紹介
15 0117 kh-coderご紹介15 0117 kh-coderご紹介
15 0117 kh-coderご紹介
 
15 0117 r言語活用事例-外部公開用
15 0117 r言語活用事例-外部公開用15 0117 r言語活用事例-外部公開用
15 0117 r言語活用事例-外部公開用
 
10分で分かるr言語入門 短縮バージョン 15-0117_upload用
10分で分かるr言語入門 短縮バージョン 15-0117_upload用10分で分かるr言語入門 短縮バージョン 15-0117_upload用
10分で分かるr言語入門 短縮バージョン 15-0117_upload用
 
10分で分かるr言語入門ver2.10 14 1101
10分で分かるr言語入門ver2.10 14 110110分で分かるr言語入門ver2.10 14 1101
10分で分かるr言語入門ver2.10 14 1101
 
10分で分かるr言語入門ver2.9 14 0920
10分で分かるr言語入門ver2.9 14 0920 10分で分かるr言語入門ver2.9 14 0920
10分で分かるr言語入門ver2.9 14 0920
 
10分で分かるr言語入門ver2.8 14 0712
10分で分かるr言語入門ver2.8 14 0712 10分で分かるr言語入門ver2.8 14 0712
10分で分かるr言語入門ver2.8 14 0712
 
10分で分かるr言語入門ver2.7
10分で分かるr言語入門ver2.710分で分かるr言語入門ver2.7
10分で分かるr言語入門ver2.7
 
10分で分かるr言語入門ver2 6
10分で分かるr言語入門ver2 610分で分かるr言語入門ver2 6
10分で分かるr言語入門ver2 6
 
10分で分かるr言語入門ver2.5
10分で分かるr言語入門ver2.510分で分かるr言語入門ver2.5
10分で分かるr言語入門ver2.5
 
10分で分かるr言語入門ver2.4
10分で分かるr言語入門ver2.410分で分かるr言語入門ver2.4
10分で分かるr言語入門ver2.4
 

Tokyor24 doradora09

  • 2. セキココ – http://sekico.co/zaseki/35
  • 3. Outline ● 自己紹介 ● お知らせ + ご提案 ● テキスト紹介と振り返り ● 第2章 – 1つの変数の記述統計 − ● 第3章 − 2つの変数の記述統計 −
  • 4. 自己紹介 ● 大城信晃 (Twitter:doradora09) ● DB寄りWebエンジニア – Rは業務では触っていませんが – いつかレコメンドをやってみたい ● 趣味:お酒、ホルン ● マイブーム – ネイバーまとめ
  • 5. Outline ● 自己紹介 ● お知らせ + ご提案 ● テキスト紹介 + 前回振り返り ● 第2章 – 1つの変数の記述統計 − ● 第3章 − 2つの変数の記述統計 −
  • 6. お知らせ(1/3) セキココ ● セキココという勉強会の座席共有サービスがあるので、もしよ ければ使ってみてください ● 席に座っている人のTwitterアカウントが分かるので便利です ● http://sekico.co/
  • 7. お知らせ(2/3) 懇親会 ● TokyoRではセッション終了後に懇親会を実施して います ● 発表後の参加も可能ですので、プレゼンを聞いて興 味を持たれた方は是非ご参加下さい ● 一般1500円、学生は無料です! ※画面はイメージです
  • 8. お知らせ(3/3) 本日のウィスキー ● 出張BAR企画 – 今日はシーバスリーガル18年を持ってきました – リクエストも募集中!(おひねりも大歓迎)
  • 9. ご提案 ● 入門セッションの後に再度入場の時間を作っては どうでしょうか? ● 現在 ● 提案の流れ – 14:30 入場 – 14:30 入場1回目 – 15:00 開始 – 15:00 開始 入門セッション 入門セッション ● ● – 16:00 入場2回目+休憩 ● 本編 ● LT – 16:30 再開 – 19:00 懇親会 ● 本編 ● LT – 21:00 解散 – 19:00 懇親会 – 21:00 解散
  • 11. テキスト紹介 ● Rによるやさしい統計学 ● オーム社 (2008/1/25) – 第2章:1つの変数の記 述統計 – 第3章:2つの変数の記 述統計 http://amazon.jp/dp/4274067106/creazynet-22/ref=nosim/
  • 12. 前回振り返り:Rの導入 ● Windows, Mac, Linux版がある ● いずれも無料 – Windows ● http://cran.md.tsukuba.ac.jp/bin/windows/base/ – Mac, Linux ● http://cran.md.tsukuba.ac.jp/ ● 又は「rjpwiki」で検索 ● まだ導入していない方はこの機会にどうぞ
  • 13. 紹介:各Rコミュニティの過去発表資料一覧 ● ATNDの下のリンクからどうぞ http://atnd.org/events/29541 ● 「勉強会発表内容一覧 – Japan.R WIki」
  • 15. 1つの変数の要約 ● 数値要約 – データの持つ特徴を1つの数値にまとめること – 平均、中央値、最頻値など ● 数値要約をすることで、例えば1クラス20人のテストの 平均が何点である、というようにクラスの特徴を一言 で表すことができる ● ここでは10人のクラスで心理学と統計のテストを受け たデータをサンプルとして数値要約を進めていきます
  • 16. サンプルデータ > data <- read.csv('http://doradora09.sakura.ne.jp/tokyor/p38.csv'); > #またはこちらで ># read.csv('http://doradora09.sakura.ne.jp/tokyor/p38_sjis.csv'); > data ID 名前 性別 数学 統計 心理学テスト 統計テスト1 統計テスト2 指導法 1 1 大木 男 嫌い 好き 13 6 10 C 2 2 本多 男 嫌い 好き 14 10 13 B 3 3 川崎 男 好き 好き 7 6 8 B 4 4 多村 男 好き 好き 12 10 15 A 5 5 松中 男 嫌い 嫌い 10 5 8 B 6 6 小久保 男 嫌い 嫌い 6 3 6 C 7 7 柴原 男 嫌い 嫌い 8 5 9 A 8 8 井手 男 嫌い 嫌い 15 9 10 D 9 9 田上 男 嫌い 嫌い 4 3 7 D 10 10 松田 男 嫌い 嫌い 14 3 3 D > attach(data) #データフレームを変数に展開してくれる
  • 17. 変数の種類 ● 量的変数 – 大小に関する変数 – 心理学テストの点数など数値化できるもの ● 質的変数 – 構成する要素を分類するもの – 数学が好きか、嫌いかなど ● 変数の種類によって適用できる統計解析が変わる ため、区別が重要
  • 18. データの視覚的表現 ● データをカテゴリ別に > data['指導法'] #指導法のデータ だけ取り出す 分類 > 指導法 – 度数 [1] C B B A B C A D D D Levels: A B C D ● 同じカテゴリに含まれ るデータの個数 ● ここでは指導法の値、 > table(指導法) 例えばAの指導法の度 指導法 数は2 ABCD 2323
  • 19. ヒストグラム (度数の図示) > data[,'心理学テスト'] [1] 13 14 7 12 10 6 8 15 4 14 > hist(data[,'心理学テスト'])
  • 20. 代表値 ● 代表値 – 分布の中心部の位置を示す、そのデータを代表する値 – 平均値:よく利用される代表値 ● 平均 = (1番目のデータ + 2番目のデータ + ... + n番目のデータ) / n > mean(data['心理学テスト']) #平均値 心理学テスト 10.3
  • 21. 平均以外の代表値 ● 中央値 – データの大きさの順に並べた際にちょうど真ん中 に来る値 ● 10個のデータの場合は真ん中の2つの値の平均値 – 以下の例だと(10+12)/2 = 11 ● データにはずれ値がある場合に用いられることがある > sort(data[,'心理学テスト']) #小さい順に並べる [1] 4 6 7 8 10 12 13 14 14 15 > median(data[,'心理学テスト']) #中央値(10と12の平均) [1] 11
  • 22. 平均以外の代表値 ● 最頻値 – 最も頻繁に観測される値 – 主に質的変数の代表値として用いられる ● 最頻値が2つあるような分布の場合はあまり用いない 方が良い(数値要約になってない) > table(data[,'心理学テスト']) #最頻値(ここでは14) 4 6 7 8 10 12 13 14 15 1 1 1 1 1 1 1 2 1
  • 23. 散布度 ● 散布度 – ここまではデータの中心に関する話(代表値) – 今度はデータがどれくらいの散らばりがあるかを 見る(散布度) ● 偏差、分散、標準偏差、平均偏差、レンジ
  • 24. (平均からの)偏差 ● 偏差 – 平均と変数の差 > 統計テスト2 [1] 10 13 8 15 8 6 9 10 7 3 > mean(統計テスト2) [1] 8.9 > 統計テスト2 - mean(統計テス ト2) [1] 1.1 4.1 -0.9 6.1 -0.9 -2.9 0.1 1.1 -1.9 -5.9
  • 25. 分散、標準偏差 (標本)分散= (data[1-n] : 変数の値, mean : 変数の平均, n : データの個数) 標準偏差 = √分散 ● 分散、標準偏差の値が大きいほどデータの散 らばりが大きいことを意味する
  • 26. 分散、標準偏差 > テストa <- 統計テスト2 > テストa [1] 10 13 8 15 8 6 9 10 7 3 > var(テストa) #(標本)分散を求める [1] 11.65556 > sd(テストa) #標準偏差を求める [1] 3.414023
  • 27. 補足:不偏分散と標本分散 ● 標本分散 – 今回扱う分散 – 手元にすべてのデータがあり、そのデータ自体が どの程度散らばっているのかを記述する際に用い る ● 不偏分散 – 手元データが母集団の一部である場合に用いる – n-1で割る 不偏分散= (data[1-n] : 変数の値, mean : 変数の平均, n : データの個数)
  • 28. 分散、標準偏差以外の散布度 平均偏差 = (平均からの)偏差の絶対値の平均 > 統計テスト2 [1] 10 13 8 15 8 6 9 10 7 3 > mean(統計テスト2) [1] 8.9 > 統計テスト2 – mean(統計テスト2) #偏差をもとめる [1] 1.1 4.1 -0.9 6.1 -0.9 -2.9 0.1 1.1 -1.9 -5.9 > abs(統計テスト2 – mean(統計テスト2)) #絶対値をもとめる [1] 1.1 4.1 0.9 6.1 0.9 2.9 0.1 1.1 1.9 5.9 > mean(abs(統計テスト2 – mean(統計テスト2))) #平均偏差 [1] 2.5
  • 29. 分散、標準偏差以外の散布度 範囲(レンジ) = 最大値 - 最小値 #レンジを求める > max(統計テスト2) [1] 15 > min(統計テスト2) [1] 3 > max(統計テスト2) - min(統計テスト2) [1] 12
  • 30. 標準化 ● 標準化 – 平均と標準偏差がある特定の値になるように、すべてのデータ の値を同じ式を使って変換すること ● 標準得点 – 変換された得点のこと ● z得点 – 平均0, 標準偏差(SD)1の標準得点 – (変数 – 平均値) / 標準偏差 で求める
  • 31. z得点を求める > 心理学テスト > 心理学z得点 <- [1] 13 14 7 12 10 6 8 15 4 14 (data['心理学テスト']-心理学平均)/ 心理学標準偏差 > 心理学平均 <- mean(data['心理学テスト']) > 心理学z得点 心理学テスト > 心理学平均 1 0.73730873 心理学テスト 2 1.01038604 10.3 3 -0.90115511 > 4 0.46423142 > 心理学標準偏差 <- 5 -0.08192319 sqrt(mean((data['心理学テスト'] - 6 -1.17423242 心理学平均)^2)) 7 -0.62807781 8 1.28346334 > 心理学標準偏差 9 -1.72038703 [1] 3.661967 10 1.01038604
  • 32. z得点の検算 > 心理学z得点平均 <- mean(心理学z得点) > 心理学z得点平均 #e-16は10のマイナス18乗のこと。ほぼ0 心理学テスト -1.94289e-16 > 心理学z得点標準偏差 <- sqrt(mean((心理学z得点-心理学z得点平均)^2)) > 心理学z得点標準偏差 #1になっている [1] 1 – 平均0, 標準偏差(SD)1になっている
  • 33. 偏差値 ● 偏差値 – 平均50,標準偏差10になるように標準かした標準得 点 – 偏差値 = z得点 × 10 + 50 ● 偏差値の利用価値が高いのは、母集団の数値の分布が正 規分布に近い状態の時 – 偏差値60以上(あるいは40以下)は、全体の15.866%。 – 偏差値70以上(あるいは30以下)は、全体の2.275%。 – 偏差値80以上(あるいは20以下)は、全体の0.13499%。 – 偏差値90以上(あるいは10以下)は、全体の0.00315%。 – 偏差値100以上(あるいは0以下)は、全体の0.00002%
  • 34. 偏差値と検算 > 心理学偏差値 <- > 心理学偏差値平均 <- 10*心理学z得点 + 50 mean(心理学偏差値) > 心理学偏差値 > 心理学偏差値平均 心理学テスト 心理学テスト 1 57.37309 50 2 60.10386 > 3 40.98845 > 心理学偏差値標準偏差 <- 4 54.64231 sqrt(mean((心理学偏差値 - 心理 5 49.18077 学偏差値平均)^2)) 6 38.25768 7 43.71922 > 心理学偏差値標準偏差 8 62.83463 [1] 10 9 32.79613 10 60.10386
  • 36. 第2章まとめ 1つの変数の記述統計 – 変数の種類 ● 量的変数、質的変数 – 代表値 ● 平均、中央値、最頻値 – 散布度 ● 偏差、分散、標準偏差 – 標準化 ● z得点、偏差値
  • 38. 2つの変数の関係 - 相関と連関 - ● 相関 – 量的変数どうしの関係 ● 「国語の得点が高い人ほど英語の得点が高い」など ● 連関 – 質的変数どうしの関係 ● 洋食派か和食派か尋ね、洋食派には甘党が多く、和食 派には辛党が多かった場合、など
  • 39. 散布図 > t_test1 <- data[,'統計テスト1'] > t_test2 <- data[,'統計テスト2'] > plot(t_test1, t_test2) ● X軸, Y軸のデータが – 右上がりの傾向(正の相関) – 右下がりの傾向(負の相関) – バラバラ(無相関) ● 統計テスト1と統計テスト2 には正の相関がありそう
  • 40. 共分散 ● 共分散 – 相関の強さを数値で表す際に用いる – 分散は1変数で自乗していたが、共分散はx, y 2変数の偏 差をそれぞれを掛け合わせる Sxy: 共分散 xの平均 yの平均
  • 42. 共分散と単位の影響 ● 共分散は単位により値が変動してしまう – 例えば身長だとmで計算するか、cmで計算するか で値が100倍変わるため ● 相関係数を用いることで単位の影響を受けな くすることが可能
  • 43. 相関係数 ● 相関係数は単位に左右されない rxy:相関係数, Sxy:共分散 Sx: xの標準偏差, Sy: yの標準偏差 > cor(data['統計テスト1'], data['統計テスト2']) 統計テスト2 統計テスト1 0.8985742
  • 44. 相関係数の大きさの評価 ● 相関係数 -0.2 ≦ r ≦ 0.2 : ほとんど相関無し -0.4 ≦ r < -0.2, 0.2 < r ≦ 0.4 : 弱い相関あり -0.7 ≦ r < -0.4, 0.4 < r ≦ 0.7 : 中程度の相関あり -1.0 ≦ r < -0.7, 0.7 < r ≦ 1.0 : 強い相関あり 統計テスト1と2 相関係数 = 0.8985742 (強い相関あり)
  • 45. クロス集計表 ● 質的変数の関係を表す表 ● 数学も統計も嫌い、という人は6人いるという読み方 > table(data[,'数学'],data[,'統計']) 統計 嫌い 好き 数学 嫌い 6 2 好き 0 2
  • 46. ファイ係数 ● クロス集計で利用した好き、嫌いという区別を1,0 で置き換え ● 数値化して相関係数を求める – 質的変数を量的変数と見なして計算ができる > 数学イチゼロ <- ifelse(data['数学'] == "好き", 1, 0) > 統計イチゼロ <- ifelse(data['統計'] == "好き", 1, 0) > 数学イチゼロ[,1] [1] 0 0 1 1 0 0 0 0 0 0 > 統計イチゼロ[,1] [1] 1 1 1 1 0 0 0 0 0 0 > cor(数学イチゼロ, 統計イチゼロ) 統計 数学 0.6123724 >#中程度の相関あり
  • 47. 第3章まとめ 2変数の関係性を調べる方法 ● 散布図:plot() ● 共分散:cov() ● 相関係数: 単位に影響されない. cor() ● クロス集計表: table() ● ファイ係数 : 質的変数をifelse等で0,1化してcor()