Enviar búsqueda
Cargar
Tokyor24 doradora09
•
3 recomendaciones
•
2,062 vistas
Nobuaki Oshiro
Seguir
Vista de diapositivas
Denunciar
Compartir
Vista de diapositivas
Denunciar
Compartir
1 de 48
Descargar ahora
Descargar para leer sin conexión
Recomendados
#神奈川大学経営学総論 A マクロ組織論 II(組織デザイン) : (7/15)
#神奈川大学経営学総論 A マクロ組織論 II(組織デザイン) : (7/15)
Yasushi Hara
統計学基礎
統計学基礎
Yuka Ezura
統計学の基礎の基礎
統計学の基礎の基礎
Ken'ichi Matsui
統計学における相関分析と仮説検定の基本的な考え方とその実践
統計学における相関分析と仮説検定の基本的な考え方とその実践
id774
ベイズファクターとモデル選択
ベイズファクターとモデル選択
kazutantan
第5章 統計的仮説検定 (Rによるやさしい統計学)
第5章 統計的仮説検定 (Rによるやさしい統計学)
Prunus 1350
Regression and decision-tree
Regression and decision-tree
shuya96
Introduction to statistics
Introduction to statistics
Kohta Ishikawa
Recomendados
#神奈川大学経営学総論 A マクロ組織論 II(組織デザイン) : (7/15)
#神奈川大学経営学総論 A マクロ組織論 II(組織デザイン) : (7/15)
Yasushi Hara
統計学基礎
統計学基礎
Yuka Ezura
統計学の基礎の基礎
統計学の基礎の基礎
Ken'ichi Matsui
統計学における相関分析と仮説検定の基本的な考え方とその実践
統計学における相関分析と仮説検定の基本的な考え方とその実践
id774
ベイズファクターとモデル選択
ベイズファクターとモデル選択
kazutantan
第5章 統計的仮説検定 (Rによるやさしい統計学)
第5章 統計的仮説検定 (Rによるやさしい統計学)
Prunus 1350
Regression and decision-tree
Regression and decision-tree
shuya96
Introduction to statistics
Introduction to statistics
Kohta Ishikawa
効果測定入門 Rによる傾向スコア解析
効果測定入門 Rによる傾向スコア解析
aa_aa_aa
ベイズ統計によるデータ解析
ベイズ統計によるデータ解析
Kunihiro Hisatsune
JASELE2015-KumamotoWS
JASELE2015-KumamotoWS
SAKAUE, Tatsuya
Rm20150513 4key
Rm20150513 4key
youwatari
LET2011: Rによる教育データ分析入門
LET2011: Rによる教育データ分析入門
Yuichiro Kobayashi
理科教育学研究のための統計分析入門
理科教育学研究のための統計分析入門
Hiroshi Unzai
R Study Tokyo03
R Study Tokyo03
Yohei Sato
状態空間モデルによる心理療法効果の測定と予測
状態空間モデルによる心理療法効果の測定と予測
人斬り 抜刀斎
統計ソフトRの使い方_2015.04.17
統計ソフトRの使い方_2015.04.17
hicky1225
基本統計量について
基本統計量について
wada, kazumi
外国語教育研究におけるRを用いた統計処理入門
外国語教育研究におけるRを用いた統計処理入門
Yusaku Kawaguchi
Rm20140507 4key
Rm20140507 4key
youwatari
Rで学ぶロバスト推定
Rで学ぶロバスト推定
Shintaro Fukushima
Osaka.stan#2 chap5-1
Osaka.stan#2 chap5-1
Makoto Hirakawa
ネットワークメタ分析入門
ネットワークメタ分析入門
Senshu University
Rで学ぶ観察データでの因果推定
Rで学ぶ観察データでの因果推定
Hiroki Matsui
順序データでもベイズモデリング
順序データでもベイズモデリング
. .
K070k80 点推定 区間推定
K070k80 点推定 区間推定
t2tarumi
tokyo webmining3 2010.04.17.
tokyo webmining3 2010.04.17.
osamu morimoto
カテゴリカルデータの解析 (Kashiwa.R#3)
カテゴリカルデータの解析 (Kashiwa.R#3)
Takumi Tsutaya
20181117_データ分析プロジェクトの流れを理解する_PDCAとKPIツリー
20181117_データ分析プロジェクトの流れを理解する_PDCAとKPIツリー
Nobuaki Oshiro
20170909 reafletでお手軽可視化 on_r_20分ver_up用
20170909 reafletでお手軽可視化 on_r_20分ver_up用
Nobuaki Oshiro
Más contenido relacionado
Similar a Tokyor24 doradora09
効果測定入門 Rによる傾向スコア解析
効果測定入門 Rによる傾向スコア解析
aa_aa_aa
ベイズ統計によるデータ解析
ベイズ統計によるデータ解析
Kunihiro Hisatsune
JASELE2015-KumamotoWS
JASELE2015-KumamotoWS
SAKAUE, Tatsuya
Rm20150513 4key
Rm20150513 4key
youwatari
LET2011: Rによる教育データ分析入門
LET2011: Rによる教育データ分析入門
Yuichiro Kobayashi
理科教育学研究のための統計分析入門
理科教育学研究のための統計分析入門
Hiroshi Unzai
R Study Tokyo03
R Study Tokyo03
Yohei Sato
状態空間モデルによる心理療法効果の測定と予測
状態空間モデルによる心理療法効果の測定と予測
人斬り 抜刀斎
統計ソフトRの使い方_2015.04.17
統計ソフトRの使い方_2015.04.17
hicky1225
基本統計量について
基本統計量について
wada, kazumi
外国語教育研究におけるRを用いた統計処理入門
外国語教育研究におけるRを用いた統計処理入門
Yusaku Kawaguchi
Rm20140507 4key
Rm20140507 4key
youwatari
Rで学ぶロバスト推定
Rで学ぶロバスト推定
Shintaro Fukushima
Osaka.stan#2 chap5-1
Osaka.stan#2 chap5-1
Makoto Hirakawa
ネットワークメタ分析入門
ネットワークメタ分析入門
Senshu University
Rで学ぶ観察データでの因果推定
Rで学ぶ観察データでの因果推定
Hiroki Matsui
順序データでもベイズモデリング
順序データでもベイズモデリング
. .
K070k80 点推定 区間推定
K070k80 点推定 区間推定
t2tarumi
tokyo webmining3 2010.04.17.
tokyo webmining3 2010.04.17.
osamu morimoto
カテゴリカルデータの解析 (Kashiwa.R#3)
カテゴリカルデータの解析 (Kashiwa.R#3)
Takumi Tsutaya
Similar a Tokyor24 doradora09
(20)
効果測定入門 Rによる傾向スコア解析
効果測定入門 Rによる傾向スコア解析
ベイズ統計によるデータ解析
ベイズ統計によるデータ解析
JASELE2015-KumamotoWS
JASELE2015-KumamotoWS
Rm20150513 4key
Rm20150513 4key
LET2011: Rによる教育データ分析入門
LET2011: Rによる教育データ分析入門
理科教育学研究のための統計分析入門
理科教育学研究のための統計分析入門
R Study Tokyo03
R Study Tokyo03
状態空間モデルによる心理療法効果の測定と予測
状態空間モデルによる心理療法効果の測定と予測
統計ソフトRの使い方_2015.04.17
統計ソフトRの使い方_2015.04.17
基本統計量について
基本統計量について
外国語教育研究におけるRを用いた統計処理入門
外国語教育研究におけるRを用いた統計処理入門
Rm20140507 4key
Rm20140507 4key
Rで学ぶロバスト推定
Rで学ぶロバスト推定
Osaka.stan#2 chap5-1
Osaka.stan#2 chap5-1
ネットワークメタ分析入門
ネットワークメタ分析入門
Rで学ぶ観察データでの因果推定
Rで学ぶ観察データでの因果推定
順序データでもベイズモデリング
順序データでもベイズモデリング
K070k80 点推定 区間推定
K070k80 点推定 区間推定
tokyo webmining3 2010.04.17.
tokyo webmining3 2010.04.17.
カテゴリカルデータの解析 (Kashiwa.R#3)
カテゴリカルデータの解析 (Kashiwa.R#3)
Más de Nobuaki Oshiro
20181117_データ分析プロジェクトの流れを理解する_PDCAとKPIツリー
20181117_データ分析プロジェクトの流れを理解する_PDCAとKPIツリー
Nobuaki Oshiro
20170909 reafletでお手軽可視化 on_r_20分ver_up用
20170909 reafletでお手軽可視化 on_r_20分ver_up用
Nobuaki Oshiro
20170826 fukuoka.r告知_reafletでお手軽可視化_on_r
20170826 fukuoka.r告知_reafletでお手軽可視化_on_r
Nobuaki Oshiro
20170707 rでkaggle入門
20170707 rでkaggle入門
Nobuaki Oshiro
20170312 r言語環境構築&dplyr ハンズオン
20170312 r言語環境構築&dplyr ハンズオン
Nobuaki Oshiro
20161127 doradora09 japanr2016_lt
20161127 doradora09 japanr2016_lt
Nobuaki Oshiro
10分で分かるr言語入門ver2.15 15 1010
10分で分かるr言語入門ver2.15 15 1010
Nobuaki Oshiro
10分で分かるr言語入門ver2.14 15 0905
10分で分かるr言語入門ver2.14 15 0905
Nobuaki Oshiro
10分で分かるr言語入門ver2 upload用
10分で分かるr言語入門ver2 upload用
Nobuaki Oshiro
15 0117 kh-coderご紹介 for R users
15 0117 kh-coderご紹介 for R users
Nobuaki Oshiro
15 0117 kh-coderご紹介
15 0117 kh-coderご紹介
Nobuaki Oshiro
15 0117 r言語活用事例-外部公開用
15 0117 r言語活用事例-外部公開用
Nobuaki Oshiro
10分で分かるr言語入門 短縮バージョン 15-0117_upload用
10分で分かるr言語入門 短縮バージョン 15-0117_upload用
Nobuaki Oshiro
10分で分かるr言語入門ver2.10 14 1101
10分で分かるr言語入門ver2.10 14 1101
Nobuaki Oshiro
10分で分かるr言語入門ver2.9 14 0920
10分で分かるr言語入門ver2.9 14 0920
Nobuaki Oshiro
10分で分かるr言語入門ver2.8 14 0712
10分で分かるr言語入門ver2.8 14 0712
Nobuaki Oshiro
10分で分かるr言語入門ver2.7
10分で分かるr言語入門ver2.7
Nobuaki Oshiro
10分で分かるr言語入門ver2 6
10分で分かるr言語入門ver2 6
Nobuaki Oshiro
10分で分かるr言語入門ver2.5
10分で分かるr言語入門ver2.5
Nobuaki Oshiro
10分で分かるr言語入門ver2.4
10分で分かるr言語入門ver2.4
Nobuaki Oshiro
Más de Nobuaki Oshiro
(20)
20181117_データ分析プロジェクトの流れを理解する_PDCAとKPIツリー
20181117_データ分析プロジェクトの流れを理解する_PDCAとKPIツリー
20170909 reafletでお手軽可視化 on_r_20分ver_up用
20170909 reafletでお手軽可視化 on_r_20分ver_up用
20170826 fukuoka.r告知_reafletでお手軽可視化_on_r
20170826 fukuoka.r告知_reafletでお手軽可視化_on_r
20170707 rでkaggle入門
20170707 rでkaggle入門
20170312 r言語環境構築&dplyr ハンズオン
20170312 r言語環境構築&dplyr ハンズオン
20161127 doradora09 japanr2016_lt
20161127 doradora09 japanr2016_lt
10分で分かるr言語入門ver2.15 15 1010
10分で分かるr言語入門ver2.15 15 1010
10分で分かるr言語入門ver2.14 15 0905
10分で分かるr言語入門ver2.14 15 0905
10分で分かるr言語入門ver2 upload用
10分で分かるr言語入門ver2 upload用
15 0117 kh-coderご紹介 for R users
15 0117 kh-coderご紹介 for R users
15 0117 kh-coderご紹介
15 0117 kh-coderご紹介
15 0117 r言語活用事例-外部公開用
15 0117 r言語活用事例-外部公開用
10分で分かるr言語入門 短縮バージョン 15-0117_upload用
10分で分かるr言語入門 短縮バージョン 15-0117_upload用
10分で分かるr言語入門ver2.10 14 1101
10分で分かるr言語入門ver2.10 14 1101
10分で分かるr言語入門ver2.9 14 0920
10分で分かるr言語入門ver2.9 14 0920
10分で分かるr言語入門ver2.8 14 0712
10分で分かるr言語入門ver2.8 14 0712
10分で分かるr言語入門ver2.7
10分で分かるr言語入門ver2.7
10分で分かるr言語入門ver2 6
10分で分かるr言語入門ver2 6
10分で分かるr言語入門ver2.5
10分で分かるr言語入門ver2.5
10分で分かるr言語入門ver2.4
10分で分かるr言語入門ver2.4
Tokyor24 doradora09
1.
[入門セッション] Rによるやさしい統計学
第2,3章 doradora09
2.
●
セキココ – http://sekico.co/zaseki/35
3.
Outline ●
自己紹介 ● お知らせ + ご提案 ● テキスト紹介と振り返り ● 第2章 – 1つの変数の記述統計 − ● 第3章 − 2つの変数の記述統計 −
4.
自己紹介 ●
大城信晃 (Twitter:doradora09) ● DB寄りWebエンジニア – Rは業務では触っていませんが – いつかレコメンドをやってみたい ● 趣味:お酒、ホルン ● マイブーム – ネイバーまとめ
5.
Outline ●
自己紹介 ● お知らせ + ご提案 ● テキスト紹介 + 前回振り返り ● 第2章 – 1つの変数の記述統計 − ● 第3章 − 2つの変数の記述統計 −
6.
お知らせ(1/3) セキココ ●
セキココという勉強会の座席共有サービスがあるので、もしよ ければ使ってみてください ● 席に座っている人のTwitterアカウントが分かるので便利です ● http://sekico.co/
7.
お知らせ(2/3) 懇親会 ●
TokyoRではセッション終了後に懇親会を実施して います ● 発表後の参加も可能ですので、プレゼンを聞いて興 味を持たれた方は是非ご参加下さい ● 一般1500円、学生は無料です! ※画面はイメージです
8.
お知らせ(3/3) 本日のウィスキー ●
出張BAR企画 – 今日はシーバスリーガル18年を持ってきました – リクエストも募集中!(おひねりも大歓迎)
9.
ご提案 ●
入門セッションの後に再度入場の時間を作っては どうでしょうか? ● 現在 ● 提案の流れ – 14:30 入場 – 14:30 入場1回目 – 15:00 開始 – 15:00 開始 入門セッション 入門セッション ● ● – 16:00 入場2回目+休憩 ● 本編 ● LT – 16:30 再開 – 19:00 懇親会 ● 本編 ● LT – 21:00 解散 – 19:00 懇親会 – 21:00 解散
10.
そろそろ本題へ
11.
テキスト紹介
● Rによるやさしい統計学 ● オーム社 (2008/1/25) – 第2章:1つの変数の記 述統計 – 第3章:2つの変数の記 述統計 http://amazon.jp/dp/4274067106/creazynet-22/ref=nosim/
12.
前回振り返り:Rの導入 ●
Windows, Mac, Linux版がある ● いずれも無料 – Windows ● http://cran.md.tsukuba.ac.jp/bin/windows/base/ – Mac, Linux ● http://cran.md.tsukuba.ac.jp/ ● 又は「rjpwiki」で検索 ● まだ導入していない方はこの機会にどうぞ
13.
紹介:各Rコミュニティの過去発表資料一覧 ●
ATNDの下のリンクからどうぞ http://atnd.org/events/29541 ● 「勉強会発表内容一覧 – Japan.R WIki」
14.
第2章 - 1つの変数の記述統計 -
15.
1つの変数の要約 ●
数値要約 – データの持つ特徴を1つの数値にまとめること – 平均、中央値、最頻値など ● 数値要約をすることで、例えば1クラス20人のテストの 平均が何点である、というようにクラスの特徴を一言 で表すことができる ● ここでは10人のクラスで心理学と統計のテストを受け たデータをサンプルとして数値要約を進めていきます
16.
サンプルデータ > data <-
read.csv('http://doradora09.sakura.ne.jp/tokyor/p38.csv'); > #またはこちらで ># read.csv('http://doradora09.sakura.ne.jp/tokyor/p38_sjis.csv'); > data ID 名前 性別 数学 統計 心理学テスト 統計テスト1 統計テスト2 指導法 1 1 大木 男 嫌い 好き 13 6 10 C 2 2 本多 男 嫌い 好き 14 10 13 B 3 3 川崎 男 好き 好き 7 6 8 B 4 4 多村 男 好き 好き 12 10 15 A 5 5 松中 男 嫌い 嫌い 10 5 8 B 6 6 小久保 男 嫌い 嫌い 6 3 6 C 7 7 柴原 男 嫌い 嫌い 8 5 9 A 8 8 井手 男 嫌い 嫌い 15 9 10 D 9 9 田上 男 嫌い 嫌い 4 3 7 D 10 10 松田 男 嫌い 嫌い 14 3 3 D > attach(data) #データフレームを変数に展開してくれる
17.
変数の種類 ●
量的変数 – 大小に関する変数 – 心理学テストの点数など数値化できるもの ● 質的変数 – 構成する要素を分類するもの – 数学が好きか、嫌いかなど ● 変数の種類によって適用できる統計解析が変わる ため、区別が重要
18.
データの視覚的表現 ●
データをカテゴリ別に > data['指導法'] #指導法のデータ だけ取り出す 分類 > 指導法 – 度数 [1] C B B A B C A D D D Levels: A B C D ● 同じカテゴリに含まれ るデータの個数 ● ここでは指導法の値、 > table(指導法) 例えばAの指導法の度 指導法 数は2 ABCD 2323
19.
ヒストグラム (度数の図示) > data[,'心理学テスト'] [1]
13 14 7 12 10 6 8 15 4 14 > hist(data[,'心理学テスト'])
20.
代表値 ●
代表値 – 分布の中心部の位置を示す、そのデータを代表する値 – 平均値:よく利用される代表値 ● 平均 = (1番目のデータ + 2番目のデータ + ... + n番目のデータ) / n > mean(data['心理学テスト']) #平均値 心理学テスト 10.3
21.
平均以外の代表値 ●
中央値 – データの大きさの順に並べた際にちょうど真ん中 に来る値 ● 10個のデータの場合は真ん中の2つの値の平均値 – 以下の例だと(10+12)/2 = 11 ● データにはずれ値がある場合に用いられることがある > sort(data[,'心理学テスト']) #小さい順に並べる [1] 4 6 7 8 10 12 13 14 14 15 > median(data[,'心理学テスト']) #中央値(10と12の平均) [1] 11
22.
平均以外の代表値 ●
最頻値 – 最も頻繁に観測される値 – 主に質的変数の代表値として用いられる ● 最頻値が2つあるような分布の場合はあまり用いない 方が良い(数値要約になってない) > table(data[,'心理学テスト']) #最頻値(ここでは14) 4 6 7 8 10 12 13 14 15 1 1 1 1 1 1 1 2 1
23.
散布度 ●
散布度 – ここまではデータの中心に関する話(代表値) – 今度はデータがどれくらいの散らばりがあるかを 見る(散布度) ● 偏差、分散、標準偏差、平均偏差、レンジ
24.
(平均からの)偏差 ●
偏差 – 平均と変数の差 > 統計テスト2 [1] 10 13 8 15 8 6 9 10 7 3 > mean(統計テスト2) [1] 8.9 > 統計テスト2 - mean(統計テス ト2) [1] 1.1 4.1 -0.9 6.1 -0.9 -2.9 0.1 1.1 -1.9 -5.9
25.
分散、標準偏差 (標本)分散=
(data[1-n] : 変数の値, mean : 変数の平均, n : データの個数) 標準偏差 = √分散 ● 分散、標準偏差の値が大きいほどデータの散 らばりが大きいことを意味する
26.
分散、標準偏差 > テストa <-
統計テスト2 > テストa [1] 10 13 8 15 8 6 9 10 7 3 > var(テストa) #(標本)分散を求める [1] 11.65556 > sd(テストa) #標準偏差を求める [1] 3.414023
27.
補足:不偏分散と標本分散 ●
標本分散 – 今回扱う分散 – 手元にすべてのデータがあり、そのデータ自体が どの程度散らばっているのかを記述する際に用い る ● 不偏分散 – 手元データが母集団の一部である場合に用いる – n-1で割る 不偏分散= (data[1-n] : 変数の値, mean : 変数の平均, n : データの個数)
28.
分散、標準偏差以外の散布度 平均偏差 =
(平均からの)偏差の絶対値の平均 > 統計テスト2 [1] 10 13 8 15 8 6 9 10 7 3 > mean(統計テスト2) [1] 8.9 > 統計テスト2 – mean(統計テスト2) #偏差をもとめる [1] 1.1 4.1 -0.9 6.1 -0.9 -2.9 0.1 1.1 -1.9 -5.9 > abs(統計テスト2 – mean(統計テスト2)) #絶対値をもとめる [1] 1.1 4.1 0.9 6.1 0.9 2.9 0.1 1.1 1.9 5.9 > mean(abs(統計テスト2 – mean(統計テスト2))) #平均偏差 [1] 2.5
29.
分散、標準偏差以外の散布度 範囲(レンジ) =
最大値 - 最小値 #レンジを求める > max(統計テスト2) [1] 15 > min(統計テスト2) [1] 3 > max(統計テスト2) - min(統計テスト2) [1] 12
30.
標準化 ●
標準化 – 平均と標準偏差がある特定の値になるように、すべてのデータ の値を同じ式を使って変換すること ● 標準得点 – 変換された得点のこと ● z得点 – 平均0, 標準偏差(SD)1の標準得点 – (変数 – 平均値) / 標準偏差 で求める
31.
z得点を求める > 心理学テスト
> 心理学z得点 <- [1] 13 14 7 12 10 6 8 15 4 14 (data['心理学テスト']-心理学平均)/ 心理学標準偏差 > 心理学平均 <- mean(data['心理学テスト']) > 心理学z得点 心理学テスト > 心理学平均 1 0.73730873 心理学テスト 2 1.01038604 10.3 3 -0.90115511 > 4 0.46423142 > 心理学標準偏差 <- 5 -0.08192319 sqrt(mean((data['心理学テスト'] - 6 -1.17423242 心理学平均)^2)) 7 -0.62807781 8 1.28346334 > 心理学標準偏差 9 -1.72038703 [1] 3.661967 10 1.01038604
32.
z得点の検算 > 心理学z得点平均 <-
mean(心理学z得点) > 心理学z得点平均 #e-16は10のマイナス18乗のこと。ほぼ0 心理学テスト -1.94289e-16 > 心理学z得点標準偏差 <- sqrt(mean((心理学z得点-心理学z得点平均)^2)) > 心理学z得点標準偏差 #1になっている [1] 1 – 平均0, 標準偏差(SD)1になっている
33.
偏差値 ●
偏差値 – 平均50,標準偏差10になるように標準かした標準得 点 – 偏差値 = z得点 × 10 + 50 ● 偏差値の利用価値が高いのは、母集団の数値の分布が正 規分布に近い状態の時 – 偏差値60以上(あるいは40以下)は、全体の15.866%。 – 偏差値70以上(あるいは30以下)は、全体の2.275%。 – 偏差値80以上(あるいは20以下)は、全体の0.13499%。 – 偏差値90以上(あるいは10以下)は、全体の0.00315%。 – 偏差値100以上(あるいは0以下)は、全体の0.00002%
34.
偏差値と検算 > 心理学偏差値 <-
> 心理学偏差値平均 <- 10*心理学z得点 + 50 mean(心理学偏差値) > 心理学偏差値 > 心理学偏差値平均 心理学テスト 心理学テスト 1 57.37309 50 2 60.10386 > 3 40.98845 > 心理学偏差値標準偏差 <- 4 54.64231 sqrt(mean((心理学偏差値 - 心理 5 49.18077 学偏差値平均)^2)) 6 38.25768 7 43.71922 > 心理学偏差値標準偏差 8 62.83463 [1] 10 9 32.79613 10 60.10386
35.
参考:正規分布の場合の対応表
36.
第2章まとめ 1つの変数の記述統計 –
変数の種類 ● 量的変数、質的変数 – 代表値 ● 平均、中央値、最頻値 – 散布度 ● 偏差、分散、標準偏差 – 標準化 ● z得点、偏差値
37.
第3章 - 2つの変数の記述統計
- (スライド10枚)
38.
2つの変数の関係 - 相関と連関
- ● 相関 – 量的変数どうしの関係 ● 「国語の得点が高い人ほど英語の得点が高い」など ● 連関 – 質的変数どうしの関係 ● 洋食派か和食派か尋ね、洋食派には甘党が多く、和食 派には辛党が多かった場合、など
39.
散布図
> t_test1 <- data[,'統計テスト1'] > t_test2 <- data[,'統計テスト2'] > plot(t_test1, t_test2) ● X軸, Y軸のデータが – 右上がりの傾向(正の相関) – 右下がりの傾向(負の相関) – バラバラ(無相関) ● 統計テスト1と統計テスト2 には正の相関がありそう
40.
共分散 ●
共分散 – 相関の強さを数値で表す際に用いる – 分散は1変数で自乗していたが、共分散はx, y 2変数の偏 差をそれぞれを掛け合わせる Sxy: 共分散 xの平均 yの平均
41.
共分散 > cov(data['統計テスト1'],data['統計テスト2']) #不偏共分散
統計テスト2 統計テスト1 8.555556
42.
共分散と単位の影響 ●
共分散は単位により値が変動してしまう – 例えば身長だとmで計算するか、cmで計算するか で値が100倍変わるため ● 相関係数を用いることで単位の影響を受けな くすることが可能
43.
相関係数 ●
相関係数は単位に左右されない rxy:相関係数, Sxy:共分散 Sx: xの標準偏差, Sy: yの標準偏差 > cor(data['統計テスト1'], data['統計テスト2']) 統計テスト2 統計テスト1 0.8985742
44.
相関係数の大きさの評価 ●
相関係数 -0.2 ≦ r ≦ 0.2 : ほとんど相関無し -0.4 ≦ r < -0.2, 0.2 < r ≦ 0.4 : 弱い相関あり -0.7 ≦ r < -0.4, 0.4 < r ≦ 0.7 : 中程度の相関あり -1.0 ≦ r < -0.7, 0.7 < r ≦ 1.0 : 強い相関あり 統計テスト1と2 相関係数 = 0.8985742 (強い相関あり)
45.
クロス集計表 ●
質的変数の関係を表す表 ● 数学も統計も嫌い、という人は6人いるという読み方 > table(data[,'数学'],data[,'統計']) 統計 嫌い 好き 数学 嫌い 6 2 好き 0 2
46.
ファイ係数 ●
クロス集計で利用した好き、嫌いという区別を1,0 で置き換え ● 数値化して相関係数を求める – 質的変数を量的変数と見なして計算ができる > 数学イチゼロ <- ifelse(data['数学'] == "好き", 1, 0) > 統計イチゼロ <- ifelse(data['統計'] == "好き", 1, 0) > 数学イチゼロ[,1] [1] 0 0 1 1 0 0 0 0 0 0 > 統計イチゼロ[,1] [1] 1 1 1 1 0 0 0 0 0 0 > cor(数学イチゼロ, 統計イチゼロ) 統計 数学 0.6123724 >#中程度の相関あり
47.
第3章まとめ
2変数の関係性を調べる方法 ● 散布図:plot() ● 共分散:cov() ● 相関係数: 単位に影響されない. cor() ● クロス集計表: table() ● ファイ係数 : 質的変数をifelse等で0,1化してcor()
48.
ご清聴ありがとうございました!
Descargar ahora