10. 자료를 조사해서 유의미한 정보를 이끌어내려면
통계학적 기법을 이용한 데이터 분석 과정을 거쳐야 합니다.
영어를 배우려면 알파벳부터 알아야 하듯,
통계적 분석 과정을 알기 전에 기본 개념을 먼저 소개합니다.
01
I. 통계학 ABC
11. 모집단
우리가 관심이나 흥미를 가지고 있는 집단, 즉 연구대상이 되는 집단 전체
표본집단
표본조사를 통해 뽑아낸 모집단의 일부
데이터
표본 집단을 조사해서 얻은 수치 또는 비정형 자료
통계량
알고자 하는 모집단의 특성(모수)을 추정하기 위하여 표본에서 계산한 추정량의 값
추측
통계학에서, 임의 표본에 의하여 모집단을 규정하는 평균값, 분산 따위의 여러 수치를 추측하는 일
통계적 검정과 추정 따위가 있다.
01
I. 통계학 ABC
12. 어렵게만 보이는 이 개념들에,
“한국인의 기상시간”을 끼얹어 보겠습니다.
01
I. 통계학 ABC
13. 모집단
우리가 관심이나 흥미를 가지고 있는 집단, 즉 한국인 전체
표본집단
표본조사를 통해 뽑아낸 한국인의 일부
데이터
표본 집단을 조사해서 얻은 기상시간이라는 자료
통계량
알고자 하는 한국인의 기상시간을 추정하기 위하여 표본에서 계산한 평균 기상시간
추측
통계적 추정을 거쳐 한국인의 기상시간은 오전 6시 34분이 타당하다는 추측
01
I. 통계학 ABC
모집단
우리가 관심이나 흥미를 가지고 있는 집단, 즉 연구대상이 되는 집단 전체
표본집단
표본조사를 통해 뽑아낸 모집단의 일부
데이터
표본 집단을 조사해서 얻은 수치 또는 비정형 자료
통계량
알고자 하는 모집단의 특성(모수)을 추정하기 위하여 표본에서 계산한 추정량의
값
추측
통계학에서, 임의 표본에 의하여 모집단을 규정하는 평균값, 분산 따위의 여러
수치를 추측하는 일, 통계적 검정과 추정
14. 그리고 이 개념들을 차례로 엮어주면
바로 데이터 분석이 됩니다.
01
I. 통계학 ABC
15. 데이터 분석
모집단
한국인 전체
↓
표본집단
한국인의 일부
↓
데이터
표본집단에 속한 일부 한국인의 기상시간
↓
통계량
표본집단의 평균 기상시간
↓
추측
한국인의 기상시간은 오전 6시 34분이 타당하다
01
I. 통계학 ABC
27. 모집단에서 표본을 추출할 때,
이들 표본이 선택될 확률이 모두 동일하도록 추출하는 방법
EX. 인형 뽑기
위에 있는 인형이 뽑힐 확률 > 밑에 있는 인형이 뽑힐 확률
따라서 단순임의추출법이 아니다.
01
II. 데이터 분석과정 / 샘플링 : 단순임의 추출법 (Sample Random Sampling)
28. “뽑힐 확률이 1/5로 동일”
= 단순임의 추출법
모집단에서 표본을 추출할 때,
이들 표본이 선택될 확률이 모두 동일하도록 추출하는 방법
01
II. 데이터 분석과정 / 샘플링 : 단순임의 추출법 (Sample Random Sampling)
29. 난수표(Random number table) 이용
모집단에서 표본을 추출할 때,
이들 표본이 선택될 확률이 모두 동일하도록 추출하는 방법
01
II. 데이터 분석과정 / 샘플링 : 단순임의 추출법 (Sample Random Sampling)
30. 쉽고 간단하다.
자료가 너무 심하게 들쭉날쭉일 수 있다.
= 추정량의 분산이 너무 커질 수 있다.
01
II. 데이터 분석과정 / 샘플링 : 단순임의 추출법 (Sample Random Sampling)
39. 이번에는 레스토랑이 맛집인지 알아보기 위해
먹을 메뉴를 랜덤하게 선정하기로 합니다.
01
II. 데이터 분석과정 / 샘플링 : 집락추출법 (Cluster Sampling)
40. 즉, 아까와 달리 몇 가지의 메뉴만 골라서 주문하는 것이죠.
01
II. 데이터 분석과정 / 샘플링 : 집락추출법 (Cluster Sampling)
41. 그리고 주문한 메뉴는 전부 먹습니다.
01
II. 데이터 분석과정 / 샘플링 : 집락추출법 (Cluster Sampling)
42. 레스토랑의 모든 음식(=모집단)을 메뉴(=집락)로 구분해서
그 중 몇 가지의 메뉴만 선정해서
선정된 메뉴는 다 먹는 것(=전수조사)이죠.
01
II. 데이터 분석과정 / 샘플링 : 집락추출법 (Cluster Sampling)
43. 이런 조사방법이 집락추출법입니다.
모집단을 몇 개의 집락(Cluster)으로 나누어
전체 집락 중에서 몇 개의 집락을 표본추출하고
일단 추출된 집락은 전수조사*하는 방법
*때에 따라 다시 표본조사를 하기도 합니다.
01
II. 데이터 분석과정 / 샘플링 : 집락추출법 (Cluster Sampling)
44. 집락 안은 이질적 + 집락 간에는 동질적
= 층화추출법과 반대의 경우에 많이 사용
01
II. 데이터 분석과정 / 샘플링 : 집락추출법 (Cluster Sampling)
52. CF. 줄기-잎 그림
자료의 대략적인 분포를 볼 수 있다.
2 0 1
2 6 7 9 9 9
3 0 1 2 3 3 4 4 5 5 5 5
3 7 7 7 7 7 8 8 8 8 8 9 9
4 0 0 0 1 1 1 2 4 4
3.2 3.5 4.1 3.0 4.1 3.9 3.4 3.7 3.7 3.8
2.0 2.9 4.0 4.0 3.4 3.5 3.5 2.1 4.4 2.9
2.6 3.9 3.8 3.7 3.7 3.8 3.1 3.3 2.9 4.2
4.4 4.1 3.3 3.8 3.8 3.7 3.5 4.0 2.7 3.9
01
II. 데이터 분석과정 / 측정
줄기
1의자리
잎
소수점 첫째 자리
53. ● 대표치 : 평균, 중앙값, 최빈값
● 산포도 : 범위, 사분위범위, 분산, 표준편차
01
Contents
I. 통계학 ABC
2.측정
4.분석
II. 데이터 분석과정
1.샘플링
3.정리&요약
54. 모집단 표본집단 데이터 통계량 추측샘플링 측정 분석정리요약
01
II. 데이터 분석과정 / 정리요약
55. 평균 (산술평균)
관측값들의 합을 총 관측수로 나눈 것
EX. “B대학교의 평균 학점 조사”
3.2 3.5 4.1 3.0 4.1 3.9 3.4 3.7 3.7 3.8
2.0 2.9 4.0 4.0 3.4 3.5 3.5 2.1 4.4 2.9
2.6 3.9 3.8 3.7 3.7 3.8 3.1 3.3 2.9 4.2
4.4 4.1 3.3 3.8 3.8 3.7 3.5 4.0 2.7 3.9
3.2 + 3.5 + 4.1 + … + 2.7 + 3.9
40
= 3.5275
01
II. 데이터 분석과정 / 정리요약 : 대표치 - 평균
56. 중앙값 (Median)
관측값들을 크기 순서로 나열했을 때 가장 중앙에 위치한 관측값
자료가 짝수개인 경우에는
가장 중앙에 해당하는 두 개의 값의 산술평균
CF. N개의 자료 중 중앙에 해당하는 두 개의 값
= (N/2) 번째 값과 그 다음 값
01
II. 데이터 분석과정 / 정리요약 : 대표치 - 중앙값
57. EX. “B대학교의 평균 학점 조사”
(표본 40명)
중앙값 = 20번째 학생과 21번째 학생의 학점의 산술평균
CF. 40개의 자료 중 중앙에 해당하는 두 개의 값
= (40/2) 번째 값과 그 다음 값
= 20번째 학생과 21번째 학생
01
II. 데이터 분석과정 / 정리요약 : 대표치 - 중앙값
58. 줄기-잎 그림에서 쉽게 찾을 수 있습니다.
2 0 1
2 6 7 9 9 9
3 0 1 2 3 3 4 4 5 5 5 5
3 7 7 7 7 7 8 8 8 8 8 9 9
4 0 0 0 1 1 1 2 4 4
중앙값 = 3.7
01
II. 데이터 분석과정 / 정리요약 : 대표치 - 중앙값
줄기
1의자리
잎
소수점 첫째 자리
59. 최빈값
가장 빈번하게 나타나는 관측값
역시 줄기-잎 그림에서 쉽게 찾을 수 있습니다.
01
II. 데이터 분석과정 / 정리요약 : 대표치 - 최빈값
60. 역시 줄기-잎 그림에서 쉽게 찾을 수 있습니다.
2 0 1
2 6 7 9 9 9
3 0 1 2 3 3 4 4 5 5 5 5
3 7 7 7 7 7 8 8 8 8 8 9 9
4 0 0 0 1 1 1 2 4 4
최빈값 = 3.7 & 3.8
01
II. 데이터 분석과정 / 정리요약 : 대표치 - 최빈값
줄기
1의자리
잎
소수점 첫째 자리
61. 01
● 대표치 : 평균, 중앙값, 최빈값
● 산포도 : 범위, 사분위범위, 분산, 표준편차
Contents
I. 통계학 ABC
2.측정
4.분석
II. 데이터 분석과정
1.샘플링
3.정리&요약
62. 범위
관측값의 최댓값 – 관측값의 최솟값
EX. B대학교의 평균 학점 조사
최댓값 = 4.4
최솟값 = 2.0
범위 = 4.4 – 2.0 = 2.4
01
II. 데이터 분석과정 / 정리요약 : 산포도 - 범위
63. 100% 75%(Q3) 50%(Q2) 25%(Q1) 0%
사분위값
백(100)을 사(4)로 나눈 25의 배수가 되는 백분위 값
=중앙값
01
II. 데이터 분석과정 / 정리요약 : 산포도 - 사분위범위
68. 최댓값 4.4
최솟값 2.0
Q2 3.7
Q3 3.9
Q1 3.25
상자그림 해석
FACT1. Q1~Q2와 Q2~Q3사이에는 동일한 양의 자료가 들어있다.
FACT2. 상자 중앙의 굵은 선은 중앙값(Q2)을 나타낸다.
01
69. 최댓값 4.4
최솟값 2.0
Q2 3.7
Q3 3.9
Q1 3.25
상자그림 해석
해석1. Q2와 Q3사이에 자료가 몰려있다.
FACT2. 상자 중앙의 굵은 선은 중앙값(Q2)을 나타낸다.
01
70. 최댓값 4.4
최솟값 2.0
Q2 3.7
Q3 3.9
Q1 3.25
상자그림 해석
해석1. Q2와 Q3사이에 자료가 몰려있다.
해석2. 전체적으로 자료가 위쪽으로 쏠려있다.
01
71. 최댓값 4.4
최솟값 2.0
Q2 3.7
Q3 3.9
Q1 3.25
상자그림 해석
해석1. 3.7에서 3.9 사이의 학점을 받은 학생이 상대적으로 많다.
해석2. 전체적으로 자료가 위쪽으로 쏠려있다.
01
72. 최댓값 4.4
최솟값 2.0
Q2 3.7
Q3 3.9
Q1 3.25
상자그림 해석
해석1. 3.7에서 3.9 사이의 학점을 받은 학생이 상대적으로 많다.
해석2. 학생들이 대게 3.0 이상으로 학점을 잘 받는 편이다.
01
73. 분산
제곱편차합을 관측의 개수-1로 나눈 값
EX. “통통이네 가족의 하루 평균 화장실 이용 횟수 조사”
01
II. 데이터 분석과정 / 정리요약 : 산포도 - 분산
74. EX. 통통이네 가족의 하루 평균 화장실 이용 횟수 조사 (5인)
관측 = 5 3 5 7 4
평균
5 + 3 + 5 + 7 + 4
5
= 4.8
01
II. 데이터 분석과정 / 정리요약 : 산포도 - 분산
75. EX. 통통이네 가족의 하루 평균 화장실 이용 횟수 조사 (5인)
관측 = 5 3 5 7 4
평균 = 4.8
편차 = 관측 – 평균
5-4.8 3-4.8 5-4.8 7-4.8 4-4.8
=
0.2 -1.8 0.2 2.2 -0.8
01
II. 데이터 분석과정 / 정리요약 : 산포도 - 분산
76. EX. 통통이네 가족의 하루 평균 화장실 이용 횟수 조사 (5인)
관측 = 5 3 5 7 4
평균 = 4.8
편차 = 0.2 -1.8 0.2 2.2 -0.8
제곱편차 = (편차)²
(0.2)² (-1.8)² (0.2)² (2.2)² (-0.8)²
01
II. 데이터 분석과정 / 정리요약 : 산포도 - 분산
77. EX. 통통이네 가족의 하루 평균 화장실 이용 횟수 조사 (5인)
관측 = 5 3 5 7 4
평균 = 4.8
편차 = 0.2 -1.8 0.2 2.2 -0.8
제곱편차 = 0.04 3.24 0.04 4.84 0.64
제곱편차합 = 제곱편차들의 합
0.04 + 3.24 + 0.04 + 4.84 + 0.64 = 8.8
01
II. 데이터 분석과정 / 정리요약 : 산포도 - 분산
78. EX. 통통이네 가족의 하루 평균 화장실 이용 횟수 조사 (5인)
관측 = 5 3 5 7 4
평균 = 4.8
편차 = 0.2 -1.8 0.2 2.2 -0.8
제곱편차 = 0.04 3.24 0.04 4.84 0.64
제곱편차합 = 8.8
01
II. 데이터 분석과정 / 정리요약 : 산포도 - 분산
79. 분산
제곱편차합을 관측의 개수-1로 나눈 값
제곱편차합
관측의개수-1
=
8.8
5-1
=
8.8
4
= 2.2
01
II. 데이터 분석과정 / 정리요약 : 산포도 - 분산
80. 분산의 해석
분산이 크면 클 수록, 분포가 더 흩어져 있다
EX. 화장실 이용 횟수의 분산
통통이네 = 2.2
동동이네 = 0.5
동동이네 가족들은 통통이네에 비해
화장실에 비슷한 횟수로 간다.
01
II. 데이터 분석과정 / 정리요약 : 산포도 - 분산
81. 분산의 해석
만약 분산 = 0이라면,
모든 자료의 값이 동일한 것
01
II. 데이터 분석과정 / 정리요약 : 산포도 - 분산
82. 표준편차
분산의 양의 제곱근
(표준편차)² = 분산
EX. “통통이네 가족의 하루 평균 화장실 이용 횟수 조사”
분산 = 2.2
표준편차 = 1.4832…
01
II. 데이터 분석과정 / 정리요약 : 산포도 - 표준편차