뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

통통한 통계 이야기
01 | 통계적 분석 과정

출처_ 한국경제 http://goo.gl/GzfjYE
01
“한국인의 평균 기상시각은 오전 6시 34분이다.”

이런 결과를 어떻게 얻을 수 있을까요?
대한민국에 거주하는 모든 한국인에게 일일이 물어볼 수 있을까요?
“어? 나한텐 안 물어봤는데?”라는 생각을 해보지는 않았나요?
01

이럴 때 필요한 것이 바로 통계!
Statistics = State + Arithmetic
국가의 국민들에 대한 산술적인 조사에서 유래
01
이럴 때 필요한 것이 바로 통계!

통계학이란 무엇인가?
 데이터를 다루는 학문
정형
데이터
비정형
데이터
01

통계학에서는 주로 정형데이터를 다룹니다!
01
통계학이란 무엇인가?
 데이터를 다루는 학문
정형
데이터
비정형
데이터

이 한 문장을 만들어 내기 위해 필요한 정보는
한국인, 평균, 그리고 실제 기상시각입니다.
01

그렇다면 통계를 이용해서 이 문장을 어떻게
믿을 수 있는 정보로 만들 수 있는지 살펴봅시다.
01

01
Contents
I. 통계학 ABC
II. 데이터 분석과정
1.샘플링
2.측정
3.정리&요약
4.분석

자료를 조사해서 유의미한 정보를 이끌어내려면
통계학적 기법을 이용한 데이터 분석 과정을 거쳐야 합니다.
영어를 배우려면 알파벳부터 알아야 하듯,
통계적 분석 과정을 알기 전에 기본 개념을 먼저 소개합니다.
01
I. 통계학 ABC

모집단
우리가 관심이나 흥미를 가지고 있는 집단, 즉 연구대상이 되는 집단 전체
표본집단
표본조사를 통해 뽑아낸 모집단의 일부
데이터
표본 집단을 조사해서 얻은 수치 또는 비정형 자료
통계량
알고자 하는 모집단의 특성(모수)을 추정하기 위하여 표본에서 계산한 추정량의 값
추측
통계학에서, 임의 표본에 의하여 모집단을 규정하는 평균값, 분산 따위의 여러 수치를 추측하는 일
통계적 검정과 추정 따위가 있다.
01
I. 통계학 ABC

어렵게만 보이는 이 개념들에,
“한국인의 기상시간”을 끼얹어 보겠습니다.
01
I. 통계학 ABC

모집단
우리가 관심이나 흥미를 가지고 있는 집단, 즉 한국인 전체
표본집단
표본조사를 통해 뽑아낸 한국인의 일부
데이터
표본 집단을 조사해서 얻은 기상시간이라는 자료
통계량
알고자 하는 한국인의 기상시간을 추정하기 위하여 표본에서 계산한 평균 기상시간
추측
통계적 추정을 거쳐 한국인의 기상시간은 오전 6시 34분이 타당하다는 추측
01
I. 통계학 ABC
모집단
우리가 관심이나 흥미를 가지고 있는 집단, 즉 연구대상이 되는 집단 전체
표본집단
표본조사를 통해 뽑아낸 모집단의 일부
데이터
표본 집단을 조사해서 얻은 수치 또는 비정형 자료
통계량
알고자 하는 모집단의 특성(모수)을 추정하기 위하여 표본에서 계산한 추정량의
값
추측
통계학에서, 임의 표본에 의하여 모집단을 규정하는 평균값, 분산 따위의 여러
수치를 추측하는 일, 통계적 검정과 추정

그리고 이 개념들을 차례로 엮어주면
바로 데이터 분석이 됩니다.
01
I. 통계학 ABC

데이터 분석
모집단
한국인 전체
↓
표본집단
한국인의 일부
↓
데이터
표본집단에 속한 일부 한국인의 기상시간
↓
통계량
표본집단의 평균 기상시간
↓
추측
한국인의 기상시간은 오전 6시 34분이 타당하다
01
I. 통계학 ABC

01
Contents
I. 통계학 ABC
1.샘플링
2.측정
3.정리&요약
4.분석

이전의 데이터 분석을 도식화한 것입니다.
01
6시 34분
평균
기상시간
기상시간
한국인
몇명
한국인

모집단
= 한국인
표본집단
= 한국인
몇명
데이터
= 기상시간
통계량
= 평균
추측
= 6시 34분
01

모집단 표본집단 데이터 통계량 추측샘플링 측정 분석정리요약
그리고 각 개념과 개념을 이어주는 화살표가 바로 분석의 과정이 됩니다.
01

01
Contents
I. 통계학 ABC
1.샘플링
2.측정
3.정리&요약
4.분석
● 단순임의 추출법
● 층화추출법
● 집락추출법
● 계통추출법

01
II. 데이터 분석과정 / 샘플링

전수조사
모집단 전체를 모두 조사하는 것
01
II. 데이터 분석과정 / 샘플링 : 전수조사 vs 표본조사

1. 전수조사가 불가능한 경우 (EX. 모든 한국인)
2. 비용과 시간을 절감해야 하는 경우
01

표본조사(샘플링)
모집단의 일부인 표본을 추출하여 조사하는 것
01

01
1.샘플링
Contents
I. 통계학 ABC
2.측정
3.정리&요약
4.분석
● 단순임의 추출법
● 층화추출법
● 집락추출법
● 계통추출법

모집단에서 표본을 추출할 때,
이들 표본이 선택될 확률이 모두 동일하도록 추출하는 방법
EX. 인형 뽑기
위에 있는 인형이 뽑힐 확률 > 밑에 있는 인형이 뽑힐 확률
따라서 단순임의추출법이 아니다.
01
II. 데이터 분석과정 / 샘플링 : 단순임의 추출법 (Sample Random Sampling)

“뽑힐 확률이 1/5로 동일”
= 단순임의 추출법
01

난수표(Random number table) 이용
01

쉽고 간단하다.
자료가 너무 심하게 들쭉날쭉일 수 있다.
= 추정량의 분산이 너무 커질 수 있다.
01

레스토랑이 맛집인지 아닌지 알아보려고 합니다.
01
II. 데이터 분석과정 / 샘플링 : 층화추출법 (Stratified Sampling)

그러기 위해서 레스토랑에서 제공하는
모든 메뉴를 주문합니다.
01

다 먹는 것은 불가능하기 때문에
한 접시에 두 입씩만 먹어보기로 합니다.
01

레스토랑의 모든 음식(=모집단)을 메뉴(=층)로 구분해서
두 입씩(=층의 표본)조사하는 것입니다.
01

이런 조사방법이 바로 층화추출법입니다.
모집단을 동질적인 층으로 나눈 다음
각 층에서 표본을 단순임의추출법으로 추출하는 방법
01

내부를 동질화 + 층간에는 이질화
= 단순임의추출법보다 추정량의 정확도가 높아지고
조사 비용과 시간을 절약할 수 있습니다.
01

이번에는 레스토랑이 맛집인지 알아보기 위해
먹을 메뉴를 랜덤하게 선정하기로 합니다.
01
II. 데이터 분석과정 / 샘플링 : 집락추출법 (Cluster Sampling)

즉, 아까와 달리 몇 가지의 메뉴만 골라서 주문하는 것이죠.
01

그리고 주문한 메뉴는 전부 먹습니다.
01

레스토랑의 모든 음식(=모집단)을 메뉴(=집락)로 구분해서
그 중 몇 가지의 메뉴만 선정해서
선정된 메뉴는 다 먹는 것(=전수조사)이죠.
01

이런 조사방법이 집락추출법입니다.
모집단을 몇 개의 집락(Cluster)으로 나누어
전체 집락 중에서 몇 개의 집락을 표본추출하고
일단 추출된 집락은 전수조사*하는 방법
*때에 따라 다시 표본조사를 하기도 합니다.
01

집락 안은 이질적 + 집락 간에는 동질적
= 층화추출법과 반대의 경우에 많이 사용
01

계통추출법
표본을 시간적 또는 공간적으로 일정한 간격으로
규칙적으로 추출하는 방법
01
II. 데이터 분석과정 / 샘플링 : 계통추출법 (Systematic Sampling)

예를 들어, 선거 출입구 조사를 하거나
공장 생산라인에서 불량품 검사를 할 때 이용합니다.
“5개마다 조사”
01

표본추출이 용이하고 모집단을 고르게 추출할 수 있다
01

01
2.측정
Contents
I. 통계학 ABC
3.정리&요약
4.분석
1.샘플링

01
II. 데이터 분석과정 / 측정

3.2 3.5 4.1 3.0 4.1 3.9 3.4 3.7 3.7 3.8
2.0 2.9 4.0 4.0 3.4 3.5 3.5 2.1 4.4 2.9
2.6 3.9 3.8 3.7 3.7 3.8 3.1 3.3 2.9 4.2
4.4 4.1 3.3 3.8 3.8 3.7 3.5 4.0 2.7 3.9
“B 대학교의 평균 학점 조사”
(표본 40명)
01

CF. 줄기-잎 그림
자료의 대략적인 분포를 볼 수 있다.
2 0 1
2 6 7 9 9 9
3 0 1 2 3 3 4 4 5 5 5 5
3 7 7 7 7 7 8 8 8 8 8 9 9
4 0 0 0 1 1 1 2 4 4
3.2 3.5 4.1 3.0 4.1 3.9 3.4 3.7 3.7 3.8
2.0 2.9 4.0 4.0 3.4 3.5 3.5 2.1 4.4 2.9
2.6 3.9 3.8 3.7 3.7 3.8 3.1 3.3 2.9 4.2
4.4 4.1 3.3 3.8 3.8 3.7 3.5 4.0 2.7 3.9
01
줄기
1의자리
잎
소수점 첫째 자리

● 대표치 : 평균, 중앙값, 최빈값
● 산포도 : 범위, 사분위범위, 분산, 표준편차
01
Contents
I. 통계학 ABC
2.측정
4.분석
1.샘플링
3.정리&요약

01
II. 데이터 분석과정 / 정리요약

평균 (산술평균)
관측값들의 합을 총 관측수로 나눈 것
EX. “B대학교의 평균 학점 조사”
3.2 3.5 4.1 3.0 4.1 3.9 3.4 3.7 3.7 3.8
2.0 2.9 4.0 4.0 3.4 3.5 3.5 2.1 4.4 2.9
2.6 3.9 3.8 3.7 3.7 3.8 3.1 3.3 2.9 4.2
4.4 4.1 3.3 3.8 3.8 3.7 3.5 4.0 2.7 3.9
3.2 + 3.5 + 4.1 + … + 2.7 + 3.9
40
= 3.5275
01
II. 데이터 분석과정 / 정리요약 : 대표치 - 평균

중앙값 (Median)
관측값들을 크기 순서로 나열했을 때 가장 중앙에 위치한 관측값
자료가 짝수개인 경우에는
가장 중앙에 해당하는 두 개의 값의 산술평균
CF. N개의 자료 중 중앙에 해당하는 두 개의 값
= (N/2) 번째 값과 그 다음 값
01
II. 데이터 분석과정 / 정리요약 : 대표치 - 중앙값

EX. “B대학교의 평균 학점 조사”
(표본 40명)
중앙값 = 20번째 학생과 21번째 학생의 학점의 산술평균
CF. 40개의 자료 중 중앙에 해당하는 두 개의 값
= (40/2) 번째 값과 그 다음 값
= 20번째 학생과 21번째 학생
01

줄기-잎 그림에서 쉽게 찾을 수 있습니다.
2 0 1
2 6 7 9 9 9
3 0 1 2 3 3 4 4 5 5 5 5
3 7 7 7 7 7 8 8 8 8 8 9 9
4 0 0 0 1 1 1 2 4 4
중앙값 = 3.7
01
줄기
1의자리
잎

최빈값
가장 빈번하게 나타나는 관측값
역시 줄기-잎 그림에서 쉽게 찾을 수 있습니다.
01
II. 데이터 분석과정 / 정리요약 : 대표치 - 최빈값

역시 줄기-잎 그림에서 쉽게 찾을 수 있습니다.
2 0 1
2 6 7 9 9 9
3 0 1 2 3 3 4 4 5 5 5 5
3 7 7 7 7 7 8 8 8 8 8 9 9
4 0 0 0 1 1 1 2 4 4
최빈값 = 3.7 & 3.8
01
II. 데이터 분석과정 / 정리요약 : 대표치 - 최빈값
줄기
1의자리
잎

01
● 대표치 : 평균, 중앙값, 최빈값
● 산포도 : 범위, 사분위범위, 분산, 표준편차
Contents
I. 통계학 ABC
2.측정
4.분석
1.샘플링
3.정리&요약

범위
관측값의 최댓값 – 관측값의 최솟값
EX. B대학교의 평균 학점 조사
최댓값 = 4.4
최솟값 = 2.0
범위 = 4.4 – 2.0 = 2.4
01
II. 데이터 분석과정 / 정리요약 : 산포도 - 범위

100% 75%(Q3) 50%(Q2) 25%(Q1) 0%
사분위값
백(100)을 사(4)로 나눈 25의 배수가 되는 백분위 값
=중앙값
01
II. 데이터 분석과정 / 정리요약 : 산포도 - 사분위범위

100% 75%(Q3) 50%(Q2) 25%(Q1) 0%
사분위범위
= 제3사분위값 – 제1사분위값
01

100% 75%(Q3) 50%(Q2) 25%(Q1) 0%
사분위범위
= Q3 – Q1
01

최대,최솟값과 사분위값을 이용해서 그릴 수 있습니다.
자료를 한눈에 파악하기에 좋습니다.
CF. 상자(수염) 그림
최댓값 = 4.4
최솟값 = 2.0
Q1 = 3.25
Q2 = 3.7
Q3 = 3.9
2 0 1
2 6 7 9 9 9
3 0 1 2 3 3 4 4 5 5 5 5
3 7 7 7 7 7 8 8 8 8 8 9 9
4 0 0 0 1 1 1 2 4 4
01

CF. 상자(수염) 그림
최댓값 = 4.4
최솟값 = 2.0
Q1 = 3.25
Q2 = 3.7
Q3 = 3.9
2 0 1
2 6 7 9 9 9
3 0 1 2 3 3 4 4 5 5 5 5
3 7 7 7 7 7 8 8 8 8 8 9 9
4 0 0 0 1 1 1 2 4 4
최댓값 4.4
최솟값 2.0
Q2 3.7
Q3 3.9
Q1 3.25
최대,최솟값과 사분위값을 이용해서 그릴 수 있습니다.
자료를 한눈에 파악하기에 좋습니다.
01

최댓값 4.4
최솟값 2.0
Q2 3.7
Q3 3.9
Q1 3.25
상자그림 해석
FACT1. Q1~Q2와 Q2~Q3사이에는 동일한 양의 자료가 들어있다.
FACT2. 상자 중앙의 굵은 선은 중앙값(Q2)을 나타낸다.
01

최댓값 4.4
최솟값 2.0
Q2 3.7
Q3 3.9
Q1 3.25
상자그림 해석
해석1. Q2와 Q3사이에 자료가 몰려있다.
FACT2. 상자 중앙의 굵은 선은 중앙값(Q2)을 나타낸다.
01

최댓값 4.4
최솟값 2.0
Q2 3.7
Q3 3.9
Q1 3.25
상자그림 해석
해석1. Q2와 Q3사이에 자료가 몰려있다.
해석2. 전체적으로 자료가 위쪽으로 쏠려있다.
01

최댓값 4.4
최솟값 2.0
Q2 3.7
Q3 3.9
Q1 3.25
상자그림 해석
해석1. 3.7에서 3.9 사이의 학점을 받은 학생이 상대적으로 많다.
해석2. 전체적으로 자료가 위쪽으로 쏠려있다.
01

최댓값 4.4
최솟값 2.0
Q2 3.7
Q3 3.9
Q1 3.25
상자그림 해석
해석1. 3.7에서 3.9 사이의 학점을 받은 학생이 상대적으로 많다.
해석2. 학생들이 대게 3.0 이상으로 학점을 잘 받는 편이다.
01

분산
제곱편차합을 관측의 개수-1로 나눈 값
EX. “통통이네 가족의 하루 평균 화장실 이용 횟수 조사”
01
II. 데이터 분석과정 / 정리요약 : 산포도 - 분산

EX. 통통이네 가족의 하루 평균 화장실 이용 횟수 조사 (5인)
관측 = 5 3 5 7 4
평균
5 + 3 + 5 + 7 + 4
5
= 4.8
01

관측 = 5 3 5 7 4
평균 = 4.8
편차 = 관측 – 평균
5-4.8 3-4.8 5-4.8 7-4.8 4-4.8
=
0.2 -1.8 0.2 2.2 -0.8
01

관측 = 5 3 5 7 4
평균 = 4.8
편차 = 0.2 -1.8 0.2 2.2 -0.8
제곱편차 = (편차)²
(0.2)² (-1.8)² (0.2)² (2.2)² (-0.8)²
01

관측 = 5 3 5 7 4
평균 = 4.8
편차 = 0.2 -1.8 0.2 2.2 -0.8
제곱편차 = 0.04 3.24 0.04 4.84 0.64
제곱편차합 = 제곱편차들의 합
0.04 + 3.24 + 0.04 + 4.84 + 0.64 = 8.8
01

관측 = 5 3 5 7 4
평균 = 4.8
편차 = 0.2 -1.8 0.2 2.2 -0.8
제곱편차 = 0.04 3.24 0.04 4.84 0.64
제곱편차합 = 8.8
01

분산
제곱편차합을 관측의 개수-1로 나눈 값
제곱편차합
관측의개수-1
=
8.8
5-1
=
8.8
4
= 2.2
01

분산의 해석
분산이 크면 클 수록, 분포가 더 흩어져 있다
EX. 화장실 이용 횟수의 분산
통통이네 = 2.2
동동이네 = 0.5
동동이네 가족들은 통통이네에 비해
화장실에 비슷한 횟수로 간다.
01

분산의 해석
만약 분산 = 0이라면,
모든 자료의 값이 동일한 것
01

표준편차
분산의 양의 제곱근
(표준편차)² = 분산
EX. “통통이네 가족의 하루 평균 화장실 이용 횟수 조사”
분산 = 2.2
표준편차 = 1.4832…
01
II. 데이터 분석과정 / 정리요약 : 산포도 - 표준편차

01
Contents
I. 통계학 ABC
2.측정
1.샘플링
4.분석
3.정리&요약

01
II. 데이터 분석과정 / 분석

지금까지의 데이터분석과정을 통해
얻은 여러 통계량(평균, 분산 등)으로
통계 분석을 할 수 있습니다.
01

통계분석에는,
상관분석 / 회귀분석 / 범주형 자료 분석 / 교차분석
등의 다양한 분석 방법이 있습니다.
앞으로 차차 소개해드리려고 합니다.
01

01
참고자료
참고문헌
“현대 통계학의 이해와 응용”(2014), 이외숙, 임용빈, 소병수, 이은경 공저, 자유아카데미
“쉽게 풀어 쓴 통계학”(2005), 이창효, 김종배 공저, 도서출판 대명

Thank you.
통통한 통계 이야기
01 | 통계적 분석 과정

뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (17)

Más de Newsjelly

Más de Newsjelly (20)

뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐