SlideShare una empresa de Scribd logo
1 de 88
Descargar para leer sin conexión
통통한 통계 이야기
01 | 통계적 분석 과정
출처_ 한국경제 http://goo.gl/GzfjYE
01
“한국인의 평균 기상시각은 오전 6시 34분이다.”
이런 결과를 어떻게 얻을 수 있을까요?
대한민국에 거주하는 모든 한국인에게 일일이 물어볼 수 있을까요?
“어? 나한텐 안 물어봤는데?”라는 생각을 해보지는 않았나요?
01
이럴 때 필요한 것이 바로 통계!
Statistics = State + Arithmetic
국가의 국민들에 대한 산술적인 조사에서 유래
01
이럴 때 필요한 것이 바로 통계!
통계학이란 무엇인가?
 데이터를 다루는 학문
정형
데이터
비정형
데이터
01
통계학에서는 주로 정형데이터를 다룹니다!
01
통계학이란 무엇인가?
 데이터를 다루는 학문
정형
데이터
비정형
데이터
“한국인의 평균 기상시각은 오전 6시 34분이다.”
이 한 문장을 만들어 내기 위해 필요한 정보는
한국인, 평균, 그리고 실제 기상시각입니다.
01
“한국인의 평균 기상시각은 오전 6시 34분이다.”
그렇다면 통계를 이용해서 이 문장을 어떻게
믿을 수 있는 정보로 만들 수 있는지 살펴봅시다.
01
01
Contents
I. 통계학 ABC
II. 데이터 분석과정
1.샘플링
2.측정
3.정리&요약
4.분석
자료를 조사해서 유의미한 정보를 이끌어내려면
통계학적 기법을 이용한 데이터 분석 과정을 거쳐야 합니다.
영어를 배우려면 알파벳부터 알아야 하듯,
통계적 분석 과정을 알기 전에 기본 개념을 먼저 소개합니다.
01
I. 통계학 ABC
모집단
우리가 관심이나 흥미를 가지고 있는 집단, 즉 연구대상이 되는 집단 전체
표본집단
표본조사를 통해 뽑아낸 모집단의 일부
데이터
표본 집단을 조사해서 얻은 수치 또는 비정형 자료
통계량
알고자 하는 모집단의 특성(모수)을 추정하기 위하여 표본에서 계산한 추정량의 값
추측
통계학에서, 임의 표본에 의하여 모집단을 규정하는 평균값, 분산 따위의 여러 수치를 추측하는 일
통계적 검정과 추정 따위가 있다.
01
I. 통계학 ABC
어렵게만 보이는 이 개념들에,
“한국인의 기상시간”을 끼얹어 보겠습니다.
01
I. 통계학 ABC
모집단
우리가 관심이나 흥미를 가지고 있는 집단, 즉 한국인 전체
표본집단
표본조사를 통해 뽑아낸 한국인의 일부
데이터
표본 집단을 조사해서 얻은 기상시간이라는 자료
통계량
알고자 하는 한국인의 기상시간을 추정하기 위하여 표본에서 계산한 평균 기상시간
추측
통계적 추정을 거쳐 한국인의 기상시간은 오전 6시 34분이 타당하다는 추측
01
I. 통계학 ABC
모집단
우리가 관심이나 흥미를 가지고 있는 집단, 즉 연구대상이 되는 집단 전체
표본집단
표본조사를 통해 뽑아낸 모집단의 일부
데이터
표본 집단을 조사해서 얻은 수치 또는 비정형 자료
통계량
알고자 하는 모집단의 특성(모수)을 추정하기 위하여 표본에서 계산한 추정량의
값
추측
통계학에서, 임의 표본에 의하여 모집단을 규정하는 평균값, 분산 따위의 여러
수치를 추측하는 일, 통계적 검정과 추정
그리고 이 개념들을 차례로 엮어주면
바로 데이터 분석이 됩니다.
01
I. 통계학 ABC
데이터 분석
모집단
한국인 전체
↓
표본집단
한국인의 일부
↓
데이터
표본집단에 속한 일부 한국인의 기상시간
↓
통계량
표본집단의 평균 기상시간
↓
추측
한국인의 기상시간은 오전 6시 34분이 타당하다
01
I. 통계학 ABC
II. 데이터 분석과정
01
Contents
I. 통계학 ABC
1.샘플링
2.측정
3.정리&요약
4.분석
이전의 데이터 분석을 도식화한 것입니다.
01
II. 데이터 분석과정
6시 34분
평균
기상시간
기상시간
한국인
몇명
한국인
모집단
= 한국인
표본집단
= 한국인
몇명
데이터
= 기상시간
통계량
= 평균
추측
= 6시 34분
01
II. 데이터 분석과정
모집단 표본집단 데이터 통계량 추측샘플링 측정 분석정리요약
그리고 각 개념과 개념을 이어주는 화살표가 바로 분석의 과정이 됩니다.
01
II. 데이터 분석과정
01
II. 데이터 분석과정
Contents
I. 통계학 ABC
1.샘플링
2.측정
3.정리&요약
4.분석
● 단순임의 추출법
● 층화추출법
● 집락추출법
● 계통추출법
모집단 표본집단 데이터 통계량 추측샘플링 측정 분석정리요약
01
II. 데이터 분석과정 / 샘플링
전수조사
모집단 전체를 모두 조사하는 것
01
II. 데이터 분석과정 / 샘플링 : 전수조사 vs 표본조사
1. 전수조사가 불가능한 경우 (EX. 모든 한국인)
2. 비용과 시간을 절감해야 하는 경우
01
II. 데이터 분석과정 / 샘플링 : 전수조사 vs 표본조사
표본조사(샘플링)
모집단의 일부인 표본을 추출하여 조사하는 것
01
II. 데이터 분석과정 / 샘플링 : 전수조사 vs 표본조사
표본조사(샘플링)
모집단의 일부인 표본을 추출하여 조사하는 것
01
II. 데이터 분석과정 / 샘플링 : 전수조사 vs 표본조사
01
1.샘플링
Contents
I. 통계학 ABC
2.측정
3.정리&요약
4.분석
● 단순임의 추출법
● 층화추출법
● 집락추출법
● 계통추출법
II. 데이터 분석과정
모집단에서 표본을 추출할 때,
이들 표본이 선택될 확률이 모두 동일하도록 추출하는 방법
EX. 인형 뽑기
위에 있는 인형이 뽑힐 확률 > 밑에 있는 인형이 뽑힐 확률
따라서 단순임의추출법이 아니다.
01
II. 데이터 분석과정 / 샘플링 : 단순임의 추출법 (Sample Random Sampling)
“뽑힐 확률이 1/5로 동일”
= 단순임의 추출법
모집단에서 표본을 추출할 때,
이들 표본이 선택될 확률이 모두 동일하도록 추출하는 방법
01
II. 데이터 분석과정 / 샘플링 : 단순임의 추출법 (Sample Random Sampling)
난수표(Random number table) 이용
모집단에서 표본을 추출할 때,
이들 표본이 선택될 확률이 모두 동일하도록 추출하는 방법
01
II. 데이터 분석과정 / 샘플링 : 단순임의 추출법 (Sample Random Sampling)
쉽고 간단하다.
자료가 너무 심하게 들쭉날쭉일 수 있다.
= 추정량의 분산이 너무 커질 수 있다.
01
II. 데이터 분석과정 / 샘플링 : 단순임의 추출법 (Sample Random Sampling)
01
1.샘플링
Contents
I. 통계학 ABC
2.측정
3.정리&요약
4.분석
● 단순임의 추출법
● 층화추출법
● 집락추출법
● 계통추출법
II. 데이터 분석과정
레스토랑이 맛집인지 아닌지 알아보려고 합니다.
01
II. 데이터 분석과정 / 샘플링 : 층화추출법 (Stratified Sampling)
그러기 위해서 레스토랑에서 제공하는
모든 메뉴를 주문합니다.
01
II. 데이터 분석과정 / 샘플링 : 층화추출법 (Stratified Sampling)
다 먹는 것은 불가능하기 때문에
한 접시에 두 입씩만 먹어보기로 합니다.
01
II. 데이터 분석과정 / 샘플링 : 층화추출법 (Stratified Sampling)
레스토랑의 모든 음식(=모집단)을 메뉴(=층)로 구분해서
두 입씩(=층의 표본)조사하는 것입니다.
01
II. 데이터 분석과정 / 샘플링 : 층화추출법 (Stratified Sampling)
이런 조사방법이 바로 층화추출법입니다.
모집단을 동질적인 층으로 나눈 다음
각 층에서 표본을 단순임의추출법으로 추출하는 방법
01
II. 데이터 분석과정 / 샘플링 : 층화추출법 (Stratified Sampling)
내부를 동질화 + 층간에는 이질화
= 단순임의추출법보다 추정량의 정확도가 높아지고
조사 비용과 시간을 절약할 수 있습니다.
01
II. 데이터 분석과정 / 샘플링 : 층화추출법 (Stratified Sampling)
01
1.샘플링
Contents
I. 통계학 ABC
2.측정
3.정리&요약
4.분석
● 단순임의 추출법
● 층화추출법
● 집락추출법
● 계통추출법
II. 데이터 분석과정
이번에는 레스토랑이 맛집인지 알아보기 위해
먹을 메뉴를 랜덤하게 선정하기로 합니다.
01
II. 데이터 분석과정 / 샘플링 : 집락추출법 (Cluster Sampling)
즉, 아까와 달리 몇 가지의 메뉴만 골라서 주문하는 것이죠.
01
II. 데이터 분석과정 / 샘플링 : 집락추출법 (Cluster Sampling)
그리고 주문한 메뉴는 전부 먹습니다.
01
II. 데이터 분석과정 / 샘플링 : 집락추출법 (Cluster Sampling)
레스토랑의 모든 음식(=모집단)을 메뉴(=집락)로 구분해서
그 중 몇 가지의 메뉴만 선정해서
선정된 메뉴는 다 먹는 것(=전수조사)이죠.
01
II. 데이터 분석과정 / 샘플링 : 집락추출법 (Cluster Sampling)
이런 조사방법이 집락추출법입니다.
모집단을 몇 개의 집락(Cluster)으로 나누어
전체 집락 중에서 몇 개의 집락을 표본추출하고
일단 추출된 집락은 전수조사*하는 방법
*때에 따라 다시 표본조사를 하기도 합니다.
01
II. 데이터 분석과정 / 샘플링 : 집락추출법 (Cluster Sampling)
집락 안은 이질적 + 집락 간에는 동질적
= 층화추출법과 반대의 경우에 많이 사용
01
II. 데이터 분석과정 / 샘플링 : 집락추출법 (Cluster Sampling)
01
1.샘플링
Contents
I. 통계학 ABC
2.측정
3.정리&요약
4.분석
● 단순임의 추출법
● 층화추출법
● 집락추출법
● 계통추출법
II. 데이터 분석과정
계통추출법
표본을 시간적 또는 공간적으로 일정한 간격으로
규칙적으로 추출하는 방법
01
II. 데이터 분석과정 / 샘플링 : 계통추출법 (Systematic Sampling)
예를 들어, 선거 출입구 조사를 하거나
공장 생산라인에서 불량품 검사를 할 때 이용합니다.
“5개마다 조사”
01
II. 데이터 분석과정 / 샘플링 : 계통추출법 (Systematic Sampling)
표본추출이 용이하고 모집단을 고르게 추출할 수 있다
01
II. 데이터 분석과정 / 샘플링 : 계통추출법 (Systematic Sampling)
01
2.측정
Contents
I. 통계학 ABC
3.정리&요약
4.분석
II. 데이터 분석과정
1.샘플링
모집단 표본집단 데이터 통계량 추측샘플링 측정 분석정리요약
01
II. 데이터 분석과정 / 측정
3.2 3.5 4.1 3.0 4.1 3.9 3.4 3.7 3.7 3.8
2.0 2.9 4.0 4.0 3.4 3.5 3.5 2.1 4.4 2.9
2.6 3.9 3.8 3.7 3.7 3.8 3.1 3.3 2.9 4.2
4.4 4.1 3.3 3.8 3.8 3.7 3.5 4.0 2.7 3.9
“B 대학교의 평균 학점 조사”
(표본 40명)
01
II. 데이터 분석과정 / 측정
CF. 줄기-잎 그림
자료의 대략적인 분포를 볼 수 있다.
2 0 1
2 6 7 9 9 9
3 0 1 2 3 3 4 4 5 5 5 5
3 7 7 7 7 7 8 8 8 8 8 9 9
4 0 0 0 1 1 1 2 4 4
3.2 3.5 4.1 3.0 4.1 3.9 3.4 3.7 3.7 3.8
2.0 2.9 4.0 4.0 3.4 3.5 3.5 2.1 4.4 2.9
2.6 3.9 3.8 3.7 3.7 3.8 3.1 3.3 2.9 4.2
4.4 4.1 3.3 3.8 3.8 3.7 3.5 4.0 2.7 3.9
01
II. 데이터 분석과정 / 측정
줄기
1의자리
잎
소수점 첫째 자리
● 대표치 : 평균, 중앙값, 최빈값
● 산포도 : 범위, 사분위범위, 분산, 표준편차
01
Contents
I. 통계학 ABC
2.측정
4.분석
II. 데이터 분석과정
1.샘플링
3.정리&요약
모집단 표본집단 데이터 통계량 추측샘플링 측정 분석정리요약
01
II. 데이터 분석과정 / 정리요약
평균 (산술평균)
관측값들의 합을 총 관측수로 나눈 것
EX. “B대학교의 평균 학점 조사”
3.2 3.5 4.1 3.0 4.1 3.9 3.4 3.7 3.7 3.8
2.0 2.9 4.0 4.0 3.4 3.5 3.5 2.1 4.4 2.9
2.6 3.9 3.8 3.7 3.7 3.8 3.1 3.3 2.9 4.2
4.4 4.1 3.3 3.8 3.8 3.7 3.5 4.0 2.7 3.9
3.2 + 3.5 + 4.1 + … + 2.7 + 3.9
40
= 3.5275
01
II. 데이터 분석과정 / 정리요약 : 대표치 - 평균
중앙값 (Median)
관측값들을 크기 순서로 나열했을 때 가장 중앙에 위치한 관측값
자료가 짝수개인 경우에는
가장 중앙에 해당하는 두 개의 값의 산술평균
CF. N개의 자료 중 중앙에 해당하는 두 개의 값
= (N/2) 번째 값과 그 다음 값
01
II. 데이터 분석과정 / 정리요약 : 대표치 - 중앙값
EX. “B대학교의 평균 학점 조사”
(표본 40명)
중앙값 = 20번째 학생과 21번째 학생의 학점의 산술평균
CF. 40개의 자료 중 중앙에 해당하는 두 개의 값
= (40/2) 번째 값과 그 다음 값
= 20번째 학생과 21번째 학생
01
II. 데이터 분석과정 / 정리요약 : 대표치 - 중앙값
줄기-잎 그림에서 쉽게 찾을 수 있습니다.
2 0 1
2 6 7 9 9 9
3 0 1 2 3 3 4 4 5 5 5 5
3 7 7 7 7 7 8 8 8 8 8 9 9
4 0 0 0 1 1 1 2 4 4
중앙값 = 3.7
01
II. 데이터 분석과정 / 정리요약 : 대표치 - 중앙값
줄기
1의자리
잎
소수점 첫째 자리
최빈값
가장 빈번하게 나타나는 관측값
역시 줄기-잎 그림에서 쉽게 찾을 수 있습니다.
01
II. 데이터 분석과정 / 정리요약 : 대표치 - 최빈값
역시 줄기-잎 그림에서 쉽게 찾을 수 있습니다.
2 0 1
2 6 7 9 9 9
3 0 1 2 3 3 4 4 5 5 5 5
3 7 7 7 7 7 8 8 8 8 8 9 9
4 0 0 0 1 1 1 2 4 4
최빈값 = 3.7 & 3.8
01
II. 데이터 분석과정 / 정리요약 : 대표치 - 최빈값
줄기
1의자리
잎
소수점 첫째 자리
01
● 대표치 : 평균, 중앙값, 최빈값
● 산포도 : 범위, 사분위범위, 분산, 표준편차
Contents
I. 통계학 ABC
2.측정
4.분석
II. 데이터 분석과정
1.샘플링
3.정리&요약
범위
관측값의 최댓값 – 관측값의 최솟값
EX. B대학교의 평균 학점 조사
최댓값 = 4.4
최솟값 = 2.0
범위 = 4.4 – 2.0 = 2.4
01
II. 데이터 분석과정 / 정리요약 : 산포도 - 범위
100% 75%(Q3) 50%(Q2) 25%(Q1) 0%
사분위값
백(100)을 사(4)로 나눈 25의 배수가 되는 백분위 값
=중앙값
01
II. 데이터 분석과정 / 정리요약 : 산포도 - 사분위범위
100% 75%(Q3) 50%(Q2) 25%(Q1) 0%
사분위범위
= 제3사분위값 – 제1사분위값
01
II. 데이터 분석과정 / 정리요약 : 산포도 - 사분위범위
100% 75%(Q3) 50%(Q2) 25%(Q1) 0%
사분위범위
= Q3 – Q1
01
II. 데이터 분석과정 / 정리요약 : 산포도 - 사분위범위
최대,최솟값과 사분위값을 이용해서 그릴 수 있습니다.
자료를 한눈에 파악하기에 좋습니다.
CF. 상자(수염) 그림
EX. B대학교의 평균 학점 조사
최댓값 = 4.4
최솟값 = 2.0
Q1 = 3.25
Q2 = 3.7
Q3 = 3.9
2 0 1
2 6 7 9 9 9
3 0 1 2 3 3 4 4 5 5 5 5
3 7 7 7 7 7 8 8 8 8 8 9 9
4 0 0 0 1 1 1 2 4 4
01
CF. 상자(수염) 그림
EX. B대학교의 평균 학점 조사
최댓값 = 4.4
최솟값 = 2.0
Q1 = 3.25
Q2 = 3.7
Q3 = 3.9
2 0 1
2 6 7 9 9 9
3 0 1 2 3 3 4 4 5 5 5 5
3 7 7 7 7 7 8 8 8 8 8 9 9
4 0 0 0 1 1 1 2 4 4
최댓값 4.4
최솟값 2.0
Q2 3.7
Q3 3.9
Q1 3.25
최대,최솟값과 사분위값을 이용해서 그릴 수 있습니다.
자료를 한눈에 파악하기에 좋습니다.
01
최댓값 4.4
최솟값 2.0
Q2 3.7
Q3 3.9
Q1 3.25
상자그림 해석
FACT1. Q1~Q2와 Q2~Q3사이에는 동일한 양의 자료가 들어있다.
FACT2. 상자 중앙의 굵은 선은 중앙값(Q2)을 나타낸다.
01
최댓값 4.4
최솟값 2.0
Q2 3.7
Q3 3.9
Q1 3.25
상자그림 해석
해석1. Q2와 Q3사이에 자료가 몰려있다.
FACT2. 상자 중앙의 굵은 선은 중앙값(Q2)을 나타낸다.
01
최댓값 4.4
최솟값 2.0
Q2 3.7
Q3 3.9
Q1 3.25
상자그림 해석
해석1. Q2와 Q3사이에 자료가 몰려있다.
해석2. 전체적으로 자료가 위쪽으로 쏠려있다.
01
최댓값 4.4
최솟값 2.0
Q2 3.7
Q3 3.9
Q1 3.25
상자그림 해석
해석1. 3.7에서 3.9 사이의 학점을 받은 학생이 상대적으로 많다.
해석2. 전체적으로 자료가 위쪽으로 쏠려있다.
01
최댓값 4.4
최솟값 2.0
Q2 3.7
Q3 3.9
Q1 3.25
상자그림 해석
해석1. 3.7에서 3.9 사이의 학점을 받은 학생이 상대적으로 많다.
해석2. 학생들이 대게 3.0 이상으로 학점을 잘 받는 편이다.
01
분산
제곱편차합을 관측의 개수-1로 나눈 값
EX. “통통이네 가족의 하루 평균 화장실 이용 횟수 조사”
01
II. 데이터 분석과정 / 정리요약 : 산포도 - 분산
EX. 통통이네 가족의 하루 평균 화장실 이용 횟수 조사 (5인)
관측 = 5 3 5 7 4
평균
5 + 3 + 5 + 7 + 4
5
= 4.8
01
II. 데이터 분석과정 / 정리요약 : 산포도 - 분산
EX. 통통이네 가족의 하루 평균 화장실 이용 횟수 조사 (5인)
관측 = 5 3 5 7 4
평균 = 4.8
편차 = 관측 – 평균
5-4.8 3-4.8 5-4.8 7-4.8 4-4.8
=
0.2 -1.8 0.2 2.2 -0.8
01
II. 데이터 분석과정 / 정리요약 : 산포도 - 분산
EX. 통통이네 가족의 하루 평균 화장실 이용 횟수 조사 (5인)
관측 = 5 3 5 7 4
평균 = 4.8
편차 = 0.2 -1.8 0.2 2.2 -0.8
제곱편차 = (편차)²
(0.2)² (-1.8)² (0.2)² (2.2)² (-0.8)²
01
II. 데이터 분석과정 / 정리요약 : 산포도 - 분산
EX. 통통이네 가족의 하루 평균 화장실 이용 횟수 조사 (5인)
관측 = 5 3 5 7 4
평균 = 4.8
편차 = 0.2 -1.8 0.2 2.2 -0.8
제곱편차 = 0.04 3.24 0.04 4.84 0.64
제곱편차합 = 제곱편차들의 합
0.04 + 3.24 + 0.04 + 4.84 + 0.64 = 8.8
01
II. 데이터 분석과정 / 정리요약 : 산포도 - 분산
EX. 통통이네 가족의 하루 평균 화장실 이용 횟수 조사 (5인)
관측 = 5 3 5 7 4
평균 = 4.8
편차 = 0.2 -1.8 0.2 2.2 -0.8
제곱편차 = 0.04 3.24 0.04 4.84 0.64
제곱편차합 = 8.8
01
II. 데이터 분석과정 / 정리요약 : 산포도 - 분산
분산
제곱편차합을 관측의 개수-1로 나눈 값
제곱편차합
관측의개수-1
=
8.8
5-1
=
8.8
4
= 2.2
01
II. 데이터 분석과정 / 정리요약 : 산포도 - 분산
분산의 해석
분산이 크면 클 수록, 분포가 더 흩어져 있다
EX. 화장실 이용 횟수의 분산
통통이네 = 2.2
동동이네 = 0.5
동동이네 가족들은 통통이네에 비해
화장실에 비슷한 횟수로 간다.
01
II. 데이터 분석과정 / 정리요약 : 산포도 - 분산
분산의 해석
만약 분산 = 0이라면,
모든 자료의 값이 동일한 것
01
II. 데이터 분석과정 / 정리요약 : 산포도 - 분산
표준편차
분산의 양의 제곱근
(표준편차)² = 분산
EX. “통통이네 가족의 하루 평균 화장실 이용 횟수 조사”
분산 = 2.2
표준편차 = 1.4832…
01
II. 데이터 분석과정 / 정리요약 : 산포도 - 표준편차
01
Contents
I. 통계학 ABC
2.측정
II. 데이터 분석과정
1.샘플링
4.분석
3.정리&요약
모집단 표본집단 데이터 통계량 추측샘플링 측정 분석정리요약
01
II. 데이터 분석과정 / 분석
지금까지의 데이터분석과정을 통해
얻은 여러 통계량(평균, 분산 등)으로
통계 분석을 할 수 있습니다.
01
II. 데이터 분석과정 / 분석
통계분석에는,
상관분석 / 회귀분석 / 범주형 자료 분석 / 교차분석
등의 다양한 분석 방법이 있습니다.
앞으로 차차 소개해드리려고 합니다.
01
II. 데이터 분석과정 / 분석
01
참고자료
참고문헌
“현대 통계학의 이해와 응용”(2014), 이외숙, 임용빈, 소병수, 이은경 공저, 자유아카데미
“쉽게 풀어 쓴 통계학”(2005), 이창효, 김종배 공저, 도서출판 대명
Thank you.
통통한 통계 이야기
01 | 통계적 분석 과정

Más contenido relacionado

Destacado

ADVANCED WAY OF DR MARKETING
ADVANCED WAY OF DR MARKETING ADVANCED WAY OF DR MARKETING
ADVANCED WAY OF DR MARKETING Wisebirds
 
[미디어자몽] 팟캐스트 제작 제안서
[미디어자몽] 팟캐스트 제작 제안서[미디어자몽] 팟캐스트 제작 제안서
[미디어자몽] 팟캐스트 제작 제안서Kunwon Kim
 
Google Analytics 가이드 (한국어)
Google Analytics 가이드 (한국어)Google Analytics 가이드 (한국어)
Google Analytics 가이드 (한국어)Min Hee Lee
 
인포그래픽 가이드 3
인포그래픽 가이드 3인포그래픽 가이드 3
인포그래픽 가이드 3Newsjelly
 
인포그래픽 가이드
인포그래픽 가이드인포그래픽 가이드
인포그래픽 가이드Newsjelly
 
인포그래픽 가이드 4
인포그래픽 가이드 4인포그래픽 가이드 4
인포그래픽 가이드 4Newsjelly
 
빅데이터 시각화 기술 특허 동향 분석
빅데이터 시각화 기술 특허 동향 분석빅데이터 시각화 기술 특허 동향 분석
빅데이터 시각화 기술 특허 동향 분석Newsjelly
 
인포그래픽 가이드 2 1
인포그래픽 가이드 2 1인포그래픽 가이드 2 1
인포그래픽 가이드 2 1Newsjelly
 
Before Creating Facebook Ads!
Before Creating Facebook Ads!Before Creating Facebook Ads!
Before Creating Facebook Ads!Wisebirds
 
The Power of Influencer Marketing
The Power of Influencer Marketing The Power of Influencer Marketing
The Power of Influencer Marketing Innobirds Media
 
7 Creative Habbit
7 Creative Habbit7 Creative Habbit
7 Creative HabbitJinho Jung
 
2015 미디어 트렌드
2015 미디어 트렌드2015 미디어 트렌드
2015 미디어 트렌드MezzoMedia
 
Social Media Marketing 2015 Trend
Social Media Marketing 2015 Trend Social Media Marketing 2015 Trend
Social Media Marketing 2015 Trend Innobirds Media
 
PR Trends for 2015: Focus on Visual Storytelling
PR Trends for 2015: Focus on Visual StorytellingPR Trends for 2015: Focus on Visual Storytelling
PR Trends for 2015: Focus on Visual Storytellingprnewswire
 
[북리뷰] 데이터 포인트 3장
[북리뷰] 데이터 포인트 3장[북리뷰] 데이터 포인트 3장
[북리뷰] 데이터 포인트 3장Newsjelly
 
데이터포인트 6장
데이터포인트 6장데이터포인트 6장
데이터포인트 6장Newsjelly
 

Destacado (17)

ADVANCED WAY OF DR MARKETING
ADVANCED WAY OF DR MARKETING ADVANCED WAY OF DR MARKETING
ADVANCED WAY OF DR MARKETING
 
[미디어자몽] 팟캐스트 제작 제안서
[미디어자몽] 팟캐스트 제작 제안서[미디어자몽] 팟캐스트 제작 제안서
[미디어자몽] 팟캐스트 제작 제안서
 
Google Analytics 가이드 (한국어)
Google Analytics 가이드 (한국어)Google Analytics 가이드 (한국어)
Google Analytics 가이드 (한국어)
 
인포그래픽 가이드 3
인포그래픽 가이드 3인포그래픽 가이드 3
인포그래픽 가이드 3
 
인포그래픽 가이드
인포그래픽 가이드인포그래픽 가이드
인포그래픽 가이드
 
인포그래픽 가이드 4
인포그래픽 가이드 4인포그래픽 가이드 4
인포그래픽 가이드 4
 
빅데이터 시각화 기술 특허 동향 분석
빅데이터 시각화 기술 특허 동향 분석빅데이터 시각화 기술 특허 동향 분석
빅데이터 시각화 기술 특허 동향 분석
 
인포그래픽 가이드 2 1
인포그래픽 가이드 2 1인포그래픽 가이드 2 1
인포그래픽 가이드 2 1
 
Before Creating Facebook Ads!
Before Creating Facebook Ads!Before Creating Facebook Ads!
Before Creating Facebook Ads!
 
The Power of Influencer Marketing
The Power of Influencer Marketing The Power of Influencer Marketing
The Power of Influencer Marketing
 
7 Creative Habbit
7 Creative Habbit7 Creative Habbit
7 Creative Habbit
 
2015 미디어 트렌드
2015 미디어 트렌드2015 미디어 트렌드
2015 미디어 트렌드
 
Social Media Marketing 2015 Trend
Social Media Marketing 2015 Trend Social Media Marketing 2015 Trend
Social Media Marketing 2015 Trend
 
2015 Social Media Trends
2015 Social Media Trends2015 Social Media Trends
2015 Social Media Trends
 
PR Trends for 2015: Focus on Visual Storytelling
PR Trends for 2015: Focus on Visual StorytellingPR Trends for 2015: Focus on Visual Storytelling
PR Trends for 2015: Focus on Visual Storytelling
 
[북리뷰] 데이터 포인트 3장
[북리뷰] 데이터 포인트 3장[북리뷰] 데이터 포인트 3장
[북리뷰] 데이터 포인트 3장
 
데이터포인트 6장
데이터포인트 6장데이터포인트 6장
데이터포인트 6장
 

Más de Newsjelly

데이터시각화 서비스 주요기능 비교
데이터시각화 서비스 주요기능 비교데이터시각화 서비스 주요기능 비교
데이터시각화 서비스 주요기능 비교Newsjelly
 
뉴스젤리 인터랙티브 소개서 2016
뉴스젤리 인터랙티브 소개서 2016뉴스젤리 인터랙티브 소개서 2016
뉴스젤리 인터랙티브 소개서 2016Newsjelly
 
맛있는 정보디자인 레시피
맛있는 정보디자인 레시피맛있는 정보디자인 레시피
맛있는 정보디자인 레시피Newsjelly
 
[임지현]금수저 컨텐츠 메이킹스토리
[임지현]금수저 컨텐츠 메이킹스토리[임지현]금수저 컨텐츠 메이킹스토리
[임지현]금수저 컨텐츠 메이킹스토리Newsjelly
 
[임지현]상권분석 메이킹스토리
[임지현]상권분석 메이킹스토리[임지현]상권분석 메이킹스토리
[임지현]상권분석 메이킹스토리Newsjelly
 
[조성도]Newsjelly seminar sloday 1013
[조성도]Newsjelly seminar sloday 1013[조성도]Newsjelly seminar sloday 1013
[조성도]Newsjelly seminar sloday 1013Newsjelly
 
[김태형]데이터 저널리즘 보도 사례
[김태형]데이터 저널리즘 보도 사례[김태형]데이터 저널리즘 보도 사례
[김태형]데이터 저널리즘 보도 사례Newsjelly
 
디포커스 전홍구
디포커스 전홍구디포커스 전홍구
디포커스 전홍구Newsjelly
 
다음카카오 이현재차장
다음카카오 이현재차장다음카카오 이현재차장
다음카카오 이현재차장Newsjelly
 
뉴스젤리 임준원
뉴스젤리 임준원뉴스젤리 임준원
뉴스젤리 임준원Newsjelly
 
Sap lumira 김무식
Sap lumira 김무식Sap lumira 김무식
Sap lumira 김무식Newsjelly
 
[데이터 시각화 3rd 세미나] 공공 데이터 시각화_조용현 통계데이터담당관
[데이터 시각화 3rd 세미나] 공공 데이터 시각화_조용현 통계데이터담당관[데이터 시각화 3rd 세미나] 공공 데이터 시각화_조용현 통계데이터담당관
[데이터 시각화 3rd 세미나] 공공 데이터 시각화_조용현 통계데이터담당관Newsjelly
 
[데이터 시각화 3rd 세미나] 사회에 기여 하는 방법_뉴스젤리 임지현 디렉터
[데이터 시각화 3rd 세미나] 사회에 기여 하는 방법_뉴스젤리 임지현 디렉터[데이터 시각화 3rd 세미나] 사회에 기여 하는 방법_뉴스젤리 임지현 디렉터
[데이터 시각화 3rd 세미나] 사회에 기여 하는 방법_뉴스젤리 임지현 디렉터Newsjelly
 
[데이터 시각화 3rd 세미나] 데이터시각화로본기업 _ 웅진변상필영업대표
[데이터 시각화 3rd 세미나] 데이터시각화로본기업 _ 웅진변상필영업대표[데이터 시각화 3rd 세미나] 데이터시각화로본기업 _ 웅진변상필영업대표
[데이터 시각화 3rd 세미나] 데이터시각화로본기업 _ 웅진변상필영업대표Newsjelly
 
[데이터 시각화 3rd 세미나] 상권 교차 분석_조이코퍼레이션 김재홍 부사장
[데이터 시각화 3rd 세미나] 상권 교차 분석_조이코퍼레이션 김재홍 부사장[데이터 시각화 3rd 세미나] 상권 교차 분석_조이코퍼레이션 김재홍 부사장
[데이터 시각화 3rd 세미나] 상권 교차 분석_조이코퍼레이션 김재홍 부사장Newsjelly
 
국내 데이터 저널리즘 동향분석
국내 데이터 저널리즘 동향분석국내 데이터 저널리즘 동향분석
국내 데이터 저널리즘 동향분석Newsjelly
 
뉴스젤리 - 슈퍼리치 인기투표
뉴스젤리 - 슈퍼리치 인기투표뉴스젤리 - 슈퍼리치 인기투표
뉴스젤리 - 슈퍼리치 인기투표Newsjelly
 
리뷰세미나 - 픽토차트
리뷰세미나 - 픽토차트리뷰세미나 - 픽토차트
리뷰세미나 - 픽토차트Newsjelly
 
Study republic
Study republicStudy republic
Study republicNewsjelly
 
뉴스젤리 - 쌍춘년
뉴스젤리 - 쌍춘년뉴스젤리 - 쌍춘년
뉴스젤리 - 쌍춘년Newsjelly
 

Más de Newsjelly (20)

데이터시각화 서비스 주요기능 비교
데이터시각화 서비스 주요기능 비교데이터시각화 서비스 주요기능 비교
데이터시각화 서비스 주요기능 비교
 
뉴스젤리 인터랙티브 소개서 2016
뉴스젤리 인터랙티브 소개서 2016뉴스젤리 인터랙티브 소개서 2016
뉴스젤리 인터랙티브 소개서 2016
 
맛있는 정보디자인 레시피
맛있는 정보디자인 레시피맛있는 정보디자인 레시피
맛있는 정보디자인 레시피
 
[임지현]금수저 컨텐츠 메이킹스토리
[임지현]금수저 컨텐츠 메이킹스토리[임지현]금수저 컨텐츠 메이킹스토리
[임지현]금수저 컨텐츠 메이킹스토리
 
[임지현]상권분석 메이킹스토리
[임지현]상권분석 메이킹스토리[임지현]상권분석 메이킹스토리
[임지현]상권분석 메이킹스토리
 
[조성도]Newsjelly seminar sloday 1013
[조성도]Newsjelly seminar sloday 1013[조성도]Newsjelly seminar sloday 1013
[조성도]Newsjelly seminar sloday 1013
 
[김태형]데이터 저널리즘 보도 사례
[김태형]데이터 저널리즘 보도 사례[김태형]데이터 저널리즘 보도 사례
[김태형]데이터 저널리즘 보도 사례
 
디포커스 전홍구
디포커스 전홍구디포커스 전홍구
디포커스 전홍구
 
다음카카오 이현재차장
다음카카오 이현재차장다음카카오 이현재차장
다음카카오 이현재차장
 
뉴스젤리 임준원
뉴스젤리 임준원뉴스젤리 임준원
뉴스젤리 임준원
 
Sap lumira 김무식
Sap lumira 김무식Sap lumira 김무식
Sap lumira 김무식
 
[데이터 시각화 3rd 세미나] 공공 데이터 시각화_조용현 통계데이터담당관
[데이터 시각화 3rd 세미나] 공공 데이터 시각화_조용현 통계데이터담당관[데이터 시각화 3rd 세미나] 공공 데이터 시각화_조용현 통계데이터담당관
[데이터 시각화 3rd 세미나] 공공 데이터 시각화_조용현 통계데이터담당관
 
[데이터 시각화 3rd 세미나] 사회에 기여 하는 방법_뉴스젤리 임지현 디렉터
[데이터 시각화 3rd 세미나] 사회에 기여 하는 방법_뉴스젤리 임지현 디렉터[데이터 시각화 3rd 세미나] 사회에 기여 하는 방법_뉴스젤리 임지현 디렉터
[데이터 시각화 3rd 세미나] 사회에 기여 하는 방법_뉴스젤리 임지현 디렉터
 
[데이터 시각화 3rd 세미나] 데이터시각화로본기업 _ 웅진변상필영업대표
[데이터 시각화 3rd 세미나] 데이터시각화로본기업 _ 웅진변상필영업대표[데이터 시각화 3rd 세미나] 데이터시각화로본기업 _ 웅진변상필영업대표
[데이터 시각화 3rd 세미나] 데이터시각화로본기업 _ 웅진변상필영업대표
 
[데이터 시각화 3rd 세미나] 상권 교차 분석_조이코퍼레이션 김재홍 부사장
[데이터 시각화 3rd 세미나] 상권 교차 분석_조이코퍼레이션 김재홍 부사장[데이터 시각화 3rd 세미나] 상권 교차 분석_조이코퍼레이션 김재홍 부사장
[데이터 시각화 3rd 세미나] 상권 교차 분석_조이코퍼레이션 김재홍 부사장
 
국내 데이터 저널리즘 동향분석
국내 데이터 저널리즘 동향분석국내 데이터 저널리즘 동향분석
국내 데이터 저널리즘 동향분석
 
뉴스젤리 - 슈퍼리치 인기투표
뉴스젤리 - 슈퍼리치 인기투표뉴스젤리 - 슈퍼리치 인기투표
뉴스젤리 - 슈퍼리치 인기투표
 
리뷰세미나 - 픽토차트
리뷰세미나 - 픽토차트리뷰세미나 - 픽토차트
리뷰세미나 - 픽토차트
 
Study republic
Study republicStudy republic
Study republic
 
뉴스젤리 - 쌍춘년
뉴스젤리 - 쌍춘년뉴스젤리 - 쌍춘년
뉴스젤리 - 쌍춘년
 

뉴스젤리 통통한 통계 1화 - 통계, 너는 누구냐

  • 1. 통통한 통계 이야기 01 | 통계적 분석 과정
  • 2. 출처_ 한국경제 http://goo.gl/GzfjYE 01 “한국인의 평균 기상시각은 오전 6시 34분이다.”
  • 3. 이런 결과를 어떻게 얻을 수 있을까요? 대한민국에 거주하는 모든 한국인에게 일일이 물어볼 수 있을까요? “어? 나한텐 안 물어봤는데?”라는 생각을 해보지는 않았나요? 01
  • 4. 이럴 때 필요한 것이 바로 통계! Statistics = State + Arithmetic 국가의 국민들에 대한 산술적인 조사에서 유래 01 이럴 때 필요한 것이 바로 통계!
  • 5. 통계학이란 무엇인가?  데이터를 다루는 학문 정형 데이터 비정형 데이터 01
  • 6. 통계학에서는 주로 정형데이터를 다룹니다! 01 통계학이란 무엇인가?  데이터를 다루는 학문 정형 데이터 비정형 데이터
  • 7. “한국인의 평균 기상시각은 오전 6시 34분이다.” 이 한 문장을 만들어 내기 위해 필요한 정보는 한국인, 평균, 그리고 실제 기상시각입니다. 01
  • 8. “한국인의 평균 기상시각은 오전 6시 34분이다.” 그렇다면 통계를 이용해서 이 문장을 어떻게 믿을 수 있는 정보로 만들 수 있는지 살펴봅시다. 01
  • 9. 01 Contents I. 통계학 ABC II. 데이터 분석과정 1.샘플링 2.측정 3.정리&요약 4.분석
  • 10. 자료를 조사해서 유의미한 정보를 이끌어내려면 통계학적 기법을 이용한 데이터 분석 과정을 거쳐야 합니다. 영어를 배우려면 알파벳부터 알아야 하듯, 통계적 분석 과정을 알기 전에 기본 개념을 먼저 소개합니다. 01 I. 통계학 ABC
  • 11. 모집단 우리가 관심이나 흥미를 가지고 있는 집단, 즉 연구대상이 되는 집단 전체 표본집단 표본조사를 통해 뽑아낸 모집단의 일부 데이터 표본 집단을 조사해서 얻은 수치 또는 비정형 자료 통계량 알고자 하는 모집단의 특성(모수)을 추정하기 위하여 표본에서 계산한 추정량의 값 추측 통계학에서, 임의 표본에 의하여 모집단을 규정하는 평균값, 분산 따위의 여러 수치를 추측하는 일 통계적 검정과 추정 따위가 있다. 01 I. 통계학 ABC
  • 12. 어렵게만 보이는 이 개념들에, “한국인의 기상시간”을 끼얹어 보겠습니다. 01 I. 통계학 ABC
  • 13. 모집단 우리가 관심이나 흥미를 가지고 있는 집단, 즉 한국인 전체 표본집단 표본조사를 통해 뽑아낸 한국인의 일부 데이터 표본 집단을 조사해서 얻은 기상시간이라는 자료 통계량 알고자 하는 한국인의 기상시간을 추정하기 위하여 표본에서 계산한 평균 기상시간 추측 통계적 추정을 거쳐 한국인의 기상시간은 오전 6시 34분이 타당하다는 추측 01 I. 통계학 ABC 모집단 우리가 관심이나 흥미를 가지고 있는 집단, 즉 연구대상이 되는 집단 전체 표본집단 표본조사를 통해 뽑아낸 모집단의 일부 데이터 표본 집단을 조사해서 얻은 수치 또는 비정형 자료 통계량 알고자 하는 모집단의 특성(모수)을 추정하기 위하여 표본에서 계산한 추정량의 값 추측 통계학에서, 임의 표본에 의하여 모집단을 규정하는 평균값, 분산 따위의 여러 수치를 추측하는 일, 통계적 검정과 추정
  • 14. 그리고 이 개념들을 차례로 엮어주면 바로 데이터 분석이 됩니다. 01 I. 통계학 ABC
  • 15. 데이터 분석 모집단 한국인 전체 ↓ 표본집단 한국인의 일부 ↓ 데이터 표본집단에 속한 일부 한국인의 기상시간 ↓ 통계량 표본집단의 평균 기상시간 ↓ 추측 한국인의 기상시간은 오전 6시 34분이 타당하다 01 I. 통계학 ABC
  • 16. II. 데이터 분석과정 01 Contents I. 통계학 ABC 1.샘플링 2.측정 3.정리&요약 4.분석
  • 17. 이전의 데이터 분석을 도식화한 것입니다. 01 II. 데이터 분석과정 6시 34분 평균 기상시간 기상시간 한국인 몇명 한국인
  • 18. 모집단 = 한국인 표본집단 = 한국인 몇명 데이터 = 기상시간 통계량 = 평균 추측 = 6시 34분 01 II. 데이터 분석과정
  • 19. 모집단 표본집단 데이터 통계량 추측샘플링 측정 분석정리요약 그리고 각 개념과 개념을 이어주는 화살표가 바로 분석의 과정이 됩니다. 01 II. 데이터 분석과정
  • 20. 01 II. 데이터 분석과정 Contents I. 통계학 ABC 1.샘플링 2.측정 3.정리&요약 4.분석 ● 단순임의 추출법 ● 층화추출법 ● 집락추출법 ● 계통추출법
  • 21. 모집단 표본집단 데이터 통계량 추측샘플링 측정 분석정리요약 01 II. 데이터 분석과정 / 샘플링
  • 22. 전수조사 모집단 전체를 모두 조사하는 것 01 II. 데이터 분석과정 / 샘플링 : 전수조사 vs 표본조사
  • 23. 1. 전수조사가 불가능한 경우 (EX. 모든 한국인) 2. 비용과 시간을 절감해야 하는 경우 01 II. 데이터 분석과정 / 샘플링 : 전수조사 vs 표본조사
  • 24. 표본조사(샘플링) 모집단의 일부인 표본을 추출하여 조사하는 것 01 II. 데이터 분석과정 / 샘플링 : 전수조사 vs 표본조사
  • 25. 표본조사(샘플링) 모집단의 일부인 표본을 추출하여 조사하는 것 01 II. 데이터 분석과정 / 샘플링 : 전수조사 vs 표본조사
  • 26. 01 1.샘플링 Contents I. 통계학 ABC 2.측정 3.정리&요약 4.분석 ● 단순임의 추출법 ● 층화추출법 ● 집락추출법 ● 계통추출법 II. 데이터 분석과정
  • 27. 모집단에서 표본을 추출할 때, 이들 표본이 선택될 확률이 모두 동일하도록 추출하는 방법 EX. 인형 뽑기 위에 있는 인형이 뽑힐 확률 > 밑에 있는 인형이 뽑힐 확률 따라서 단순임의추출법이 아니다. 01 II. 데이터 분석과정 / 샘플링 : 단순임의 추출법 (Sample Random Sampling)
  • 28. “뽑힐 확률이 1/5로 동일” = 단순임의 추출법 모집단에서 표본을 추출할 때, 이들 표본이 선택될 확률이 모두 동일하도록 추출하는 방법 01 II. 데이터 분석과정 / 샘플링 : 단순임의 추출법 (Sample Random Sampling)
  • 29. 난수표(Random number table) 이용 모집단에서 표본을 추출할 때, 이들 표본이 선택될 확률이 모두 동일하도록 추출하는 방법 01 II. 데이터 분석과정 / 샘플링 : 단순임의 추출법 (Sample Random Sampling)
  • 30. 쉽고 간단하다. 자료가 너무 심하게 들쭉날쭉일 수 있다. = 추정량의 분산이 너무 커질 수 있다. 01 II. 데이터 분석과정 / 샘플링 : 단순임의 추출법 (Sample Random Sampling)
  • 31. 01 1.샘플링 Contents I. 통계학 ABC 2.측정 3.정리&요약 4.분석 ● 단순임의 추출법 ● 층화추출법 ● 집락추출법 ● 계통추출법 II. 데이터 분석과정
  • 32. 레스토랑이 맛집인지 아닌지 알아보려고 합니다. 01 II. 데이터 분석과정 / 샘플링 : 층화추출법 (Stratified Sampling)
  • 33. 그러기 위해서 레스토랑에서 제공하는 모든 메뉴를 주문합니다. 01 II. 데이터 분석과정 / 샘플링 : 층화추출법 (Stratified Sampling)
  • 34. 다 먹는 것은 불가능하기 때문에 한 접시에 두 입씩만 먹어보기로 합니다. 01 II. 데이터 분석과정 / 샘플링 : 층화추출법 (Stratified Sampling)
  • 35. 레스토랑의 모든 음식(=모집단)을 메뉴(=층)로 구분해서 두 입씩(=층의 표본)조사하는 것입니다. 01 II. 데이터 분석과정 / 샘플링 : 층화추출법 (Stratified Sampling)
  • 36. 이런 조사방법이 바로 층화추출법입니다. 모집단을 동질적인 층으로 나눈 다음 각 층에서 표본을 단순임의추출법으로 추출하는 방법 01 II. 데이터 분석과정 / 샘플링 : 층화추출법 (Stratified Sampling)
  • 37. 내부를 동질화 + 층간에는 이질화 = 단순임의추출법보다 추정량의 정확도가 높아지고 조사 비용과 시간을 절약할 수 있습니다. 01 II. 데이터 분석과정 / 샘플링 : 층화추출법 (Stratified Sampling)
  • 38. 01 1.샘플링 Contents I. 통계학 ABC 2.측정 3.정리&요약 4.분석 ● 단순임의 추출법 ● 층화추출법 ● 집락추출법 ● 계통추출법 II. 데이터 분석과정
  • 39. 이번에는 레스토랑이 맛집인지 알아보기 위해 먹을 메뉴를 랜덤하게 선정하기로 합니다. 01 II. 데이터 분석과정 / 샘플링 : 집락추출법 (Cluster Sampling)
  • 40. 즉, 아까와 달리 몇 가지의 메뉴만 골라서 주문하는 것이죠. 01 II. 데이터 분석과정 / 샘플링 : 집락추출법 (Cluster Sampling)
  • 41. 그리고 주문한 메뉴는 전부 먹습니다. 01 II. 데이터 분석과정 / 샘플링 : 집락추출법 (Cluster Sampling)
  • 42. 레스토랑의 모든 음식(=모집단)을 메뉴(=집락)로 구분해서 그 중 몇 가지의 메뉴만 선정해서 선정된 메뉴는 다 먹는 것(=전수조사)이죠. 01 II. 데이터 분석과정 / 샘플링 : 집락추출법 (Cluster Sampling)
  • 43. 이런 조사방법이 집락추출법입니다. 모집단을 몇 개의 집락(Cluster)으로 나누어 전체 집락 중에서 몇 개의 집락을 표본추출하고 일단 추출된 집락은 전수조사*하는 방법 *때에 따라 다시 표본조사를 하기도 합니다. 01 II. 데이터 분석과정 / 샘플링 : 집락추출법 (Cluster Sampling)
  • 44. 집락 안은 이질적 + 집락 간에는 동질적 = 층화추출법과 반대의 경우에 많이 사용 01 II. 데이터 분석과정 / 샘플링 : 집락추출법 (Cluster Sampling)
  • 45. 01 1.샘플링 Contents I. 통계학 ABC 2.측정 3.정리&요약 4.분석 ● 단순임의 추출법 ● 층화추출법 ● 집락추출법 ● 계통추출법 II. 데이터 분석과정
  • 46. 계통추출법 표본을 시간적 또는 공간적으로 일정한 간격으로 규칙적으로 추출하는 방법 01 II. 데이터 분석과정 / 샘플링 : 계통추출법 (Systematic Sampling)
  • 47. 예를 들어, 선거 출입구 조사를 하거나 공장 생산라인에서 불량품 검사를 할 때 이용합니다. “5개마다 조사” 01 II. 데이터 분석과정 / 샘플링 : 계통추출법 (Systematic Sampling)
  • 48. 표본추출이 용이하고 모집단을 고르게 추출할 수 있다 01 II. 데이터 분석과정 / 샘플링 : 계통추출법 (Systematic Sampling)
  • 50. 모집단 표본집단 데이터 통계량 추측샘플링 측정 분석정리요약 01 II. 데이터 분석과정 / 측정
  • 51. 3.2 3.5 4.1 3.0 4.1 3.9 3.4 3.7 3.7 3.8 2.0 2.9 4.0 4.0 3.4 3.5 3.5 2.1 4.4 2.9 2.6 3.9 3.8 3.7 3.7 3.8 3.1 3.3 2.9 4.2 4.4 4.1 3.3 3.8 3.8 3.7 3.5 4.0 2.7 3.9 “B 대학교의 평균 학점 조사” (표본 40명) 01 II. 데이터 분석과정 / 측정
  • 52. CF. 줄기-잎 그림 자료의 대략적인 분포를 볼 수 있다. 2 0 1 2 6 7 9 9 9 3 0 1 2 3 3 4 4 5 5 5 5 3 7 7 7 7 7 8 8 8 8 8 9 9 4 0 0 0 1 1 1 2 4 4 3.2 3.5 4.1 3.0 4.1 3.9 3.4 3.7 3.7 3.8 2.0 2.9 4.0 4.0 3.4 3.5 3.5 2.1 4.4 2.9 2.6 3.9 3.8 3.7 3.7 3.8 3.1 3.3 2.9 4.2 4.4 4.1 3.3 3.8 3.8 3.7 3.5 4.0 2.7 3.9 01 II. 데이터 분석과정 / 측정 줄기 1의자리 잎 소수점 첫째 자리
  • 53. ● 대표치 : 평균, 중앙값, 최빈값 ● 산포도 : 범위, 사분위범위, 분산, 표준편차 01 Contents I. 통계학 ABC 2.측정 4.분석 II. 데이터 분석과정 1.샘플링 3.정리&요약
  • 54. 모집단 표본집단 데이터 통계량 추측샘플링 측정 분석정리요약 01 II. 데이터 분석과정 / 정리요약
  • 55. 평균 (산술평균) 관측값들의 합을 총 관측수로 나눈 것 EX. “B대학교의 평균 학점 조사” 3.2 3.5 4.1 3.0 4.1 3.9 3.4 3.7 3.7 3.8 2.0 2.9 4.0 4.0 3.4 3.5 3.5 2.1 4.4 2.9 2.6 3.9 3.8 3.7 3.7 3.8 3.1 3.3 2.9 4.2 4.4 4.1 3.3 3.8 3.8 3.7 3.5 4.0 2.7 3.9 3.2 + 3.5 + 4.1 + … + 2.7 + 3.9 40 = 3.5275 01 II. 데이터 분석과정 / 정리요약 : 대표치 - 평균
  • 56. 중앙값 (Median) 관측값들을 크기 순서로 나열했을 때 가장 중앙에 위치한 관측값 자료가 짝수개인 경우에는 가장 중앙에 해당하는 두 개의 값의 산술평균 CF. N개의 자료 중 중앙에 해당하는 두 개의 값 = (N/2) 번째 값과 그 다음 값 01 II. 데이터 분석과정 / 정리요약 : 대표치 - 중앙값
  • 57. EX. “B대학교의 평균 학점 조사” (표본 40명) 중앙값 = 20번째 학생과 21번째 학생의 학점의 산술평균 CF. 40개의 자료 중 중앙에 해당하는 두 개의 값 = (40/2) 번째 값과 그 다음 값 = 20번째 학생과 21번째 학생 01 II. 데이터 분석과정 / 정리요약 : 대표치 - 중앙값
  • 58. 줄기-잎 그림에서 쉽게 찾을 수 있습니다. 2 0 1 2 6 7 9 9 9 3 0 1 2 3 3 4 4 5 5 5 5 3 7 7 7 7 7 8 8 8 8 8 9 9 4 0 0 0 1 1 1 2 4 4 중앙값 = 3.7 01 II. 데이터 분석과정 / 정리요약 : 대표치 - 중앙값 줄기 1의자리 잎 소수점 첫째 자리
  • 59. 최빈값 가장 빈번하게 나타나는 관측값 역시 줄기-잎 그림에서 쉽게 찾을 수 있습니다. 01 II. 데이터 분석과정 / 정리요약 : 대표치 - 최빈값
  • 60. 역시 줄기-잎 그림에서 쉽게 찾을 수 있습니다. 2 0 1 2 6 7 9 9 9 3 0 1 2 3 3 4 4 5 5 5 5 3 7 7 7 7 7 8 8 8 8 8 9 9 4 0 0 0 1 1 1 2 4 4 최빈값 = 3.7 & 3.8 01 II. 데이터 분석과정 / 정리요약 : 대표치 - 최빈값 줄기 1의자리 잎 소수점 첫째 자리
  • 61. 01 ● 대표치 : 평균, 중앙값, 최빈값 ● 산포도 : 범위, 사분위범위, 분산, 표준편차 Contents I. 통계학 ABC 2.측정 4.분석 II. 데이터 분석과정 1.샘플링 3.정리&요약
  • 62. 범위 관측값의 최댓값 – 관측값의 최솟값 EX. B대학교의 평균 학점 조사 최댓값 = 4.4 최솟값 = 2.0 범위 = 4.4 – 2.0 = 2.4 01 II. 데이터 분석과정 / 정리요약 : 산포도 - 범위
  • 63. 100% 75%(Q3) 50%(Q2) 25%(Q1) 0% 사분위값 백(100)을 사(4)로 나눈 25의 배수가 되는 백분위 값 =중앙값 01 II. 데이터 분석과정 / 정리요약 : 산포도 - 사분위범위
  • 64. 100% 75%(Q3) 50%(Q2) 25%(Q1) 0% 사분위범위 = 제3사분위값 – 제1사분위값 01 II. 데이터 분석과정 / 정리요약 : 산포도 - 사분위범위
  • 65. 100% 75%(Q3) 50%(Q2) 25%(Q1) 0% 사분위범위 = Q3 – Q1 01 II. 데이터 분석과정 / 정리요약 : 산포도 - 사분위범위
  • 66. 최대,최솟값과 사분위값을 이용해서 그릴 수 있습니다. 자료를 한눈에 파악하기에 좋습니다. CF. 상자(수염) 그림 EX. B대학교의 평균 학점 조사 최댓값 = 4.4 최솟값 = 2.0 Q1 = 3.25 Q2 = 3.7 Q3 = 3.9 2 0 1 2 6 7 9 9 9 3 0 1 2 3 3 4 4 5 5 5 5 3 7 7 7 7 7 8 8 8 8 8 9 9 4 0 0 0 1 1 1 2 4 4 01
  • 67. CF. 상자(수염) 그림 EX. B대학교의 평균 학점 조사 최댓값 = 4.4 최솟값 = 2.0 Q1 = 3.25 Q2 = 3.7 Q3 = 3.9 2 0 1 2 6 7 9 9 9 3 0 1 2 3 3 4 4 5 5 5 5 3 7 7 7 7 7 8 8 8 8 8 9 9 4 0 0 0 1 1 1 2 4 4 최댓값 4.4 최솟값 2.0 Q2 3.7 Q3 3.9 Q1 3.25 최대,최솟값과 사분위값을 이용해서 그릴 수 있습니다. 자료를 한눈에 파악하기에 좋습니다. 01
  • 68. 최댓값 4.4 최솟값 2.0 Q2 3.7 Q3 3.9 Q1 3.25 상자그림 해석 FACT1. Q1~Q2와 Q2~Q3사이에는 동일한 양의 자료가 들어있다. FACT2. 상자 중앙의 굵은 선은 중앙값(Q2)을 나타낸다. 01
  • 69. 최댓값 4.4 최솟값 2.0 Q2 3.7 Q3 3.9 Q1 3.25 상자그림 해석 해석1. Q2와 Q3사이에 자료가 몰려있다. FACT2. 상자 중앙의 굵은 선은 중앙값(Q2)을 나타낸다. 01
  • 70. 최댓값 4.4 최솟값 2.0 Q2 3.7 Q3 3.9 Q1 3.25 상자그림 해석 해석1. Q2와 Q3사이에 자료가 몰려있다. 해석2. 전체적으로 자료가 위쪽으로 쏠려있다. 01
  • 71. 최댓값 4.4 최솟값 2.0 Q2 3.7 Q3 3.9 Q1 3.25 상자그림 해석 해석1. 3.7에서 3.9 사이의 학점을 받은 학생이 상대적으로 많다. 해석2. 전체적으로 자료가 위쪽으로 쏠려있다. 01
  • 72. 최댓값 4.4 최솟값 2.0 Q2 3.7 Q3 3.9 Q1 3.25 상자그림 해석 해석1. 3.7에서 3.9 사이의 학점을 받은 학생이 상대적으로 많다. 해석2. 학생들이 대게 3.0 이상으로 학점을 잘 받는 편이다. 01
  • 73. 분산 제곱편차합을 관측의 개수-1로 나눈 값 EX. “통통이네 가족의 하루 평균 화장실 이용 횟수 조사” 01 II. 데이터 분석과정 / 정리요약 : 산포도 - 분산
  • 74. EX. 통통이네 가족의 하루 평균 화장실 이용 횟수 조사 (5인) 관측 = 5 3 5 7 4 평균 5 + 3 + 5 + 7 + 4 5 = 4.8 01 II. 데이터 분석과정 / 정리요약 : 산포도 - 분산
  • 75. EX. 통통이네 가족의 하루 평균 화장실 이용 횟수 조사 (5인) 관측 = 5 3 5 7 4 평균 = 4.8 편차 = 관측 – 평균 5-4.8 3-4.8 5-4.8 7-4.8 4-4.8 = 0.2 -1.8 0.2 2.2 -0.8 01 II. 데이터 분석과정 / 정리요약 : 산포도 - 분산
  • 76. EX. 통통이네 가족의 하루 평균 화장실 이용 횟수 조사 (5인) 관측 = 5 3 5 7 4 평균 = 4.8 편차 = 0.2 -1.8 0.2 2.2 -0.8 제곱편차 = (편차)² (0.2)² (-1.8)² (0.2)² (2.2)² (-0.8)² 01 II. 데이터 분석과정 / 정리요약 : 산포도 - 분산
  • 77. EX. 통통이네 가족의 하루 평균 화장실 이용 횟수 조사 (5인) 관측 = 5 3 5 7 4 평균 = 4.8 편차 = 0.2 -1.8 0.2 2.2 -0.8 제곱편차 = 0.04 3.24 0.04 4.84 0.64 제곱편차합 = 제곱편차들의 합 0.04 + 3.24 + 0.04 + 4.84 + 0.64 = 8.8 01 II. 데이터 분석과정 / 정리요약 : 산포도 - 분산
  • 78. EX. 통통이네 가족의 하루 평균 화장실 이용 횟수 조사 (5인) 관측 = 5 3 5 7 4 평균 = 4.8 편차 = 0.2 -1.8 0.2 2.2 -0.8 제곱편차 = 0.04 3.24 0.04 4.84 0.64 제곱편차합 = 8.8 01 II. 데이터 분석과정 / 정리요약 : 산포도 - 분산
  • 79. 분산 제곱편차합을 관측의 개수-1로 나눈 값 제곱편차합 관측의개수-1 = 8.8 5-1 = 8.8 4 = 2.2 01 II. 데이터 분석과정 / 정리요약 : 산포도 - 분산
  • 80. 분산의 해석 분산이 크면 클 수록, 분포가 더 흩어져 있다 EX. 화장실 이용 횟수의 분산 통통이네 = 2.2 동동이네 = 0.5 동동이네 가족들은 통통이네에 비해 화장실에 비슷한 횟수로 간다. 01 II. 데이터 분석과정 / 정리요약 : 산포도 - 분산
  • 81. 분산의 해석 만약 분산 = 0이라면, 모든 자료의 값이 동일한 것 01 II. 데이터 분석과정 / 정리요약 : 산포도 - 분산
  • 82. 표준편차 분산의 양의 제곱근 (표준편차)² = 분산 EX. “통통이네 가족의 하루 평균 화장실 이용 횟수 조사” 분산 = 2.2 표준편차 = 1.4832… 01 II. 데이터 분석과정 / 정리요약 : 산포도 - 표준편차
  • 83. 01 Contents I. 통계학 ABC 2.측정 II. 데이터 분석과정 1.샘플링 4.분석 3.정리&요약
  • 84. 모집단 표본집단 데이터 통계량 추측샘플링 측정 분석정리요약 01 II. 데이터 분석과정 / 분석
  • 85. 지금까지의 데이터분석과정을 통해 얻은 여러 통계량(평균, 분산 등)으로 통계 분석을 할 수 있습니다. 01 II. 데이터 분석과정 / 분석
  • 86. 통계분석에는, 상관분석 / 회귀분석 / 범주형 자료 분석 / 교차분석 등의 다양한 분석 방법이 있습니다. 앞으로 차차 소개해드리려고 합니다. 01 II. 데이터 분석과정 / 분석
  • 87. 01 참고자료 참고문헌 “현대 통계학의 이해와 응용”(2014), 이외숙, 임용빈, 소병수, 이은경 공저, 자유아카데미 “쉽게 풀어 쓴 통계학”(2005), 이창효, 김종배 공저, 도서출판 대명
  • 88. Thank you. 통통한 통계 이야기 01 | 통계적 분석 과정