1. Head First
Statistics Ch.7
2012. 5.26
chois79
12년 5월 26일 토요일
2. Introduction
확률분포란?
발생할 수 있는 모든 가능성의 확률을 모아둔 것
조합 꽝 레몬 체리 달러/체리 달러
따는 금액(x) -$1 $4 $9 $14 $19
확률 0.977 0.008 0.008 0.006 0.001
확률 변수(x): 특정한 확률과 연관되어 있는 경우의 변수
이산 확률 분포란? (6장 참조)
확률 변수가 반드시 정확한 값(이산)을 가지는 확률 분포
이 장에서는...
기하, 이항, 푸아송분포
12년 5월 26일 토요일
3. Example #1:
스노보더 차드
전제 조건
차드가 한번의 시도에서 슬로프를 성공적으로 내려올 확
률: 0.2
각 시도는 서로 독립적
한번이라도 성공할 경우 시도를 멈춤
문제
두번 시도할 확률은?
한번 혹은 두번 시도 안에 성공적으로 내려올 확률은?
12년 5월 26일 토요일
4. Answer #1:
스노보더 차드
시도 #1 시도 #2
성공
0.2
0.2 성공
0.8 실패
0.2 성공
0.8 실패
0.8 실패
P(X=1) = P(첫 번째 성공) = 0.2
P(X=2) = P(두 번째 성공 ∩ 첫 번째 실패) = 0.2 * 0.8 = 0.16
P(X≤2) = P(X=1) + P(X=2) = 0.2 + 0.16 = 0.36
100번 이내에 성공적으로 내려올 확률은? P(X≤100)
12년 5월 26일 토요일
5. 확률 분포 패턴:
스노보더 차드
여러번 시도할 경우 확률 분포 표
X P(X=x) 실패할 확률을 곱하는 횟수 성공할 확률을 곱하는 횟수
1 0.2 0 1
2 0.8 * 0.2 1 1
3 0.8 * 0.8 * 0.2 2 1
4 0.8 * 0.8 * 0.8 * 0.2 3 1
5 0.8 * 0.8 * 0.8 * 0.8 * 0.2 4 1
r ? r - 1 1
성공할 확률을 p, 실패할 확률을 q
P(X=r) = p * qr-1
실제로는 q = 1 - p
12년 5월 26일 토요일
6. 기하 분포
기하분포의 조건
일련의 독립 시행
각 시행은 성공 아니면 실패이며, 각 시행의 성공 확률은 항상 동일
관심사: 첫 번째 성공을 거두기 위해 시도해야 하는 횟수
기하 분포의 특징
P(X=1)이 가장 높은 확률을 가짐
첫번째 성공이 r보다 클 확률: P(X>r)= qr
첫번째 성공이 r보다 작을 확률: P(X≤r) = 1 - qr
기하 분포의 표현
X ~ Geo(p): “성공률이 p일때 확률 변수는 기하 분포를 따른다”는 의미
12년 5월 26일 토요일
7. 기하 분포를 위한
기대치 패턴
기대치: ΣxP(X=x)
X ~ Geo(0.2)일 경우
x P(X = x) xP(X = x) xP(X ≤ x)
1 0.2 0.2 0.2
2 0.8 * 0.2 0.32 0.52
3 0.82 * 0.2 0.384 0.904
4 0.83 * 0.2 0.4096 1.3136
5 0.84 * 0.2 0.4096 1.7232
6 0.85 * 0.2 0.393216 2.116416
7 0.86 * 0.2 0.3670016 2.4834176
8 0.87 * 0.2 0.33554432 2.81894608
X가 5일때 까지 xP(X=x) 값이 증가하고 점점 감소함
ΣxP(X=x) 값은 x가 무한대까지 증가할 경우: 1/p
12년 5월 26일 토요일
8. 기하 분포를 위한
분산 패턴
분산: Σx2/n - u2 =>
E(X2) - E2(X)
X ~ Geo(0.2)일 경우
x P(X = x) x2P(X = x) x2P(X ≤ x)
1 0.2 0.2 0.2
2 0.8 * 0.2 0.64 0.84
3 0.82 * 0.2 1.152 1.992
4 0.83 * 0.2 1.6384 3.6304
5 0.84 * 0.2 2.048 5.6784
6 0.85 * 0.2 2.359296 8.037696
7 0.86 * 0.2 2.5690112 10.6067072
8 0.87 * 0.2 2.68435456 13.29106176
9 0.88 * 0.2 2.717908992 16.008970752
10 0.89 * 0.2 2.68435456 18.693325312
Var(x) = q/p2
12년 5월 26일 토요일
9. 기하 분포 정리
기하분포의 사용 조건
일련의 독립 시행
각 시행은 성공 아니면 실패이며, 각 시행의 성공 확률은 항상 동일
관심사: 첫 번째 성공을 거두기 위해 시도해야 하는 횟수
확률
P(X=r) = pqr-1
P(X>r) = qr
P(X≤r) = 1 - qr
기대치와 분산
E(X) = 1/p, Var(X) = q/p2
12년 5월 26일 토요일
10. Example #2:
빙글 의자 퀴즈쇼
1 라운드 라운드 전제 조건
3개의 질문이 존재하고, 각 질문은 4개의 항목을 가지는 객관식
확률 트리
문제 #1 문제 #2 문제 #3
0.25
정답 :
정답
0.25
0.25 정답
0.75 오답
0.25 정답
0.75 오답
0.75 오답
0.75
:
오답
12년 5월 26일 토요일
11. 확률 분포 패턴:
빙글 의자 퀴즈쇼
정답의 수에 따른 확률 분포표
X P(X=x) 오답일 확률을 곱하는 횟수 정답일 확률을 곱하는 횟수 가능한 경우의 수
0 0.753 = 0.422 3 0 1
1 3 * 0.752 * 0.25 = 0.422 2 1 3
2 3 * 0.75 * 0.252 = 0.141 1 2 3
3 0.253 = 0.015 0 3 1
P(X=r) = ? * 0.25r * 0.75n-r
즉, P(X=r) = 3C
r * 0.25r * 0.75n-r
확률 분포의 일반화
P(X=r) = nC
r * pr * qn-r (이항 분포)
12년 5월 26일 토요일
12. 이항 분포
이항분포의 조건
일련의 독립 시행
각 시행은 성공 아니면 실패이며, 각 시행의 성공 확률은 항상 동일
시행의 수는 한정되어 있음
Ex) 확률 변수 X: n번의 시행에서 성공적인 결과를 얻는 수
이항 분포의 특징
P(X=r) = nC
r * pr * qn-r
p의 값에 따라 기울기가 변함 (기준 0.5)
이항 분포의 표현
X ~ B(n, p): “시행의 수 n, 각 시행에서 성공적인 결과를 얻을 확률 p일때 확
률 변수는 이항 분포를 따른다”는 의미
12년 5월 26일 토요일
13. 이항분포의
기대치와 분산
X ~ B(n, p): n이 1일 경우
E(X) = 0 * q + 1 * p = p
Var(X) = E(X2) - E2(X) = (0 * q + 1 * p) - p2
= p - p2 = p * (1 - p) = p * q
X ~ B(n, p)의 일반화
P(X=x)가 독립 시행이므로
E(X) = E(X1) + E(X2) ... + E(Xn) = n * p
Var(X) = Var(X1) + Var(X2) ... + Var(Xn)
= n * p * q
12년 5월 26일 토요일
14. 이항 분포 정리
기하분포의 사용 조건
일련의 독립 시행
각 시행은 성공 아니면 실패이며, 각 시행의 성공 확률은 항상
동일
관심사: n번 시행 했을 때의 성공이나 실패의 횟수에 대한 확률
확률
P(X=r) = nC
rp
rqn-r , nC
r = n! / r!(n - r)!
기대치와 분산
E(X) = np, Var(X) = npq
12년 5월 26일 토요일
15. Example #3:
팝콘 기계
전제 조건
팝콘 기계가 주 중에 고장을 일으키는 평균 횟수 3.4
문제
다음 주에 한번이라도 고장이 나지 않을 확률은?
기하/이항 분포와 다른점
일련의 시도나 시행이 없고, 임의의 시점에서 발생
그럼 어떻게?
12년 5월 26일 토요일
16. 푸아송 분포
푸아송 분포의 조건
개별적인 사건이 어떤 주어진 구간에서 임의 혹은 독립적으로 발생
Ex) 1주일, 1마일 ...
해당 구간에서 사건이 발생하는 수의 평균 값이나 비율을 알고 있을 경우
푸아송 분포의 특징
P(X=r) = e-𝝀 𝝀r / r!
𝝀가 작으면 오른쪽으로 편향, 클 경우 좌우 대칭
푸아송 분포의 표현
X ~ Po(𝝀): “확률변수는 구간마다 𝝀번 발생하는 푸아송 분포를 따른다”는 의미
푸아송 분포의 기대치와 분산
E(X) = 𝝀, Var(X) = 𝝀
12년 5월 26일 토요일
17. Answer #3:
팝콘 기계
한 주에 고장나는 횟수의 평균: 3.4
한번도 고장나지 않을 확률
P(X=0) = e-3.4 * 3.40 / 0! = 0.033
3번 고장날 확률
P(X=3) = e-3.4 * 3.43 / 3! = 0.216
기대치와 분산
E(X) = 3.4, Var(X) = 3.4
12년 5월 26일 토요일
18. Example #4:
팝콘 기계, 음료수 기계
전제 조건(한 주에 고장 나는 횟수의 평균)
팝콘 기계: 3.4
음료수 기계: 2.3
문제
한 주 동안 두 기계 모두 고장 나지 않을 확률은?
두 기계는 독립 확률이므로,
P(X+Y) = P(X) + P(Y), E(X+Y) = E(X) + E(Y)
두 기계 모두 푸아송 분포를 따르기 때문에,
X + Y ~ Po(𝝀x + 𝝀y), 즉 Po(5.7)
12년 5월 26일 토요일
19. 푸아송 분포의 활용
이항 확률 분포에서 n이 큰 경우
Ex) 3000일 경우 3000!을 계산해야 함
이항 확률 분포와 푸아송 분포가 유사할 조건
𝝀 ≒ np, 𝝀 ≒ npq일 경우
np ≒ npq (n이 크고 q가 1에 가깝다면)
일반적인 경우: n > 50, p < 0.1 (q = 1 - p)
12년 5월 26일 토요일
20. Example #5:
시험에서 r개의 정답을 맞출 확률
전제 조건
모두 모르는 문제
시험의 총 문제의 수: 50
한 문제의 정답을 맞출 확률: 0.05
문제
5개의 정답을 맞출 확률? P(X=5)
이항 분포: 0.055 * 0.954 * 50!/5!(50-5)!
푸아송 분포
𝝀 = 50 * 0.05 = 0.25 => e-0.25 * 2.55 / 5!
12년 5월 26일 토요일
21. 정리
기하 분포
일련의 독립 시행
각 시행은 성공 아니면 실패이며, 각 시행의 성공 확률은 항상 동일
관심사: 첫 번째 성공을 거두기 위해 시도해야 하는 횟수
이항 분포
일련의 독립 시행
각 시행은 성공 아니면 실패이며, 각 시행의 성공 확률은 항상 동일
관심사: 시행의 수가 한정되어 있을 때, 특정한 결과가 발생한 횟수
푸아송 분포
개별적인 사건이 어떤 주어진 구간에서 임의 혹은 독립적으로 발생
해당 시행 구간에서 평균을 알 경우
관심사: 특정한 결과가 발생한 횟수
12년 5월 26일 토요일