Crash Course on Graphical models

Crash Course on
Graphical Models
2014.08.06 김종욱

그게 뭐예요
지난 십수년간 머신러닝 분야에서 가장 큰 발전

왜 하나요
제한된 정보로 더 많은 것을 알기 위해
To gain global insight based on local observations

어떻게 하나요
• 표현 Representation
• 세상을 확률변수와 확률분포로 표현하기
• P(X1,

Xn)을 어떻게 간단하게 표현할 수 있을까
• Directed Graphical Models (Bayesian Networks)
• Undirected

)
• 학습 Learning
• Maximum Likelihood Estimation, Others?
• 얼마나 많은 데이터가 필요할까?
• 얼마나 많은 계산량이 요구될까?
• 추론 Inference
• 조건부 확률 P(Y | X1,

불확실성을 바탕으로 추론하기
• 불확실한 세상에 살고 있는 우리들
• 80년대까지의 연구는 이것을 무시했음 →

Winter
• 최근 십수년의 비약적인 발전은 확률적인 접근법으로 이루어짐

전략
• 표현representation 학습learning 추론inference이 모두 필요함
• 먼저 가장 간단한 경우부터
• 이산(discrete)확률변수
• 완전히 관측된 모델
• 정확한(exact) 학습과 추론
• 그리고 일반화
• 연속(continuous)확률변수
• 부분적으로 관측된 모델 (latent/hidden variables)
• 근사적인(approximate) 학습과 추론

순서
1. Directed Graphical Models (Bayesian Networks)
2. Undirected Graphical Models (Markov Random Fields)
3. Generative vs Discriminative Models
4. Conditional Random Fields
5. POS Tagging with CRF

기본개념
확률공간probability space 확률probability 사건events
확률변수random variables 확률분포probability distributions 기대값expectation
독립independence 종속dependence 조건부독립conditional independence
조건부확률conditional probability 결합확률분포joint probability distribution
연쇄법칙chain rule 베이즈 정리Bayes Rule 전체확률의 정리Law of Total Probability
𝑃 𝑌 𝑋 =
𝑃 𝑋 𝑌 𝑃(𝑌)
𝑃(𝑋)
𝑃 𝑋, 𝑌 = 𝑃 𝑋 𝑃(𝑌|𝑋) 𝑃(𝑋) = 𝑃 𝑋 𝑦 𝑃(𝑦)

확률분포: 질병 진단 예제
• 증상(열, 기침, 숨가쁨, 구토)마다 확률변수 하나씩
• 질병(폐렴, 독감, 감기)마다 확률변수 하나씩
• 조건부확률로 추론inference하는 것으로 진단 가능
p( 폐렴 = 1 | 기침 = 1 , 열 = 1 , 구토 = 0 )
• Quick Medical Reference (QMR-DT, 1991):
600개의 질병과 4000개의 증상을 포함하는 모델

확률분포를 표현하는 방법
• 모든 변수의 모든 값의 조합에 대해 표를 만들기
• QMR-DT를 표현하기 위해 필요한 조합은? 24600
• 단점:
• 일단 불가능함 (우주에 있는 원자 수 ≒

2250)
• 분포를 학습learn하려면 엄청나게 많은 데이터가 필요함
• 조건부 확률을 구하려면 너무 많은 값을 더해야 함

그러니까 독립을 이용하자
• 만약 모든 변수가 서로 독립이면
𝑝 𝑥 , 𝑥 , … , 𝑥 = 𝑝 𝑥 𝑝 𝑥 … 𝑝 𝑥
• (binary인 경우) 2 개 대신 2𝑛개의 숫자만으로 표현가능
• 모두 독립이면 그다지 쓸모가 없다:
• 𝑋 를 아는 것이 𝑋 를 아는 것에 아무런 도움이 되지 않음
• 대신 조건부독립을 활용해 보자!

그러니까 조건부 독립을 이용하자
• 𝑌가 주어졌을 때 𝑋 , 𝑋 , … , 𝑋 이 서로 조건부 독립이면
𝑝 𝑥 , 𝑥 , … , 𝑥 , 𝑦
= 𝑝 𝑦 𝑝 𝑥 𝑦 𝑝 𝑥 𝑥 , 𝑦 … 𝑝 𝑥 𝑥 , … , 𝑥 , 𝑦
= 𝑝 𝑦 𝑝 𝑥 𝑦 𝑝 𝑥 𝑦 … 𝑝 𝑥 𝑦
• 다름아닌 Naïve Bayes
• Philosophy: 정확하진 않더라도 쓸만한 모델을 찾자

Bayesian Network
• 방향성 비순환 그래프directed acyclic graph G(V, E)
• 각 노드 𝑖 ∈ 𝑉 는 확률변수 𝑋 를 나타냄
• 노드 𝑖 의 부모노드들 Pa(𝑖)에 대한 조건부 확률 분포
𝑝 𝑥 𝑥
• 다음의 Factorization과 1:1 대응
𝑝 𝑥 , 𝑥 , … , 𝑥 =
∈
𝑝 𝑥 𝑥

Bayesian Network는 생성 모델generative model
• 모델을 알면 다음과 같이 이메일을 생성generate할 수 있음
• 𝑦~𝑝(𝑌)에 따라 스팸 여부 𝑦를 결정
• 𝑥 ~𝑝(𝑋 |𝑌)에 따라 각 단어를 생성
𝑝 𝑦 𝑝 𝑥 𝑦

Bayesian Network는 조건부 독립을 표현함
• 위 그래프로부터 알 수 있는 결합확률분포:
• Chain Rule을 이용해 모든 확률분포는 다음과 같이 나타낼 수 있다:
𝐷 ⊥ 𝐼 𝑆 ⊥ 𝐷, 𝐺 | 𝐼 𝐿 ⊥ 𝐼, 𝐷, 𝑆 | 𝐺

그래프로 표현하는 조건부 독립

경우 1 : 간접적인 영향indirect cause
• 𝑃 𝑋, 𝑌, 𝑍 = 𝑃 𝑋 𝑃 𝑍 𝑋 𝑃 𝑌 𝑍
• 𝑃 𝑋, 𝑌|𝑍
=
𝑃(𝑋, 𝑌, 𝑍)
𝑃(𝑍)
=
𝑃 𝑋 𝑃(𝑍|𝑋)𝑃(𝑌|𝑍)
𝑃(𝑍)
=
𝑃 𝑋, 𝑍 𝑃(𝑌, 𝑍)
𝑃(𝑍)𝑃(𝑍)
= 𝑃 𝑋 𝑍 𝑃 𝑌 𝑍
• 그냥은 X, Y가 종속, Z가 주어지면 X, Y는 독립
• X, Y의 자리가 바뀌어도 마찬가지

경우 2 : 공통 원인common cause
• 그냥은 X, Y가 종속, Z가 주어지면 X, Y는 독립
• 경우 1과 동등equivalent한 모델
• 𝑃 𝑋, 𝑌, 𝑍 = 𝑃 𝑍 𝑃 𝑋 𝑍 𝑃 𝑌 𝑍
• 𝑃 𝑋, 𝑌|𝑍
=
𝑃(𝑋, 𝑌, 𝑍)
𝑃(𝑍)
=
𝑃 𝑍 𝑃(𝑋|𝑍)𝑃(𝑌|𝑍)
𝑃(𝑍)
=
𝑃 𝑋, 𝑍 𝑃(𝑌, 𝑍)
𝑃(𝑍)𝑃(𝑍)
= 𝑃 𝑋 𝑍 𝑃 𝑌 𝑍

경우 3 : 공통 효과common effect
• 그냥은 X, Y가 독립, Z가 주어지면 X, Y가 종속
• 다른 원인을 설명해주는explaining away 효과
• 𝑃 𝑋, 𝑌, 𝑍 = 𝑃 𝑋 𝑃(𝑌)𝑃 𝑍 𝑋, 𝑌
• 𝑃 𝑋, 𝑌, 𝑍 = 𝑃 𝑋 𝑃 𝑌 𝑋 𝑃 𝑍 𝑋, 𝑌 (chain rule)
• 𝑃 𝑌 𝑋 =
( , )
( )
= 𝑃(𝑌)
• 𝑃(𝑋, 𝑌) = 𝑃(𝑋)𝑃(𝑌)

Explaining Away
X : 지진이 발생함
Y : 헐크가 쳐들어옴
Z : 집이 흔들림

Bayesian Network 정리
• Bayesian Network 는 확률변수들의 조건부확률분포CPD로 주어진다.
• 생성 모델Generative Model로 볼 수 있다.
• D-Separation 을 이용하여 조건부 독립을 확인할 수 있다.
• 특정 사건이 일어날 확률은 CPD를 곱하는 것으로 얻을 수 있다.
• 조건부 확률을 얻으려면 베이즈 법칙Bayes Rule을 사용하면 된다.
• 추론Inference은 필요한 계산량이 많아 어려울 때가 많다.
• Viterbi Algorithm, Max-Product Belief Propagation, Sum-Product Algorithm, …
• 예: Naïve Bayes, Hidden Markov Model, Latent Dirichlet Analysis

Undirected Graphical Models
• 확률변수들 사이에 방향성이 있는 것이 어색한 경우가 있음
• 픽셀을 격자로 표현하려면 방향이 없는 것이 자연스러움
• 판별discriminative모델은 방향성이 없을 때 대개 성능이 좋음 (CRF)

Markov Random Fields
• 조건부확률분포CPD 대신 포텐셜potential의 곱으로 표현

조건부 독립 찾기
𝑋 ⊥ 𝑋 | 𝑋
Global Markov Property

Markov Blanket
𝑋 ⊥ 𝑉 ∖ {𝑋 ⋃ 𝑚𝑏(𝑋)} | 𝑚𝑏(𝑋)
Local Markov Property

Pairwise Markov Property
𝑋 ⊥ 𝑌 | 𝑉 ∖ {𝑋 ⋃ 𝑌} ⇔ 𝑛𝑜𝑡(𝑋 ∼ 𝑌 )
Pairwise Markov Property

Markov Properties are Equivalent

Moralization : Convert BN to MRF

생성generative VS 판별discriminative 모델

스팸필터링 예제
• 스팸이면 Y = 1 , 스팸이 아니면 Y = 0
• 𝑤 ~𝑤 : 모든 (영어) 단어
• 단어 𝑤 가 이메일에 포함되면 𝑋 = 1 , 아니면 𝑋 = 0

• 두 그림은 결국 같은 확률분포 𝑃(𝑋, 𝑌)를 표현함
• 하지만 Y를 예측하기 위해선 𝑃 𝑌 𝑋)만 알면 충분
• 왼쪽의 경우 𝑃(𝑌)와 𝑃(𝑋|𝑌)를 모두 알아야 함
• 오른쪽 모델에선 𝑃(𝑌|𝑋)만 알면 충분함!
• 𝑃(𝑋)에 대해선 알 필요가 없음
• 𝑋중 일부만 관찰할 경우 𝑃(𝑋)도 필요해짐
• 𝑌의 값을 판별하는데만 쓸 수 있어서 판별 모델

• 각 모델에서 선택해야 하는 것
• 생성 모델에서: 𝑃(𝑋 |𝑿 ( ), 𝑌)를 파라미터화하는 방법
𝑋 ⊥ 𝑋 | 𝑌 라고 가정하기 (Naïve Bayes)
• 판별 모델에서: P(Y|𝐗)를 파라미터화하는 방법
𝑃 𝑌 = 1 𝒙; 𝑤) =
( ∑ )
라고 가정하기 (Logistic Regression)

판별모델은 강력하다
• Logistic Regression은 조건부독립을 가정하지 않음
• “bank account”처럼 항상 같이 사용하는 두 단어가 많은데
• 그러면 𝑋 = 𝑋 , 즉 조건부독립이 아니지만
• Naïve Bayes는 P(𝑋 |𝑌) = 𝑃(𝑋 |𝑌) 로 두 번씩 카운트
• 조건부독립이 아닌 Feature들을 사용할 수 있어서
• 보다 유연한 Feature 선택이 가능

생성모델은 쓸모있다
• 𝑿가 모두 측정가능할 때에만 판별모델을 쓸 수 있다.
• 𝑿중 일부만 있더라도 생성모델에서는 P(Y|𝑿 )를 계산가능
• 더 효율적으로 파라미터를 학습할 수 있음
• 충분히 좋은 결과를 얻기 위해 필요한 트레이닝 데이터의 수:
• Naïve Bayes는 O(log n)개의 샘플이 필요함
• Logistic Regression은 O(n)개의 샘플이 필요함
• Naïve Bayes가 (부정확할 수도 있지만) 더 빠르게 수렴함

Naïve Bayes
Logistic Regression
[Ng Jordan 2002]

Crash Course on Graphical models

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (8)

Destacado

Destacado (16)

Similar a Crash Course on Graphical models

Similar a Crash Course on Graphical models (20)

Crash Course on Graphical models