Post on 25-Jan-2015
description
ML study4th
10.1 Introduction
• 이 장에 다룰 내용• joint distribution p(x|θ) 을 어떻게 컴팩트하게 표현할 수 있을까 ?
• Chain rule• Conditional Independence(CI)• Graphical Model
• 특정 변수가 주어졌을 때 , 다른 변수를 어떻게 효율적으로 추론할 수 있을까 ?• maginalization
• 분포의 파라메터들을 어떻게 효율적으로 학습할 수 있을까 ?• Factorized posterior
10.1.1 Chain rule
10.1.2 Conditional independence
바로 이전에만 영향을 받는다고 가정하면
10.1.3 Graphical models
• graphical model (GM) 은 Cl 가정으로 joint distribution 을 표현하는 것이다 .
• 그래프의 node 들은 랜덤 변수를 표현한다 .
• edge 의 부재는 Cl 가정을 표현한다 .
10.1.4 Graph terminology
Descen-dent
Ances-tor
Par-ent
X
Y1 Y2
Non-descen-dent
10.1.5 Directed graphical models
• directed graphical mode = DGM = DAG = Bayesian networks = belief networks = causal networks
• The key property of DAGs: topological ordering = 부모는 자식 전에 나온다 = 부모의 순서가 자식보다 먼저다• 이러한 순서가 주어졌을 때 다음과 같은 ordered Markov property 를 정의할 수 있다 .
• 노드는 단지 부모한테만 영향을 받는다 ( 부모가 아닌 조상들은 영향을 끼치지 않는다 .)
• Graphical model 을 조인트 확률로 바꾸는 방법• 부모가 없을 경우 , 그냥 확률 써주고• 부모가 있을 경우 , 조건부에 기입해준다
p(x|G) emphasizethat this equation only holds if the CI assumptions encoded in DAG G are correct
• 앞에 처럼 그래프 분포로 변환하는 방법에 대한 이론적 근거 ? d-separated 개념이 필요
10.2 Examples
10.2.2 Markov and hidden Markov models
10.2.2 Markov and hidden Markov models
Case study, Deep learning(RBM) for Collaborative Filter-ing
likelihood
learning= MLE w.r.t W
학습 자세히는 MCMC 랑 gibbs sampling 배우고 난 뒤
h= 0 또는 1V = [0 0 1 0 0] // 평점 3 이면
• GM 은 결합 확률 분포 (joint probability distribution) 를 정의하는 간단한 방식을 제공• 결합 분포가 주어졌을 때 , 무엇을 할 수 있을까 ? 확률적 추론• HMM 의 예를 들면 , 관찰 (speech signal) 로부터 hidden state (word) 를 추론하는 것이 하나의 목표이다 .
결합 분포 p(x1:V|θ) 와 같이 연관된 랜덤 변수의 집합이 있자고 하자볼수 있는 (visible) 변수 xv숨겨진 ( hidden) 변수 , 토
• 알고 있는 것이 주어졌을 때 , 모르는 것의 posterior 의 계산은 다음과 같다 :
• 때로는 숨겨진 변수 중 일부만을 추론하고 싶을수도 있다 .
• query variables, xq: value we wish to knownuisance variables xn: 관심 밖 변수
• nuisance 변수를 marginalize 함으로써 쿼리 변수를 알수 있다
10.3 Inference
P(x1=w)p(x2=sal|x1=winter)p(x3=m|x2=sal)p(x4=th|x2=sal)= 0.25*0.9*0.33*0.6 = 0.4455
10.4 Learning
Structure learning : DGM 의 구조를 학습 = 변수 간의 연관관계가 있냐 없냐를 학습 , chapter 26
베이지안은 파라메터들도 다 그래프에 넣어버린다 .
LDA
10.4.1 Plate notation
변수 별로
부모조합
tck: t 번째 노드의 c 번째 부모조합의 k 번째 state
c 번째 부모조합이 주어졌을 때 t 노드의 상태가 k 였던 횟수
θtck 의 hyperparamter
multinomial(θtc)
multinomial-dirichlet 모델에 의해서 factorized 된 posterior 는 dirichlet 분포를 따르고 posterior 의 기대값은
노드 4 번에 대한 CPT 테이블
변수간의 관계를 DGM 으로 그림
트레이닝 셋
짚고 넘어갈 것• theta 를 알아내는 것이 graphical model(=joint distribution 의 그래프 표현 ) 의 learning
• joint distribution 을 표현하기 위해 필요한 모든 CPT 를 구해야 한다 .
• 베이지안 프레임웍을 사용해서 graphical model 의 learning 을 쉽게 했다 (factorized posterior)
10.4.3 learning with missing and/or latent variables
• 데이터에 missing 변수이나 latent 변수가 있다면 , likelihood 는 더 이상 분해되지도 않고 더 이상 convex해지지도 않는다 (11.3 에서 자세히 )
• 즉 local optimal 한 MLE 나 MAP 을 구할 수밖에 없다 .
• parameters 의 베이지안 추정은 더 어려워진다 . 후에 근사 추론에 대해서 다룬다 .
10.5 Conditional independence properties of DGMs
CI 조건은 그래프 상에서 edge 의 부재이다 (ci 조건이 많을수록 그래프는 sparse 해진다 )어떤 변수들의 진짜 분포 p( 최대로 sparse 한 그래프 ) 가 있고 , 변수간의 어떤 연관 관계가 있다그러한 진짜 분포의 ci 조건 중 일부를 갖는 그래프 G(p 보다는 덜 sparse 한 그래프 ) 가 있으면 , 그 그래프로 실제 분포 p 를 표현할 수 있다 .I(p) 비해 모자라는 ci 조건은 수식을 더 복잡하게 하지만 , 분포 p 정보의 삭제는 아니다즉 G 가 p 의 imap 이라는 것은 G 로 p 를 graphical model 로 표현할 수 있다는 것이다
CI 조건없이 Chain rule 만으로도 실제분포를 표현가능
X1
X3
X2
X4
Minimal I-Map Example
• If is a minimal I-Map
• Then, these are not I-Maps:
X1
X3
X2
X4
X1
X3
X2
X4
이 CI 는 true 분포 p 와 일치하는 CI 가 아니다
10.5.1 d-separation and the Bayes Ball algorithm (global Markov properties)
The Bayes ball algorithm(Shachter 1998)
• E 가 주어졌을 때 , A 는 B 로부터 d- 분리임을 판별하는 간단한 방법• A 의 각 노드에 공을 놓고 , 어떤 규칙에 의해서 튕기고 , 모든 볼이 B 의 어떤 노드에 도착함을 판별
The Bayes ball algorithm(Shachter 1998)
The Bayes ball algorithm(Shachter 1998)
조건부 없이 독립
10.5.2 Other Markov properties of DGMs
자손
자손
노드 t
자손부모
독립
From the d-separation criterion, one can conclude that
ordered Markov property,
topological ordering 에서 노드 t 보다 이전 숫자를 가진 노드
독립
짚고 넘어가기• 그래프에서 변수 ( 노드 ) 간 독립 ( 엣지 지움 ) 을 표시하는 세가지 법칙이 있었음
• global Markov property G
• the ordered Markov property O
• directed local Markov property L
• d-separated 판별법에 이해서 G 가 유도되고 사실 G <->L <-> O 이다 (Koller and Friedman 2009)
• G 가 true p 의 i-map 이면 분포 p 는 그래프 G 에 의해 다음과 같이 factorize 될 수 있다 (F 조건 )
• F = O ((Koller and Friedman 2009) for the proof), 즉 G = L = O = F
• d-separated -> G -> O -> L -> F 로 이어진 후 , 그래프 상에서 표현되는 엣지가 CI 조건을 잘 표현함을 보장한 후• 즉 그래프 G 가 우리가 알고자하는 분포 p 의 ci 조건을 일부분 가지고 있다면 compact 하게 factorize 할 수 있다라는
결론을 이끌어낸 듯 ( 확실치 않음 ㅠㅠ )
그래프분포 할 수 있는 theorem
10.5.3 Markov blanket and full conditionals
d- 분리로 확인해 볼 수 있겠죠 ? 마코프 블랭킷도 d- 분리 개념에서 나온듯 ?
즉 full conditional posterior 는 마코프 블랭킷만 보면 된다