Conditional Random Fields: Probabilistic Models
Pusan National University
AILAB.
Kim, Minho
Labeling Sequence Data Problem
• X is a random variable over data sequences• Y is a random variable over label sequences
• Yi is assumed to range over a finite label alphabet A
• The problem:– Learn how to give labels from a closed set Y to a data sequence
X
Birds like flowersX:
x1 x2 x3
noun verb noun
y1 y2 y3
Y:
Generative Probabilistic Models
• Learning problem:
Choose Θ to maximize joint likelihood:
L(Θ)= Σ log pΘ (yi,xi)
• The goal: maximization of the joint likelihood of training examples
y = argmax p*(y|x) = argmax p*(y,x)/p(x)
• Needs to enumerate all possible observation sequences
Hidden Markov Model
• In a Hidden Markov Model (HMM) we do not observe the sequence that the model passed through (X) but only some probabilistic function of it (Y). Thus, it is a Markov model with the addition of emission probabilities:
Bik = P(Yt = k|Xt = i)
POS Tagging in HMM
• Optimal sequence
• Contextual probability
• Lexical probability
)|Pr()Pr(maxarg
)Pr()|Pr()Pr(
maxarg
)|Pr(maxarg'
PWP
WPWP
WPP
iiii
iii
PPPP
PPP
)|Pr()Pr(
)|Pr()Pr(
12
1
i
ii PWPW )|()|Pr(
POS Tagging in HMM
• Learning(Maximum Likelihood Estimation)
)(),(
)|Pr(
)()(
)|Pr(
)()(
)|Pr(
12
1212
1
11
i
iiii
ii
iiiiii
i
iiii
PfreqPWfreq
PW
PPfreqPPPfreq
PPP
PfreqPPfreq
PP
HMM – why not?
• Advantages:– Estimation very easy.– Closed form solution– The parameters can be estimated with
relatively high confidence from small samples
• But:– The model represents all possible (x,y)
sequences and defines joint probability over all possible observation and label sequences needless effort
Discriminative Probabilistic Models
“Solve the problem you need to solve”: The traditional approach inappropriately uses a generative joint model in order to solve a conditional problem in which the observations are given. To classify we need p(y|x) – there’s no need to implicitly approximate p(x).
Generative Discriminative
Discriminative Models - Estimation
• Choose Θy to maximize conditional likelihood:
L(Θy)= Σ log pΘy(yi|xi)
• Estimation usually doesn’t have closed form
• Example – MinMI discriminative approach (2nd week lecture)
Maximum Entropy Markov Model
• MEMM: – a conditional model that represents the
probability of reaching a state given an observation and the previous state
– These conditional probabilities are specified by exponential models based on arbitrary observation features
POS Tagging in MEMM
• Optimal sequence
• Joint probability
},,,{
)|Pr(maxarg'
111,1
iiiiii
iii
PPWWWH
HPP
Pp
phph
hp'
)',Pr(),Pr(
)|Pr(
k
j
phfjjph
1
),(),Pr(
}1,0{),( iii PHf
MEMM: the Label bias problem
The Label Bias Problem: Solutions
• Determinization of the Finite State MachineNot always possibleMay lead to combinatorial explosion
• Start with a fully connected model and let the training procedure to find a good structurePrior structural knowledge has proven to be
valuable in information extraction tasks
Random Field Model: Definition
• Let G = (V, E) be a finite graph, and let A be a finite alphabet.
• The configuration space Ω is the set of all labelings of the vertices in V by letters in A. If C is a part of V and ω is an element of Ω is a configuration, the ωc denotes the configuration restricted to C.
• A random field on G is a probability distribution on Ω.
Random Field Model: The Problem
• Assume that a finite number of features can define a class
• The features fi(w) are given and fixed.
• The goal: estimating λ to maximize likelihood for training examples
Conditional Random Field: Definition
• X – random variable over data sequences
• Y - random variable over label sequences
• Yi is assumed to range over a finite label alphabet A
• Discriminative approach: we construct a conditional model p(y|x) and do not explicitly model marginal p(x)
CRF - Definition
• Let G = (V, E) be a finite graph, and let A be a finite alphabet
• Y is indexed by the vertices of G • Then (X,Y) is a conditional random field if the
random variables Yv, conditioned on X, obey the Markov property with respect to the graph:
p(Y|X,Yw,w≠v) = p(Yv|X,Yw,w~v),
where w~v means that w and v are neighbors in G
CRF on Simple Chain Graph
• We will handle the case when G is a simple chain: G = (V = {1,…,m}, E={ (I,i+1) })
HMM (Generative) MEMM (Discriminative) CRF
Fundamental Theorem of Random Fields (Hammersley & Clifford)
• Assumption:– G structure is a tree, of which simple chain is
a private case
CRF – the Learning Problem
• Assumption: the features fk and gk are given and fixed.– For example, a boolean feature gk is TRUE if
the word Xi is upper case and the label Yi is a “noun”.
• The learning problem– We need to determine the parameters
Θ = (λ1, λ2, . . . ; µ1, µ2, . . .) from training data D = {(x(i), y(i))} with empirical distribution p~(x, y).
21
최대 엔트로피 모델
• 우리가 알아낸 제약 조건을 다 만족하는 확률 분포들 중에서 엔트로피가 최대가 되는 확률 분포를 취함
• 알고 있는 정보는 반영하되 , 확실하지 않은 경우에 대해서는 불확실성 정도를 최대로 두어 균일한 확률 분포를 구성
( ) ( ) ( ) ( ) ( ) 1p dans p en p a p aucoursde p pendant 제약조건
( ) 1/ 5, ( ) 1/ 5, ( ) 1/ 5, ( ) 1/ 5, ( ) 1/ 5p dans p en p a p aucoursde p pendant 엔트로피를 최대로 하는 확률 분포
22
최대 엔트로피 원리
• 제약조건을 만족하는 확률 분포들 중 엔트로피가 최대가 되도록 모델을 구성
• 알려진 또는 사용하고자 하는 정보에 대해 확실히 지켜주고 , 고려하지 않은 경우나 모르는 경우에 대해서는 동등하게 가중치를 줌으로써 특정 부분에 치우치지 않는 분포를 구한다
,
( ) ( , ) log ( , )x X y Y
H p p x y p x y
Ref. [1]
23
최대 엔트로피 예
• 이벤트 공간
• 경험적 데이터
• 엔트로피를 최대로 하는 확률 분포– 제약조건 : E[NN, NNS, NNP, NNPS, VBZ, VBD]=1
NN NNS NNP NNPS VBZ VBD
3 5 11 13 3 1
Ref. [3]
24
최대 엔트로피 예
– N* 이 V* 보다 더 빈번하게 발생 , 이를 자질 함수로 추가
– 고유명사가 보통명사보다 더 빈번하게 발생
{ , , , }, { } 32 / 36N Nf NN NNS NNP NNPS E f
NN NNS NNP NNPS VBZ VBD
8/36 8/36 8/36 8/36 2/36 2/36
{ , }, { } 24 / 36P pf NNP NNPS E f
4/36 4/36 12/36 12/36 2/36 2/36
25
최대 엔트로피 모델 구성 요소
• 자질 함수– 정해놓은 조건들을 만족하는지 여부를 확인 – 일반적으로 이진 함수로 정의
• 제약조건– 기대치를 구할 때 사용하는 정보는 학습문서로 한정
• 파라미터 추정 알고리즘– 자질 함수의 가중치를 구하는 방법– GIS, IIS
26
최대 엔트로피 모델에서 확률 계산 방법
• 자질 함수를 정의• 제약조건을 정의• 선택한 알고리즘을 이용해 자질 함수의
가중치 계산• 가중치를 이용해 각각의 확률 계산• 여러 확률 값 중 제일 큰 값을 최종확률로
선택
27
자질 함수
• Trigger 형태로 , 정해놓은 제약조건을 만족하였는지 여부를 구분해주는 함수
• 고려되고 있는 문맥에 사용하고자 하는 정보들이 적용가능한지 결정
1( )
0
if h meets some conditionf h
otherwise
Ref. [1]
28
제약조건
, 1
[ ] [ ], 1 , 1
[ ] ( , ) ( , ) ( ) ( | ) ( , ) , ( ) :
: , .
[ ]
j j
n
j j i i i j i i ih H y Y i
j
E f E f j k
E f p h y f h y p h p y h f h y p h
H
E f p
p
학습 문서에서뽑아낸 값
제대로 알기어려우며 안다고 해도 너무 커서평균값을 바로 구하는 것이힘들 수 있다
학습 문서에서발견된 경우만 고려하는 근사화 된 수식을 이용하여계산
1
( , ) ( , )
( , ) :
, :
y
n
i i j i ii
i i
h y f h y
p h y
H Y
학습 문서에서얻어낸 것
각각 있을 수 있는 모든 문맥과 원하는 출력값의집합n: 학습 문서에서발견된 문맥 h와 의곱집합으로 얻을 수 있는 총 가지수
모델에서고려하는 경우의수
Ref. [1]
29
파라미터 추정• 정해진 자질 함수를 학습 문서에 적용시켜 얻어낸 확률
정보를 가장 잘 반영하는 p* 를 최우추정법 (Maximum Likelihood Estimation) 사용하여 구한다
( , ) ( , )
1 1
,
{ | [ ] [ ], {1,....., }}
1{ | ( | ) , ( )
( )
( ) ( , ) log ( | )
* arg max ( ) arg max ( )
( , ) :
:
j j
j j
k kf x y f x yj j
yj j
x y
q Q p P
j j
P p E f E f j k
Q p p y x Z xZ x
L p p x y p y x
p L q H p
where
p x y
f
학습 문서에서얻어낸 확률값k: 자질 함수의개수
자질 함수 에해당하는 가중치Ref. [1]
30
IIS (Improved Iterative Scaling)
1 2
#
#
1
, ,....,
, *
0, {1,2,...., }
2. i
( , ) exp( ( , )) ( ) .
, ( , ) ( , ).
. : .
3.
n
i i i
n
ii
i i i i
i
f f f
p
i n
x y f x y p f
f x y f x y
b
*i
i
ix, y
입력데이터 자질
출력데이터
파라미터 확률분포
알고리즘1.
각 에대해서
a. p(x)p(y| x)f 를 만족하는 를 구한다
단
가 수렴하면 끝을 .내고 그렇지않을 경우 2. 로 간다
Ref. [1]
31
GIS (General Iterative Scaling),
1
11
,
,, 1
max ( , )
( , ) ( , )
( , ) ( , ) :
1( , ) ( , ) ( , ) :
x,y
Kdef
ix y
i
K
K ii
p i ix y
N
i i i j jx y j
C f x y
f x y C f x y
E f p x y f x y
f p x y f x y f x yN
p
모든가능한 x, y에대한 이벤트 공간에서의합
E 경험적기대값
where
N: 학습문서에 있는 요소들의수
모든 가능한 의결합의합을 구하는 것은 데이타 집
, 1
.
, x .
1( ) ( | ) ( , ) ( | ) ( , )
p i
N
p i i j j i j jx y j y
E f
E f p x p y x f x y p y x f x yN
합이크거나 무한하기때문에어렵다
따라서 를 학습 문서에나타난 로 근사화한다
Ref. [2]
32
GIS (General Iterative Scaling)(1) (1)
(1)
1 1( , ) ( , )(1) (1)
,1 1
1. . 1, 1 1
,
{ , ( , ) .
1( , ) ( ) ( )
3. 1
i i
p i
i
K Kf x y f x y
i ix yi i
j K
E f
x y
x y where zZ
i K
i i
(n)
(n)
의초기값을 설정한다 보통
를 계산하고 n=1로 설정
2. 주어진 }를 가지고 학습문서에있는 각 요소 (x, y)에대해 p 를 계산한다
p
모든 1 에대하 ( )
( )
1( 1) ( )
.
.
( )
5. , .
n
n
ip
p in n C
ip
E f
E f
E f
i
i i
여 를 구한다
4. 파라미터 를 업데이트한다
파라미터값이수렴하면 멈추고 그렇지않으면 n을 하나 증가시키고 2. 로 간다
Ref. [2]
Conclusions
• Conditional random fields offer a unique combination of properties:– discriminatively trained models for sequence segmentation and
labeling– combination of arbitrary and overlapping observation features
from both the past and future– efficient training and decoding based on dynamic programming
for a simple chain graph– parameter estimation guaranteed to find the global optimum
• CRFs main current limitation is the slow convergence of the training algorithm relative to MEMMs, let alone to HMMs, for which training on fully observed data is very efficient.
Top Related