常用統計方法簡介(2)

7
2常常 常常常常常常常常常常常常 一。,,,。,一,;、、Gamma 常 常 、。 常常 t 常常常 F 常 常 常常常常常常常常常常常常 t 常常 常常常常常 一一,?, t常常 ifX N ( 0,1 ) ,Y χ 2 ( df =ν) ,thenT= X Y ν t ( ν) 常常常常常常常常常常常常常常常常常常常常常常常常常常常常常常常常 常常常常常常常常常常常常 。: 假假假假假假假假假假假假假 μ σ 2 假假假 。一 t假假假 。, T假假 T假假 T假 常常 一:n常常 n常 常常常常 。, 常常 k S^2 常常常常常常常常 f ( S 2 | X= k)= f ( S 2 X=k ) f ( X=k ) 常常常常常常常常常常常常 n 常常常常常常常常常常常常常常常常常常常常常 n-1 常常 f ( r| X=k )= f ( r∩ X=k ) f ( X=k ) f ( r∩ X=k ) = f ( r ) |X| ,f ( X=k ) = Ω| X=k f ( r ) | X| ¿ ( 2 π ) 1 2 n 1 2 e nk 2 2 ( 2 π ) −(n1) 2 n 1 2 e r 2 nk 2 2 ( 2 π ) 1 2 n 1 2 e nk 2 2 =( 2 π ) −( n1) 2 e r2 nk 2 2 常常 r2 nk 2 =S 2 常常常常常常 常 。一,

Transcript of 常用統計方法簡介(2)

Page 1: 常用統計方法簡介(2)

常用統計方法簡介(2)常常和其他人討論統計學的時候,發現對於初學者來說最困難的事情之一在於理解不同統計模型背後代表的現實意義。不知道為什麼會有這種機率分布,所以學習初統時就是死背活記,應用時則落於窠臼,知其然而不知其所以然。有鑑於此,我在去年決定寫一篇簡單的文章討論各個統計模型產生的來龍去脈,以增進大家使用時的理解;當時涵蓋的機率分布包括初統必定會見到的常態分佈、指數分布、Gamma分布、開方分布等等。這篇文章將接續下來,討論初統最末段會出現的 t分佈和 F分佈的來龍去脈和應用方式,並且在末尾提到初統中最陌生但實際上更為重要的貝氏統計理論。t分佈一個標準常態分佈的隨機變數除上一個開分佈的隨機變數後,其值的機率密度函數為何?初統的教科書告訴我們,是 t分佈。也就是說

if X N (0,1 ) ,Y χ2 (df=ν ) ,then T= X

√Yν

t (ν)

這個機率密度函數會在檢定常態分佈產出的亂數樣本的平均值中常常出現。這種檢定的邏輯通常如下:假設亂數樣本源自於平均值為 μ,變異數為σ 2的常態分佈。則樣本平均除上樣本標準差會滿足一個 t分佈。如果假設為真,這個檢定量 T大於或小於特定的值的機率可以求出來,判斷此情況下 T值的合理性。過大或過小的 T值代表假設極有可能有不合理之處。在前一篇中我們已經討論過開方分佈的來由:n個從標準常態分佈產生的隨機變數,其平方和為自由度為 n的開方分佈。那麼,它的樣本變異數要滿足怎麼樣的分佈呢?底下是最直觀的想法:假設樣本平均值為已知之值 k,則樣本變異數 S^2在此條件機率下為

f ( S2|X=k )= f (S2∩X=k )f (X=k )

在樣本平均值給定的條件下,n維互相獨立的標準常態分佈的機率密度函數降為 n-1維。

f ( r⃑|X=k )= f ( r⃑ ∩X=k )f (X=k )

Page 2: 常用統計方法簡介(2)

f ( r⃑ ∩ X=k )= f ( r⃑ )|∇ X|

, f ( X=k )= ∫Ω|X=k

❑ f ( r⃑ )|∇ X|

¿(2π )

−12 n

12 e

−nk2

2 (2π )−(n−1)2 n

−12 e

−‖r⃑‖2−nk2

2

(2π )−12 n

12 e

−nk2

2

=(2π )−(n−1)2 e

−‖r⃑‖2−nk 2

2

注意‖r⃑‖2−nk 2=S2。利用前一篇文章提到的方法,我們得到S2 χ2 (df =n−1 )

我們便可以接下去求 t分佈的機率密度函數。首先我們要求 S的機率密度函數:f (S )=f (S2 )× d S2

dS= Sn−3e

−S 2

2

2n−12 Г ( n−1

2)×2S= Sn−2 e

−S2

2

2n−32 Г ( n−1

2)

此時設U=√n X

S;√n X N (0,1 ) , S χ (df=n−1)

則 u的機率密度函數為f (u )=∫

Ω

f (x) f (s) dΩ|∇u|

= 1

√ π2n−22 Г (

n−12 )

∫Ω

sn−2 e−x2+s2

2 dΩ|∇u|

又|∇u|=√1+u2

s, dΩ=√1+( dxds )

2

ds=√1+u2ds

f (u )= 1

√π 2n−22 Г (n−1

2)∫0

sn−1 e−12

(1+u2 )s2

ds

設t ¿=1

2(1+u2) s2 , d t ¿=(1+u2 ) s ds

f (u )= 1

√π 2n−22 Г ( n−12 )

∫0

( 2t¿

1+u2 )n−22 e−t ¿ d t ¿

(1+u2 )

¿2

n−22 Г ( n2 )

√π 2n−22 Г ( n−12 )

(1+u2 )−n2 =

Г ( n2 )√π Г ( n−12 )

(1+u2 )−n2

最後設T=√n−1U

Page 3: 常用統計方法簡介(2)

f ( t )=f (u ) dudt

=Г ( n2 )

√ π (n−1 ) Г ( n−12 )(1+ t2

n−1 )−n2

T t (df =n−1)

這裡必須提出一個重要的觀念:由上述推導可知,T檢定值只有在模型是常態分佈時才會滿足 t分佈。不過當樣本數夠大時,不論模型為何,T檢定值都會趨近常態分佈。F分佈另外一個在初統和高統銜接過程中會出現的檢定用機率密度函數是 F分佈。這是兩個自由度各異的開方分佈的商。

if X χ2 (df=m ) , Y χ2 (df =n ) , thenF= X /mY /n

F(m,n)

我們會在 ANOVA中看到它。和 t分佈一樣,F分佈也是兩個機率模型產生的隨機變數相除得到的新的隨機變數。其推導亦類似:設

U= X /mY /n

, X χ 2 (df =m ) ,Y χ2 (df=n )

f (u )=∫Ω

f ( x ) f ( y ) dΩ|∇u|

= 1

2m+n2 Г (m2 )Г (n2 )

∫Ω

xm2−1

yn2−1e

− x+ y2 dΩ

|∇u|

¿ 1

2m+n2 Г (m2 )Г ( n2 )

∫0

xm2−1

yn2 e

− x+ y2 dy

¿ 1

2m+n2 Г (m2 )Г ( n2 )

∫0

um2−1

ym+n2 −1

e−u+ 12 y

dy

設t ¿=1

2(1+u ) y ,d t ¿=1

2(1+u ) dy

f (u )= um2−1

2m+n2 Г (m2 )Г ( n2 )

∫0

( 2 t¿

1+u )m+n2 −1

e−t¿ 2d t¿

1+u

Page 4: 常用統計方法簡介(2)

¿u

m2−1( 21+u )

m+n2

2m+n2 Г (m2 )Г ( n2 )

∫0

t ¿m+n2 −1

e−t¿d t ¿=u

m2−1

Г (m+n2 )

(1+u )m+n2 Г (m2 )Г ( n2 )

U F (m ,n )

貝氏統計與最大亂度定理在所有統計觀念中,真正在初統和高統中劃出一道鴻溝的其實是貝氏統計和最大亂度定理。因為在初統,人們只學會了給定統計模型下,要如何做對應的運算或檢定;然而現實中更常見的是給定一系列數據,要用最少的假設歸納出一個有足夠預測能力的統計模型。此時,貝氏統計和最大亂度定理便成為很重要的工具。一個完整的最大亂度-貝氏定理統計模型包含以下流程:1. 提出可信的限制式。比如統計力學中便透過能量守恆等觀念延伸出各種模型。2. 利用限制式和最大亂度定理,推出最有可能的統計模型。3. 利用貝氏定理,求出統計模型最有可能的參數。實例〉參數判別某一工廠每一周生產 100000件玻璃,連續 20周的瑕疵件數如下週數 1 2 3 4 5

瑕疵件數 450 497 442 455 477

週數 6 7 8 9 10

瑕疵件數 430 438 480 468 497

週數 11 12 13 14 15

瑕疵件數 426 422 429 467 395

週數 16 17 18 19 20

瑕疵件數 431 475 607 443 632

1. 根據兩種不同條件,利用最大亂度法求出最適合描述一週內瑕疵件數的統計模型:(a) 假設瑕疵件數平均值為穩定值(b) 假設瑕疵件數可由兩個機率分佈的加成混合模型描述,而這兩個模型的平均值和標準差皆為穩定值,並且瑕疵件數的平均值亦為穩定值

2. 利用貝氏定理,求出 1.兩條件中,模型參數的先驗機率。假若第 21週瑕疵件數為 500件或 5000件時,試求出模型參數的後驗機率。

Page 5: 常用統計方法簡介(2)

解〉1.(a)可直接用 Lagrangian multiplier導出為一指數分佈1.(b)之限制如下模型 1的限制:

E [ X ]=∫Ω

xf (x )dx=μx ,Var [X ]=∫Ω

x2 f (x)dx−μx2=σ x

2

模型 2的限制:E [Y ]=∫

Ω

yg ( y)dx=μ y ,Var [Y ]=∫Ω

y2g( y )dx−μy2=σ y

2

加成混合的限制:假設進入 X的比例為 r,進入 Y的比例為 1-r,則E [Z ]=∫

Ω

z (rf ( z )+ (1−r ) g ( z ))dz

¿ r∫Ω

zf (z )dz+(1−r )∫Ω

zg (z )dz=r μx+ (1−r ) μy=μz

可知兩模型為常態分佈,而模型的混合比例則和兩者的平均值指數呈負相關。即

r= e−β μx

e−β μx+e−β μ y,1−r= e− βμ y

e−β μx+e−β μ y

2.假設一的條件下,參數為λ̂時,樣本出現的概率為

L( λ̂ ; x⃑ )= λ̂ne− λ̂∑

i

n

x i

故貝氏定理算出的參數先驗機率為π ( λ̂ ; x⃑ )= L( λ̂; x⃑ )

∫Ω

L( λ̂ ' ; x⃑)d λ̂ '

Page 6: 常用統計方法簡介(2)

結果如上圖。紅色的線則是使用MLE求值的結果。當第 21週瑕疵件數為 500件或 5000件時,可利用貝氏定理求出參數的後驗機率:

π ' ( λ̂' ' ; x , π )= f (x ; λ̂ ' ')π ( λ̂ ' ' ; x⃑ )

∫Ω

f (x ; λ̂)π ( λ̂ ; x⃑ )d λ̂

500件時,因為和原來的平均相去不遠,所以數值沒有太大變化;不過如果變成 5000件時,便會發現明顯差異。

在假設二的情況下,我們必須先給定兩個常態分佈的初始條件;亦即必須先假設兩模型的平均值和變異數,然後疊代至數據收斂。其公式如下

Page 7: 常用統計方法簡介(2)

μ̂ j ,k+1=∑i

n

x i

f (xi∩s j; μ̂1 , k , σ̂ 1 ,k , μ̂2, k , σ̂2 ,k )f (x i; μ̂1 , k , σ̂1 , k , μ̂2 , k ,σ̂ 2 ,k )

∑i

n f (x i∩s j ; μ̂1 ,k , σ̂1 ,k , μ̂2 ,k , σ̂2 , k )f (x i ; μ̂1, k , σ̂1 ,k , μ̂2 ,k , σ̂2 , k)

σ̂ 2 j ,k +1=∑i

n

(x i− μ̂ j ,k +1)2 f (x i∩s j ; μ̂1 ,k , σ̂1 ,k , μ̂2 ,k , σ̂2 , k)

f (x i; μ̂1, k , σ̂1 ,k , μ̂2 ,k , σ̂2 ,k )

∑i

n f ( xi∩s j; μ̂1 , k , σ̂1 , k , μ̂2 , k ,σ̂ 2 ,k )f (xi ; μ̂1 ,k , σ̂1 , k , μ̂2 , k , σ̂ 2 ,k )

r̂k +1=∑i

n f (x i∩s1; μ̂1 , k , σ̂ 1, k , μ̂2 , k ,σ̂ 2 ,k)f ( xi ; μ̂1 ,k , σ̂1 , k , μ̂2 , k , σ̂2 , k)

n

f (x i ; μ̂1 ,k , σ̂1 , k , μ̂2 ,k , σ̂2 , k )=rN ( xi ; μ̂1 ,k , σ̂1 , k )+(1−r)N (x i; μ̂2 , k , σ̂ 2, k )

f (x i∩s1; μ̂1 , k , σ̂1 ,k , μ̂2 ,k , σ̂2 ,k )=a jN (x i ; μ̂ j , k ,σ̂ j , k )

f (x i; μ̂1 , k , σ̂ 1, k , μ̂2 , k , σ̂2 ,k )

a j={ r , j=11−r , j=2

這些公式可以利用MLE導出,不過也可以直接用貝氏定理來想。即在 x=x_i處,落在第 j個模型的條件機率的加權平均。