Download - 2 Multivariate Normalverteilung - Fakultät Statistik …dvogel/...wieder multivariat normalverteilt; insbesondere ist jede einzelne Komponente X i von X univariat normalverteilt.

2 Multivariate Normalverteilung

2.1 Multivariate Normalverteilung

Definition 2.1. Normalverteilung

• Eine univariat normalverteilte Zufallsvariable X besitzt die Dichte

f (x) =1√

2π σexp

(−(x− µ)2

2σ2

)x ∈ R.

Die Parameter µ ∈ R und σ2 > 0 geben den Erwartungswert bzw. die

Varianz von X an (σ ist die Standardabweichung).

• Eine regulare (nicht entartete, nicht singulare) d-variat normalverteilte

Zufallsvariable X besitzt die Dichte

f (x) = f (x1, . . . , xd) =1

(2π)d/2(det(Σ))1/2 exp(−1

2(x− µ)′Σ−1(x− µ)

)fur x ∈ Rd. Dabei ist µ ∈ Rd der Erwartungswertvektor und Σ ∈ Rd×d,

positiv definit und symmetrisch, die Kovarianzmatrix von X. (‘det’

bezeichnet die Determinante einer Matrix.)

Notation 2.2. Fur X bzw. X normalverteilt schreiben wir kurz X ∼ N(µ, σ2)

bzw. X ∼ Nd(µ, Σ).

Die Normalverteilung eignet sich zur Modellierung von Merkmalen, die

durch das Zusammenwirken vieler Zufallseinflusse entstehen, biologische

Variabilitat (Korpergroße, IQ, . . .), Messfehler, Abweichungen vom Soll-

wert (z. B. Schweizer Banknoten), etc.

Definition 2.3. Standardnormalverteilung

• Die univariate Normalverteilung mit µ = 0 und σ2 = 1 heißt (univa-

riate) Standardnormalverteilung.

• Nd(0, Id) heißt (multivariate) Standardnormalverteilung.

22

Satz 2.4. Die Komponenten einer multivariaten Standardnormalverteilung

sind unabhangig und identisch N(0, 1)-verteilt.

Satz 2.5. Eigenschaften der Normalverteilung

a) Ein d-variat normalverteilter Zufallsvektor besteht aus d univariat nor-

malverteilten Zufallsvariablen. Genauer:

• sind X1, . . . , Xd unabhangige und identisch N(µ, σ2)-verteilte Zu-

fallsvariablen, dann ist X = (X1, . . . , Xd)′ ∼ Nd(µ, Σ) mit µ = (µ, . . . , µ)T

und Σ = σ2 · Id.

• ist X = (X1, . . . , Xd)′ ∼ Nd(µ, Σ), dann ist jeder Teilvektor von X

wieder multivariat normalverteilt; insbesondere ist jede einzelne

Komponente Xi von X univariat normalverteilt.

b) Affin lineare Transformationen erhalten eine Normalverteilung:

Fur X ∼ Nd(µ, Σ), A ∈ Rk×d, b ∈ Rk gilt

Y = AX + b ∼ Nk(Aµ + b, AΣA′)

Die Aussage gilt fur beliebige Matrizen A, die Verteilung von Y ist

moglicherweise eine entartete Normalverteilung (vgl. 2.18). Hat A (und

ebenso Σ) vollen Zeilenrang, so ist Y regular normalverteilt.

c) Seien X1 und X2 k- bzw. d− k-variate ZVen mit X1

X2

∼ Nd

µ1

µ2

,

Σ11 Σ12

Σ21 Σ22

X1 und X2 sind unabhangig genau dann, wenn Σ12 = 0.

23

28. 10. 2013

5. Vorlesung

Korollar 2.6. Sei X ∼ Nd(µ, Σ).

a) Mahalanobis-Transformation

Es gilt: Y = Σ−1/2(X− µ) ∼ Nd(0, Id).

Umgekehrt gilt fur Y ∼ Nd(0, Id), dass Σ1/2Y + µ ∼ Nd(µ, Σ).

b) AX und BX sind unabhangig genau dann, wenn AΣB′ = 0.

Bemerkung 2.7. Aus “X1, . . . , Xd sind univariat normalverteilt” folgt im

Allgemeinen nicht “(X1, . . . , Xd) ist multivariat normalverteilt”! Die eindi-

mensionalen Randverteilungen legen die gemeinsame Verteilung des Zu-

fallsvektors nicht eindeutig fest. Bsp: Der ZVektor (X1, X2) mit der Dichte

f (x1, x2) =1π

exp(−1

2(x2

1 + x22)

)1{x1x2≥0}

hat normalverteilte Komponenten, ist aber nicht normalverteilt.

24

Beispiel 2.8. Dichte der bivariaten Standardnormalverteilung:

-3

-2

-1

0

1

23

x1

-3

-2

-1

0

1

2

3

x2

00.

050.

10.

150.

2f(x

1,x2

)

Konturlinien (Hohenlinien):

x1

x2

-3 -2 -1 0 1 2 3

-3-2

-10

12

3

25

Beispiel 2.9. Dichte der 2d-NV mit µ = (0, 0)′ und Σ =

2 0

0 10

:

-5

0

5

x1-5

0

5

x2

00.

010.

020.

030.

04f(x

1,x2

)

Konturlinien dieser Dichte:

x1

x2

-5 0 5

-50

5

26

Satz 2.10. Die Graphen der Konturlinien sind von der Form

{x : (x− µ)′Σ−1(x− µ) = d}

fur d > 0, d. h. die Konturlinien sind Ellipsen mit dem Zentrum µ. Die

Halbachsenlangen sind√

dλi, wobei λi die Eigenwerte von Σ sind.

Beispiel 2.11. Korpergroße und Gewicht (Fortsetzung von Beispiel 1.2)

Die Daten stammen aus einer bivariaten Normalverteilung mit µ =

(175, 77)′ und Σ =

20 10

10 9

.

Mit etwas Phantasie erkennt man die elliptische Struktur der Punkte-

wolke im Streudiagramm der Daten:

Koerpergroesse

Koe

rper

gew

icht

160 165 170 175 180 185 190

6065

7075

8085

90

Satz 2.12. Seien X1 und X2 k- bzw. d− k-variate ZVen mit X1

X2

∼ Nd

µ1

µ2

,

Σ11 Σ12

Σ21 Σ22

Dann gilt:

27

• X2 ∼ Nk(µ2, Σ22),

• Die bedingte Verteilung von X2 gegeben X1 = x1 ist

X2

∣∣∣X1=x1

∼ Nd−k(µ2 + Σ21Σ−1

11 (x1− µ1), Σ22·1)

,

wobei Σ22·1 = Σ22− Σ21Σ−111 Σ12.

Satz 2.12 sagt insbesondere, dass die bedingte Erwartung

E(X2|X1) = µ2 + Σ21Σ−111 (x1− µ1)

linear in X1, und die bedingte Varianz

Var(X2|X1) = Σ22·1

konstant und damit unabhangig von X1 ist. Die beste Approximation von

X2 durch eine Funktion von X1 fallt mit der besten linearen Approximation

BX1 + b von X2 durch X1 zusammen. Der Approximationsfehler ist U =

X2− E(X2|X1) = (X2− µ2) + Σ21Σ−111 (X1− µ1).

Bemerkung 2.13. Es gilt: X1⊥⊥X2− Σ21Σ−111 X1, d. h. hier gilt X1⊥⊥U.

Beispiel 2.14. Sei d = 2 und X1

X2

∼ N2

1

2

,

1 0.6

0.6 2

Dann:

X2 ∼ N(2, 2)

Σ22·1 = 2− 0.6 · 1−1 · 0.6 = 1.64

X2

∣∣∣X1=x1

∼ N(2 + 0.6 · 1−1(x1− 1), 1.64)

= N(1.4 + 0.6x1, 1.64)

28

Definition 2.15. Sei in der Situation von Satz 2.12 d = k + 1. Die marginale

Varianz σdd von Xd kann zerlegt werden in

σdd = σd1Σ−111 σ1d︸︷︷︸

Var[E(Xd|X1)]

+ σdd·1︸︷︷︸E[Var(Xd|X1)]

Man nennt

ρ2d,(1,...,k) =

σd1Σ−111 σ1d

σdd= ρd1P

−111 ρ1d

den quadrierten multiplen Korrelationskoeffizienten zwischen X1 und Xd

(Prozentsatz der durch X1 erklarten Varianz von Xd).

Multiple Korrelation ρd,(1,...,k) =√

ρ2d,(1,...,k): maximale Korrelation zwischen

Xd und einer Linearkombination von X1. Fur k = 1: Betrag der ’gewohnli-

chen’ paarweisen Korrelation.

Satz 2.16. Sei X1 ∼ Nk(µ1, Σ11) und X2|X1 = x1 ∼ Nd−k(Ax1 + b, Θ), wobei

A ∈ R(d−k)×k, b ∈ Rd−k, Θ ∈ R(d−k)×(d−k) positiv definit. Dann: X1

X2

∼ Nd

µ1

Aµ1 + b

,

Σ11 Σ11A′

AΣ11 Θ + AΣ11A′

Beispiel 2.17. Sei X1 ∼ N(0, 1) und X2

X3

∣∣∣∣∣X1=x1

∼ N2

2x1

x1 + 1

,

1 0

0 1

(d. h. X2 und X3 sind gegeben X1 bedingt unabhangig). Dann:

A =

2

1

, b =

0

1

, Θ =

1 0

0 1

, Σ11 = 1

⇒ Θ + AΣ11A′ =

1 0

0 1

+

2

1

· 1 · ( 2 1)

=

5 2

2 2

29

⇒

X1

X2

X3

∼ N3

0

0

1

,

1 2 1

2 5 2

1 2 2

hat Korrelationsmatrix

P =

1 0.89 0.71

0.89 1 0.63

0.71 0.63 1

Quadrierte multiple Korrelation zwischen X3 und (X1, X2):

ρ23,(1,2) =

σ3,(1,2)Σ−1(1,2),(1,2)σ(1,2),3

σ33=

12

(1 2

)1 2

2 5

−11

2

= 0.5

Bemerkung 2.18. Singulare (entartete, nicht regulare) Normalverteilung

Sei µ ∈ Rd und Σ ∈ Rd×d nicht-negativ definit mit Rang k < d. Nach 1.30

konnen wir Σ schreiben als

Σ = AΛA′,

wobei Λ = diag(λ1, . . . , λk) die k positiven Eigenwerte von Σ und A ∈ Rd×k

die zugehorigen Eigenvektoren enthalt (d. h. A ist Spalten-orthogonal).

Falls Y ∼ Nk(0, Λ) und X ∼ AY + µ, so heißt der ZVektor X (entartet) nor-

malverteilt mit Erwartungswert µ und Kovarianzmatrix Σ (X ∼ Nd(µ, Σ)).

Die singulare NV entsteht somit durch affine Transformation einer k-variaten

regularen Normalverteilung. X liegt fast sicher auf der k-dimensionalen

Hyperebene N′(x− µ) = 0, wobei N ∈ Rd×(d−k), N′A = 0 und N′N = Id−k.

Satz 2.19. X ist genau dann d-variat normalverteilt, wenn a′X univariat

normalverteilt ist fur alle a ∈ Rd.

30

2.2 Verwandte Verteilungen

Definition 2.20. Seien X1, . . . , Xd unabhangig und standardnormalverteilt.

Die Verteilung von Y = ∑di=1 X2

i heißt χ2-Verteilung mit d Freiheitsgraden.

(Y ∼ χ2d).

Korollar 2.21. Ist X ∼ Nd(µ, Σ), Σ positiv definit, so gilt

(X− µ)′Σ−1(X− µ) ∼ χ2d.

Definition 2.22. Sei X ∼ Nd(0, Σ) und X = (X1, . . . , Xn)′ eine (n × d)-

Datenmatrix unabhangiger Wiederholungen von X. Dann hat X′X eine

Wishart-Verteilung mit n Freiheitsgraden und Parameter Σ,

X′X =n

∑i=1

XiX′i ∼Wd(Σ, n)

Satz 2.23.

a) FurM∼Wd(Σ, n) gilt: E(M) = nΣ.

b) Fur d = 1 und X ∼ N(0, σ2): X′X ∼W(σ2, n) = σ2χ2n

c) SeiM∼Wd(Σ, n).

• Fur B ∈ Rk×d gilt: BMB′ ∼Wk(BΣB′, n),

speziell Σ−1/2M(Σ−1/2)′ ∼Wd(Id, n).

• Fur b ∈ Rd mit b′Mb 6= 0 gilt: b′Mbb′Σb

∼ χ2n.

d) FurMi ∼Wd(Σ, ni) unabhangig, i = 1, . . . , k: ∑ki=1Mi ∼Wd(Σ, ∑k

i=1 nk).

Fur Testprobleme benotigen wir Hotelling’s T2-Verteilung.

Definition 2.24. Seien X ∼ Nd(0, I) und M ∼ Wd(I , n) unabhangig von-

einander. Dann folgt nX′M−1X Hotelling’s T2(d, n)-Verteilung.

Satz 2.25. T2(d, n) =nd

n− d + 1Fd,n−d+1

31

2.3 Asymptotik

Die vier wichtigsten asymptotischen Tools(hier in ihren multivariaten Varianten)

Satz 2.26. ZGWS (CLT)

Sei X1, . . . , Xn, . . . eine Folge unabhangiger, identisch verteilter ZVen mit

Erwartungswert µ und Kovarianzmatrix Σ. Dann

√n(Xn − µ)

d−→ Nd(0, Σ)

Satz 2.27. CMT

Seien X, X1, . . . , Xn, . . . ZVen in Rd mit Xnd−→ X und g : Rd → Rk stetig.

Dann: g(Xn)d−→ g(X).

Anmerkung: Es genugt, dass g PX-fast sicher stetig ist. Die Aussage bleibt

wahr, wenn d−→ durchp−→ oder a.s.−→ ersetzt wird.

Satz 2.28. Lemma von Slutsky

Falls Xnd−→ X und An

p−→ A, bnp−→ b, wobei A ∈ Rk×d, b ∈ Rk. Dann:

AXn + bnd−→ AX + b.

Satz 2.29. (∆-Methode)

Falls√

n(Xn − µ)d−→ Z und g : Rd → Rk differenzierbar in µ, dann

√n(g(Xn)− g(µ)) d−→ Dg(µ)Z,

wobei Dg(µ) =(∂gi(t)/∂tj

)i,j

∣∣∣t=µ

die (k × d)-Matrix der partiellen Ablei-

tungen von g ausgewertet an der Stelle µ ist.

Falls Z ∼ Nd(0, Σ), dann√

n(g(Xn)− g(µ)) d−→ Nk(0,Dg(µ)Σ(Dg(µ))′).

32

Ein paar Anwendunden und Beispiele

Beispiel 2.30. Sei X1, X2, . . . eine unabhangige Folge von Paaren un-

abhangiger Bin(1, π1) und Bin(1, π2)-verteilter ZVen. Es gilt

√n

X1

X2

− π1

π2

d−→ N2

0 ,

π1(1− π1) 0

0 π2(1− π2)

Bemerkung 2.31. Seien X1, . . . , Xn, . . . unabhangig und identisch verteilt

mit Erwartungswert µ und Kovarianzmatrix Σ. Dann

•√

n(Xn − µ)d−→ Nd(0, Σ) (ZGWS),

•√

nΣ−1/2(Xn − µ)d−→ Nd(0, Id) (CMT),

•√

nΣ−1/2(Xn − µ)d−→ Nd(0, Id) (Slutsky),

• n(Xn − µ)′Σ−1(Xn − µ)d−→ χ2

d (CMT).

Was ist aber, wenn wir nicht µ, sondern g(µ) schatzen wollen?

Beispiel 2.32. Wir wollen fur A symmetrisch und nicht-negativ definit

die quadratischen Kosten g(µ) = µ′Aµ schatzen. Mit D(µ) = 2µ′A gilt

√n(

X′nAXn − µ′Aµ

)d−→ N(0, 4µ′AΣAµ)

Bemerkung 2.33. Fishers Z-Transformation

Sei (X1, X2) bivariat normal mit Cor(X1, X2) = ρ. Fur die empirische Kor-

relation ρ gilt (fuer iid Daten):

√n(ρ− ρ)

d−→ N(0, (1− ρ2)2)

33

Die Approximation durch die Normalverteilung ist hier fur n klein und |ρ|groß schlecht. Fur Fishers Z-Transformation

z = f (ρ) =12

log(

1 + ρ

1− ρ

)gilt

√n( f (ρ)− f (ρ)) d−→ N(0, 1)

Diese Approximation ist wesentlich besser (liefert z. B. bessere asympoti-

sche KI’e). Eine noch besser Approximation erhalt man fur

√n− 3

(f (ρ)− f (ρ)− ρ

2(n− 1)

)Fishers Z-Transformation ist die Inverse der Tangens-Hyperbolicus Funk-

tion, z = tanh−1(ρ) oder ρ = (e2z − 1)/(e2z + 1).

−3 −2 −1 0 1 2 3

0.0

0.2

0.4

0.6

0.8

1.0

−3 −2 −1 0 1 2 3

0.0

0.2

0.4

0.6

0.8

1.0

Fur n = 8 und ρ = 0.9 Verteilungsfunktionen von√

n(ρ − ρ)/(1 − ρ2)

(links) und√

n− 3(

f (ρ)− f (ρ)− ρ2(n−1)

)(rechts) im Vergleich zur Ver-

teilungsfunktion der Limes-Verteilung N(0, 1). (Empirisch bestimmt, 5000

Wdh.)

34