2 Multivariate Normalverteilung
2.1 Multivariate Normalverteilung
Definition 2.1. Normalverteilung
• Eine univariat normalverteilte Zufallsvariable X besitzt die Dichte
f (x) =1√
2π σexp
(−(x− µ)2
2σ2
)x ∈ R.
Die Parameter µ ∈ R und σ2 > 0 geben den Erwartungswert bzw. die
Varianz von X an (σ ist die Standardabweichung).
• Eine regulare (nicht entartete, nicht singulare) d-variat normalverteilte
Zufallsvariable X besitzt die Dichte
f (x) = f (x1, . . . , xd) =1
(2π)d/2(det(Σ))1/2 exp(−1
2(x− µ)′Σ−1(x− µ)
)fur x ∈ Rd. Dabei ist µ ∈ Rd der Erwartungswertvektor und Σ ∈ Rd×d,
positiv definit und symmetrisch, die Kovarianzmatrix von X. (‘det’
bezeichnet die Determinante einer Matrix.)
Notation 2.2. Fur X bzw. X normalverteilt schreiben wir kurz X ∼ N(µ, σ2)
bzw. X ∼ Nd(µ, Σ).
Die Normalverteilung eignet sich zur Modellierung von Merkmalen, die
durch das Zusammenwirken vieler Zufallseinflusse entstehen, biologische
Variabilitat (Korpergroße, IQ, . . .), Messfehler, Abweichungen vom Soll-
wert (z. B. Schweizer Banknoten), etc.
Definition 2.3. Standardnormalverteilung
• Die univariate Normalverteilung mit µ = 0 und σ2 = 1 heißt (univa-
riate) Standardnormalverteilung.
• Nd(0, Id) heißt (multivariate) Standardnormalverteilung.
22
Satz 2.4. Die Komponenten einer multivariaten Standardnormalverteilung
sind unabhangig und identisch N(0, 1)-verteilt.
Satz 2.5. Eigenschaften der Normalverteilung
a) Ein d-variat normalverteilter Zufallsvektor besteht aus d univariat nor-
malverteilten Zufallsvariablen. Genauer:
• sind X1, . . . , Xd unabhangige und identisch N(µ, σ2)-verteilte Zu-
fallsvariablen, dann ist X = (X1, . . . , Xd)′ ∼ Nd(µ, Σ) mit µ = (µ, . . . , µ)T
und Σ = σ2 · Id.
• ist X = (X1, . . . , Xd)′ ∼ Nd(µ, Σ), dann ist jeder Teilvektor von X
wieder multivariat normalverteilt; insbesondere ist jede einzelne
Komponente Xi von X univariat normalverteilt.
b) Affin lineare Transformationen erhalten eine Normalverteilung:
Fur X ∼ Nd(µ, Σ), A ∈ Rk×d, b ∈ Rk gilt
Y = AX + b ∼ Nk(Aµ + b, AΣA′)
Die Aussage gilt fur beliebige Matrizen A, die Verteilung von Y ist
moglicherweise eine entartete Normalverteilung (vgl. 2.18). Hat A (und
ebenso Σ) vollen Zeilenrang, so ist Y regular normalverteilt.
c) Seien X1 und X2 k- bzw. d− k-variate ZVen mit X1
X2
∼ Nd
µ1
µ2
,
Σ11 Σ12
Σ21 Σ22
X1 und X2 sind unabhangig genau dann, wenn Σ12 = 0.
23
28. 10. 2013
5. Vorlesung
Korollar 2.6. Sei X ∼ Nd(µ, Σ).
a) Mahalanobis-Transformation
Es gilt: Y = Σ−1/2(X− µ) ∼ Nd(0, Id).
Umgekehrt gilt fur Y ∼ Nd(0, Id), dass Σ1/2Y + µ ∼ Nd(µ, Σ).
b) AX und BX sind unabhangig genau dann, wenn AΣB′ = 0.
Bemerkung 2.7. Aus “X1, . . . , Xd sind univariat normalverteilt” folgt im
Allgemeinen nicht “(X1, . . . , Xd) ist multivariat normalverteilt”! Die eindi-
mensionalen Randverteilungen legen die gemeinsame Verteilung des Zu-
fallsvektors nicht eindeutig fest. Bsp: Der ZVektor (X1, X2) mit der Dichte
f (x1, x2) =1π
exp(−1
2(x2
1 + x22)
)1{x1x2≥0}
hat normalverteilte Komponenten, ist aber nicht normalverteilt.
24
Beispiel 2.8. Dichte der bivariaten Standardnormalverteilung:
-3
-2
-1
0
1
23
x1
-3
-2
-1
0
1
2
3
x2
00.
050.
10.
150.
2f(x
1,x2
)
Konturlinien (Hohenlinien):
x1
x2
-3 -2 -1 0 1 2 3
-3-2
-10
12
3
25
Beispiel 2.9. Dichte der 2d-NV mit µ = (0, 0)′ und Σ =
2 0
0 10
:
-5
0
5
x1-5
0
5
x2
00.
010.
020.
030.
04f(x
1,x2
)
Konturlinien dieser Dichte:
x1
x2
-5 0 5
-50
5
26
Satz 2.10. Die Graphen der Konturlinien sind von der Form
{x : (x− µ)′Σ−1(x− µ) = d}
fur d > 0, d. h. die Konturlinien sind Ellipsen mit dem Zentrum µ. Die
Halbachsenlangen sind√
dλi, wobei λi die Eigenwerte von Σ sind.
Beispiel 2.11. Korpergroße und Gewicht (Fortsetzung von Beispiel 1.2)
Die Daten stammen aus einer bivariaten Normalverteilung mit µ =
(175, 77)′ und Σ =
20 10
10 9
.
Mit etwas Phantasie erkennt man die elliptische Struktur der Punkte-
wolke im Streudiagramm der Daten:
Koerpergroesse
Koe
rper
gew
icht
160 165 170 175 180 185 190
6065
7075
8085
90
Satz 2.12. Seien X1 und X2 k- bzw. d− k-variate ZVen mit X1
X2
∼ Nd
µ1
µ2
,
Σ11 Σ12
Σ21 Σ22
Dann gilt:
27
• X2 ∼ Nk(µ2, Σ22),
• Die bedingte Verteilung von X2 gegeben X1 = x1 ist
X2
∣∣∣X1=x1
∼ Nd−k(µ2 + Σ21Σ−1
11 (x1− µ1), Σ22·1)
,
wobei Σ22·1 = Σ22− Σ21Σ−111 Σ12.
Satz 2.12 sagt insbesondere, dass die bedingte Erwartung
E(X2|X1) = µ2 + Σ21Σ−111 (x1− µ1)
linear in X1, und die bedingte Varianz
Var(X2|X1) = Σ22·1
konstant und damit unabhangig von X1 ist. Die beste Approximation von
X2 durch eine Funktion von X1 fallt mit der besten linearen Approximation
BX1 + b von X2 durch X1 zusammen. Der Approximationsfehler ist U =
X2− E(X2|X1) = (X2− µ2) + Σ21Σ−111 (X1− µ1).
Bemerkung 2.13. Es gilt: X1⊥⊥X2− Σ21Σ−111 X1, d. h. hier gilt X1⊥⊥U.
Beispiel 2.14. Sei d = 2 und X1
X2
∼ N2
1
2
,
1 0.6
0.6 2
Dann:
X2 ∼ N(2, 2)
Σ22·1 = 2− 0.6 · 1−1 · 0.6 = 1.64
X2
∣∣∣X1=x1
∼ N(2 + 0.6 · 1−1(x1− 1), 1.64)
= N(1.4 + 0.6x1, 1.64)
28
Definition 2.15. Sei in der Situation von Satz 2.12 d = k + 1. Die marginale
Varianz σdd von Xd kann zerlegt werden in
σdd = σd1Σ−111 σ1d︸ ︷︷ ︸
Var[E(Xd|X1)]
+ σdd·1︸︷︷︸E[Var(Xd|X1)]
Man nennt
ρ2d,(1,...,k) =
σd1Σ−111 σ1d
σdd= ρd1P
−111 ρ1d
den quadrierten multiplen Korrelationskoeffizienten zwischen X1 und Xd
(Prozentsatz der durch X1 erklarten Varianz von Xd).
Multiple Korrelation ρd,(1,...,k) =√
ρ2d,(1,...,k): maximale Korrelation zwischen
Xd und einer Linearkombination von X1. Fur k = 1: Betrag der ’gewohnli-
chen’ paarweisen Korrelation.
Satz 2.16. Sei X1 ∼ Nk(µ1, Σ11) und X2|X1 = x1 ∼ Nd−k(Ax1 + b, Θ), wobei
A ∈ R(d−k)×k, b ∈ Rd−k, Θ ∈ R(d−k)×(d−k) positiv definit. Dann: X1
X2
∼ Nd
µ1
Aµ1 + b
,
Σ11 Σ11A′
AΣ11 Θ + AΣ11A′
Beispiel 2.17. Sei X1 ∼ N(0, 1) und X2
X3
∣∣∣∣∣X1=x1
∼ N2
2x1
x1 + 1
,
1 0
0 1
(d. h. X2 und X3 sind gegeben X1 bedingt unabhangig). Dann:
A =
2
1
, b =
0
1
, Θ =
1 0
0 1
, Σ11 = 1
⇒ Θ + AΣ11A′ =
1 0
0 1
+
2
1
· 1 · ( 2 1)
=
5 2
2 2
29
⇒
X1
X2
X3
∼ N3
0
0
1
,
1 2 1
2 5 2
1 2 2
hat Korrelationsmatrix
P =
1 0.89 0.71
0.89 1 0.63
0.71 0.63 1
Quadrierte multiple Korrelation zwischen X3 und (X1, X2):
ρ23,(1,2) =
σ3,(1,2)Σ−1(1,2),(1,2)σ(1,2),3
σ33=
12
(1 2
)1 2
2 5
−11
2
= 0.5
Bemerkung 2.18. Singulare (entartete, nicht regulare) Normalverteilung
Sei µ ∈ Rd und Σ ∈ Rd×d nicht-negativ definit mit Rang k < d. Nach 1.30
konnen wir Σ schreiben als
Σ = AΛA′,
wobei Λ = diag(λ1, . . . , λk) die k positiven Eigenwerte von Σ und A ∈ Rd×k
die zugehorigen Eigenvektoren enthalt (d. h. A ist Spalten-orthogonal).
Falls Y ∼ Nk(0, Λ) und X ∼ AY + µ, so heißt der ZVektor X (entartet) nor-
malverteilt mit Erwartungswert µ und Kovarianzmatrix Σ (X ∼ Nd(µ, Σ)).
Die singulare NV entsteht somit durch affine Transformation einer k-variaten
regularen Normalverteilung. X liegt fast sicher auf der k-dimensionalen
Hyperebene N′(x− µ) = 0, wobei N ∈ Rd×(d−k), N′A = 0 und N′N = Id−k.
Satz 2.19. X ist genau dann d-variat normalverteilt, wenn a′X univariat
normalverteilt ist fur alle a ∈ Rd.
30
2.2 Verwandte Verteilungen
Definition 2.20. Seien X1, . . . , Xd unabhangig und standardnormalverteilt.
Die Verteilung von Y = ∑di=1 X2
i heißt χ2-Verteilung mit d Freiheitsgraden.
(Y ∼ χ2d).
Korollar 2.21. Ist X ∼ Nd(µ, Σ), Σ positiv definit, so gilt
(X− µ)′Σ−1(X− µ) ∼ χ2d.
Definition 2.22. Sei X ∼ Nd(0, Σ) und X = (X1, . . . , Xn)′ eine (n × d)-
Datenmatrix unabhangiger Wiederholungen von X. Dann hat X′X eine
Wishart-Verteilung mit n Freiheitsgraden und Parameter Σ,
X′X =n
∑i=1
XiX′i ∼Wd(Σ, n)
Satz 2.23.
a) FurM∼Wd(Σ, n) gilt: E(M) = nΣ.
b) Fur d = 1 und X ∼ N(0, σ2): X′X ∼W(σ2, n) = σ2χ2n
c) SeiM∼Wd(Σ, n).
• Fur B ∈ Rk×d gilt: BMB′ ∼Wk(BΣB′, n),
speziell Σ−1/2M(Σ−1/2)′ ∼Wd(Id, n).
• Fur b ∈ Rd mit b′Mb 6= 0 gilt: b′Mbb′Σb
∼ χ2n.
d) FurMi ∼Wd(Σ, ni) unabhangig, i = 1, . . . , k: ∑ki=1Mi ∼Wd(Σ, ∑k
i=1 nk).
Fur Testprobleme benotigen wir Hotelling’s T2-Verteilung.
Definition 2.24. Seien X ∼ Nd(0, I) und M ∼ Wd(I , n) unabhangig von-
einander. Dann folgt nX′M−1X Hotelling’s T2(d, n)-Verteilung.
Satz 2.25. T2(d, n) =nd
n− d + 1Fd,n−d+1
31
2.3 Asymptotik
Die vier wichtigsten asymptotischen Tools(hier in ihren multivariaten Varianten)
Satz 2.26. ZGWS (CLT)
Sei X1, . . . , Xn, . . . eine Folge unabhangiger, identisch verteilter ZVen mit
Erwartungswert µ und Kovarianzmatrix Σ. Dann
√n(Xn − µ)
d−→ Nd(0, Σ)
Satz 2.27. CMT
Seien X, X1, . . . , Xn, . . . ZVen in Rd mit Xnd−→ X und g : Rd → Rk stetig.
Dann: g(Xn)d−→ g(X).
Anmerkung: Es genugt, dass g PX-fast sicher stetig ist. Die Aussage bleibt
wahr, wenn d−→ durchp−→ oder a.s.−→ ersetzt wird.
Satz 2.28. Lemma von Slutsky
Falls Xnd−→ X und An
p−→ A, bnp−→ b, wobei A ∈ Rk×d, b ∈ Rk. Dann:
AXn + bnd−→ AX + b.
Satz 2.29. (∆-Methode)
Falls√
n(Xn − µ)d−→ Z und g : Rd → Rk differenzierbar in µ, dann
√n(g(Xn)− g(µ)) d−→ Dg(µ)Z,
wobei Dg(µ) =(∂gi(t)/∂tj
)i,j
∣∣∣t=µ
die (k × d)-Matrix der partiellen Ablei-
tungen von g ausgewertet an der Stelle µ ist.
Falls Z ∼ Nd(0, Σ), dann√
n(g(Xn)− g(µ)) d−→ Nk(0,Dg(µ)Σ(Dg(µ))′).
32
Ein paar Anwendunden und Beispiele
Beispiel 2.30. Sei X1, X2, . . . eine unabhangige Folge von Paaren un-
abhangiger Bin(1, π1) und Bin(1, π2)-verteilter ZVen. Es gilt
√n
X1
X2
− π1
π2
d−→ N2
0 ,
π1(1− π1) 0
0 π2(1− π2)
Bemerkung 2.31. Seien X1, . . . , Xn, . . . unabhangig und identisch verteilt
mit Erwartungswert µ und Kovarianzmatrix Σ. Dann
•√
n(Xn − µ)d−→ Nd(0, Σ) (ZGWS),
•√
nΣ−1/2(Xn − µ)d−→ Nd(0, Id) (CMT),
•√
nΣ−1/2(Xn − µ)d−→ Nd(0, Id) (Slutsky),
• n(Xn − µ)′Σ−1(Xn − µ)d−→ χ2
d (CMT).
Was ist aber, wenn wir nicht µ, sondern g(µ) schatzen wollen?
Beispiel 2.32. Wir wollen fur A symmetrisch und nicht-negativ definit
die quadratischen Kosten g(µ) = µ′Aµ schatzen. Mit D(µ) = 2µ′A gilt
√n(
X′nAXn − µ′Aµ
)d−→ N(0, 4µ′AΣAµ)
Bemerkung 2.33. Fishers Z-Transformation
Sei (X1, X2) bivariat normal mit Cor(X1, X2) = ρ. Fur die empirische Kor-
relation ρ gilt (fuer iid Daten):
√n(ρ− ρ)
d−→ N(0, (1− ρ2)2)
33
Die Approximation durch die Normalverteilung ist hier fur n klein und |ρ|groß schlecht. Fur Fishers Z-Transformation
z = f (ρ) =12
log(
1 + ρ
1− ρ
)gilt
√n( f (ρ)− f (ρ)) d−→ N(0, 1)
Diese Approximation ist wesentlich besser (liefert z. B. bessere asympoti-
sche KI’e). Eine noch besser Approximation erhalt man fur
√n− 3
(f (ρ)− f (ρ)− ρ
2(n− 1)
)Fishers Z-Transformation ist die Inverse der Tangens-Hyperbolicus Funk-
tion, z = tanh−1(ρ) oder ρ = (e2z − 1)/(e2z + 1).
−3 −2 −1 0 1 2 3
0.0
0.2
0.4
0.6
0.8
1.0
−3 −2 −1 0 1 2 3
0.0
0.2
0.4
0.6
0.8
1.0
Fur n = 8 und ρ = 0.9 Verteilungsfunktionen von√
n(ρ − ρ)/(1 − ρ2)
(links) und√
n− 3(
f (ρ)− f (ρ)− ρ2(n−1)
)(rechts) im Vergleich zur Ver-
teilungsfunktion der Limes-Verteilung N(0, 1). (Empirisch bestimmt, 5000
Wdh.)
34
Top Related