Folien zur Vorlesung Fortgeschrittene Statistik · Inhalt 1 Einleitung 1.1 Organisatorisches 1.2...
-
Upload
nguyenkiet -
Category
Documents
-
view
222 -
download
1
Transcript of Folien zur Vorlesung Fortgeschrittene Statistik · Inhalt 1 Einleitung 1.1 Organisatorisches 1.2...
Folien zur Vorlesung
Fortgeschrittene Statistik
Termin: Wintersemester 2012/2013Montag 10.00 – 11.30 Uhr, Horsaal: J 2
Dienstag 10.00 – 11.30 Uhr, Horsaal: CAWM 1Zeitraum: 08.10.2012 – 20.11.2012
Prof. Dr. Bernd Wilfling
Westfalische Wilhelms-Universitat Munster
Inhalt
1 Einleitung1.1 Organisatorisches1.2 Warum ’Fortgeschrittene Statistik’?
2 Zufallsvariable, Verteilungsfunktion, Erwartungswert,momentenerzeugende Funktion
2.1 Grundlegende Begriffe
2.2 Zufallsvariable, Verteilungs- und Dichtefunktion2.3 Erwartungswerte, Momente und momentenerzeugende Funktionen2.4 Spezielle Verteilungen
3 Gemeinsame und bedingte Verteilung, stochastische Unabhangigkeit3.1 Gemeinsame Verteilung und Randverteilung3.2 Bedingte Verteilung und stochastische Unabhangigkeit
3.3 Erwartungswerte und gemeinsame momentenerzeugende Funktionen
3.4 Die multivariate Normalverteilung
4 Verteilungen von Funktionen von Zufallsvariablen4.1 Erwartungswerte von Funktionen von Zufallsvariablen4.2 Die Verteilungsfunktions-Methode
4.3 Die Methode der momentenerzeugenden Funktionen4.4 Allgemeine Transformationssatze
5 Statistische Schatztheorie5.1 Stichproben, Schatzer, Grenzwertsatze5.2 Eigenschaften von Schatzern
5.3 Schatzmethoden5.3.1 Kleinste-Quadrate-Methode
5.3.2 Momenten-Methode5.3.3 Maximum-Likelihood-Methode
6 Statistische Hypothesentests6.1 Grundbegriffe des Testens6.2 Klassische Testverfahren6.2.1 Der Wald-Test
6.2.2 Der Likelihood-Ratio-Test6.2.3 Der Lagrange-Multiplier-Test
i
Literatur
Deutschsprachig:
Mosler, K. und F. Schmid (2011). Wahrscheinlichkeitsrechnung und schließende Statistik
(4. Auflage). Springer Verlag, Heidelberg.
Schira, J. (2012). Statistische Methoden der VWL und BWL – Theorie und Praxis (4. Auf-lage). Pearson Studium, Munchen.
Wilfling, B. (2010). Statistik I. Skript zur Vorlesung Deskriptive Statistik im Win-
tersemester 2010/2011 an der Westfalischen Wilhelms-Universitat Munster.
Wilfling, B. (2011). Statistik II. Skript zur Vorlesung Wahrscheinlichkeitsrechnungund schließende Statistik im Sommersemester 2011 an der WestfalischenWilhelms-Universitat Munster.
Englischsprachig:
Chiang, A. (1984). Fundamental Methods of Mathematical Economics, 3. edition. McGraw-Hill, Singapore.
Feller, W. (1968). An Introduction to Probability Theory and its Applications, Vol. 1. John
Wiley & Sons, New York.
Feller, W. (1971). An Introduction to Probability Theory and its Applications, Vol. 2. JohnWiley & Sons, New York.
Garthwaite, P.H., Jolliffe, I.T. and B. Jones (2002). Statistical Inference, 3. edition. Oxford
University Press, Oxford.
Mood, A.M., Graybill, F.A. and D.C. Boes (1974). Introduction to the Theory of Statistics,3. edition. McGraw-Hill, Tokyo.
ii
1. Einleitung
1.1 Organisatorisches
Ziel der Vorlesung:
• Vertiefung der
– Wahrscheinlichkeitsrechnung
– schließenden Statistik(aufbauend auf der Bachelor-VL)
• Vorbereitung auf Okonometrie, EmpWifo
1
Internet-Seite der Vorlesung:
• http://www1.wiwi.uni-muenster.de/oeew/
−→ Studium −→ Veranstaltungen im Wintersemester 2012/2013
−→ Bachelor −→ Advanced Statistics
Vorlesungsstil:
• Freier Vortrag anhand von Projektor-Folien
• Folien als PDF-Dateien auf der Internetseite
Literatur:
• Siehe Inhaltsverzeichnis
2
Klausurvorbereitung:
• Stoff der Vorlesung
• Aufgaben der Ubung(Do, 10.00 – 11.30 Uhr [Horsaal: CAWM 1] undDo, 14.00 – 15.30 Uhr [Horsaal: J 2])Zeitraum: 11.10.2012 – 22.11.2012)
Zugelassene Hilfsmittel in der Klausur:
• Taschenrechner (nicht programmierbar)
• VL-Foliensatz (sauber)
• Keine Lehrbucher
3
Ansprechpartner:
• Diplom-Physiker Robert Hahn(Adressen und Nummern: siehe Internet-Seite)
4
1.2 Warum ’Fortgeschrittene Statistik’?
Inhalt der Bachelor-VL WRUSS:
• Zufallsvorgange, Ereignisse, Wahrscheinlichkeiten
• Zufallsvariablen und Verteilungen
• Stichproben und Statistiken
• Schatzverfahren fur Parameter
• Hypothesentests
Ziel der Bachelor-VL WRUSS:
• Grundlegendes Verstandnis der Konzepte Stichprobe, Schat-zer, Hypothesentests
5
Jetzt:
• Veranstaltung Fortgeschrittene Statistik oder WRUMS(Wahrscheinlichkeitsrechnung und mathematische Statistik)
Ziel der VL:
• Vertiefendes Verstandnis der Verteilungstheorie
• Wie findet man gute Schatzer ?
• Wie konstruiert man gute Hypothesentests ?
6
Voraussetzungen fur die VL:
• Bachelor-VeranstaltungenMathematikDeskriptive Statistik (Statistik I)WRUSS (Statistik II)
• Die Foliensatze zu Bachelor-Vorlesungen Deskriptive Sta-tistik und WRUSS stehen zum Download zur Verfugung(vgl. Literaturverzeichnis)
Weiterfuhrende Veranstaltungen:
• Alle Veranstaltungen des Schwerpunktes Okonometrie undEmpirische Wirtschaftsforschung(Okonometrie I+II, Empirische Wirtschaftsforschung, ...)
7
2. Zufallsvariable, Verteilungsfunktion, Erwartungs-wert, momentenerzeugende Funktion
Ziel des Kapitels:
• Mathematische Prazisierung der Konzepte
Zufallsvariable
Verteilungsfunktion
Dichtefunktion
Erwartungswerte und Momente
Momentenerzeugende Funktion
8
Dazu zunachst:
• Wiederholung der Begriffe
Zufallsvorgang
Ergebnis und Ergebnismenge
Ereignis
Wahrscheinlichkeit
(vgl. Wilfling (2011), Kapitel 2)
9
2.1 Grundlegende Begriffe
Definition 2.1: (Zufallsvorgang, Zufallsexperiment)
Unter einem Zufallsvorgang verstehen wir einen Vorgang, beidem
(a) im Voraus feststeht, welche moglichen Ausgange dieser the-oretisch haben kann,
(b) der sich einstellende, tatsachliche Ausgang im Voraus jedochunbekannt ist.
Zufallsvorgange, die geplant sind und kontrolliert ablaufen, heißenZufallsexperimente.
10
Beispiele fur Zufallsexperimente:
• Ziehung der Lottozahlen
• Roulette, Munzwurf, Wurfelwurf
• ’Technische Versuche’(Hartetest von Stahlproben etc.)
In der VWL:
• Oft keine Zufallsexperimente(historische Daten, Bedingungen nicht kontrollierbar)
• Moderne VWL-Disziplin: Experimentelle Okonomik
11
Definition 2.2: (Ergebnis, Ergebnismenge)
Die Menge aller moglichen Ausgange eines Zufallsvorgangs heißtErgebnismenge und wird mit Ω bezeichnet. Ein einzelnes Ele-ment ω ∈ Ω heißt Ergebnis.
Beispiele:• Zufallsvorgang ’Werfen eines Wurfels’:
Ω = 1,2,3,4,5,6• Zufallsvorgang ’Werfen einer Munze solange, bis Kopf er-
scheint’:
Ω = K,ZK,ZZK,ZZZK,ZZZZK, . . .• Zufallsvorgang ’Bestimmung des morgigen Wechselkurses
zwischen Euro und US-$’:
Ω = [0,∞)
12
Offensichtlich:
• Die Anzahl der Elemente von Ω kann endlich, abzahlbar un-endlich oder nicht abzahlbar unendlich sein
Jetzt:
• Mengentheoretische Definition des Begriffes ’Ereignis’
Definition 2.3: (Ereignis)
Unter einem Ereignis verstehen wir eine Zusammenfassung vonErgebnissen eines Zufallsvorgangs, d.h. ein Ereignis ist eineTeilmenge der Ergebnismenge Ω. Man sagt ’Das Ereignis Atritt ein’, wenn der Zufallsvorgang ein ω ∈ A als Ergebnis hat.
13
Bemerkungen:
• Notation von Ereignissen: A, B, C, . . . oder A1, A2, . . .
• A = Ω heißt das sichere Ereignis(denn fur jedes Ergebnis ω gilt: ω ∈ A)
• A = ∅ (leere Menge) heißt das unmogliche Ereignis(denn fur jedes ω gilt: ω /∈ A)
• Falls das Ereignis A eine Teilmenge des Ereignisses B ist(A ⊂ B), so sagt man: ’Das Eintreten von A impliziert dasEintreten von B’(denn fur jedes ω ∈ A folgt ω ∈ B)
Offensichtlich:
• Ereignisse sind Mengen−→ Anwendung von Mengenoperationen auf Ereignisse
14
Ereignisverknupfungen (Mengenoperationen):
• Durchschnittsereignis (-menge):n⋂
i=1Ai tritt ein, wenn alle Ai eintreten
• Vereinigungsereignis (-menge):n⋃
i=1Ai tritt ein, wenn mindestens ein Ai eintritt
• Differenzereignis (-menge):C = A\B tritt ein, wenn A eintritt, aber B nicht
• Komplementarereignis:C = Ω\A ≡ A tritt ein, wenn A nicht eintritt
• Die Ereignisse A und B heißen unvereinbar oder disjunkt,wenn A ∩B = ∅(beide Ereignisse konnen nicht gleichzeitig eintreten)
15
Jetzt:
• Jedem Ereignis A soll eine Zahl P (A) zugeordnet werden,welche die Wahrscheinlichkeit fur das Eintreten von A repra-sentiert
• Formal:
P : A −→ P (A)
Frage:
• Welche Eigenschaften sollte die Zuordnung (Mengenfunk-tion) P besitzen?
16
Definition 2.4: (Kolmogorov’sche Axiome)
Die folgenden 3 Mindestanforderungen an P werden als Kol-mogorov’sche Axiome bezeichnet:
• Nichtnegativitat: Fur alle A soll gelten: P (A) ≥ 0
• Normierung: P (Ω) = 1
• Additivitat: Fur zwei disjunkte Ereignisse A und B (d.h. furA ∩B = ∅) soll gelten:
P (A ∪B) = P (A) + P (B)
17
Es ist leicht zu zeigen:• Die 3 Kolmogorov’schen Axiome implizieren bestimmte Eigen-
schaften und Rechenregeln fur Wahrscheinlichkeiten
Satz 2.5: (Eigenschaften von Wahrscheinlichkeiten)
Aus den Kolmogorov’schen Axiomen ergeben sich folgende Eigen-schaften fur die Wahrscheinlichkeit beliebiger Ereignisse:• Wahrscheinlichkeit des Komplimentarereignisses:
P (A) = 1− P (A)
• Wahrscheinlichkeit des unmoglichen Ereignisses:
P (∅) = 0
• Wertebereich der Wahrscheinlichkeit:
0 ≤ P (A) ≤ 1
18
Weiterhin:
• Allgemeine Rechenregeln fur Wahrscheinlichkeiten, die ausden Kolmogorov’schen Axiomen folgen
Satz 2.6: (Rechenregeln fur Wahrscheinlichkeiten)
Aus den Kolmogorov’schen Axiomen ergeben sich die folgendenRechenregeln fur die Wahrscheinlichkeit von beliebigen Ereignis-sen A, B, C:
• Additionssatz fur Wahrscheinlichkeiten:
P (A ∪B) = P (A) + P (B)− P (A ∩B)
(Wahrscheinlichkeit, dass A oder B eintritt)
19
• Additionssatz fur 3 Ereignisse:
P (A ∪B ∪ C) = P (A) + P (B) + P (C)
−P (A ∩B)− P (B ∩ C)
−P (A ∩ C) + P (A ∩B ∩ C)
(Wahrscheinlichkeit, dass A oder B oder C eintritt)
• Wahrscheinlichkeit des Differenzereignisses:
P (A\B) = P (A ∩B)
= P (A)− P (A ∩B)
20
Man beachte:
• Wenn das Ereignis B das Ereignis A impliziert (d.h.wenn B ⊂ A gilt), dann folgt
P (A\B) = P (A)− P (B)
21
2.2 Zufallsvariable, Verteilungs- und Dichtefkt
Haufige Situation in der Praxis:
• Es interessiert weniger das konkrete Ergebnis ω ∈ Ω einesZufallsexperimentes, sondern eine Zahl, die von ω abhangt
Beispiele:
• Gewinn in Euro im Roulette
• Gewinn einer Aktie an der Borse
• Monatsgehalt einer zufallig ausgewahlten Person
Intuitive Bedeutung einer Zufallsvariablen:
• Vorschrift, die das ’abstrakte’ ω in eine Zahl ubersetzt
22
Definition 2.7: (Zufallsvariable [kurz: ZV])
Unter einer Zufallsvariablen versteht man formal eine (mathema-tische) Funktion
X : Ω −→ Rω −→ X(ω).
Bemerkungen:
• Eine Zufallsvariable ordnet jedem Ergebnis ω ∈ Ω eine reelleZahl zu
• Intuition:Eine Zufallsvariable X charakterisiert eine Zahl, deren Wertman noch nicht kennt
23
• Nach der Durchfuhrung des Zufallsexperimentes realisiert sichdie Zufallsvariable X im Wert x
• x heißt die Realisation oder Realisierung der ZV X nachDurchfuhrung des zugehorigen Zufallsexperimentes
• In dieser VL:Zufallsvariablen werden immer mit Großbuchstaben, Realisa-tionen immer mit Kleinbuchstaben bezeichnet
• Die Zufallsvariable X beschreibt die Situation ex ante, d.h. vorder tatsachlichen Durchfuhrung des Zufallsexperimentes
• Die Realisation x beschreibt die Situation ex post, d.h. nachder Durchfuhrung des Zufallsexperimentes
24
Beispiel 1:
• Betrachte den 1-maligen Munzwurf (Z=Zahl, K=Kopf). DieZV X bezeichne die ’Anzahl der Kopfe’ bei diesem Zufallsex-periment
• Es gilt:
Ω = K, Z
Die ZV X kann 2 Werte annehmen:
X(Z) = 0, X(K) = 1
25
Beispiel 2:
• Betrachte den 3-maligen Munzwurf. Die ZV X bezeichneerneut die ’Anzahl der Kopfe’
• Es gilt:
Ω = (K, K, K)︸ ︷︷ ︸
=ω1
, (K, K, Z)︸ ︷︷ ︸
=ω2
, . . . , (Z, Z, Z)︸ ︷︷ ︸
=ω8
Die Zufallsvariable X ist definiert durch
X(ω) = Anzahl der K in ω
• Offensichtlich:X ordnet verschiedenen ω dieselbe Zahl zu, z.B.
X((K, K, Z)) = X((K, Z, K)) = X((Z, K, K)) = 2
26
Beispiel 3:
• Aus einer Personengruppe wird zufallig 1 Person ausgewahlt.Die ZV X soll den Erwerbsstatus der ausgewahlten Personbezeichnen
• Es gilt:
Ω = ’erwerbstatig’︸ ︷︷ ︸
=ω1
, ’nicht erwerbstatig’︸ ︷︷ ︸
=ω2
• Die ZV X kann codiert werden durch
X(ω1) = 1, X(ω2) = 0
27
Beispiel 4:
• Das Zufallsexperiment bestehe in der Messung des morgigenKurses einer bestimmten Aktie. Die ZV X bezeichne diesenAktienkurs
• Es gilt Ω = [0,∞), d.h. X ist definiert durch
X(ω) = ω
Zwischenfazit:
• Die ZV X kann verschiedene Werte annehmen und zwar mitbestimmten Wskt’en
28
Frage:
• Wie kann man diese Wskt’en bestimmen und mit diesen rech-nen?
Zunachst vereinfachte Schreibweise: (a, b, x ∈ R)
• P (X = a) ≡ P (ω|X(ω) = a)
• P (a < X < b) ≡ P (ω|a < X(ω) < b)
• P (X ≤ x) ≡ P (ω|X(ω) ≤ x)
Losung:
• Die Berechnung solcher Wskt’en kann uber die sogenannteVerteilungsfunktion der ZV’en X erfolgen
29
Intuition:
• Die Verteilungsfunktion der ZV’en X charakterisiert die Wahr-scheinlichkeiten, mit denen sich die potenziellen Realisatio-nen x auf der reellen Zahlenachse verteilen(die sogenannte Verteilung der ZV’en X)
Definition 2.8: (Verteilungsfunktion [kurz: VF])
Gegeben sei die Zufallsvariable X. Unter der Verteilungsfunk-tion der ZV’en X (in Zeichen: FX) versteht man die folgendeAbbildung:
FX : R −→ [0,1]x −→ FX(x) = P (ω|X(ω) ≤ x) = P (X ≤ x).
30
Beispiel:
• Betrachte den 3-fachen Munzwurf. Die ZV X messe die’Anzahl Kopf’.
• Zunachst gilt:
Ω = (K, K, K)︸ ︷︷ ︸
= ω1
, (K, K, Z)︸ ︷︷ ︸
= ω2
, . . . , (Z, Z, Z)︸ ︷︷ ︸
= ω8
• Fur die Wskt’en der ZV X errechnet sich:
P (X = 0) = P ((Z, Z, Z)) = 1/8
P (X = 1) = P ((Z, Z, K), (Z, K, Z), (K, Z, Z)) = 3/8
P (X = 2) = P ((Z, K, K), (K, Z, K), (K, K, Z)) = 3/8
P (X = 3) = P ((K, K, K)) = 1/8
31
• Daraus ergibt sich die VF:
FX(x) =
0.000 furx < 00.125 fur 0 ≤ x < 10.5 fur 1 ≤ x < 2
0.875 fur 2 ≤ x < 31 furx ≥ 3
Bemerkungen:
• Es genugt (fast immer), lediglich die VF FX der ZV X zukennen
• Oft ist es in praxi gar nicht moglich, den Grundraum Ω oderdie explizite Abbildung X : Ω −→ R anzugeben(jedoch kann man meistens die VF FX aus sachlogischenUberlegungen heraus angeben)
32
Allgemeingultige Eigenschaften von FX:
• FX(x) ist monoton wachsend
• Es gilt stets:
limx→−∞
FX(x) = 0 und limx→+∞
FX(x) = 1
• FX ist rechtsseitig stetig, d.h.
limz→xz>x
FX(z) = FX(x)
33
Fazit:
• VF FX(x) der ZV’en X gibt Antwort auf die Frage
’Wie hoch ist die Wahrscheinlichkeit, dass X hochstens denWert x annimmt?’
Jetzt:
• Antwort auf die Frage
’Welchen Wert wird die ZV’e X mit einer vorgegebenenWahrscheinlichkeit p ∈ (0,1) nicht uberschreiten?’
−→ Quantilfunktion der ZV’en X
34
Definition 2.9: (Quantilfunktion)
Gegeben sei die ZV X mit VF FX. Fur jeden reellen Wert p ∈(0,1) versteht man unter der Quantilfunktion von X (in Zeichen:QX(p)) die folgende Abbildung:
QX : (0,1) −→ Rp −→ QX(p) = minx|FX(x) ≥ p.
Der Wert der Quantilfunktion xp = QX(p) heißt p −Quantil derZV’en X.
Bemerkungen:• Das p-Quantil xp ist die kleinste Zahl x ∈ R mit der Eigen-
schaft, dass FX(x) den Wert p erreicht oder uberschreitet
• Interpretiert man p ∈ (0,1) als eine Wahrscheinlichkeit, so istdas p-Quantil xp die kleinste Realisation der ZV’en X, die Xmit Wskt. p nicht uberschreitet
35
Spezielle Quantile:
• Median: p = 0.5
• Quartile: p = 0.25,0.5,0.75
• Quintile: p = 0.2,0.4,0.6,0.8
• Dezile: p = 0.1,0.2, . . . ,0.9
Jetzt:
• Typisierung von ZV’en(diskrete vs. stetige ZV’en)
36
Grund:• Unterschiedliche mathematische Methoden zur Behandlung
von ZV’en
Bei diskreten ZV’en:• Endliche und unendliche Summen
Bei stetigen ZV’en:• Differential- und Integralrechnung
Bemerkungen:• Es gibt auch ZV’en, die gleichzeitig teilweise diskret und teil-
weise stetig sind
• Solche ZV’en werden hier nicht behandelt
37
Definition 2.10: (Diskrete Zufallsvariable)
Die ZV X heißt diskret, wenn sie entweder
(a) nur endlich viele Realisationen x1, x2, . . . , xJ oder
(b) abzahlbar unendlich viele Realisationen x1, x2, . . .
mit streng positiver Wahrscheinlichkeit annehmen kann, d.h. fallsfur alle j = 1, . . . , J, . . . gilt
P (X = xj) > 0 undJ,...∑
j=1P (X = xj) = 1.
38
Typische diskrete Merkmale sind:
• Zahlmerkmale (’X = Anzahl von . . .’)
• Codierte qualitative Merkmale
Weitere Definitionen:
Definition 2.11: (Trager einer diskreten Zufallsvariablen)
Die Menge aller Realisationen, die eine diskrete ZV X mit strengpositiver Wskt. annehmen kann, heißt Trager von X (in Zeichen:TX):
TX = x1, . . . , xJ bzw. TX = x1, x2, . . ..
39
Definition 2.12: (Wahrscheinlichkeitsfunktion)
Fur eine diskrete ZV X heißt die Funktion
fX(x) = P (X = x)
die Wahrscheinlichkeitsfunktion von X.
Bemerkungen:
• Die Wahrscheinlichkeitsfunktion fX der ZV X nimmt nur furdie Elemente des Tragers TX positive Werte an. Fur Werteaußerhalb des Tragers, d.h. fur x /∈ TX, gilt fX(x) = 0:
fX(x) =
P (X = xj) > 0 furx = xj ∈ TX0 furx /∈ TX
40
• Die Wahrscheinlichkeitsfkt. fX hat die Eigenschaften
fX(x) ≥ 0 fur alle x
∑
xj∈TX
fX(xj) = 1
• Fur eine beliebige Menge A ⊂ R berechnet sich die Wskt. desEreignisses ω|X(ω) ∈ A = X ∈ A durch
P (X ∈ A) =∑
xj∈AfX(xj)
41
Beispiel:
• Betrachte 3-fachen Munzwurf und X = ’Anzahl Kopf’(vgl. Folien 31, 32)
• Offensichtlich: X ist diskret mit dem Trager
TX = 0,1,2,3
• Die Wahrscheinlichkeitsfunktion ist gegeben durch
fX(x) =
P (X = 0) = 0.125 furx = 0P (X = 1) = 0.375 furx = 1P (X = 2) = 0.375 furx = 2P (X = 3) = 0.125 furx = 3
0 furx /∈ TX
42
• Die Verteilungsfunktion ist gegeben durch
FX(x) =
0.000 furx < 00.125 fur 0 ≤ x < 10.5 fur 1 ≤ x < 2
0.875 fur 2 ≤ x < 31 furx ≥ 3
Offensichtlich:
• Fur die Verteilungsfunktion gilt
FX(x) = P (X ≤ x) =∑
xj∈TX |xj≤x
=P (X=xj)︷ ︸︸ ︷
fX(xj)
43
Fazit:
• Die VF einer diskreten ZV’en X ist eine Treppenfunktionmit Sprungen an den Stellen xj ∈ TX. Die Sprunghohe ander Stelle xj betragt
FX(xj)− limx→xjx<xj
F (x) = P (X = xj) = fX(xj),
d.h. die Sprunghohe ist der Wert der Wskt.-Funktion(Beziehung: Verteilungs- und Wahrscheinlichkeitsfunktion)
44
Jetzt:
• Definition von stetigen Zufallsvariablen
Intuition:
• Im Gegensatz zu diskreten ZV’en konnen stetige ZV’e uber-abzahlbar viele Realisationen (z.B. jede reelle Zahl in einemIntervall) annehmen
Tatsachlich:
• Definition stetiger ZV’en komplizierter (technischer)
45
Definition 2.13: (Stetige ZV, Dichtefunktion)
Eine ZV X heißt stetig, wenn sich ihre Verteilungsfunktion FXals Integral einer Funktion fX : R −→ [0,∞) schreiben lasst,d.h. wenn
FX(x) =∫ x
−∞fX(t)dt fur alle x ∈ R.
Die Funktion fX(x) heißt Dichtefunktion [kurz: Dichte] von X.
Bemerkungen:
• Die VF FX einer stetigen ZV’en X ist (eine) Stammfunktionder Dichtefunktion fX
• FX(x) = P (X ≤ x) ist gleich dem Flacheninhalt unter derDichtefunktion fX von −∞ bis zur Stelle x
46
Verteilungsfunktion FX und Dichte fX
47
x
fX(t)
P(X ≤ x) = FX(x)
t
Eigenschaften der Dichtefunktion fX:
1. Die Dichte fX ist niemals negativ, d.h.
fX(x) ≥ 0 fur alle x ∈ R
2. Die Flache unter der Dichte ist gleich 1, d.h.∫ +∞
−∞fX(x)dx = 1
3. Wenn FX(x) differenzierbar ist, gilt
fX(x) = F ′X(x) ≡ dFX(x)/dx
48
Beispiel: (Gleichverteilung uber [0,10])
• Gegeben sei die ZV X mit Dichtefunktion
fX(x) =
0 , fur x /∈ [0,10]0.1 , fur x ∈ [0,10]
• Berechnung der VF FX:Fur x < 0 gilt:
FX(x) =∫ x
−∞fX(t) dt =
∫ x
−∞0 dt = 0
49
Fur x ∈ [0,10] gilt:
FX(x) =∫ x
−∞fX(t) dt
=∫ 0
−∞0 dt
︸ ︷︷ ︸
=0
+∫ x
00.1 dt
= [0.1 · t]x0
= 0.1 · x− 0.1 · 0
= 0.1 · x
50
Fur x > 10 gilt:
FX(x) =∫ x
−∞fX(t) dt
=∫ 0
−∞0 dt
︸ ︷︷ ︸
=0
+∫ 10
00.1 dt
︸ ︷︷ ︸
=1
+∫ ∞
100 dt
︸ ︷︷ ︸
=0
= 1
51
Jetzt:
• Wskt.’en fur Intervalle, d.h. (fur a, b ∈ R, a < b)
P (X ∈ (a, b]) = P (a < X ≤ b)
• Es gilt:
P (a < X ≤ b) = P (ω|a < X(ω) ≤ b)
= P (ω|X(ω) > a ∩ ω|X(ω) ≤ b)
= 1− P (ω|X(ω) > a ∩ ω|X(ω) ≤ b)
= 1− P (ω|X(ω) > a ∪ ω|X(ω) ≤ b)
= 1− P (ω|X(ω) ≤ a ∪ ω|X(ω) > b)
52
= 1− [P (X ≤ a) + P (X > b)]
= 1− [FX(a) + (1− P (X ≤ b))]
= 1− [FX(a) + 1− FX(b)]
= FX(b)− FX(a)
=∫ b
−∞fX(t) dt−
∫ a
−∞fX(t) dt
=∫ b
afX(t) dt
53
Intervall-Wahrscheinlichkeit mit den Grenzen a und b
54
a x b
fX(x)
P(a < X ≤ b)
Wichtiges Ergebnis fur stetige ZV X:
P (X = a) = 0 fur alle a ∈ R
Begrundung:
P (X = a) = limb→a
P (a < X ≤ b) = limb→a
∫ b
afX(x) dx
=∫ a
afX(x)dx = 0
Fazit:
• Die Wskt., dass eine stetige ZV X einen einzelnen Wert an-nimmt, ist immer Null!!
55
Punkt-Wahrscheinlichkeit
56
a b1b2b3
fX(x)
x
Vorsicht:
• Das bedeutet nicht, dass dieses Ereignis unmoglich ist
Konsequenz:
• Da bei stetigen ZV’en fur alle a ∈ R stets P (X = a) = 0 gilt,folgt fur stetige ZV stets
P (a < X < b) = P (a ≤ X < b) = P (a ≤ X ≤ b)
= P (a < X ≤ b) = FX(b)− FX(a)
(Ob Intervalle offen oder geschlossen sind, spielt fur dieWskt.-Bestimmung bei stetigen ZV keine Rolle)
57
2.3 Erwartungswerte, Momente und momenten-erzeugende Funktionen
Bekannt aus WRUSS:
• Der Erwartungswert einer ZV’en X ist eine Maßzahl fur dieLage der Verteilung (Lagemaß)
Definition 2.14: (Erwartungswert)
Der Erwartungswert der ZV’en X [in Zeichen: E(X)] ist definiertals
E(X) =
∑
xj∈TXxj · P (X = xj) , falls X diskret ist
∫ +∞
−∞x · fX(x) dx , falls X stetig ist
.
58
Bemerkungen:
• Der Erwartungswert der ZV’en X entspricht also (in etwa)der Summe aller moglichen Realisationen jeweils gewichtetmit der Wskt. ihres Eintretens
• Anstelle von E(X) schreibt man haufig µX
• Es gibt ZV’en, die keinen Erwartungswert besitzen(vgl. Ubung)
59
Beispiel 1: (Diskrete ZV)
• Man betrachte den 2-maligen Wurfelwurf. Die ZV X stehefur die (betragliche) Differenz der Augenzahlen. Man berech-ne den Erwartungswert von X
• Zunachst ergibt sich als Trager der Zufallsvariablen
TX = 0,1,2,3,4,5
60
• Die Wahrscheinlichkeitsfunktion ist gegeben durch
fX(x) =
P (X = 0) = 6/36 furx = 0P (X = 1) = 10/36 furx = 1P (X = 2) = 8/36 furx = 2P (X = 3) = 6/36 furx = 3P (X = 4) = 4/36 furx = 4P (X = 5) = 2/36 furx = 5
0 furx /∈ TX
• Als Erwartungswert ergibt sich
E(X) = 0 ·636
+ 1 ·1036
+ 2 ·836
+ 3 ·636
+ 4 ·436
+ 5 ·236
=7036
= 1.9444
61
Beispiel 2: (Stetige ZV)
• Es sei X eine stetige ZV mit der Dichte
fX(x) =
x4
, fur 1 ≤ x ≤ 3
0 , sonst
• Zur Berechnung des Erwartungswertes spaltet man das Inte-gral auf:
E(X) =∫ +∞
−∞x · fX(x) dx
=∫ 1
−∞0 dx +
∫ 3
1x ·
x4
dx +∫ +∞
30 dx
62
=∫ 3
1
x2
4dx =
14·[13· x3
]3
1
=14·(27
3−
13
)
=2612
= 2.1667
Haufige Situation:
• Kenne ZV X mit Wskt.- oder Dichtefunktion fX
• Suche den Erwartungswert der transformierten ZV
Y = g(X)
63
Satz 2.15: (Erwartungswert einer Transformierten)
Gegeben sei die ZV X mit Wskt.- oder Dichtefunktion fX. Fureine beliebige (Baire)Funktion g : R −→ R berechnet sich derErwartungswert der transformierten ZV Y = g(X) als
E(Y ) = E[g(X)]
=
∑
xj∈TXg(xj) · P (X = xj) , falls X diskret ist
∫ +∞
−∞g(x) · fX(x) dx , falls X stetig ist
.
64
Bemerkungen:
• Alle Funktionen, die in unserer Veranstaltung auftauchen,sind Baire-Funktionen
• Fur den Spezialfall g(x) = x (die Identitatsfunktion) fallt derSatz 2.15 mit der Definition 2.14 zusammen
Zunachst:
• Erste wichtige Rechenregeln fur Erwartungswerte
65
Satz 2.16: (Regeln fur E-Werte)
Es seien X eine beliebige ZV (diskret oder stetig), c, c1, c2 ∈ Rkonstante Zahlen und g, g1, g2 : R −→ R Funktionen. Dann geltendie folgenden Aussagen:
1. E(c) = c.
2. E[c · g(X)] = c · E[g(X)].
3. E[c1 · g1(X) + c2 · g2(X)] = c1 · E[g1(X)] + c2 · E[g2(X)].
4. Falls g1(x) ≤ g2(x) fur alle x ∈ R gilt, so folgt:
E[g1(X)] ≤ E[g2(X)].
Beweis: Ubungsaufgabe66
Jetzt:
• Betrachte die ZV X (diskret oder stetig) und die expliziteFunktion g(x) = [x− E(X)]2
−→ Varianz und Standardabweichung der ZV’en X
Definition 2.17: (Varianz, Standardabweichung)
Fur eine beliebige stetige oder diskrete ZV X ist die Varianzvon X [in Zeichen: Var(X)] definiert als die erwartete quadrierteAbweichung der ZV von ihrem Erwartungswert E(X), d.h.
Var(X) = E[(X − E(X))2].
Unter der Standardabweichung von X [in Zeichen: SD(X)] ver-steht man die (positive) Wurzel aus der Varianz, d.h.
SD(X) = +√
Var(X).
67
Bemerkungen:
• Mit g(X) = [X − E(X)]2 und Satz 2.15 (Folie 64) berechnetsich die Varianz von X explizit als
Var(X) = E[g(X)]
=
∑
xj∈TX[xj − E(X)]2 · P (X = xj) , fur diskretes X
∫ +∞
−∞[x− E(X)]2 · fX(x) dx , fur stetiges X
• Es gibt ZV’en, die keine endliche Varianz besitzen(vgl. Ubung)
68
Beispiel: (Diskrete ZV)
• Betrachte erneut den 2-maligen Wurfelwurf mit der ZV Xals (betraglicher) Differenz der Augenzahlen (vgl. Beispiel 1,Folie 35). Fur die Varianz gilt:
Var(X) = (0− 70/36)2 · 6/36 + (1− 70/36)2 · 10/36
+ (2− 70/36)2 · 8/36 + (3− 70/36)2 · 6/36
+ (4− 70/36)2 · 4/36 + (5− 70/36)2 · 2/36
= 2.05247
Man beachte:
• Die Varianz ist per definitionem ein Erwartungswert−→ Rechenregeln fur Erwartungswerte anwendbar
69
Satz 2.18: (Rechenregeln fur Varianzen)
Es seien X eine beliebige ZV (diskret oder stetig) sowie a, b ∈ Rreelle Zahlen. Es gilt
1. Var(X) = E(X2)− [E(X)]2.
2. Var(a + b ·X) = b2 ·Var(X).
Beweis: Ubungsaufgabe
Jetzt:
• Zwei wichtige Ungleichungen im Zusammenhang mit Erwar-tungswerten und transformierten ZV’en
70
Satz 2.19: (Allgemeine Chebyshey-Ungleichung)
Es seien X eine beliebige ZV sowie g : R −→ R+ eine nicht-negative Funktion. Dann gilt fur jedes k > 0
P [g(X) ≥ k] ≤E [g(X)]
k.
Jetzt Spezialfall:
• Betrachte
g(x) = [x− E(X)]2 und k = r2 ·Var(X) (r > 0)
• Hierfur liefert der Satz 2.19
P
[X − E(X)]2 ≥ r2 ·Var(X)
≤Var(X)
r2 ·Var(X)=
1r2
71
• Nun gilt
P
[X − E(X)]2 ≥ r2 ·Var(X)
= P |X − E(X)| ≥ r · SD(X)
= 1− P |X − E(X)| < r · SD(X)
• Daraus folgt
P |X − E(X)| < r · SD(X) ≥ 1−1r2
(spezielle Chebyshev-Ungleichung)
72
Bemerkung:
• Die spezielle Chebyshev-Ungleichung gibt die Mindestwahr-scheinlichkeit an, mit der eine beliebige ZV in das folgende(offene oder geschlossene) Intervall fallt:
[E(X)− r · SD(X),E(X) + r · SD(X)]
• Z.B. gilt fur r = 3:
P |X − E(X)| < 3 · SD(X) ≥ 1−132 =
89
was aquivalent ist zu
P E(X)− 3 · SD(X) < X < E(X) + 3 · SD(X) ≥ 0.8889
bzw.
P X ∈ (E(X)− 3 · SD(X),E(X) + 3 · SD(X)) ≥ 0.8889
73
Satz 2.20: (Jensen-Ungleichung)
Es seien X eine beliebige ZV sowie g : R −→ R eine konvexe(bzw. eine konkave) Funktion, d.h. fur alle x gelte g′′(x) ≥ 0(bzw. g′′(x) ≤ 0). Dann folgt
E [g(X)] ≥ g(E[X]) bzw. E [g(X)] ≤ g(E[X]).
Bemerkung:
• Es ist wichtig zu beachten, dass im Allgemeinen
E [g(X)] 6= g(E[X])
74
Beispiel:
• Betrachte die ZV X und die Funktion g(x) = x2
• Es gilt: g′′(x) = 2 ≥ 0 fur alle x, d.h. g ist konvex
• Mit der Jensen-Ungleichung folgt
E [g(X)]︸ ︷︷ ︸
=E(X2)
≥ g(E[X])︸ ︷︷ ︸
=[E(X)]2
d.h.
E(X2)− [E(X)]2 ≥ 0
• Mit dem Satz 2.18 folgt also
Var(X) = E(X2)− [E(X)]2 ≥ 0
(die Varianz einer ZV’en kann niemals negativ sein)
75
Jetzt:• Betrachte die beliebige ZV X mit E-Wert E(X) = µX, eine
naturliche Zahl n ∈ N sowie die Funktionen
g1(x) = xn
g2(x) = [x− µX]n
Definition 2.21: (Momente, zentrale Momente)
(a) Das n-te Moment der ZV’en X (in Zeichen: µ′n) ist definiertals
µ′n ≡ E[g1(X)] = E(Xn).
(b) Das n-te zentrale Moment um den Erwartungswert (in Zei-chen: µn) ist definiert als
µn ≡ E[g2(X)] = E[(X − µX)n].
76
Beziehungen:
• µ′1 = E(X) = µX(das 1. Moment entspricht dem E-Wert)
• µ1 = E[X − µX] = E(X)− µX = 0(das 1. zentrale Moment ist immer 0)
• µ2 = E[(X − µX)2] = Var(X)(das 2. zentrale Moment entspricht der Varianz)
77
Bemerkungen:
• Speziell die ersten 4 Momente einer ZV’en X sind Bausteinefur wichtige Kenngroßen der Verteilung(Erwartungswert, Varianz, Schiefe, Kurtosis)
• Die Momente einer ZV’en X spielen eine zentrale Rolle inder theoretischen und angewandten Statistik
• In einigen Fallen kann aus der Kenntnis aller Momente derZV’en X die vollstandige Verteilung (d.h. die Wahrscheinlich-keits- bzw. die Dichtefunktion) hergeleitet werden
78
Frage:
• Gibt es eine mathematische Funktion, die eine Darstellungaller Momente einer Verteilung liefert ?
Definition 2.22: (Momentenerzeugende Funktion)
Es sei X eine ZV mit Wskts- bzw. Dichtefunktion fX(x). Fureine reelle Zahl t ∈ R betrachte man den Erwartungswert E
[
et·X]
.Falls dieser E-Wert fur alle t aus einem Intervall −h < t < h, h > 0,existiert, so definiert man die momentenerzeugende Funktion vonX (in Zeichen: mX(t)) als diesen E-Wert, d.h.
mX(t) = E[
et·X]
.
79
Bemerkungen:
• Die momentenerzeugende Funktion mX(t) wird als Funktionin t aufgefasst
• Es gibt ZV’en X, fur die mX(t) nicht existiert
• Falls mX(t) existiert, so berechnet sich die Funktion aufgrunddes Satzes 2.15 (Folie 64) als
mX(t) = E[
et·X]
=
∑
xj∈TXet·xj · P (X = xj) , falls X diskret
∫ +∞
−∞et·x · fX(x) dx , falls X stetig
80
Frage:
• Warum heißt mX(t) momentenerzeugende Funktion ?
Antwort:
• Man betrachte die n-te Ableitung von mX(t) nach t:
dn
dtnmX(t) =
∑
xj∈TX(xj)
n · et·xj · P (X = xj) , falls X diskret
∫ +∞
−∞xn · et·x · fX(x) dx , falls X stetig
81
• Fur die n-te Ableitung an der Stelle t = 0 gilt
dn
dtnmX(0) =
∑
xj∈TX(xj)
n · P (X = xj) , falls X diskret
∫ +∞
−∞xn · fX(x) dx , falls X stetig
= E(Xn) = µ′n
(vgl. Definition 2.21(a), Folie 76)
82
Beispiel:
• Es sei X eine stetige ZV mit Dichtefunktion
fX(x) =
0 , falls x < 0λ · e−λ·x , falls x ≥ 0
(Exponentialverteilung mit Parameter λ > 0)
• Es gilt
mX(t) = E[
et·X]
=∫ +∞
−∞et·x · fX(x) dx
=∫ +∞
0λ · e(t−λ)·x dx =
λλ− t
fur t < λ
83
• Es folgt
m′X(t) =
λ(λ− t)2
sowie m′′X(t) =
2λ(λ− t)3
und somit
m′X(0) = E(X) =
1λ
sowie m′′X(0) = E(X2) =
2λ2
Jetzt:
• Zentrales Resultat uber momentenerzeugende Funktionen
84
Satz 2.23: (Identifikationseigenschaft)
Es seien X und Y zwei ZV’en mit Wskts- bzw. Dichtefunk-tionen fX(·) und fY (·). Angenommen, die beiden momenten-erzeugenden Funktionen mX(t) und mY (t) existieren und es giltmX(t) = mY (t) fur alle t im Intervall −h < t < h, h > 0. Dannhaben die beiden ZV’en identische Verteilungsfunktionen, d.h. esgilt FX(x) = FY (x) fur alle x.
Bemerkung:
• Der Satz 2.23 besagt, dass zu einer gegebenen momenten-erzeugenden Funktion mX(t) eine eindeutige Verteilungsfunk-tion FX(x) gehort−→ Wenn mX(t) fur die ZV X bekannt ist, dann kann man
(zumindest theoretisch) die Verteilung von X bestimmen
• Diese Eigenschaft werden wir in Kapitel 4 benutzen
85
Beispiel:
• Angenommen, die ZV X hat die momentenerzeugende Funk-tion
mX(t) =1
1− tfur − 1 < t < 1
• Dann muss die Dichtefunktion von X gegeben sein durch
fX(x) =
0 , falls x < 0e−x , falls x ≥ 0
(Exponentialverteilung mit Parameter λ = 1)
86
2.4 Spezielle Verteilungen
Bisher:
• Analyse allgemeiner mathematischer Eigenschaften beliebigerVerteilungen
• Unterscheidung zwischen diskreten und stetigen Verteilungen
• Betrachtung
der Verteilungsfunktion FX(x)
der Wskt- bzw. Dichtefunktion fX(x)
von Erwartungswerten E[g(X)]
der momentenerzeugenden Funktion mX(t)
87
Zentrale Erkenntnis:
• Die Verteilung einer ZV’en X ist (im wesentlichen) durchfX(x) oder FX(x) bestimmt
• Mit fX(x) lasst sich FX(x) bestimmen(vgl. Folie 46)
• Aus FX(x) lasst sich (im wesentlichen) fX(x) bestimmen(vgl. Folie 48)
Frage:
• Wieviele verschiedene Verteilungen gibt es?
88
Antwort:
• Unendlich viele
Jedoch:
• In der Praxis haben sich einige wichtige parametrische Vertei-lungsfamilien als ’gute’ Modelle fur real auftretende Zufallser-eignisse herauskristallisiert
• Diese Verteilungsfamilien werden in allen Statistik-Lehrbu-chern ausfuhrlich beschrieben(z.B. in Mosler & Schmid (2008), Mood et al. (1974))
89
• Zentrale diskrete Verteilungsfamilien
Bernoulli-Verteilung
Binomial-Verteilung
Geometrische Verteilung
Poisson-Verteilung
• Zentrale stetige Verteilungsfamilien
Gleichverteilung
Exponentialverteilung
Normalverteilung
90
Bemerkung:
• Die wichtigste parametrische Verteilungsfamilie uberhaupt istdie Normalverteilung
Definition 2.24: (Normalverteilung)
Die stetige ZV X heißt normalverteilt mit Parametern µ ∈ Rund σ2 > 0 [in Zeichen: X ∼ N(µ, σ2)], falls X die folgendeDichtefunktion besitzt:
fX(x) =1√
2π · σ· e−
12
(
x−µσ
)2
, x ∈ R.
91
Dichtefunktionen der Normalverteilung
92
0 5 x
fX(x)
N(0,1) N(5,1)
N(5,3)
N(5,5)
Bemerkungen:
• Die Normalverteilung N(0,1) heißt Standardnormalverteilung.Ihre Dichte wird oft mit ϕ(x) bezeichnet
• Die Kenntnis aller Eigenschaften sowie das Rechnen mit nor-malverteilten ZV’en ist zwingende Voraussetzung fur dieseVeranstaltung(vgl. Wilfling (2011), Kapitel 3.4)
93
3. Gemeinsame und bedingte Verteilung,stochastische Unabhangigkeit
Lernziele dieses Kapitels:
• Mehrdimensionale Zufallsvariablen (Zufallsvektoren)(Verteilung, Kenngroßen)
• Abhangigkeitsstrukturen
• Multivariate Normalverteilung(Definition, Eigenschaften)
Empfohlene Literatur:
• Mood, Graybill, Boes (1974), Kapitel IV, S. 129-174
• Wilfling (2011), Kapitel 4
94
3.1 Gemeinsame Verteilung und Randverteilung
Jetzt:
• Gleichzeitige Betrachtung mehrerer Zufallsvariablen
Einsatzgebiete:
• Diverse okonomische Anwendungen
• Statistische Inferenz
95
Definition 3.1: (Zufallsvektor)
Gegeben seien die n Zufallsvariablen X1, · · · , Xn zu ein und dem-selben Zufallsexperiment, d.h.
Xi : Ω −→ R fur i = 1, . . . , n.
Dann nennt man X = (X1, . . . , Xn)′ eine n-dimensionale Zu-fallsvariable oder einen n-dimensionalen Zufallsvektor.
Bemerkungen:
• In der Wahrscheinlichkeitstheorie verwendet man fur Zufalls-vektoren oft auch die Schreibweisen
X = (X1, . . . , Xn) oder einfach X1, . . . , Xn
96
• Fur n = 2 schreibt man oft
X = (X, Y )′ oder (X, Y ) oder X, Y
• Fur die Realisationen benutzt man Kleinbuchstaben:
x = (x1, . . . , xn)′ ∈ Rn oder x = (x, y)′ ∈ R2
Jetzt:
• Beschreibung der Wahrscheinlichkeitsverteilung des Zufalls-vektors X
97
Definition 3.2: (Gemeinsame Verteilungsfunktion)
Fur den Zufallsvektor X = (X1, . . . , Xn)′ heißt die Funktion
FX1,...,Xn : Rn −→ [0,1]
mit
FX1,...,Xn(x1, . . . , xn) = P (X1 ≤ x1, X2 ≤ x2, . . . , Xn ≤ xn)
die gemeinsame Verteilungsfunktion von X = (X1, . . . , Xn)′.
Bemerkung:
• Definition 3.2 bezieht sich sowohl auf diskrete als auch aufstetige Zufallsvariablen X1, . . . , Xn
98
Einige Eigenschaften der bivariaten VF (n = 2):
• FX,Y (x, y) ist monoton steigend in x und y
• limx→−∞
FX,Y (x, y) = 0
• limy→−∞
FX,Y (x, y) = 0
• limx→+∞y→+∞
FX,Y (x, y) = 1
Bemerkung:
• Fur die n-dimensionale VF FX1,...,Xn(x1, . . . , xn) gelten analogeEigenschaften
99
Jetzt:
• Gemeinsam diskrete versus stetige Verteilungen
Definition 3.3: (Gemeinsam diskrete Verteilung)
Der Zufallsvektor X = (X1, . . . , Xn)′ heißt gemeinsam diskret,wenn es nur endlich (oder abzahlbar unendlich) viele Realisatio-nen x = (x1, . . . , xn)′ gibt, so dass
P (X1 = x1, X2 = x2, . . . , Xn = xn) > 0
und∑
P (X1 = x1, X2 = x2, . . . , Xn = xn) = 1,
wobei die Summation uber alle moglichen Realisationen des Zu-fallsvektors erfolgt.
100
Definition 3.4: (Gemeinsam stetige Verteilung)
Der Zufallsvektor X = (X1, . . . , Xn)′ heißt gemeinsam stetig, fallses eine nicht-negative Funktion fX1,...,Xn(x1, . . . , xn) gibt, so dass
FX1,...,Xn(x1, . . . , xn) =∫ xn
−∞. . .
∫ x1
−∞fX1,...,Xn(u1, . . . , un) du1 . . . dun
gilt. Die Funktion fX1,...,Xn heißt gemeinsame Dichtefunktion desZufallsvektors.
Beispiel:
• Betrachte fur X = (X, Y )′ die Dichtefunktion
fX,Y (x, y) =
x + y , fur (x, y) ∈ [0,1]× [0,1]0 , sonst
101
Dichtefunktion fX,Y (x, y)
102
00.2
0.40.6
0.81
x0
0.2
0.4
0.6
0.8
1
y
00.5
11.5
2
fHx,yL
00.2
0.40.6
0.8x
• Fur die Verteilungsfunktion folgt
FX,Y (x, y) =∫ y
−∞
∫ x
−∞fX,Y (u, v) du dv
=∫ y
0
∫ x
0(u + v) du dv
= . . .
=
0.5(x2y + xy2) , fur (x, y) ∈ [0,1]× [0,1]0.5(x2 + x) , fur (x, y) ∈ [0,1]× [1,∞)0.5(y2 + y) , fur (x, y) ∈ [1,∞)× [0,1]
1 , fur (x, y) ∈ [1,∞)× [1,∞)
(Beweis: Ubungsaufgabe)
103
Bemerkungen:
• Es gilt:
∂nFX1,...,Xn(x1, . . . , xn)
∂x1 · · · ∂xn= fX1,...,Xn(x1, . . . , xn)
• Das Volumen unter der Dichtefunktion reprasentiert Wahr-scheinlichkeiten:
P (au1 < X1 ≤ ao
1, . . . , aun < Xn ≤ ao
n)
=∫ ao
n
aun
. . .∫ ao
1
au1
fX1,...,Xn(u1, . . . , un) du1 . . . dun
104
• In dieser VL:
Fokus auf stetige Zufallsvektoren
Fur diskrete Zufallsvektoren gelten analoge Aussagen(vgl. Mood, Graybill, Boes (1974), Kapitel IV)
Jetzt:
• Bestimmung der Verteilung einer einzelnen ZufallsvariablenXi aus der gemeinsamen Verteilung des Zufallsvektors(X1, . . . , Xn)′
−→ Randverteilung
105
Definition 3.5: (Randverteilung)
Es sei X = (X1, . . . , Xn)′ ein stetig verteilter Zufallsvektor mitden Verteilungs- und Dichtefunktionen FX1,...,Xn bzw. fX1,...,Xn.Dann heißen
FX1(x1) = FX1,...,Xn(x1,+∞,+∞, . . . ,+∞,+∞)
FX2(x2) = FX1,...,Xn(+∞, x2,+∞, . . . ,+∞,+∞)
. . .
FXn(xn) = FX1,...,Xn(+∞,+∞,+∞, . . . ,+∞, xn)
die Randverteilungsfunktionen bzw.
106
fX1(x1) =∫ +∞
−∞. . .
∫ +∞
−∞fX1,...,Xn(x1, x2, . . . , xn) dx2 . . . dxn
fX2(x2) =∫ +∞
−∞. . .
∫ +∞
−∞fX1,...,Xn(x1, x2, . . . , xn) dx1 dx3 . . . dxn
· · ·
fXn(xn) =∫ +∞
−∞. . .
∫ +∞
−∞fX1,...,Xn(x1, x2, . . . , xn) dx1 dx2 . . . dxn−1
die Randdichten der einzelnen (univariaten) ZufallsvariablenX1, . . . , Xn.
107
Beispiel:
• Gegeben sei die bivariate Dichtefunktion
fX,Y (x, y)
=
40(x− 0.5)2y3(3− 2x− y) , fur (x, y) ∈ [0,1]× [0,1]0 , sonst
108
Dichtefunktion fX,Y (x, y)
109
00.2
0.40.6
0.81
x0
0.2
0.4
0.6
0.8
1
y
01
23
fHx,yL
00.2
0.40.6
0.8x
• Fur die Randdichte von X gilt:
fX(x) =∫ 1
040(x− 0.5)2y3(3− 2x− y)dy
= 40(x− 0.5)2∫ 1
0(3y3 − 2xy3 − y4)dy
= 40(x− 0.5)2[34
y4 −2x4
y4 −15
y5]1
0
= 40(x− 0.5)2(34−
2x4−
15
)
= −20x3 + 42x2 − 27x + 5.5
110
Randdichte fX(x)
111
0.2 0.4 0.6 0.8 1x
0.25
0.5
0.75
1
1.25
1.5
fHxL
• Fur die Randdichte von Y gilt:
fY (y) =∫ 1
040(x− 0.5)2y3(3− 2x− y)dx
= 40y3∫ 1
0(x− 0.5)2(3− 2x− y)dx
= −103
y3(y − 2)
112
Randdichte fY (y)
113
0.2 0.4 0.6 0.8 1y
0.5
1
1.5
2
2.5
3
fHyL
Bemerkungen:
• Beim Ubergang zu den Randverteilungen ergibt sich ein In-formationsverlust(aus gemeinsamer Verteilung folgen die Randverteilungen,aber nicht umgekehrt)
• Neben den einzelnen univariaten Randverteilungen ergebensich auch die multivariaten Randverteilungen aus der gemein-samen Verteilung von X = (X1, . . . , Xn)′
114
Beispiel:
• Es sei n = 5, d.h. X = (X1, . . . , X5)′ mit gemeinsamer Dichte-funktion fX1,...,X5
• Dann ist die Randdichte von Z = (X1, X3, X5)′
fX1,X3,X5(x1, x3, x5)
=∫ +∞
−∞
∫ +∞
−∞fX1,...,X5(x1, x2, x3, x4, x5) dx2 dx4
(Herausintegrieren nicht interessierender Komponenten)
115
3.2 Bedingte Verteilungen und stochastische Un-abhangigkeit
Jetzt:
• Verteilung einer ZV’en X unter der Bedingung, dass eine an-dere ZV’en Y bereits einen bestimmten Wert y angenommenhat(Bedingte Verteilung von X unter Y = y)
116
Definition 3.6: (Bedingte Verteilung)
Es seien X = (X, Y )′ ein stetig verteilter Zufallsvektor mit gemein-samer Dichtefunktion fX,Y (x, y). Die bedingte Dichte von Xunter der Bedingung Y = y ist definiert durch
fX|Y =y(x) =fX,Y (x, y)
fY (y).
Analog ist die bedingte Dichte von Y unter der Bedingung X = xdefiniert als
fY |X=x(y) =fX,Y (x, y)
fX(x).
117
Bemerkung:
• Bedingte Dichten fur Zufallsvektoren werden analog definiert,z.B.
fX1,X2,X4|X3=x3,X5=x5(x1, x2, x4) =
fX1,X2,X3,X4,X5(x1, x2, x3, x4, x5)
fX3,X5(x3, x5)
118
Beispiel:
• Gegeben sei die bivariate Dichtefunktion
fX,Y (x, y)
=
40(x− 0.5)2y3(3− 2x− y) , fur (x, y) ∈ [0,1]× [0,1]0 , sonst
mit der Randdichte
fY (y) = −103
y3(y − 2)
(vgl. Folien 108-112)
119
• Dann gilt fur die bedingte Dichte
fX|Y =y(x) =fX,Y (x, y)
fY (y)
=40(x− 0.5)2y3(3− 2x− y)
−103 y3(y − 2)
=12(x− 0.5)2(3− 2x− y)
2− y
120
Bedingte Dichte fX|Y =0.01(x) von X unter Y = 0.01
121
0.2 0.4 0.6 0.8 1x
0.5
1
1.5
2
2.5
3
Bedingte Dichte
Bedingte Dichte fX|Y =0.95(x) von X unter Y = 0.95
122
0.2 0.4 0.6 0.8 1x
0.2
0.4
0.6
0.8
1
1.2
Bedingte Dichte
Jetzt:
• Benutze Konzepte der gemeinsamen Verteilung bzw. der be-dingten Verteilung zur Definition der stochastischen Unab-hangigkeit(zunachst fur 2 ZV’e)
Definition 3.7: (Stochastische Unabhangigkeit [I])
Es sei (X, Y )′ ein stetig verteilter Zufallsvektor mit gemeinsamerDichtefunktion fX,Y (x, y). Dann heißen X und Y stochastischunabhangig, falls die gemeinsame Dichtefunktion dem Produktder Randdichten entspricht:
fX,Y (x, y) = fX(x) · fY (y) fur alle x, y ∈ R.
123
Bemerkungen:
• Alternativ druckt man die Unabhangigkeit auch uber die ge-meinsame Verteilungsfunktion aus:X und Y sind genau dann unabhangig, wenn gilt:
FX,Y (x, y) = FX(x) · FY (y) fur alle x, y ∈ R.
• Sind X und Y unabhangig, so gilt fur die bedingten Verteilun-gen:
fX|Y =y(x) =fX,Y (x, y)
fY (y)=
fX(x) · fY (y)fY (y)
= fX(x)
fY |X=x(y) =fX,Y (x, y)
fX(x)=
fX(x) · fY (y)fX(x)
= fY (y)
• Sind X und Y unabhangig und g und h zwei stetige Funktio-nen, so sind auch g(X) und h(Y ) unabhangig
124
Jetzt:
• Verallgemeinerung auf n ZV’en
Definition 3.8: (Stochastische Unabhangigkeit [II])
Es sei (X1, . . . , Xn)′ ein stetig verteilter Zufallsvektor mit gemein-samer Dichtefunktion fX1,...,Xn(x1, . . . , xn) sowie Verteilungsfunk-tion FX1,...,Xn(x1, . . . , xn). Dann heißen X1, . . . , Xn stochastischunabhangig, falls fur alle (x1, . . . , xn)′ ∈ Rn gilt
fX1,...,Xn(x1, . . . , xn) = fX1(x1) · . . . · fXn(xn)
bzw.
FX1,...,Xn(x1, . . . , xn) = FX1(x1) · . . . · FXn(xn).
125
Bemerkungen:
• Fur diskret verteilte Zufallsvektoren definiert man analog:X1, . . . , Xn sind stochastisch unabhangig, falls fur alle Reali-sationen (x1, . . . , xn)′ ∈ Rn gilt:
P (X1 = x1, . . . , Xn = xn) = P (X1 = x1) · . . . · P (Xn = xn)
bzw.
FX1,...,Xn(x1, . . . , xn) = FX1(x1) · . . . · FXn(xn).
• Bei Unabhangigkeit ergibt sich die gemeinsame Verteilungaus den Randverteilungen (sonst nicht)
• Sind X1, . . . , Xn stochastisch unabhangig und g1, . . . , gn stetigeFunktionen, so sind auch die transformierten ZV’en Y1 =g1(X1), . . . , Yn = gn(Xn) stochastisch unabhangig
126
3.3 Erwartungswerte und gemeinsame momenten-erzeugende Funktion
Jetzt:
• Definition des Erwartungswertes einer Funktion
g : Rn −→ R(x1, . . . , xn) 7−→ g(x1, . . . xn)
eines stetig verteilten Zufallsvektors X = (X1, . . . , Xn)′
127
Definition 3.9: (E-Wert einer Funktion)
Es sei (X1, . . . , Xn)′ ein stetig verteilter Zufallsvektor mit Dichte-funktion fX1,...,Xn(x1, . . . , xn) und g : Rn −→ R eine reellwertigestetige Funktion. Dann ist der Erwartungswert der Funktion desZufallsvektors definiert als
E[g(X1, . . . , Xn)]
=∫ +∞
−∞. . .
∫ +∞
−∞g(x1, . . . , xn) · fX1,...,Xn(x1, . . . , xn) dx1 . . . dxn.
128
Bemerkungen:
• Fur einen diskret verteilten Zufallsvektor (X1, . . . , Xn)′ lautetdie entsprechende Definition
E[g(X1, . . . , Xn)] =∑
g(x1, . . . , xn) · P (X1 = x1, . . . , Xn = xn),
wobei uber alle Realisationen des Vektors zu summieren ist
• Definition 3.9 umfasst den Erwartungswert einer einzelnenZV’en X:Setze n = 1 sowie g(x) = x
−→ E(X1) ≡ E(X) =∫ +∞
−∞xfX(x) dx
• Definition 3.9 umfasst die Varianz einer ZV’en X:Setze n = 1 und sowie g(x) = [x− E(X)]2
−→ Var(X1) ≡ Var(X) =∫ +∞
−∞[x− E(X)]2fX(x) dx
129
• Definition 3.9 umfasst die Kovarianz zweier ZV’en:Setze n = 2 sowie g(x1, x2) = [x1 − E(X1)] · [x2 − E(X2)]
−→ Cov(X1, X2)
=∫ +∞
−∞
∫ +∞
−∞[x1 − E(X1)][x2 − E(X2)]fX1,X2(x1, x2) dx1 dx2
• Mit der Kovarianz folgt der Korrelationskoeffizient:
Corr(X1, X2) =Cov(X1, X2)
√
Var(X1)√
Var(X2)
• Eigenschaften von Erwartungswerten, Varianzen, Kovarianzen,Korrelationskoeffizienten−→ siehe Ubung
130
Jetzt:• ’Erwartungswerte’ und ’Varianzen’ fur Zufallsvektoren
Definition 3.10: (E-Wertvektor, Kovarianzmatrix)
X = (X1, . . . , Xn)′ sei ein Zufallsvektor. Unter dem Erwartungs-wertvektor von X versteht man den Vektor der Erwartungswerte
E(X) =
E(X1)...
E(Xn)
.
Unter der Kovarianzmatrix von X versteht man die folgende Ma-trix von Varianzen und Kovarianzen:
Cov(X) =
Var(X1) Cov(X1, X2) . . . Cov(X1, Xn)Cov(X2, X1) Var(X2) . . . Cov(X2, Xn)
... ... . . . ...Cov(Xn, X1) Cov(Xn, X2) . . . Var(Xn)
.
131
Bemerkung:
• Offensichtlich ist jede Kovarianzmatrix symmetrisch
Frage:
• Wie verhalten sich Erwartungswertvektoren und Kovarianz-matrizen unter linearen Transformationen von Zufallsvektoren
Es seien
• X = (X1, . . . , Xn)′ ein n-dimensionaler Zufallsvektor
• A eine (m× n)-Matrix reeller Zahlen
• b ein (m× 1) Spaltenvektor reeller Zahlen
132
Offensichtlich gilt:
• Y = AX + b ist ein (m× 1)-Zufallsvektor:
Y =
a11 a12 . . . a1na21 a22 . . . a2n... ... . . . ...
am1 am2 . . . amn
X1X2...
Xn
+
b1b2...
bm
=
a11X1 + a12X2 + . . . + a1nXn + b1a21X1 + a22X2 + . . . + a2nXn + b2
...am1X1 + am2X2 + . . . + amnXn + bm
133
• Fur den Erwartungswertvektor von Y gilt:
E(Y) =
a11E(X1) + a12E(X2) + . . . + a1nE(Xn) + b1a21E(X1) + a22E(X2) + . . . + a2nE(Xn) + b2
...am1E(X1) + am2E(X2) + . . . + amnE(Xn) + bm
= AE(X) + b
• Fur die Kovarianzmatrix von Y gilt:
Cov(Y) =
Var(Y1) Cov(Y1, Y2) . . . Cov(Y1, Yn)Cov(Y2, Y1) Var(Y2) . . . Cov(Y2, Yn)
... ... . . . ...Cov(Yn, Y1) Cov(Yn, Y2) . . . Var(Yn)
= ACov(X)A′
(Beweis: Ubung)
134
Bemerkung:
• Vgl. Analogien zu den univariaten Fallen:
E(a ·X + b) = a · E(X) + b
Var(a ·X + b) = a2 ·Var(X)
Bisher:
• Erwartungswerte fur unbedingte Verteilungen
Jetzt:
• Erwartungswerte fur bedingte Verteilungen(vgl. Definition 3.6, Folie 117)
135
Definition 3.11: (Bedingter E-Wert einer Funktion)
Es sei (X, Y )′ ein stetig verteilter Zufallsvektor mit gemeinsamerDichtefunktion fX,Y (x, y) und g : R2 −→ R eine reellwertigestetige Funktion. Dann ist der bedingte Erwartungswert derFunktion unter der Bedingung X = x definiert als
E[g(X, Y )|X = x] =∫ +∞
−∞g(x, y) · fY |X(y) dy.
136
Bemerkungen:
• Fur einen diskret verteilten Zufallsvektor (X, Y )′ gilt eineanaloge Definition
• Die Definition 3.11 kann auf hoher dimensionale Verteilungenverallgemeinert werden
• Fur g(x, y) = y erhalt man als Spezialfall E[g(X, Y )|X = x] =E(Y |X = x)
• Man beachte, dass E[g(X, Y )|X = x] im Allgemeinen eineFunktion von x darstellt
137
Beispiel:
• Man betrachte die gemeinsame stetige Dichtefunktion
fX,Y (x, y) =
x + y , fur (x, y) ∈ [0,1]× [0,1]0 , sonst
• Fur die bedingte Verteilung von Y unter X = x folgt
fY |X=x(y) =
x + yx + 0.5 , fur (x, y) ∈ [0,1]× [0,1]
0 , sonst
• Mit g(x, y) = y ergibt sich der bedingte Erwartungswert als
E(Y |X = x) =∫ 1
0y ·
x + yx + 0.5
dy =1
x + 0.5·(x2
+13
)
138
Bemerkungen:
• Wir betrachten die Funktion g(x, y) = g(y)(d.h. g hangt nicht von x ab)
• Nun bezeichne h(x) = E[g(Y )|X = x]
• Wir berechnen nun den unbedingten Erwartungswert derTransformation h(X)
• Es gilt:
139
E E[g(Y )|X = x] = E[h(X)] =∫ +∞
−∞h(x) · fX(x) dx
=∫ +∞
−∞E[g(Y )|X = x] · fX(x) dx
=∫ +∞
−∞
[
∫ +∞
−∞g(y) · fY |X(y) dy
]
· fX(x) dx
=∫ +∞
−∞
∫ +∞
−∞g(y) · fY |X(y) · fX(x) dy dx
=∫ +∞
−∞
∫ +∞
−∞g(y) · fX,Y (x, y) dy dx
= E[g(Y )]
140
Satz 3.12:
Es sei (X, Y )′ ein beliebig diskret oder stetig verteilter Zufallsvek-tor. Dann gilt
E[g(Y )] = E E[g(Y )|X = x]
und insbesondere
E[Y ] = E E[Y |X = x] .
Jetzt:
• Drei weitere wichtige Rechenregeln fur bedingte und unbed-ingte Erwartungswerte
141
Satz 3.13:
Es seien (X, Y )′ ein beliebig diskret oder stetig verteilter Zu-fallsvektor und g1(·), g2(·) zwei eindimensionale Funktionen. Danngilt fur die bedingten Erwartungswerte:
1. E[g1(Y ) + g2(Y )|X = x] = E[g1(Y )|X = x] + E[g2(Y )|X = x].
2. E[g1(Y ) · g2(X)|X = x] = g2(x) · E[g1(Y )|X = x].
3. Falls X und Y stochastisch unabhangig sind, so gilt fur dieunbedingten Erwartungswerte
E[g1(X) · g2(Y )] = E[g1(X)] · E[g2(Y )].
142
Abschließend:
• Momentenerzeugende Funktion fur Zufallsvektoren
Definition 3.14: (Gemeinsame momentenerz. Funktion)
Es sei (X1, . . . , Xn)′ ein beliebig diskret oder stetig verteilter Zu-fallsvektor. Dann ist dessen gemeinsame momentenerzeugendeFunktion definiert durch
mX1,...,Xn(t1, . . . , tn) = E[
et1·X1+...+tn·Xn]
,
falls dieser Erwartungswert fur alle Werte von t1, . . . , tn mit −h <tj < h fur irgendein h > 0 und alle j = 1, . . . , n existiert.
143
Bemerkungen:
• Anhand der gemeinsamen momentenerzeugenden FunktionmX1,...,Xn(t1, . . . , tn) lassen sich mit bestimmten Rechenoper-ationen die folgenden Objekte bestimmen:
die marginalen momentenerzeugenden FunktionenmX1(t1), . . . , mXn(tn)
die Momente der Randverteilungen
sogenannte gemeinsame Momente
144
Zentrales Resultat: (vgl. Satz 2.23, Folie 85)
Zu einer gegebenen gemeinsamen momentenerzeugendenFunktion mX1,...,Xn(t1, . . . , tn) gehort eine eindeutige gemein-same Verteilungsfunktion FX1,...,Xn(x1, . . . , xn)
145
3.4 Die multivariate Normalverteilung
Jetzt:• Verallgemeinerung der univariaten Normalverteilung
Definition 3.15: (Multivariate Normalverteilung)
Es sei X = (X1, . . . , Xn)′ ein n-dimensionaler stetiger Zufallsvek-tor. X heißt multivariat normalverteilt mit Parametern
µ =
µ1...
µn
und Σ =
σ21 · · · σ1n... . . . ...
σn1 · · · σ2n
,
falls fur x = (x1, . . . , xn)′ ∈ Rn die Dichtefunktion
fX(x) = (2π)−n/2 [det(Σ)]−1/2 · exp
−12
(x− µ)′Σ−1 (x− µ)
lautet.146
Bemerkungen:
• Fur die Definition und Eigenschaften der Determinanten einerMatrix A, det(A), vgl. Chang (1984, S. 92 ff)
• Ubliche Notation
X ∼ N(µ,Σ)
• µ ist ein Spaltenvektor mit µ1, . . . , µn ∈ R
• Σ ist (per Annahme) eine regulare, positiv definite, sym-metrische (n× n)-Matrix
• Bedeutung der Parameter:
E(X) = µ und Cov(X) = Σ
147
• Dichte der multivariaten Standardnormalverteilung N(0, In):
φ(x) = (2π)−n/2 · exp
−12x′x
• Man beachte die Analogien zur univariaten Dichte in Defini-tion 2.24, Folie 91
Eigenschaften der N(µ,Σ)-Verteilung:
• Teilvektoren (Randverteilungen) von X sind wieder normal-verteilt, d.h. falls
X =
[
X1X2
]
∼ N
([
µ1µ2
]
,
[
Σ11 Σ12Σ21 Σ22
])
dann gilt:
X1 ∼ N(µ1,Σ11)X2 ∼ N(µ2,Σ22)
148
• Somit sind alle univariaten Elemente des Zufallsvektors X =(X1, . . . , Xn)′ univariat normalverteilt:
X1 ∼ N(µ1, σ21)
X2 ∼ N(µ2, σ22)
...Xn ∼ N(µn, σ2
n)
• Auch die bedingten Verteilungen sind wiederum (uni- odermultivariat) normal:
X1|X2 = x2 ∼ N(
µ1 + Σ12Σ−122 (x2 − µ2),Σ11 −Σ12Σ
−122 Σ21
)
• Lineare Transformationen:Es seien A eine (m × n)-Matrix und b ein (m × 1)-Vektorreeller Zahlen sowie X = (X1, . . . , Xn)′ ∼ N(µ,Σ). Dann gilt:
AX + b ∼ N(Aµ + b,AΣA′)
149
Beispiel:
• Es sei
X ∼ N(µ,Σ)
∼ N
([
01
]
,
[
1 0.50.5 2
])
• Gesucht ist die Verteilung von Y = AX + b mit
A =
[
1 23 4
]
, b =
[
12
]
• Es gilt Y ∼ N(Aµ + b,AΣA′)
• Matrixalgebra ergibt
Aµ + b =
[
36
]
und AΣA′ =
[
12 2424 53
]
150
Jetzt:
• Spezialisierung auf bivariaten Fall (n = 2), d.h.
X = (X, Y )′, E(X) =
[
µXµY
]
, Σ =
[
σ2X σXY
σY X σ2Y
]
• Es gilt
σXY = σY X = Cov(X, Y ) = σX · σY ·Corr(X, Y ) = σX · σY · ρ• Mit Definition 3.15 und n = 2 gilt dann fur die Dichte
fX,Y (x, y) =1
2πσXσY
√
1− ρ2exp
−1
2(
1− ρ2)
×[
(x− µX)2
σ2X
−2ρ(x− µX)(y − µY )
σXσY+
(y − µY )2
σ2Y
]
(Herleitung: Ubungsaufgabe)
151
Dichte fX,Y (x, y) mit µX = µY = 0, σx = σY = 1 sowie ρ = 0
152
-2
0
2x -2
0
2
y
00.05
0.1
0.15
fHx,yL
-2
0
2x
Dichte fX,Y (x, y) mit µX = µY = 0, σx = σY = 1 sowie ρ = 0.9
153
-2
0
2x -2
0
2
y
00.1
0.2
0.3fHx,yL
-2
0
2x
Bemerkungen:
• Fur die Randverteilungen gilt
X ∼ N(µX , σ2X) und Y ∼ N(µY , σ2
Y )−→ Besonderheit der Normalverteilung:
Ist ρ = Corr(X, Y ) = 0 (d.h. sind X und Y unkorreliert), sosind X und Y stochastisch unabhangig
• Die bedingten Verteilungen sind gegeben durch
X|Y = y ∼ N
(
µX + ρσXσY
(y − µY ), σ2X
(
1− ρ2)
)
Y |X = x ∼ N
(
µY + ρσYσX
(x− µX), σ2Y
(
1− ρ2)
)
(Beweise: Ubungsaufgabe)
154
4. Verteilungen von Funktionen von Zufallsvari-ablen
Allgemeine Problemstellung:
• Gegeben sei die gemeinsame Verteilung der ZV’en X1, . . . , Xn
(d.h. bekannt seien fX1,...,Xn bzw. FX1,...,Xn)
• Wir betrachten k Funktionen
g1 : Rn −→ R, . . . , gk : Rn −→ R
• Gesucht wird die gemeinsame Verteilung der k ZV’en
Y1 = g1(X1, . . . , Xn), . . . , Yk = gk(X1, . . . Xn)
(d.h. gesucht wird fY1,...,Ykbzw. FY1,...,Yk
)
155
Beispiel:
• Gegeben seien die ZV’en X1, . . . , Xn mit fX1,...,Xn
• Wir betrachten die beiden Funktionen
g1(X1, . . . , Xn) =n
∑
i=1Xi und g2(X1, . . . , Xn) =
1n
n∑
i=1Xi
• Gesucht wird fY1,Y2 mit Y1 =∑n
i=1 Xi und Y2 = 1n
∑ni=1 Xi
Bemerkungen:
• Aus der gemeinsamen Verteilung fY1,...,Ykkann man die k
Randverteilungen fY1, . . . fYkermitteln
(vgl. Kapitel 3, Folien 106 ff.)
156
Inhalt dieses Kapitels:
• Techniken zur Bestimmung der (Rand)Verteilungenvon (Y1, . . . , Yk)
′
157
4.1 Erwartungswerte von Funktionen von Zufalls-variablen
Vereinfachung:
• Zunachst interessieren nicht die exakten Verteilungen, son-dern nur bestimmte Erwartungswerte von Y1, . . . , Yk
Voruberlegungen:
• Gegeben seien die (stetigen) ZV’en X1, . . . , Xn und die Funk-tion g : Rn −→ R
• Wir betrachten die ZV’e Y = g(X1, . . . , Xn) und interessierenuns fur deren E-Wert E[g(X1, . . . , Xn)]
158
• Mogliche Berechnungen:
E(Y ) =∫ +∞
−∞y · fY (y) dy
bzw.
E(Y ) =∫ +∞
−∞. . .
∫ +∞
−∞g(x1, . . . , xn)·fX1,...,Xn(x1, . . . xn) dx1 . . . dxn
(vgl. Definition 3.9, Folie 128)
• Es gilt:
Beide Berechnungen fuhren zum gleichen Ergebnis
−→ wahle die einfachere Berechnungsart
159
Jetzt:
• Berechnungsregeln fur Erwartungswerte, Varianzen, Kovari-anzen von Summen von Zufallsvariablen
Ausgangslage:
• X1, . . . , Xn seien gegebene stetige oder diskrete ZV’en mitgemeinsamer Dichte fX1,...,Xn
• Die (transformierende) Funktion g : Rn −→ R sei
g(x1, . . . , xn) =n
∑
i=1xi
160
• Gesucht werden zunachst der Erwartungswert und die Vari-anz von
Y = g(X1, . . . , Xn) =n
∑
i=1Xi
Satz 4.1: (E-Wert und Varianz einer Summe)
Fur die gegebenen ZV’en X1, . . . , Xn gelten
E
n∑
i=1Xi
=n
∑
i=1E(Xi)
bzw.
Var
n∑
i=1Xi
=n
∑
i=1Var(Xi) + 2 ·
n∑
i=1
n∑
j=i+1Cov(Xi, Xj).
161
Folgerungen:
• Fur gegebene Konstanten a1, . . . , an ∈ R gilt ferner
E
n∑
i=1ai ·Xi
=n
∑
i=1ai · E(Xi)
(warum?)
• Fur die ZV’en X1 und X2 gilt
E(X1 ±X2) = E(X1)± E(X2)
• Falls X1, . . . , Xn paarweise stochastisch unabhangig sind, sofolgt Cov(Xi, Xj) = 0 fur alle i 6= j und es gilt
Var
n∑
i=1Xi
=n
∑
i=1Var(Xi)
162
Jetzt:
• Berechnung der Kovarianz zweier Summen von ZV’en
Satz 4.2: (Kovarianz zweier Summen)
Gegeben seien die ZV’en X1, . . . , Xn sowie Y1, . . . , Ym und dieKonstanten a1, . . . an, b1, . . . , bm ∈ R. Dann gilt:
Cov
n∑
i=1ai ·Xi,
m∑
j=1bj · Yj
=n
∑
i=1
m∑
j=1ai · bj ·Cov(Xi, Yj).
163
Folgerungen:
• Fur die Varianz einer gewichteten Summe von ZV’en folgt
Var
n∑
i=1ai ·Xi
= Cov
n∑
i=1ai ·Xi,
n∑
j=1aj ·Xj
=n
∑
i=1
n∑
j=1ai · aj ·Cov(Xi, Xj)
=n
∑
i=1a2
i ·Var(Xi) +n
∑
i=1
n∑
j=1,j 6=iai · aj ·Cov(Xi, Xj)
=n
∑
i=1a2
i ·Var(Xi) + 2 ·n
∑
i=1
n∑
j=i+1ai · aj ·Cov(Xi, Xj)
164
• Fur die beiden ZV’en X1 und X2 gilt
Var(X1 ±X2) = Var(X1) + Var(X2)± 2 ·Cov(X1, X2)
bzw. unter stochastischer Unabhangigkeit
Var(X1 ±X2) = Var(X1) + Var(X2)
Abschließend:
• Wichtiges Resultat fur den Erwartungswert des Produkteszweier ZV’en
165
Ausgangslage:
• X1, X2 seien stetige oder diskrete ZV’en mit gemeinsamerDichte fX1,X2
• Die Funktion g : Rn −→ R sei g(x1, x2) = x1 · x2
• Gesucht wird der Erwartungswert von
Y = g(X1, X2) = X1 ·X2
Satz 4.3: (E-Wert eines Produktes)
Fur die ZV’en X1, X2 gilt
E (X1 ·X2) = E(X1) · E(X2) + Cov(X1, X2).
166
Folgerung:
• Fur stochastisch unabhangige ZV’en gilt
E (X1 ·X2) = E(X1) · E(X2)
Bemerkungen:
• Es gibt auch eine Formel fur die Varianz Var(X1 ·X2)
• Fur die Erwartungswerte und Varianzen anderer Transforma-tionen (z.B. Quotienten) existieren oft keine exakten Formeln
167
4.2 Die Verteilungsfunktions-Methode
Motivation:
• Gegeben sind die ZV’en X1, . . . , Xn mit gemeinsamer DichtefX1,...,Xn
• Gesucht ist die gemeinsame Verteilung von Y1, . . . , Yk mitYj = gj(X1, . . . , Xn) fur j = 1, . . . , k
• Die gemeinsame VF von Y1, . . . , Yk ist definiert durch
FY1,...,Yk(y1, . . . , yk) = P (Y1 ≤ y1, . . . , Yk ≤ yk)
(vgl. Definition 3.2, Folie 98)
168
• Nun gilt fur das Ereignis
Y1 ≤ y1, . . . , Yk ≤ yk
= g1(X1, . . . , Xn) ≤ y1, . . . , gk(X1, . . . , Xn) ≤ yk
d.h. das interessierende Ereignis fur Y1, . . . , Yk kann mit denFunktionen g1, . . . , gk durch X1, . . . , Xn ausgedruckt werden
−→ da die gemeinsame Verteilung von X1, . . . , Xn bekannt ist,kann man in bestimmten Fallen FY1,...,Yk
und damit fY1,...,Ykberechnen
169
Beispiel 1:
• Betrachte n = 1 (d.h. die ZV’e X1 ≡ X mit VF FX) undk = 1 (d.h. g1 ≡ g bzw. Y1 ≡ Y )
• Betrachte die Funktion
g(x) = a · x + b, b ∈ R, a > 0
• Gesucht wird die Verteilung von
Y = g(X) = a ·X + b
170
• Berechnung der VF von Y :
FY (y) = P (Y ≤ y)
= P [g(X) ≤ y]
= P (a ·X + b ≤ y)
= P(
X ≤y − b
a
)
= FX
(y − ba
)
• Falls X stetig ist, so folgt fur die Dichte von Y
fY (y) = F ′Y (y) = F ′X
(y − ba
)
=1a· fX
(y − ba
)
(vgl. Folie 48)
171
Beispiel 2:
• Betrachte n = 1 und k = 1 und die Funktion
g(x) = ex
• Fur die VF von Y = g(X) = eX gilt
FY (y) = P (Y ≤ y)
= P (eX ≤ y)
= P [X ≤ ln(y)]
= FX[ln(y)]
• Falls X stetig ist, so folgt fur die Dichte von Y
fY (y) = F ′Y (y) = F ′X [ln(y)] =fX [ln(y)]
y
172
Jetzt:
• Betrachte n = 2 und k = 2, d.h. gegeben sind die ZV’en X1und X2 mit gemeinsamer Dichte fX1,X2(x1, x2)
• Betrachte die Funktionen
g1(x1, x2) = x1 + x2 bzw. g2(x1, x2) = x1 − x2
• Gesucht werden die Verteilungen der Summe bzw. der Dif-ferenz zweier ZV’en
• Herleitung uber 2-dimensionale Anwendung der VF-Methode
173
Satz 4.4: (Verteilung einer Summe / Differenz)
Es seien X1 und X2 zwei stetige ZV’en mit gemeinsamer Dichte-funktion fX1,X2(x1, x2). Dann gilt fur die Dichtefunktionen vonY1 = X1 + X2 bzw. Y2 = X1 −X2
fY1(y1) =∫ +∞
−∞fX1,X2(x1, y1 − x1) dx1
=∫ +∞
−∞fX1,X2(y1 − x2, x2) dx2
bzw.
fY2(y2) =∫ +∞
−∞fX1,X2(x1, x1 − y2) dx1
=∫ +∞
−∞fX1,X2(y2 + x2, x2) dx2.
174
Folgerung:• Sind X1 und X2 stochastisch unabhangig, so folgt
fY1(y1) =∫ +∞
−∞fX1(x1) · fX2(y1 − x1) dx1
fY2(y2) =∫ +∞
−∞fX1(x1) · fX2(x1 − y2) dx1
Beispiel:• X1 und X2 seien stochastisch unabhangig mit identischer
Dichtefunktion
fX1(x) = fX2(x) =
1 , fur x ∈ [0,1]0 , sonst
• Gesucht wird die Dichtefunktion von Y = X1 + X2(vgl. Ubung)
175
Jetzt:
• Analoges Resultat fur das Produkt bzw. den Quotientenzweier ZV’en
Satz 4.5: (Verteilung eines Produktes / Quotienten)
Es seien X1 und X2 zwei stetige ZV’en mit gemeinsamer Dichte-funktion fX1,X2(x1, x2). Dann gilt fur die Dichtefunktionen vonY1 = X1 ·X2 bzw. Y2 = X1/X2
fY1(y1) =∫ +∞
−∞
1|x1|
fX1,X2(x1,y1
x1) dx1
bzw.
fY2(y2) =∫ +∞
−∞|x2| · fX1,X2(y2 · x2, x2) dx2.
176
4.3 Die Methode der momentenerzeugenden Funk-tionen
Motivation:
• Gegeben sind erneut die ZV’en X1, . . . , Xn mit gemeinsamerDichte fX1,...,Xn
• Gesucht ist wiederum die gemeinsame Verteilung vonY1, . . . , Yk mit Yj = gj(X1, . . . , Xn) fur j = 1, . . . , k
177
• Gemaß Definition 3.14, Folie 143, gilt fur die gemeinsamemomentenerzeugende Funktion der Y1, . . . , Yk (falls diese ex-istiert)
mY1,...,Yk(t1, . . . , tk) = E
[
et1·Y1+...+tk·Yk]
=∫ +∞
−∞. . .
∫ +∞
−∞et1·g1(x1,...,xn)+...+tk·gk(x1,...,xn)
×fX1,...,Xn(x1, . . . , xn) dx1 . . . dxn
• Falls sich mY1,...,Yk(t1, . . . , tk) berechnen und als eine ”bekan-
nte momentenerzeugende Funktion” identifizieren lasst, sohat Y1, . . . , Yk ebendiese zur momentenerzeugenden Funktiongehorige gemeinsame Verteilung(vgl. Folie 145)
178
Beispiel:
• Betrachte n = 1 und k = 1, wobei die gegebene ZV X1 ≡ Xstandardnormalverteilt sein soll
• Betrachte die Funktion g1(x) ≡ g(x) = x2
• Gesucht ist die Verteilung von Y = g(X) = X2
• Fur die momentenerzeugende Funktion von Y ergibt sich:
mY (t) = E[
et·Y]
= E[
et·X2]
=∫ +∞
−∞et·x2
· fX(x)dx
179
=∫ +∞
−∞et·x2
·1√2π
· e−12x2
dx
= . . .
=
12
12 − t
12
fur t <12
• Dies ist die momentenerzeugende Funktion einer Gamma-Verteilung mit Parametern λ = 1
2 und r = 12
(vgl. Mood, Graybill, Boes (1974), S. 540/541)
−→ Y = X2 ist Γ(0.5,0.5)-verteilt
180
Jetzt:
• Verteilung von Summen unabhangiger ZV’en
Voruberlegung:
• Betrachte die momentenerzeugende Funktion dieser Summe
• Es seien also X1, . . . , Xn gegebene stochastisch unabhangigeZV’en und Y =
∑ni=1 Xi
• Fur die momentenerzeugende Funktion von Y gilt
mY (t) = E[
et·Y]
= E[
et·∑n
i=1 Xi]
= E[
et·X1 · et·X2 · . . . · et·Xn]
= E[
et·X1]
· E[
et·X2]
· . . . · E[
et·Xn]
[Satz 3.13(c)]
= mX1(t) ·mX2(t) · . . . ·mXn(t)
181
Satz 4.6: (Momentenerzeugende Funktion einer Summe)
Es seien X1, . . . , Xn unabhangige Zufallsvariable mit existieren-den momentenerzeugenden Funktionen mX1(t), . . . , mXn(t) furalle t ∈ (−h, h), h > 0. Die momentenerzeugende Funktion derSumme Y =
∑ni=1 Xi ist dann gegeben durch
mY (t) =n∏
i=1mXi(t) fur t ∈ (−h, h).
Hoffnung:
• Vielleicht lasst sich anhand der momentenerzeugenden Funk-tion der Summe mY (t) die Verteilung der Summe Y =
∑ni=1 Xi
identifizieren
182
Beispiel 1:
• Es seien X1, . . . , Xn unabhangig und identisch exponential-verteilt mit Parameter λ > 0
• Die momentenerzeugende Funktion einer jeden ZV’en Xi(i = 1, . . . , n) ist damit gegeben durch
mXi(t) =λ
λ− tfur t < λ
(vgl. Mood, Graybill, Boes (1974), S. 540/541)
• Die momentenerzeugende Funktion der Summe Y =∑n
i=1 Xilautet dann
mY (t) = m∑
Xi(t) =
n∏
i=1mXi(t) =
( λλ− t
)n
183
• Dies entspricht der momentenerzeugenden Funktion einerΓ(n, λ)-Verteilung(vgl. Mood, Graybill, Boes (1974), S. 540/541)
−→ Die Summe von n unabhangigen identisch exponential-verteilter ZV’en mit Parameter λ ist also Γ(n, λ)-verteilt
184
Beispiel 2:
• Es seien X1, . . . , Xn unabhangig normalverteilte ZV’en mitParametern µi, σ2
i , d.h. Xi ∼ N(µi, σ2i )
• Ferner seien a1, . . . , an ∈ R Konstanten
• Dann gilt fur die gewichtete Summe
Y =n
∑
i=1ai ·Xi ∼ N
n∑
i=1ai · µi,
n∑
i=1a2
i · σ2i
(Herleitung: Ubungsaufgabe)
185
4.4 Allgemeine Transformationssatze
Bisher:
• Techniken, mit denen in speziellen Fallen die Verteilungen derTransformierten Y1 = g1(X1, . . . , Xn), . . . , Yk = gk(X1, . . . , Xn)gefunden werden konnen
Nachteil:
• Die Methoden fuhren nicht immer zum Ziel(z.B. Rechnungen zu kompliziert)
186
Ausweg:
• Es gibt konstruktive Methoden, mit denen sich die Verteilun-gen von Transformierten (unter bestimmten Voraussetzun-gen) stets berechnen lassen−→ Transformationssatze fur Dichten
In dieser VL:
• Wir betrachten nur den einfachen Fall n = 1, k = 1, d.h. dieTransformation Y = g(X)
• Fur multivariate Verallgemeinerungen (d.h. fur n ≥ 1, k ≥ 1)siehe Mood, Graybill, Boes (1974), S. 203 ff.
187
Satz 4.7: (Transformationssatz fur Dichten)
Es sei X eine stetige ZV mit Dichtefunktion fX(x). Es bezeichneD = x : fX(x) > 0. Weiter sei angenommen, dass
(a) die Transformation g : D −→ W mit y = g(x) eine bijektiveAbbildung von D auf W ist.
(b) die Ableitung der inversen Funktion g−1 : W −→ D mit x =g−1(y) bzgl. y fur alle y ∈ W stetig und von Null verschiedenist.
Dann ist Y = g(X) eine stetige ZV mit Dichtefunktion
fY (y) =
∣
∣
∣
∣
∣
dg−1(y)dy
∣
∣
∣
∣
∣
· fX(
g−1(y))
, fur y ∈ W
0 , sonst.
188
Bemerkung:
• Eine Abbildung g : D −→ W mit y = g(x) heißt bijektiv, wennzu jedem y ∈ W genau ein x ∈ D mit y = g(x) existiert
Beispiel:
• Die ZV X habe die Dichtefunktion
fX(x) =
θ · x−θ−1 , fur x ∈ [1,+∞)0 , sonst
(Pareto-Verteilung mit Parameter θ > 0)
• Gesucht ist die Verteilung von Y = ln(X)
• Wir haben D = [1,+∞), g(x) = ln(x), W = [0,+∞)
189
• Weiterhin ist g(x) = ln(x) eine bijektive Abbildung von D =[1,+∞) auf W = [0,+∞) mit der inversen Funktion
x = g−1(y) = ey
• Fur deren Ableitung nach y gilt
dg−1(y)dy
= ey,
d.h. die Ableitung ist fur alle y ∈ [0,+∞) stetig und von Nullverschieden
• Somit folgt fur die Dichtefunktion von Y = ln(x):
fY (y) =
ey · θ · (ey)−θ−1 , fur y ∈ [0,+∞)0 , sonst
=
θ · e−θ·y , fur y ∈ [0,+∞)0 , sonst
190
5. Statistische Schatztheorie
Problem:
• Sei X eine Zufallsvariable (oder X ein Zufallsvektor), dieeinen interessierenden Zufallsvorgang reprasentiere
• Man mochte die tatsachliche Verteilung von X (oder X) ken-nenlernen
Man beachte:
• In praxi ist die Verteilung von X zunachst unbekannt
191
Deshalb:
• Sammle Informationen uber die unbekannte Verteilung desZufallsvorgangs, indem man diesen (und damit die Zufallsvari-able X) mehrfach beobachtet
−→ Zufallsstichprobe−→ Statistiken−→ Schatzer
192
5.1 Stichproben, Schatzer, Grenzwertsatze
Situation:
• Sei X die Zufallsvariable, die den interessierenden Zufallsvor-gang reprasentiere(zunachst Betrachtung univariater Variablen)
• Man beabsichtigt, den Zufallsvorgang (d.h. X) insgesamt nmal zu beobachten
• Vor den Realisierungen kann man die n potenziellen Beobach-tungen als ZV’en X1, . . . , Xn auffassen
193
Definition 5.1: (Stichprobe)
Die ZV’en X1, . . . , Xn heißen einfache Stichprobe aus X, wenn
(a) jedes Xi, i = 1, . . . , n, wie X verteilt ist,
(b) X1, . . . , Xn stochastisch unabhangig sind.
Die Anzahl n heißt Stichprobenumfang.
194
Bemerkungen:
• Der interessierende Zufallsvorgang kann prinzipiell beliebigoft wiederholt werden
• Die Realisierungen x1, . . . , xn der Stichprobe X1, . . . , Xn heißenkonkrete Stichprobe
• Betrachtet man die Stichprobe X1, . . . , Xn als Zufallsvektor,so ist die gemeinsame Dichtefunktion wegen der Unabhangig-keit gegeben durch
fX1,...,Xn(x1, . . . , xn) =n∏
i=1fXi(xi)
(vgl. Definition 3.8, Folie 125)
195
Modell der einfachen Zufallsstichprobe
196
Zufallsvorgang X
Mögliche Realisationen
X1 (ZV) x1 (Realisation 1. Exp.)
X2 (ZV)
Xn (ZV)
x2 (Realisation 2. Exp.)
xn (Realisation n. Exp.)
. . . . . .
Jetzt:
• Betrachte Funktionen der Stichprobenvariablen X1, . . . , Xn
−→ Statistiken−→ Schatzer
Definition 5.2: (Statistik, Stichprobenfunktion)
Es seien X1, . . . , Xn eine einfache Stichprobe aus X sowie g :Rn −→ R eine reellwertige Funktion mit n Argumenten, die keineunbekannten Parameter enthalt. Dann nennt man die ZV
T = g(X1, . . . , Xn)
eine Statistik oder Stichprobenfunktion.
197
Beispiele:
• Stichprobenmittel:
X = g1(X1, . . . , Xn) =1n·
n∑
i=1Xi
• Stichprobenvarianz:
S2 = g2(X1, . . . , Xn) =1n·
n∑
i=1
(
Xi −X)2
• Stichprobenstandardabweichung:
S = g3(X1, . . . , Xn) =
√
√
√
√
1n·
n∑
i=1
(
Xi −X)2
198
Bemerkungen:
• Alle bisherigen Begriffe konnen inhaltsgleich auf den multi-variaten Fall ubertragen werden
• Die Statistik T = g(X1, . . . , Xn) ist eine Funktion von ZV’enund damit selbst eine ZV−→ eine Statistik hat eine Verteilung
(d.h. auch einen Erwartungswert und eine Varianz)
Zweck von Statistiken:
• Liefern Informationen uber die Verteilung von X
• Sind Grundbausteine beimSchatzen von ParameternTesten von Hypothesen uber Parameter
199
Stichproben und Statistiken
200
Stichprobe
( X1, . . ., Xn)
Messung Stichprobenrealisation ( x1, . . ., xn)
g( X1, . . ., Xn) Statistik
g( x1, . . ., xn) Realisation der Statistik
Jetzt folgende Situation:
• Es sei X (oder X) eine ZV’e mit unbekannter VF FX(x)
• Wir interessieren uns fur einen oder mehrere Parameter vonX
• Es sei θ dieser unbekannte Parametervektor, z.B.
θ =
[
E(X)Var(X)
]
• Oft ist die Verteilungsfamilie von X bekannt, z.B. X ∼ N(µ, σ2),nicht aber die Parameter, d.h.
θ =
[
µσ2
]
• Der unbekannte Parametervektor wird mit Hilfe von Statis-tiken einer Stichprobe X1, . . . , Xn geschatzt
201
Definition 5.3: (Schatzer, Schatzwert)
Die Statistik θ(X1, . . . , Xn) heißt Schatzer (auch Schatzfunktion)fur den unbekannten Parametervektor θ. Fur die konkrete Stich-probe x1, . . . , xn bezeichnet man die damit verbundene Real-isierung des Schatzers θ(x1, . . . , xn) als Schatzwert.
Bemerkungen:
• Der Schatzer θ(X1, . . . , Xn) ist ein Zufallsvektor−→ Schatzer hat eine Verteilung, einen Erwartungswert und
eine Varianz
• Der Schatzwert θ(x1, . . . , xn) ist dagegen eine Zahl oder einZahlenvektor
202
Beispiel:
• X sei N(µ, σ2)-verteilt mit unbek. Parametern µ und σ2
• Der zu schatzende Parametervektor ist dann
θ =
[
µσ2
]
=
[
E(X)Var(X)
]
• Mogliche Schatzer fur µ und σ2 sind
µ =1n
n∑
i=1Xi und σ2 =
1n− 1
n∑
i=1(Xi − µ)2
−→ ein Schatzer fur θ ist
θ =
[
µσ2
]
=
1n
∑ni=1 Xi
1n− 1
∑ni=1 (Xi − µ)2
203
Frage:
• Wozu braucht man das scheinbar komplizierte theoretischeKonzept des Schatzers als Zufallsvariable?
Antwort:
• Zum Vergleich alternativer Schatzer fur ein und denselbenParametervektor θ im Hinblick auf bestimmte Guteeigen-schaften
Beispiel:
• Es sei θ = Var(X) die Varianz von X
204
• Zwei alternative Schatzer fur θ sind
θ1(X1, . . . , Xn) =1n
n∑
i=1
(
Xi −X)2
θ2(X1, . . . , Xn) =1
n− 1
n∑
i=1
(
Xi −X)2
Frage:
• Welcher Schatzer ist ’besser’ und warum?−→ Eigenschaften (Qualitatskriterien) von Punktschatzern
(vgl. Abschnitt 5.2)
205
Wichtig:
• Einige dieser Kriterien beurteilen das Verhalten eines Schatzersfur große Stichprobenumfange(n →∞, Große-Stichproben-Eigenschaften)
Deshalb:
• Erlauterung einiger stochastischer Konvergenzbegriffe:
Zentraler Grenzwertsatz
Schwaches Gesetz der großen Zahl
Konvergenz nach Wahrscheinlichkeit
Konvergenz nach Verteilung
206
Satz 5.4: (Univariater zentraler Grenzwertsatz)
Es sei X eine beliebig verteilte Zufallsvariable mit E(X) = µ undVar(X) = σ2. Weiterhin sei X1, . . . , Xn eine einfache Stichprobeaus X und
Xn =1n
n∑
i=1Xi
das arithmetische Stichprobenmittel. Dann gilt fur n →∞:
Xn ∼ N
(
µ,σ2
n
)
bzw.√
nXn − µ
σ∼ N(0,1).
Jetzt:
• Verallgemeinerung auf multivariaten Fall
207
Satz 5.5: (Multivariater zentraler Grenzwertsatz)
Es sei X = (X1, . . . , Xm)′ ein beliebig verteilter Zufallsvektor mitE(X) = µ und Cov(X) = Σ. Weiterhin sei X1, . . . ,Xn eine (mul-tivariate) einfache Stichprobe aus X und
Xn =1n
n∑
i=1Xi
das multivariate arithmetische Stichprobenmittel. Dann gilt furn →∞:
Xn ∼ N(
µ,1nΣ
)
bzw.√
n(
Xn − µ)
∼ N(0,Σ).
208
Bemerkungen:
• Eine multivariate einfache Stichprobe aus dem ZufallsvektorX erhalt man, indem man in Definition 5.1 (Folie 194) alleunivariaten Zufallsvariablen durch entsprechende multivariateZufallsvektoren ersetzt
• Man beachte die formale Analogie zum univariaten Fall inSatz 5.4(Rechenoperationen fur Matrizen beachten!)
Jetzt:
• Bekannter Satz uber das arithmetische Stichprobenmittel
209
Satz 5.6: (Schwaches Gesetz der großen Zahl)
Es sei X1, X2, . . . eine Folge von unabhangigen und identischverteilten Zufallsvariablen mit
E(Xi) = µ < ∞,
Var(Xi) = σ2 < ∞.
Weiterhin betrachte man die Zufallsvariable
Xn =1n
n∑
i=1Xi
(arithmetisches Stichprobenmittel). Fur jedes ε > 0 gilt dann:
limn→∞P
(∣
∣
∣Xn − µ∣
∣
∣ ≥ ε)
= 0.
210
Bemerkungen:
• Satz 5.6 ist das schwache Gesetz der großen Zahl
• Fur jedes noch so kleine ε > 0 konvergiert die Wskt., dass Xn
um ±ε vom Erwartungswert µ abweicht, bei zunehmendemStichprobenumfang gegen Null
• Man beachte die Analogie zwischen einer Folge von unab-hangig, identisch verteilten ZV’en und der Definition 5.1(Folie 194) einer einfachen Stichprobe aus X
Jetzt:
• Erster wichtiger Konvergenzbegriff
211
Definition 5.7: (Konvergenz nach Wahrscheinlichkeit)
Es sei Y1, Y2, . . . eine Folge Zufallsvariablen. Man sagt: Die FolgeY1, Y2, . . . konvergiert nach Wahrscheinlichkeit gegen θ, wenn furjedes ε > 0 gilt:
limn→∞P (|Yn − θ| ≥ ε) = 0.
Man notiert die Konvergenz nach Wahrscheinlichkeit mit
plim Yn = θ oder Ynp→ θ.
Bemerkungen:
• Spezialfall: Schwaches Gesetz der großen Zahlen
plim Xn = µ oder Xnp→ µ
212
• Bei der Konvergenz nach Wahrscheinlichkeit strebt die Folgeder ZV’en meistens gegen einen Wert (θ ∈ R)
• Fur multivariate Folgen von Zufallsvektoren Y1,Y2, . . . ist dieDefinition 5.7 elementweise anzuwenden
• Die Konvergenz nach Wahrscheinlichkeit spielt bei der Beur-teilung von Schatzern eine wichtige Rolle
Jetzt:
• Alternativer stochastischer Konvergenzbegriff
213
Definition 5.8: (Konvergenz nach Verteilung)
Es sei Y1, Y2, . . . eine Folge Zufallsvariablen und Z ebenfalls eineZufallsvariable. Man sagt: Die Folge Y1, Y2, . . . konvergiert nachVerteilung gegen Z, wenn
limn→∞FYn(y) = FZ(y) fur jedes y ∈ R.
Man notiert die Konvergenz nach Verteilung mit
Ynd→ Z.
Bemerkungen:• Spezialfall: Zentraler Grenzwertsatz
Yn =√
nXn − µ
σd→ U ∼ N(0,1)
• Bei der Konvergenz nach Verteilung strebt die Folge derZV’en stets gegen eine Zufallsvariable
214
Satz 5.9: (plim -Rechenregeln)
Es seien X1, X2, . . . und Y1, Y2, . . . Folgen von Zufallsvariablen furdie gilt plim Xn = a bzw. plim Yn = b. Dann gilt:
(a) plim (Xn ± Yn) = a± b.
(b) plim (Xn · Yn) = a · b.
(c) plim(Xn
Yn
)
= ab , falls b 6= 0.
(d) (Slutsky-Theorem) Wenn g : R −→ R eine in a stetige Funk-tion ist, dann gilt
plim g (Xn) = g(a).
215
Bemerkung:
• Eine mit dem Slutsky-Theorem verwandte Eigenschaft giltauch fur die Konvergenz nach Verteilung
Satz 5.10: ( d→-Rechenregel)
Es seien X1, X2, . . . eine Folge von Zufallsvariablen, Z ebenfalls
eine Zufallsvariable und es gelte Xnd→ Z. Weiterhin sei h : R −→
R eine stetige Funktion. Dann gilt:
h (Xn)d→ h(Z).
Jetzt:
• Verbindung der beiden Konvergenzkonzepte
216
Satz 5.11: (Cramer-Theorem)
Es seien X1, X2, . . . sowie Y1, Y2, . . . Folgen von Zufallsvariablen,Z eine Zufallsvariable und a ∈ R. Außerdem gelte plim Xn = aund Yn
d→ Z. Dann gelten:
(a) Xn + Ynd→ a + Z.
(b) Xn · Ynd→ a · Z.
Beispiel:
• Es sei X1, . . . , Xn eine einfache Stichprobe aus X mit E(X) =µ bzw. Var(X) = σ2
217
• Man kann zeigen, dass
plim S∗2n = plim1
n− 1
n∑
i=1
(
Xi −Xn)2
= σ2
plim S2n = plim
1n
n∑
i=1
(
Xi −Xn)2
= σ2
• Fur g1(x) = x/σ2 folgt aus dem Slutksky-Theorem:
plim g1(
S∗2n)
= plimS∗2nσ2 = g1(σ
2) = 1
plim g1(
S2n
)
= plimS2
nσ2 = g1(σ
2) = 1
218
• Fur g2(x) = σ/√
x folgt aus dem Slutksky-Theorem:
plim g2(
S∗2n)
= plimσS∗n
= g2(σ2) = 1
plim g2(
S2n
)
= plimσSn
= g2(σ2) = 1
• Mit dem zentralen Grenzwertsatz folgt:
√n
Xn − µσ
d→ U ∼ N(0,1)
219
• Mit dem Cramer-Theorem folgt:
g2(
S∗2n)
·√
nXn − µ
σ=
σS∗n
·√
nXn − µ
σ
=√
nXn − µ
S∗n
d→ 1 · U
= U ∼ N(0,1)
• Ebenso liefert das Cramer-Theorem:
√n
Xn − µSn
d→ U ∼ N(0,1)
220
5.2 Eigenschaften von Schatzern
Inhalt von Definition 5.3:
• Ein Schatzer ist eine Statistik(Stichprobenfunktion)−→ Es gibt verschiedene Schatzer fur den unbekannten Pa-
rametervektor θ
Beispiel:
• Es seien X ∼ N(0, σ2) mit unbekannter Varianz σ2 undX1, . . . , Xn eine einfache Stichprobe aus X
• Mogliche Schatzer fur θ = σ2 sind:
θ1 =1n
n∑
i=1
(
Xi −X)2
bzw. θ2 =1
n− 1
n∑
i=1
(
Xi −X)2
221
Wichtige Fragen:
• Welche Qualitatskriterien dienen zur Auswahl eines ’guten’Schatzers ?
• Wie findet man ’gute’ Schatzer ?
1. Qualitatseigenschaft:
• Konzept der wiederholten Stichprobe:Ziehe mehrere einfache Stichproben aus XBetrachte den Schatzer an jeder StichprobeEine ’Mittelung’ der Schatzwerte sollte ’nahe’ am un-bekannten Parameter liegen(keine systematische Verzerrung)
−→ Erwartungstreue eines Schatzers
222
Definition 5.12: (Erwartungstreue, Verzerrung)
Der Schatzer θ(X1, . . . , Xn) fur den unbekannten Parameter θheißt erwartungstreu, falls sein Erwartungswert mit dem zuschatzenden Parameter θ ubereinstimmt, d.h. falls
E[
θ(X1, . . . , Xn)]
= θ.
Unter der Verzerrung des Schatzers (engl. Bias) versteht manden Abstand
Bias(θ) = E(θ)− θ.
Bemerkungen:
• Ubertragung auf den multivariaten Fall moglich
• Bei erwartungstreuen Schatzern ist der Bias gleich Null
223
Jetzt:• Wichtiges allgemeingultiges Resultat
Satz 5.13: (E-treue Schatzer fur E(X) und Var(X))
Es sei X1, . . . , Xn eine Stichprobe aus X und X sei beliebig verteiltmit unbekanntem Erwartungswert µ = E(X) sowie unbekannterVarianz σ2 = Var(X). Dann sind die beiden Schatzer
µ(X1, . . . , Xn) = X =1n·
n∑
i=1Xi
bzw.
σ2(X1, . . . , Xn) = S2 =1
n− 1·
n∑
i=1
(
Xi −X)2
stets erwartungstreu fur die Parameter µ = E(X) und σ2 =Var(X).
224
Bemerkungen:
• Beweis: Ubungsaufgabe
• Man beachte, dass keine explizite Verteilung fur X unterstelltwird
• Erwartungstreue pflanzt sich bei Parametertransformationennicht beliebig fort, z.B. ist
S =√
S2 nicht erwartungstreu fur σ = SD(X) =√
Var(X)
Frage:
• Wie kann man zwei erwartungstreue Schatzer fur den un-bekannten Parameter θ miteinander vergleichen?
225
Definition 5.14: (Relative Effizienz)
Es seien θ1 und θ2 zwei erwartungstreue Schatzer fur den un-bekannten Parameter θ. Dann heißt θ1 relativ effizienter als θ2,falls gilt
Var(θ1) ≤ Var(θ2)
fur alle moglichen Parameterwerte fur θ und
Var(θ1) < Var(θ2)
fur mindestens einen moglichen Parameterwert fur θ.
226
Beispiel:
• Es sei θ = E(X)
• Betrachte die beiden Schatzer
θ1(X1, . . . , Xn) =1n
n∑
i=1Xi
θ2(X1, . . . , Xn) =X1
2+
12(n− 1)
n∑
i=2Xi
• Welcher Schatzer ist relativ effizienter ?(Ubungsaufgabe)
Frage:
• Wie vergleicht man 2 Schatzer, wenn (mindestens) einerverzerrt ist?
227
Definition 5.15: (Mittlerer quadratischer Fehler)
Es sei θ ein beliebiger Schatzer fur den unbekannten Parameter θ.Unter dem mittleren quadratischen Fehler (mean-squared error)des Schatzers versteht man die Maßzahl
MSE(θ) = E[
(
θ − θ)2
]
= Var(
θ)
+[
Bias(θ)]2
.
Bemerkungen:
• Bei einem erwartungstreuen Schatzer ist der MSE gleich derVarianz des Schatzers
• Der MSE eines Schatzers θ hangt i.d.R. vom Wert des un-bekannten Parameters θ ab
228
Vergleich beliebiger Schatzer:
• Uber ihre MSEs
Definition 5.16: (MSE-Effizienz)
Es seien θ1 und θ2 zwei beliebige Schatzer fur den unbekanntenParameter θ. Dann heißt θ1 MSE-efffizienter als θ2, falls gilt
MSE(θ1) ≤ MSE(θ2)
fur alle moglichen Parameterwerte fur θ und
MSE(θ1) < MSE(θ2)
fur mindestens einen moglichen Parameterwert fur θ.
229
Vergleich erwartungstreuer vs. verzerrter Schatzer
230
),,( 12 nXX K∧θ
),,( 11 nXX K∧θ
θ
Bemerkungen:
• Oft sind 2 Schatzer fur θ nicht im Sinne der MSE-Effizienzvergleichbar, da sich die MSE-Kurven schneiden
• Es gibt kein allgemeines mathematisches Prinzip zur Bestim-mung eines MSE-effizienten Schatzers
• Es gibt aber Methoden, unter allen erwartungstreuen Schatzernden mit der gleichmaßig geringsten Varianz zu bestimmen−→ Beschrankung auf erwartungstreue Schatzer
• Diese Methoden nicht Gegenstand der VL(Theoreme von Rao-Blackwell, Lehmann-Scheffe)
• Hier nur ein wichtiges Resultat:
231
Satz 5.17: (Cramer-Rao Varianzuntergrenze)
Es sei X1, . . . , Xn eine einfache Stichprobe aus X und θ ein zuschatzender Parameter. Man betrachte die gemeinsame Dichte-funktion der Stichprobe, fX1,...,Xn(x1, . . . , xn), und definiere denWert
CR(θ) ≡
E
(
∂ fX1,...,Xn(X1, . . . , Xn)
∂ θ
)2
−1
.
Unter bestimmten Voraussetzungen gilt dann fur jeden beliebigenerwartungstreuen Schatzer θ(X1, . . . , Xn):
Var(θ) ≥ CR(θ).
232
Bemerkungen:
• Der Wert CR(θ) ist die geringste Varianz, die ein erwar-tungstreuer Schatzer haben kann
−→ Optimalitatskriterium fur erwartungstreue Schatzer
• Gilt fur den erwartungstreuen Schatzer θ(X1, . . . , Xn)
Var(θ) = CR(θ),
so bezeichnet man θ als UMVUE-Schatzer(Uniformly Minimum-Variance Unbiased Estimator)
233
2. Qualitatseigenschaft:
• Lasse den Stichprobenumfang wachsen (n →∞):
Notation: θn(X1, . . . , Xn) = θ(X1, . . . , Xn)
Untersuchung der Eigenschaften der asymptotischen Ver-teilung von θn
−→ Konsistenz eines Schatzers
Definition 5.18: ((Schwache) Konsistenz)
Der Schatzer θn(X1, . . . , Xn) heißt (schwach) konsistent fur θ,falls er nach Wahrscheinlichkeit gegen θ konvergiert, d.h. falls
plim θn(X1, . . . , Xn) = θ.
234
Beispiel:
• Es sei X ∼ N(µ, σ2) mit σ2 bekannt (z.B. σ2 = 1)
• Betrachte 2 Schatzer fur µ:
µn(X1, . . . , Xn) =1n
n∑
i=1Xi
µ∗n(X1, . . . , Xn) =1n
n∑
i=1Xi +
2n
• µn ist (schwach) konsistent fur µ(Satz 5.6, Folie 210: Schwaches Gesetz der großen Zahl)
235
• µ∗n ist (schwach) konsistent fur µ(folgt aus Satz 5.9(a), Folie 215)
• Exakte Verteilung von µn:
µn ∼ N(µ, σ2/n)
(Lineare Transformation der NV)
• Exakte Verteilung von µ∗n:
µ∗n ∼ N(µ + 2/n, σ2/n)
(Lineare Transformation der NV)
236
Dichtefunktionen des Schatzers µn fur n = 2,10,20 (σ2 = 1)
237
6
4
2
-1 -0.5 µ=0 0.5 1 0
8
Dichtefunktionen des Schatzers µ∗n fur n = 2,10,20 (σ2 = 1)
238
6
4
2
-0.5 µ=0 0.5 1 1.5 2 2.5 0
8
Bemerkungen:
• Hinreichende (aber nicht notwendige) Bedingung fur Konsis-tenz:
limn→∞E(θn) = θ (asymptotische Erwartungstreue)
limn→∞Var(θn) = 0
• Mogliche Eigenschaften eines Schatzers:
konsistent und erwartungstreu
inkonsistent und erwartungstreu
konsistent und verzerrt
inkonsistent und verzerrt
239
Jetzt:
• Anwendung des zentralen Grenzwertsatzes auf Schatzer
−→ asymptotische Normalitat des Schatzers
Definition 5.19: (Asymptotische Normalitat)
Ein Schatzer θn(X1, . . . , Xn) fur den unbekannten Parameter θheißt asymptotisch normalverteilt, falls es eine Folge reeller Zahlenθ1, θ2, . . . und eine Funktion V (θ) gibt, so dass gilt:
√n ·
(
θn − θn) d→ U ∼ N(0, V (θ)).
240
Bemerkungen:
• Andere Schreibweise:
θnappr.∼ N(θn, V (θ)/n)
• Zur asymptotischen Normalitat gibt es eine multivariate Ver-allgemeinerung
241
5.3 Schatzmethoden
Bisher:
• Definitionen + Qualitatskriterien fur Schatzer
Jetzt:
• Konstruktion von Schatzern
3 traditionelle Verfahren:
• Methode der kleinsten Quadrate (KQ)
• Momenten-Methode (MM)
• Maximum-Likelihood-Methode (ML)
242
Bemerkungen:
• Es gibt weitere Verfahren(z.B. die verallgemeinerte Momenten-Methode, GMM)
• Hier: hauptsachlich ML-Methode
243
5.3.1 Kleinste-Quadrate-Methode
Historie:• Eingefuhrt von
A.M. Legendre (1752-1833)C.F. Gauß (1777-1855)
Idee:• Approximiere verrauschte Beobachtungen x1, . . . , xn durch
Funktionen gi(θ1, . . . , θm), i = 1, . . . , n, m < n durch
S(x1, . . . , xn; θ) =n
∑
i=1[xi − gi(θ)]2 −→ min
θ• KQ-Schatzer ist dann
θ(X1, . . . , Xn) = argmin S(X1, . . . , Xn; θ)
244
Bemerkung:
• KQ-Methode ist zentrale Schatztechnik beim linearen Re-gressionsmodell(vgl. VLen Okonometrie I + II)
245
5.3.2 Momenten-Methode
Historie:
• Eingefuhrt von K. Pearson (1857-1936)
Definition 5.20: (Theoretische und empirische Momente)
(a) Es sei X eine Zufallsvariable mit Erwartungswert E(X). Dannist das gewohnliche theoretische p-te Moment von X (in Zei-chen: µ′p) definiert als als
µ′p = E(Xp).
Das zentrale theoretische p-te Moment von X (in Zeichen:µp) ist definiert durch
µp = E [X − E(X)]p .
246
(b) Es sei X1, . . . , Xn eine einfache Stichprobe aus X und esbezeichne X das arithmetische Stichprobenmittel. Dann istdas gewohnliche empirische p-te Moment (in Zeichen: µ′p)definiert durch
µ′p =1n
n∑
i=1Xp
i .
Das zentrale empirische p-te Moment (in Zeichen: µp) istdefiniert durch
µp =1n
n∑
i=1
(
Xi −X)p
.
247
Bemerkungen:
• Die theoretischen Momente µ′p und µp wurden bereits in derDefinition 2.21 (Folie 76) eingefuhrt
• Die empirischen Momente µ′p bzw. µp sind Schatzer fur dietheoretischen Momente µ′p bzw. µp
• Das arithmetische Stichprobenmittel ist das 1. gewohnlicheempirische Moment von X1, . . . , Xn
• Die Stichprobenvarianz ist das 2. zentrale empirische Mo-ment von X1, . . . , Xn
248
Ausgangssituation:
• Anhand der einfachen Stichprobe X1, . . . , Xn aus X sollen dier unbekannten Parameter θ1, . . . , θr geschatzt werden
Grundidee der Momentenmethode:
1. Drucke r theoretische Momente als Funktionen der r un-bekannten Parameter aus:
µ′1 = g1(θ1, . . . , θr)...
µ′r = gr(θ1, . . . , θr)
249
2. Drucke die r unbekannten Parameter als Funktionen der rtheoretischen Momente aus:
θ1 = h1(µ1, . . . , µr, µ′1, . . . , µ′r)...
θr = hr(µ1, . . . , µr, µ′1, . . . , µ′r)
3. Ersetze theoretische durch empirische Momente:
θ1(X1, . . . , Xn) = h1(µ1, . . . , µr, µ′1, . . . , µ′r)...
θr(X1, . . . , Xn) = hr(µ1, . . . , µr, µ′1, . . . , µ′r)
250
Beispiel: (Exponentialverteilung)
• Die ZV’e X heißt exponentialverteilt mit Parameter λ > 0,falls X die Dichtefunktion
fX(x) =
λe−λx , fur x > 00 , sonst
aufweist
• Es gilt:
E(X) =1λ
Var(X) =1λ2
251
• Momentenschatzer uber den Erwartungswert:
1. Wir wissen:
E(X) = µ′1 =1λ
2. Also folgt:
λ =1µ′1
3. Momentenschatzer fur λ:
λ(X1, . . . , Xn) =1
1/n∑n
i=1 Xi
252
• Momentenschatzer uber die Varianz:
1. Wir wissen:
Var(X) = µ2 =1λ2
2. Also folgt:
λ =
√
1µ2
3. Momentenschatzer fur λ:
λ(X1, . . . , Xn) =
√
√
√
√
√
1
1/n∑n
i=1
(
Xi −X)2
−→ Momentenschatzer fur einen unbekannten Parameter sindnicht eindeutig bestimmt
253
Bemerkungen:
• Momentenschatzer sind konsistent, denn
plim θ1 = plim h1(µ1, . . . , µr, µ′1, . . . , µ′r)
= h1(plim µ1, . . . ,plim µr,plim µ′1, . . . ,plim µ′r)
= h1(µ1, . . . , µr, µ′1, . . . , µ′r)
= θ1
• I.a. sind Momentenschatzer nicht erwartungstreu
• Momentenschatzer sind (i.a.) asymptotisch normalverteilt
• Die asymptotischen Varianzen sind haufig schwer zu bestim-men
254
5.3.3 Maximum-Likelihood-Methode
Historie:
• Eingefuhrt von Ronald Fisher (1890-1962)
Grundidee:
• Schatze die unbekannten Parameter θ1, . . . , θr derart, dassdie Wahrscheinlichkeit (likelihood) der konkreten Stichprobex1, . . . , xn als Funktion der unbekannten Parameter maximalwird
255
Beispiel:
• Eine Urne enthalte schwarze und weiße Kugeln
• Bekannt ist das Verhaltnis der Kugelanzahlen von 3 : 1
• Unbekannt ist, welche der Kugeln haufiger vorkommt
• Ziehe n Kugeln mit Zurucklegen
• X bezeichne die Anzahl schwarzer gezogener Kugeln
• Verteilung von X:
P (X = x) =(nx
)
px(1−p)n−x, x ∈ 0,1, . . . , n, p ∈ 0.25,0.75
(Binomialverteilung)
256
• p ∈ 0.25,0.75 ist zu schatzender Parameter
• Ziehe eine Stichprobe vom Umfang n = 3−→ Mogliche Stichprobenausgange:
Anzahl schwarze Kugeln: x 0 1 2 3P (X = x; p = 0.25) 27
642764
964
164
P (X = x; p = 0.75) 164
964
2764
2764
• Intuitives Schatzen:Schatze p als den Wert, der die Wskt. der tatsachlichenBeobachtung x (ex-ante) maximiert:
p =
0.25 , fur x = 0,10.75 , fur x = 2,3
−→ Maximum-Likelihood-Methode
257
Jetzt:
• Formalisierung der Maximum-Likelihood-Methode
Begriffe:
• Likelihood-, Loglikelihoodfunktion
• Maximum-Likelihood-Schatzer
Definition 5.21: (Likelihoodfunktion)
Die Likelihoodfunktion von n ZV’en X1, . . . , Xn ist definiert als diegemeinsame Dichte der n ZV’en, fX1,...,Xn(x1, . . . , xn; θ), jedochaufgefasst als eine Funktion des Parametervektors θ.
258
Bemerkungen:
• Sind X1, . . . , Xn eine einfache Stichprobe aus der stetigenZV’en X mit Dichtefunktion fX(x, θ), so ist
fX1,...,Xn(x1, . . . , xn; θ) =n∏
i=1fXi(xi; θ) =
n∏
i=1fX(xi; θ)
• Die Likelihoodfunktion wird oft mit L(θ;x1, . . . , xn) oder L(θ)bezeichnet, also im vorhergehenden Fall
L(θ;x1, . . . , xn) = L(θ) =n∏
i=1fX(xi; θ)
259
• Sind die X1, . . . , Xn eine Stichprobe aus einer diskreten ZV’enX, so ist die Likelihoodfunktion
L(θ;x1, . . . , xn) = P (X1 = x1, . . . , Xn = xn; θ) =n∏
i=1P (X = xi; θ)
(Hier: Likelihood = Wahrscheinlichkeit der Stichprobe)
Beispiel:
• Es sei X1, . . . , Xn eine einfache Stichprobe aus X ∼ N(µ, σ2).Dann ist θ = (µ, σ2)′ und
L(θ;x1, . . . , xn) =n∏
i=1
1√2πσ2
e−1/2((xi−µ)/σ)2
=( 12πσ2
)n/2· exp
−1
2σ2
n∑
i=1(xi − µ)2
260
Definition 5.22: (Maximum-Likelihood Schatzer)
Es sei L(θ, x1, . . . , xn) die Likelihoodfunktion der einfachen Stich-probe X1, . . . , Xn. Es bezeichne θ (wobei θ(x1, . . . , xn) von denBeobachtungen x1, . . . , xn abhangt) denjenigen Parametervektor,der L(θ, x1, . . . , xn) maximiert. Dann heißt θ(X1, . . . , Xn) derMaximum-Likelihood Schatzer von θ.
Bemerkungen:
• Man erhalt den ML-Schatzer uber die Maximierung der Like-lihood-Funktion
L(θ;x1, . . . , xn) = maxθ
L(θ;x1, . . . , xn)
und anschließendem Ersetzen der Realisationen x1, . . . , xndurch die Stichprobenvariablen X1, . . . , Xn
261
• Oft ist die Maximierung der Loglikelihoodfunktion
ln[L(θ;x1, . . . , xn)]
einfacher(Man beachte: L(θ) und ln[L(θ)] haben ihre Maxima an der-selben Stelle)
• Man bestimmt θ = (θ1, . . . , θr)′ durch Losen des Gleichungs-systems
∂∂ θ1
ln[L(θ;x1, . . . , xn)] = 0
...∂
∂ θrln[L(θ;x1, . . . , xn)] = 0
262
Beispiel:
• Es sei X1, . . . , Xn eine einfache Stichprobe aus X ∼ N(µ, σ2)mit Likelihoodfunktion
L(µ, σ2) =( 12πσ2
)n/2· exp
−1
2σ2
n∑
i=1(xi − µ)2
• Die Loglikelihoodfunktion ist
L∗(µ, σ2) = ln[L(µ, σ2)]
= −n2
ln(2π)−n2
ln(σ2)−1
2σ2
n∑
i=1(xi − µ)2
263
• Die partiellen Ableitungen lauten
∂ L∗(µ, σ2)∂ µ
=1σ2
n∑
i=1(xi − µ)
bzw.
∂ L∗(µ, σ2)∂ σ2 = −
n2
1σ2 +
12σ4
n∑
i=1(xi − µ)2
• Gleich-Null-Setzen, Losen des Gleichungssystems und Erset-zen der Realisationen durch die Stichprobenvariablen liefertdie ML-Schatzer
µ(X1, . . . , Xn) =1n
n∑
i=1Xi = X
σ2(X1, . . . , Xn) =1n
n∑
i=1
(
Xi −X)2
264
Eigenschaften der ML-Methode:
• Verteilungsannahmen sind unbedingt notwendig
• Unter bestimmten Bedingungen haben ML-Schatzer sehr an-genehme Eigenschaften:
1. Wenn θ der ML-Schatzer fur θ ist, dann ist g(θ) der ML-Schatzer von g(θ)(Aquivarianz)
2. Konsistenz:
plim θn = θ
265
3. Asymptotische Normalitat:√
n(
θn − θ) d→ U ∼ N(0, V (θ))
4. Asymptotische Effizienz:V (θ) ist die Cramer-Rao-Untergrenze
5. Berechenbarkeit (numerische Methoden)
6. Quasi-ML-Schatzung:ML-Schatzer, berechnet auf der Basis normalverteilterStichproben, sind robust gegenuber Abweichungen vonnormalverteilten Grundgesamtheiten
266
6. Statistische Hypothesentests
Ausgangssituation erneut:
• ZV X reprasentiere einen Zufallsvorgang
• X habe die unbekannte VF FX(x)
• Interessieren uns fur einen unbekannten Parameter θ der Ver-teilung von X
Jetzt:
• Testen von Hypothesen uber unbekanntes θ anhand einerStichprobe X1, . . . , Xn
• Demonstration am eindimensionalen Fall
267
Beispiel 1:
• In einer Studentenkneipe sollen geeichte Bierglaser im Aus-schank 0.4 Liter Bier enthalten. Wir haben die Vermutung,dass der Wirt haufig ’zu wenig’ ausschenkt.
• X reprasentiere den Zufallsvorgang ’Fullen eines 0.4-LiterBierglases durch den Wirt’
• Es bezeichne θ = E(X) die erwartete Fullmenge eines Glases
• Durch eine Stichprobe X1, . . . , Xn soll getestet werden
θ = 0.4 gegen θ < 0.4
268
Beispiel 2:
• Wir wissen aus der Vergangenheit, dass das Risiko einer Aktie(die Standardabweichung der Aktienrenditen) bei 25 % lag.Im Unternehmen wird nun das Management ausgetauscht.Verandert sich dadurch das Risiko der Aktie?
• X sei die Aktienrendite
• θ =√
Var(X) = SD(X) sei die Standardabweichung der Ren-diten
• Durch eine Stichprobe X1, . . . , Xn soll getestet werden
θ = 0.25 gegen θ 6= 0.25
269
6.1 Grundbegriffe des Testens
Definition 6.1: (Parametertest)
Es sei X eine Zufallsvariable und θ ein unbekannter Parameterder Verteilung von X. Ein Parametertest ist ein statistischesVerfahren, mit dem eine Hypothese uber den unbekannten Pa-rameter θ anhand einer einfachen Zufallsstichprobe X1, . . . , Xnaus X uberpruft wird.
Formulierung eines statistischen Testproblems:
• Es sei Θ die Menge aller moglichen Parameterwerte(d.h. θ ∈ Θ)
• Es sei Θ0 ⊂ Θ eine Teilmenge der Parametermenge
270
• Betrachte folgende Aussagen:
H0 : θ ∈ Θ0 gegen H1 : θ ∈ Θ/Θ0 = Θ1
• H0 heißt Nullhypothese, H1 Gegenhypothese oder Alternative
Arten von Hypothesen:
• Sind |Θ0| = 1 (d.h. Θ0 = θ0) und H0 : θ = θ0, so nenntman H0 einfach
• Andernfalls bezeichnet man H0 als zusammengesetzt
• Analoge Bezeichnungen gelten fur H1
271
Arten von Testproblemen:
• Es sei θ0 ∈ Θ eine feste reelle Zahl. Dann heißt
H0 : θ = θ0 gegen H1 : θ 6= θ0
zweiseitiges Testproblem
• Die Testprobleme
H0 : θ ≤ θ0 gegen H1 : θ > θ0
bzw.
H0 : θ ≥ θ0 gegen H1 : θ < θ0
heißen einseitig (rechts- bzw. linksseitig)
272
Jetzt:• Betrachte das allgemeine Testproblem
H0 : θ ∈ Θ0 gegen H1 : θ ∈ Θ1 = Θ/Θ0
Allgemeine Vorgehensweise:• Entscheide anhand einer Stichprobe X1, . . . , Xn aus X, ob H0
zugunsten von H1 abgelehnt wird oder nicht
Explizites Vorgehen:• Wahle ’geeignete’ Teststatistik T (X1, . . . , Xn) und bestimme
einen ’geeigneten’ kritischen Bereich K ⊂ R• Testentscheidung:
T (X1, . . . , Xn) ∈ K =⇒ H0 wird abgelehntT (X1, . . . , Xn) /∈ K =⇒ H0 wird nicht abgelehnt
273
Man beachte:
• T (X1, . . . , Xn) ist eine ZV (Stichprobenfunktion)−→ Die Testentscheidung ist zufallig−→ Fehlentscheidungen sind moglich
• Mogliche Fehlentscheidungen:
TestergebnisRealitat H0 ablehnen H0 nicht ablehnenH0 richtig Fehler 1. Art kein FehlerH0 falsch kein Fehler Fehler 2. Art
Fazit:
• Fehler 1. Art: Test lehnt H0 ab, obwohl H0 richtig
• Fehler 2. Art: Test lehnt H0 nicht ab, obwohl H0 falsch
274
Wann treten die Fehlentscheidungen auf?
• Der Fehler 1. Art tritt auf, falls
T (X1, . . . , Xn) ∈ K,
obwohl fur den wahren Parameter gilt θ ∈ Θ0
• Der Fehler 2. Art tritt auf, falls
T (X1, . . . , Xn) /∈ K,
obwohl fur den wahren Parameter gilt θ ∈ Θ1
275
Frage:
• Wann besitzt ein statistischer Test fur das Problem
H0 : θ ∈ Θ0 gegen H1 : θ ∈ Θ1 = Θ/Θ0
’gute’ Eigenschaften?
Intuitive Vorstellung:
• Test ist ’gut’, wenn er moglichst geringe Wahrscheinlichkeitenfur die Fehler 1. und 2. Art aufweist
Jetzt:
• Formales Instrument zur Messung der Fehlerwahrscheinlich-keiten 1. und 2. Art
276
Definition 6.2: (Gutefunktion eines Tests)
Man betrachte einen statistischen Test fur das obige Testprob-lem mit der Teststatistik T (X1, . . . , Xn) und einem ’geeignet ge-wahlten’ kritischen Bereich K. Unter der Gutefunktion des Testsversteht man die Funktion G, die, in Abhangigkeit des wahrenParameters θ ∈ Θ, die Wahrscheinlichkeit dafur angibt, dass derTest H0 ablehnt:
G : Θ −→ [0,1]
mit
G(θ) = P (T (X1, . . . , Xn) ∈ K).
277
Bemerkung:
• Mit der Gutefunktion sind die Wahrscheinlichkeiten fur denFehler 1. Art gegeben durch
G(θ) fur alle θ ∈ Θ0
sowie fur den Fehler 2. Art durch
1−G(θ) fur alle θ ∈ Θ1
Frage:
• Wie sieht ein idealer Test aus?
Intuition:
• Ein Test ist ideal, wenn die Fehlerwahrscheinlichkeiten 1. und2. Art stets (konstant) gleich Null sind−→ Test trifft mit Wskt. 1 die richtige Entscheidung
278
Beispiel:
• Es sei θ0 ∈ Θ. Betrachte das Testproblem
H0 : θ ≤ θ0 gegen H1 : θ > θ0
Grafik idealer Test
279
Leider:
• Es kann mathematisch gezeigt werden, dass ein solcher ide-aler Test im allgemeinen nicht existiert
Deshalb Ausweg:
• Betrachte zunachst rein theoretisch fur eine geeignete Test-statistik T (X1, . . . , Xn) die maximale Fehlerwahrscheinlichkeit1. Art
α = maxθ∈Θ0
P (T (X1, . . . , Xn) ∈ K) = maxθ∈Θ0
G(θ)
• Lege den kritischen Bereich K dann so fest, dass α einenvorgegebenen kleinen Wert annimmt
280
−→ Alle Fehlerwahrscheinlichkeiten 1. Art sind dann durch α be-grenzt(d.h. kleiner oder gleich α)
• Haufig benutzte α-Werte sind α = 0.01, α = 0.05, α = 0.1
Definition 6.3: (Signifikanzniveau eines Tests)
Man betrachte einen statistischen Test fur das Testproblem aufFolie 276 mit der Teststatistik T (X1, . . . , Xn) und einem geeignetgewahlten kritischen Bereich K. Dann bezeichnet man die max-imale Fehlerwahrscheinlichkeit 1. Art
α = maxθ∈Θ0
P (T (X1, . . . , Xn) ∈ K) = maxθ∈Θ0
G(θ)
als das Signifikanzniveau des Tests.
281
Konsequenzen dieser Testkonstruktion:
• Die Wskt., H0 aufgrund des Tests abzulehmen, obwohl H0richtig ist (d.h. die Wskt. des Fehlers 1. Art) ist hochstens α−→ Wird H0 aufgrund einer Testrealisation abgelehnt, so kann
man ziemlich sicher davon ausgehen, dass H0 tatsachlichfalsch ist(Man sagt auch: H1 ist statistisch gesichert)
• Die Wskt. fur den Fehler 2. Art (d.h. H0 nicht abzulehnen,obwohl H0 falsch ist), kann man dagegen nicht kontrollieren−→ Wird H0 aufgrund einer Testrealisation nicht abgelehnt,
so hat man keinerlei Wahrscheinlichkeitsaussage uber einemogliche Fehlentscheidung(Nichtablehung von H0 heißt nur: Die Daten sind nichtunvereinbar mit H0)
282
Wichtig deshalb:
• Es ist entscheidend, wie man H0 und H1 formuliert
• Das, was man zu zeigen hofft, formuliert man in H1(in der Hoffnung, H0 anhand des konkreten Tests ablehnenzu konnen)
Beispiel:
• Betrachte Beispiel 1 auf Folie 268
• Kann man anhand eines konkreten Tests H0 verwerfen, sokann man ziemlich sicher sein, dass der Wirt in der Regel zuwenig ausschenkt
• Kann man H0 nicht verwerfen, so kann man nichts explizitesuber die Ausschankgewohnheiten des Wirtes sagen.(Die Daten stehen lediglich nicht im Widerspruch zu H0)
283
6.2 Klassische Testverfahren
Jetzt:
• 3 allgemeine klassische Testkonstruktionen, die alle auf derLoglikelihoodfunktion der Stichprobe aufbauen
Ausgangssituation:
• Es sei X1, . . . , Xn eine einfache Stichprobe aus X
• θ ∈ R sei der unbekannte Parameter
• L(θ) = L(θ;x1, . . . , xn) sei die Likelihoodfunktion
284
• ln[L(θ)] sei die Loglikelihoodfunktion
• g : R −→ R sei eine beliebige, stetige Funktion
• Statistisches Testproblem:
H0 : g(θ) = q gegen H1 : g(θ) 6= q
Grundlage aller Tests:
• Maximum-Likelihood-Schatzer θML fur θ
285
6.2.1 Der Wald-Test
Historie:
• Vorgeschlagen von A. Wald (1902-1950)
Idee des Tests:
• Wenn H0 : g(θ) = q wahr ist, dann sollte die ZV’e g(θML)− qnicht signifikant von Null verschieden sein
286
Vorwissen:
• Aquivarianz des ML-Schatzers (Folie 265)−→ g(θML) ist ML-Schatzer fur g(θ)
• Asymptotische Normalitat (Folie 266)
−→(
g(θML)− g(θ)) d→ U ∼ N(0,Var(g(θML)))
• Die asymptotische Varianz Var(g(θML)) muss anhand derDaten geschatzt werden
Teststatistik des Wald-Tests:
W =
[
g(
θML)
− q]2
Var[
g(
θML)]
d(unter H0)−→ U ∼ χ2
1
287
Testentscheidung:
• Lehne H0 zum Signifikanzniveau α ab, wenn W > χ21;1−α
Bemerkungen:
• Der Wald-Test ist ein reiner Test gegen H0(es ist nicht notwendig, eine bestimmte Alternativhypothesezu spezifizieren)
• Das Prinzip des Wald-Tests kann auf jeden konsistenten,asymptotisch normalverteilten Schatzer angewendet werden
288
Wald-Teststatistik fur H0 : g(θ) = 0 gegen H1 : g(θ) 6= 0
289
g(θ )
≈ Wθ
MLθ
( )]ln[ θL
6.2.2 Der Likelihood-Ratio-Test (LR-Test)
Idee des Tests:
• Betrachte die Likelihood Funktion L(θ) an 2 Stellen:max
θ:g(θ)=qL(θ) (= L(θH0))
maxθ∈Θ
L(θ) (= L(θML))
• Betrachte die Große
λ =L(θH0)
L(θML)
• Fur λ gilt:0 ≤ λ ≤ 1Wenn H0 wahr ist, dann sollte λ in der Nahe von einsliegen
290
Teststatistik des LR-Tests:
LR = −2 ln(λ) = 2
ln[
L(θML)]
− ln[
L(θH0)]
d(unter H0)−→ U ∼ χ2
1
(ohne Beweis)
Fur die LR-Teststatistik gilt:
• 0 ≤ LR < ∞
• Wenn H0 wahr ist, dann sollte LR in der Nahe von Null liegen
Testentscheidung:
• Lehne H0 zum Signifikanzniveau α ab, wenn LR > χ21;1−α
291
Bemerkungen:
• Der LR-Test testet, ob der Abstand der Loglikelihoodfunk-tionen, ln[L(θML)]− ln[L(θH0)], signifikant großer als 0 ist
• Der LR-Test benotigt keine asymptotische Varianz
292
LR-Teststatistik fur H0 : g(θ) = 0 gegen H1 : g(θ) 6= 0
293
)](ln[ MLL∧θ g(θ ) g(θ ) ≈LR
)](ln[ 0HL∧θ
θ
MLθ0
ˆHθ
ln[L(θ )]
6.2.3 Der Lagrange-Multiplier-Test (LM-Test)
Historie:
• Der Test geht zuruck auf J.L. Lagrange (1736-1813)
Idee des Tests:
• Fur den ML-Schatzer θML gilt:
∂ ln[L(θ)]∂ θ
∣
∣
∣
∣
∣
θ=θML
= 0
• Wenn H0 : g(θ) = q wahr ist, dann sollte die Steigung derLoglikelihood-Funktion an der Stelle θH0 nicht signifikant vonNull verschieden sein
294
Teststatistik des LM-Tests:
LM =
∂ ln[L(θ)]∂ θ
∣
∣
∣
∣
∣
θH0
2
·[
Var(
θH0
)]−1d
(unter H0)−→ U ∼ χ21
(ohne Beweis)
Testentscheidung:
• Lehne H0 zum Signifikanzniveau α ab, wenn LM > χ21;1−α
295
LM-Teststatistik fur H0 : g(θ) = 0 gegen H1 : g(θ) 6= 0
296
( )θθ
∂∂ ]ln[L
MLθ
( )]ln[ θL
≈ LM θ
g(θ)
0H∧θ
Bemerkungen:
• Sowohl beim Wald-Test als auch beim LM-Test tauchen inden Teststatistiken die geschatzten Varianzen des SchatzersθH0 auf
• Diese unbekannten Varianzen werden konsistent durch dieFisher-Information geschatzt
• Viele okonometrische Tests beruhen auf diesen 3 Konstruk-tionsprinzipien
• Die 3 Test sind asymptotisch aquivalent, d.h. sie liefern furgroße Stichprobenumfange dieselben Testergebnisse
• Es gibt Verallgemeinerungen aller 3 Testprinzipien fur dasTesten von Hypothesen bzgl. eines Parametervektors θ
• Ist θ ∈ Rm, dann sind alle 3 Teststatistiken unter H0 χ2m-
verteilt
297
Zusammenfassung der 3 Tests
298
( )
θθ
∂∂ Lln
ln[( )] ML∧θ
ln[( )] 0H∧θ ≈ LR g(θ )
≈ LM ≈ Wθ
MLθ0
ˆHθ
( )θLln