Folien zur Vorlesung Fortgeschrittene Statistik · Inhalt 1 Einleitung 1.1 Organisatorisches 1.2...

Folien zur Vorlesung

Fortgeschrittene Statistik

Termin: Wintersemester 2012/2013Montag 10.00 – 11.30 Uhr, Horsaal: J 2

Dienstag 10.00 – 11.30 Uhr, Horsaal: CAWM 1Zeitraum: 08.10.2012 – 20.11.2012

Prof. Dr. Bernd Wilfling

Westfalische Wilhelms-Universitat Munster

Inhalt

1 Einleitung1.1 Organisatorisches1.2 Warum ’Fortgeschrittene Statistik’?

2 Zufallsvariable, Verteilungsfunktion, Erwartungswert,momentenerzeugende Funktion

2.1 Grundlegende Begriffe

2.2 Zufallsvariable, Verteilungs- und Dichtefunktion2.3 Erwartungswerte, Momente und momentenerzeugende Funktionen2.4 Spezielle Verteilungen

3 Gemeinsame und bedingte Verteilung, stochastische Unabhangigkeit3.1 Gemeinsame Verteilung und Randverteilung3.2 Bedingte Verteilung und stochastische Unabhangigkeit

3.3 Erwartungswerte und gemeinsame momentenerzeugende Funktionen

3.4 Die multivariate Normalverteilung

4 Verteilungen von Funktionen von Zufallsvariablen4.1 Erwartungswerte von Funktionen von Zufallsvariablen4.2 Die Verteilungsfunktions-Methode

4.3 Die Methode der momentenerzeugenden Funktionen4.4 Allgemeine Transformationssatze

5 Statistische Schatztheorie5.1 Stichproben, Schatzer, Grenzwertsatze5.2 Eigenschaften von Schatzern

5.3 Schatzmethoden5.3.1 Kleinste-Quadrate-Methode

5.3.2 Momenten-Methode5.3.3 Maximum-Likelihood-Methode

6 Statistische Hypothesentests6.1 Grundbegriffe des Testens6.2 Klassische Testverfahren6.2.1 Der Wald-Test

6.2.2 Der Likelihood-Ratio-Test6.2.3 Der Lagrange-Multiplier-Test

i

Literatur

Deutschsprachig:

Mosler, K. und F. Schmid (2011). Wahrscheinlichkeitsrechnung und schließende Statistik

(4. Auflage). Springer Verlag, Heidelberg.

Schira, J. (2012). Statistische Methoden der VWL und BWL – Theorie und Praxis (4. Auf-lage). Pearson Studium, Munchen.

Wilfling, B. (2010). Statistik I. Skript zur Vorlesung Deskriptive Statistik im Win-

tersemester 2010/2011 an der Westfalischen Wilhelms-Universitat Munster.

Wilfling, B. (2011). Statistik II. Skript zur Vorlesung Wahrscheinlichkeitsrechnungund schließende Statistik im Sommersemester 2011 an der WestfalischenWilhelms-Universitat Munster.

Englischsprachig:

Chiang, A. (1984). Fundamental Methods of Mathematical Economics, 3. edition. McGraw-Hill, Singapore.

Feller, W. (1968). An Introduction to Probability Theory and its Applications, Vol. 1. John

Wiley & Sons, New York.

Feller, W. (1971). An Introduction to Probability Theory and its Applications, Vol. 2. JohnWiley & Sons, New York.

Garthwaite, P.H., Jolliffe, I.T. and B. Jones (2002). Statistical Inference, 3. edition. Oxford

University Press, Oxford.

Mood, A.M., Graybill, F.A. and D.C. Boes (1974). Introduction to the Theory of Statistics,3. edition. McGraw-Hill, Tokyo.

ii

1. Einleitung

1.1 Organisatorisches

Ziel der Vorlesung:

• Vertiefung der

– Wahrscheinlichkeitsrechnung

– schließenden Statistik(aufbauend auf der Bachelor-VL)

• Vorbereitung auf Okonometrie, EmpWifo

1

Internet-Seite der Vorlesung:

• http://www1.wiwi.uni-muenster.de/oeew/

−→ Studium −→ Veranstaltungen im Wintersemester 2012/2013

−→ Bachelor −→ Advanced Statistics

Vorlesungsstil:

• Freier Vortrag anhand von Projektor-Folien

• Folien als PDF-Dateien auf der Internetseite

Literatur:

• Siehe Inhaltsverzeichnis

2

Klausurvorbereitung:

• Stoff der Vorlesung

• Aufgaben der Ubung(Do, 10.00 – 11.30 Uhr [Horsaal: CAWM 1] undDo, 14.00 – 15.30 Uhr [Horsaal: J 2])Zeitraum: 11.10.2012 – 22.11.2012)

Zugelassene Hilfsmittel in der Klausur:

• Taschenrechner (nicht programmierbar)

• VL-Foliensatz (sauber)

• Keine Lehrbucher

3

Ansprechpartner:

• Diplom-Physiker Robert Hahn(Adressen und Nummern: siehe Internet-Seite)

4

1.2 Warum ’Fortgeschrittene Statistik’?

Inhalt der Bachelor-VL WRUSS:

• Zufallsvorgange, Ereignisse, Wahrscheinlichkeiten

• Zufallsvariablen und Verteilungen

• Stichproben und Statistiken

• Schatzverfahren fur Parameter

• Hypothesentests

Ziel der Bachelor-VL WRUSS:

• Grundlegendes Verstandnis der Konzepte Stichprobe, Schat-zer, Hypothesentests

5

Jetzt:

• Veranstaltung Fortgeschrittene Statistik oder WRUMS(Wahrscheinlichkeitsrechnung und mathematische Statistik)

Ziel der VL:

• Vertiefendes Verstandnis der Verteilungstheorie

• Wie findet man gute Schatzer ?

• Wie konstruiert man gute Hypothesentests ?

6

Voraussetzungen fur die VL:

• Bachelor-VeranstaltungenMathematikDeskriptive Statistik (Statistik I)WRUSS (Statistik II)

• Die Foliensatze zu Bachelor-Vorlesungen Deskriptive Sta-tistik und WRUSS stehen zum Download zur Verfugung(vgl. Literaturverzeichnis)

Weiterfuhrende Veranstaltungen:

• Alle Veranstaltungen des Schwerpunktes Okonometrie undEmpirische Wirtschaftsforschung(Okonometrie I+II, Empirische Wirtschaftsforschung, ...)

7

2. Zufallsvariable, Verteilungsfunktion, Erwartungs-wert, momentenerzeugende Funktion

Ziel des Kapitels:

• Mathematische Prazisierung der Konzepte

Zufallsvariable

Verteilungsfunktion

Dichtefunktion

Erwartungswerte und Momente

Momentenerzeugende Funktion

8

Dazu zunachst:

• Wiederholung der Begriffe

Zufallsvorgang

Ergebnis und Ergebnismenge

Ereignis

Wahrscheinlichkeit

(vgl. Wilfling (2011), Kapitel 2)

9

2.1 Grundlegende Begriffe

Definition 2.1: (Zufallsvorgang, Zufallsexperiment)

Unter einem Zufallsvorgang verstehen wir einen Vorgang, beidem

(a) im Voraus feststeht, welche moglichen Ausgange dieser the-oretisch haben kann,

(b) der sich einstellende, tatsachliche Ausgang im Voraus jedochunbekannt ist.

Zufallsvorgange, die geplant sind und kontrolliert ablaufen, heißenZufallsexperimente.

10

Beispiele fur Zufallsexperimente:

• Ziehung der Lottozahlen

• Roulette, Munzwurf, Wurfelwurf

• ’Technische Versuche’(Hartetest von Stahlproben etc.)

In der VWL:

• Oft keine Zufallsexperimente(historische Daten, Bedingungen nicht kontrollierbar)

• Moderne VWL-Disziplin: Experimentelle Okonomik

11

Definition 2.2: (Ergebnis, Ergebnismenge)

Die Menge aller moglichen Ausgange eines Zufallsvorgangs heißtErgebnismenge und wird mit Ω bezeichnet. Ein einzelnes Ele-ment ω ∈ Ω heißt Ergebnis.

Beispiele:• Zufallsvorgang ’Werfen eines Wurfels’:

Ω = 1,2,3,4,5,6• Zufallsvorgang ’Werfen einer Munze solange, bis Kopf er-

scheint’:

Ω = K,ZK,ZZK,ZZZK,ZZZZK, . . .• Zufallsvorgang ’Bestimmung des morgigen Wechselkurses

zwischen Euro und US-$’:

Ω = [0,∞)

12

Offensichtlich:

• Die Anzahl der Elemente von Ω kann endlich, abzahlbar un-endlich oder nicht abzahlbar unendlich sein

Jetzt:

• Mengentheoretische Definition des Begriffes ’Ereignis’

Definition 2.3: (Ereignis)

Unter einem Ereignis verstehen wir eine Zusammenfassung vonErgebnissen eines Zufallsvorgangs, d.h. ein Ereignis ist eineTeilmenge der Ergebnismenge Ω. Man sagt ’Das Ereignis Atritt ein’, wenn der Zufallsvorgang ein ω ∈ A als Ergebnis hat.

13

Bemerkungen:

• Notation von Ereignissen: A, B, C, . . . oder A1, A2, . . .

• A = Ω heißt das sichere Ereignis(denn fur jedes Ergebnis ω gilt: ω ∈ A)

• A = ∅ (leere Menge) heißt das unmogliche Ereignis(denn fur jedes ω gilt: ω /∈ A)

• Falls das Ereignis A eine Teilmenge des Ereignisses B ist(A ⊂ B), so sagt man: ’Das Eintreten von A impliziert dasEintreten von B’(denn fur jedes ω ∈ A folgt ω ∈ B)

Offensichtlich:

• Ereignisse sind Mengen−→ Anwendung von Mengenoperationen auf Ereignisse

14

Ereignisverknupfungen (Mengenoperationen):

• Durchschnittsereignis (-menge):n⋂

i=1Ai tritt ein, wenn alle Ai eintreten

• Vereinigungsereignis (-menge):n⋃

i=1Ai tritt ein, wenn mindestens ein Ai eintritt

• Differenzereignis (-menge):C = A\B tritt ein, wenn A eintritt, aber B nicht

• Komplementarereignis:C = Ω\A ≡ A tritt ein, wenn A nicht eintritt

• Die Ereignisse A und B heißen unvereinbar oder disjunkt,wenn A ∩B = ∅(beide Ereignisse konnen nicht gleichzeitig eintreten)

15

Jetzt:

• Jedem Ereignis A soll eine Zahl P (A) zugeordnet werden,welche die Wahrscheinlichkeit fur das Eintreten von A repra-sentiert

• Formal:

P : A −→ P (A)

Frage:

• Welche Eigenschaften sollte die Zuordnung (Mengenfunk-tion) P besitzen?

16

Definition 2.4: (Kolmogorov’sche Axiome)

Die folgenden 3 Mindestanforderungen an P werden als Kol-mogorov’sche Axiome bezeichnet:

• Nichtnegativitat: Fur alle A soll gelten: P (A) ≥ 0

• Normierung: P (Ω) = 1

• Additivitat: Fur zwei disjunkte Ereignisse A und B (d.h. furA ∩B = ∅) soll gelten:

P (A ∪B) = P (A) + P (B)

17

Es ist leicht zu zeigen:• Die 3 Kolmogorov’schen Axiome implizieren bestimmte Eigen-

schaften und Rechenregeln fur Wahrscheinlichkeiten

Satz 2.5: (Eigenschaften von Wahrscheinlichkeiten)

Aus den Kolmogorov’schen Axiomen ergeben sich folgende Eigen-schaften fur die Wahrscheinlichkeit beliebiger Ereignisse:• Wahrscheinlichkeit des Komplimentarereignisses:

P (A) = 1− P (A)

• Wahrscheinlichkeit des unmoglichen Ereignisses:

P (∅) = 0

• Wertebereich der Wahrscheinlichkeit:

0 ≤ P (A) ≤ 1

18

Weiterhin:

• Allgemeine Rechenregeln fur Wahrscheinlichkeiten, die ausden Kolmogorov’schen Axiomen folgen

Satz 2.6: (Rechenregeln fur Wahrscheinlichkeiten)

Aus den Kolmogorov’schen Axiomen ergeben sich die folgendenRechenregeln fur die Wahrscheinlichkeit von beliebigen Ereignis-sen A, B, C:

• Additionssatz fur Wahrscheinlichkeiten:

P (A ∪B) = P (A) + P (B)− P (A ∩B)

(Wahrscheinlichkeit, dass A oder B eintritt)

19

• Additionssatz fur 3 Ereignisse:

P (A ∪B ∪ C) = P (A) + P (B) + P (C)

−P (A ∩B)− P (B ∩ C)

−P (A ∩ C) + P (A ∩B ∩ C)

(Wahrscheinlichkeit, dass A oder B oder C eintritt)

• Wahrscheinlichkeit des Differenzereignisses:

P (A\B) = P (A ∩B)

= P (A)− P (A ∩B)

20

Man beachte:

• Wenn das Ereignis B das Ereignis A impliziert (d.h.wenn B ⊂ A gilt), dann folgt

P (A\B) = P (A)− P (B)

21

2.2 Zufallsvariable, Verteilungs- und Dichtefkt

Haufige Situation in der Praxis:

• Es interessiert weniger das konkrete Ergebnis ω ∈ Ω einesZufallsexperimentes, sondern eine Zahl, die von ω abhangt

Beispiele:

• Gewinn in Euro im Roulette

• Gewinn einer Aktie an der Borse

• Monatsgehalt einer zufallig ausgewahlten Person

Intuitive Bedeutung einer Zufallsvariablen:

• Vorschrift, die das ’abstrakte’ ω in eine Zahl ubersetzt

22

Definition 2.7: (Zufallsvariable [kurz: ZV])

Unter einer Zufallsvariablen versteht man formal eine (mathema-tische) Funktion

X : Ω −→ Rω −→ X(ω).

Bemerkungen:

• Eine Zufallsvariable ordnet jedem Ergebnis ω ∈ Ω eine reelleZahl zu

• Intuition:Eine Zufallsvariable X charakterisiert eine Zahl, deren Wertman noch nicht kennt

23

• Nach der Durchfuhrung des Zufallsexperimentes realisiert sichdie Zufallsvariable X im Wert x

• x heißt die Realisation oder Realisierung der ZV X nachDurchfuhrung des zugehorigen Zufallsexperimentes

• In dieser VL:Zufallsvariablen werden immer mit Großbuchstaben, Realisa-tionen immer mit Kleinbuchstaben bezeichnet

• Die Zufallsvariable X beschreibt die Situation ex ante, d.h. vorder tatsachlichen Durchfuhrung des Zufallsexperimentes

• Die Realisation x beschreibt die Situation ex post, d.h. nachder Durchfuhrung des Zufallsexperimentes

24

Beispiel 1:

• Betrachte den 1-maligen Munzwurf (Z=Zahl, K=Kopf). DieZV X bezeichne die ’Anzahl der Kopfe’ bei diesem Zufallsex-periment

• Es gilt:

Ω = K, Z

Die ZV X kann 2 Werte annehmen:

X(Z) = 0, X(K) = 1

25

Beispiel 2:

• Betrachte den 3-maligen Munzwurf. Die ZV X bezeichneerneut die ’Anzahl der Kopfe’

• Es gilt:

Ω = (K, K, K)︸︷︷︸

=ω1

, (K, K, Z)︸︷︷︸

=ω2

, . . . , (Z, Z, Z)︸︷︷︸

=ω8

Die Zufallsvariable X ist definiert durch

X(ω) = Anzahl der K in ω

• Offensichtlich:X ordnet verschiedenen ω dieselbe Zahl zu, z.B.

X((K, K, Z)) = X((K, Z, K)) = X((Z, K, K)) = 2

26

Beispiel 3:

• Aus einer Personengruppe wird zufallig 1 Person ausgewahlt.Die ZV X soll den Erwerbsstatus der ausgewahlten Personbezeichnen

• Es gilt:

Ω = ’erwerbstatig’︸︷︷︸

=ω1

, ’nicht erwerbstatig’︸︷︷︸

=ω2

• Die ZV X kann codiert werden durch

X(ω1) = 1, X(ω2) = 0

27

Beispiel 4:

• Das Zufallsexperiment bestehe in der Messung des morgigenKurses einer bestimmten Aktie. Die ZV X bezeichne diesenAktienkurs

• Es gilt Ω = [0,∞), d.h. X ist definiert durch

X(ω) = ω

Zwischenfazit:

• Die ZV X kann verschiedene Werte annehmen und zwar mitbestimmten Wskt’en

28

Frage:

• Wie kann man diese Wskt’en bestimmen und mit diesen rech-nen?

Zunachst vereinfachte Schreibweise: (a, b, x ∈ R)

• P (X = a) ≡ P (ω|X(ω) = a)

• P (a < X < b) ≡ P (ω|a < X(ω) < b)

• P (X ≤ x) ≡ P (ω|X(ω) ≤ x)

Losung:

• Die Berechnung solcher Wskt’en kann uber die sogenannteVerteilungsfunktion der ZV’en X erfolgen

29

Intuition:

• Die Verteilungsfunktion der ZV’en X charakterisiert die Wahr-scheinlichkeiten, mit denen sich die potenziellen Realisatio-nen x auf der reellen Zahlenachse verteilen(die sogenannte Verteilung der ZV’en X)

Definition 2.8: (Verteilungsfunktion [kurz: VF])

Gegeben sei die Zufallsvariable X. Unter der Verteilungsfunk-tion der ZV’en X (in Zeichen: FX) versteht man die folgendeAbbildung:

FX : R −→ [0,1]x −→ FX(x) = P (ω|X(ω) ≤ x) = P (X ≤ x).

30

Beispiel:

• Betrachte den 3-fachen Munzwurf. Die ZV X messe die’Anzahl Kopf’.

• Zunachst gilt:

Ω = (K, K, K)︸︷︷︸

= ω1

, (K, K, Z)︸︷︷︸

= ω2

, . . . , (Z, Z, Z)︸︷︷︸

= ω8

• Fur die Wskt’en der ZV X errechnet sich:

P (X = 0) = P ((Z, Z, Z)) = 1/8

P (X = 1) = P ((Z, Z, K), (Z, K, Z), (K, Z, Z)) = 3/8

P (X = 2) = P ((Z, K, K), (K, Z, K), (K, K, Z)) = 3/8

P (X = 3) = P ((K, K, K)) = 1/8

31

• Daraus ergibt sich die VF:

FX(x) =

0.000 furx < 00.125 fur 0 ≤ x < 10.5 fur 1 ≤ x < 2

0.875 fur 2 ≤ x < 31 furx ≥ 3

Bemerkungen:

• Es genugt (fast immer), lediglich die VF FX der ZV X zukennen

• Oft ist es in praxi gar nicht moglich, den Grundraum Ω oderdie explizite Abbildung X : Ω −→ R anzugeben(jedoch kann man meistens die VF FX aus sachlogischenUberlegungen heraus angeben)

32

Allgemeingultige Eigenschaften von FX:

• FX(x) ist monoton wachsend

• Es gilt stets:

limx→−∞

FX(x) = 0 und limx→+∞

FX(x) = 1

• FX ist rechtsseitig stetig, d.h.

limz→xz>x

FX(z) = FX(x)

33

Fazit:

• VF FX(x) der ZV’en X gibt Antwort auf die Frage

’Wie hoch ist die Wahrscheinlichkeit, dass X hochstens denWert x annimmt?’

Jetzt:

• Antwort auf die Frage

’Welchen Wert wird die ZV’e X mit einer vorgegebenenWahrscheinlichkeit p ∈ (0,1) nicht uberschreiten?’

−→ Quantilfunktion der ZV’en X

34

Definition 2.9: (Quantilfunktion)

Gegeben sei die ZV X mit VF FX. Fur jeden reellen Wert p ∈(0,1) versteht man unter der Quantilfunktion von X (in Zeichen:QX(p)) die folgende Abbildung:

QX : (0,1) −→ Rp −→ QX(p) = minx|FX(x) ≥ p.

Der Wert der Quantilfunktion xp = QX(p) heißt p −Quantil derZV’en X.

Bemerkungen:• Das p-Quantil xp ist die kleinste Zahl x ∈ R mit der Eigen-

schaft, dass FX(x) den Wert p erreicht oder uberschreitet

• Interpretiert man p ∈ (0,1) als eine Wahrscheinlichkeit, so istdas p-Quantil xp die kleinste Realisation der ZV’en X, die Xmit Wskt. p nicht uberschreitet

35

Spezielle Quantile:

• Median: p = 0.5

• Quartile: p = 0.25,0.5,0.75

• Quintile: p = 0.2,0.4,0.6,0.8

• Dezile: p = 0.1,0.2, . . . ,0.9

Jetzt:

• Typisierung von ZV’en(diskrete vs. stetige ZV’en)

36

Grund:• Unterschiedliche mathematische Methoden zur Behandlung

von ZV’en

Bei diskreten ZV’en:• Endliche und unendliche Summen

Bei stetigen ZV’en:• Differential- und Integralrechnung

Bemerkungen:• Es gibt auch ZV’en, die gleichzeitig teilweise diskret und teil-

weise stetig sind

• Solche ZV’en werden hier nicht behandelt

37

Definition 2.10: (Diskrete Zufallsvariable)

Die ZV X heißt diskret, wenn sie entweder

(a) nur endlich viele Realisationen x1, x2, . . . , xJ oder

(b) abzahlbar unendlich viele Realisationen x1, x2, . . .

mit streng positiver Wahrscheinlichkeit annehmen kann, d.h. fallsfur alle j = 1, . . . , J, . . . gilt

P (X = xj) > 0 undJ,...∑

j=1P (X = xj) = 1.

38

Typische diskrete Merkmale sind:

• Zahlmerkmale (’X = Anzahl von . . .’)

• Codierte qualitative Merkmale

Weitere Definitionen:

Definition 2.11: (Trager einer diskreten Zufallsvariablen)

Die Menge aller Realisationen, die eine diskrete ZV X mit strengpositiver Wskt. annehmen kann, heißt Trager von X (in Zeichen:TX):

TX = x1, . . . , xJ bzw. TX = x1, x2, . . ..

39

Definition 2.12: (Wahrscheinlichkeitsfunktion)

Fur eine diskrete ZV X heißt die Funktion

fX(x) = P (X = x)

die Wahrscheinlichkeitsfunktion von X.

Bemerkungen:

• Die Wahrscheinlichkeitsfunktion fX der ZV X nimmt nur furdie Elemente des Tragers TX positive Werte an. Fur Werteaußerhalb des Tragers, d.h. fur x /∈ TX, gilt fX(x) = 0:

fX(x) =

P (X = xj) > 0 furx = xj ∈ TX0 furx /∈ TX

40

• Die Wahrscheinlichkeitsfkt. fX hat die Eigenschaften

fX(x) ≥ 0 fur alle x

∑

xj∈TX

fX(xj) = 1

• Fur eine beliebige Menge A ⊂ R berechnet sich die Wskt. desEreignisses ω|X(ω) ∈ A = X ∈ A durch

P (X ∈ A) =∑

xj∈AfX(xj)

41

Beispiel:

• Betrachte 3-fachen Munzwurf und X = ’Anzahl Kopf’(vgl. Folien 31, 32)

• Offensichtlich: X ist diskret mit dem Trager

TX = 0,1,2,3

• Die Wahrscheinlichkeitsfunktion ist gegeben durch

fX(x) =

P (X = 0) = 0.125 furx = 0P (X = 1) = 0.375 furx = 1P (X = 2) = 0.375 furx = 2P (X = 3) = 0.125 furx = 3

0 furx /∈ TX

42

• Die Verteilungsfunktion ist gegeben durch

FX(x) =

0.000 furx < 00.125 fur 0 ≤ x < 10.5 fur 1 ≤ x < 2

0.875 fur 2 ≤ x < 31 furx ≥ 3

Offensichtlich:

• Fur die Verteilungsfunktion gilt

FX(x) = P (X ≤ x) =∑

xj∈TX |xj≤x

=P (X=xj)︷︸︸︷

fX(xj)

43

Fazit:

• Die VF einer diskreten ZV’en X ist eine Treppenfunktionmit Sprungen an den Stellen xj ∈ TX. Die Sprunghohe ander Stelle xj betragt

FX(xj)− limx→xjx<xj

F (x) = P (X = xj) = fX(xj),

d.h. die Sprunghohe ist der Wert der Wskt.-Funktion(Beziehung: Verteilungs- und Wahrscheinlichkeitsfunktion)

44

Jetzt:

• Definition von stetigen Zufallsvariablen

Intuition:

• Im Gegensatz zu diskreten ZV’en konnen stetige ZV’e uber-abzahlbar viele Realisationen (z.B. jede reelle Zahl in einemIntervall) annehmen

Tatsachlich:

• Definition stetiger ZV’en komplizierter (technischer)

45

Definition 2.13: (Stetige ZV, Dichtefunktion)

Eine ZV X heißt stetig, wenn sich ihre Verteilungsfunktion FXals Integral einer Funktion fX : R −→ [0,∞) schreiben lasst,d.h. wenn

FX(x) =∫ x

−∞fX(t)dt fur alle x ∈ R.

Die Funktion fX(x) heißt Dichtefunktion [kurz: Dichte] von X.

Bemerkungen:

• Die VF FX einer stetigen ZV’en X ist (eine) Stammfunktionder Dichtefunktion fX

• FX(x) = P (X ≤ x) ist gleich dem Flacheninhalt unter derDichtefunktion fX von −∞ bis zur Stelle x

46

Verteilungsfunktion FX und Dichte fX

47

x

fX(t)

P(X ≤ x) = FX(x)

t

Eigenschaften der Dichtefunktion fX:

1. Die Dichte fX ist niemals negativ, d.h.

fX(x) ≥ 0 fur alle x ∈ R

2. Die Flache unter der Dichte ist gleich 1, d.h.∫ +∞

−∞fX(x)dx = 1

3. Wenn FX(x) differenzierbar ist, gilt

fX(x) = F ′X(x) ≡ dFX(x)/dx

48

Beispiel: (Gleichverteilung uber [0,10])

• Gegeben sei die ZV X mit Dichtefunktion

fX(x) =

0 , fur x /∈ [0,10]0.1 , fur x ∈ [0,10]

• Berechnung der VF FX:Fur x < 0 gilt:

FX(x) =∫ x

−∞fX(t) dt =

∫ x

−∞0 dt = 0

49

Fur x ∈ [0,10] gilt:

FX(x) =∫ x

−∞fX(t) dt

=∫ 0

−∞0 dt

︸︷︷︸

=0

+∫ x

00.1 dt

= [0.1 · t]x0

= 0.1 · x− 0.1 · 0

= 0.1 · x

50

Fur x > 10 gilt:

FX(x) =∫ x

−∞fX(t) dt

=∫ 0

−∞0 dt

︸︷︷︸

=0

+∫ 10

00.1 dt

︸︷︷︸

=1

+∫ ∞

100 dt

︸︷︷︸

=0

= 1

51

= 1− [P (X ≤ a) + P (X > b)]

= 1− [FX(a) + (1− P (X ≤ b))]

= 1− [FX(a) + 1− FX(b)]

= FX(b)− FX(a)

=∫ b

−∞fX(t) dt−

∫ a

−∞fX(t) dt

=∫ b

afX(t) dt

53

Intervall-Wahrscheinlichkeit mit den Grenzen a und b

54

a x b

fX(x)

P(a < X ≤ b)

Wichtiges Ergebnis fur stetige ZV X:

P (X = a) = 0 fur alle a ∈ R

Begrundung:

P (X = a) = limb→a

P (a < X ≤ b) = limb→a

∫ b

afX(x) dx

=∫ a

afX(x)dx = 0

Fazit:

• Die Wskt., dass eine stetige ZV X einen einzelnen Wert an-nimmt, ist immer Null!!

55

Punkt-Wahrscheinlichkeit

56

a b1b2b3

fX(x)

x

Vorsicht:

• Das bedeutet nicht, dass dieses Ereignis unmoglich ist

Konsequenz:

• Da bei stetigen ZV’en fur alle a ∈ R stets P (X = a) = 0 gilt,folgt fur stetige ZV stets

P (a < X < b) = P (a ≤ X < b) = P (a ≤ X ≤ b)

= P (a < X ≤ b) = FX(b)− FX(a)

(Ob Intervalle offen oder geschlossen sind, spielt fur dieWskt.-Bestimmung bei stetigen ZV keine Rolle)

57

2.3 Erwartungswerte, Momente und momenten-erzeugende Funktionen

Bekannt aus WRUSS:

• Der Erwartungswert einer ZV’en X ist eine Maßzahl fur dieLage der Verteilung (Lagemaß)

Definition 2.14: (Erwartungswert)

Der Erwartungswert der ZV’en X [in Zeichen: E(X)] ist definiertals

E(X) =

∑

xj∈TXxj · P (X = xj) , falls X diskret ist

∫ +∞

−∞x · fX(x) dx , falls X stetig ist

.

58

Bemerkungen:

• Der Erwartungswert der ZV’en X entspricht also (in etwa)der Summe aller moglichen Realisationen jeweils gewichtetmit der Wskt. ihres Eintretens

• Anstelle von E(X) schreibt man haufig µX

• Es gibt ZV’en, die keinen Erwartungswert besitzen(vgl. Ubung)

59

Beispiel 1: (Diskrete ZV)

• Man betrachte den 2-maligen Wurfelwurf. Die ZV X stehefur die (betragliche) Differenz der Augenzahlen. Man berech-ne den Erwartungswert von X

• Zunachst ergibt sich als Trager der Zufallsvariablen

TX = 0,1,2,3,4,5

60

• Die Wahrscheinlichkeitsfunktion ist gegeben durch

fX(x) =

P (X = 0) = 6/36 furx = 0P (X = 1) = 10/36 furx = 1P (X = 2) = 8/36 furx = 2P (X = 3) = 6/36 furx = 3P (X = 4) = 4/36 furx = 4P (X = 5) = 2/36 furx = 5

0 furx /∈ TX

• Als Erwartungswert ergibt sich

E(X) = 0 ·636

+ 1 ·1036

+ 2 ·836

+ 3 ·636

+ 4 ·436

+ 5 ·236

=7036

= 1.9444

61

Beispiel 2: (Stetige ZV)

• Es sei X eine stetige ZV mit der Dichte

fX(x) =

x4

, fur 1 ≤ x ≤ 3

0 , sonst

• Zur Berechnung des Erwartungswertes spaltet man das Inte-gral auf:

E(X) =∫ +∞

−∞x · fX(x) dx

=∫ 1

−∞0 dx +

∫ 3

1x ·

x4

dx +∫ +∞

30 dx

62

=∫ 3

1

x2

4dx =

14·[13· x3

]3

1

=14·(27

3−

13

)

=2612

= 2.1667

Haufige Situation:

• Kenne ZV X mit Wskt.- oder Dichtefunktion fX

• Suche den Erwartungswert der transformierten ZV

Y = g(X)

63

Satz 2.15: (Erwartungswert einer Transformierten)

Gegeben sei die ZV X mit Wskt.- oder Dichtefunktion fX. Fureine beliebige (Baire)Funktion g : R −→ R berechnet sich derErwartungswert der transformierten ZV Y = g(X) als

E(Y ) = E[g(X)]

=

∑

xj∈TXg(xj) · P (X = xj) , falls X diskret ist

∫ +∞

−∞g(x) · fX(x) dx , falls X stetig ist

.

64

Bemerkungen:

• Alle Funktionen, die in unserer Veranstaltung auftauchen,sind Baire-Funktionen

• Fur den Spezialfall g(x) = x (die Identitatsfunktion) fallt derSatz 2.15 mit der Definition 2.14 zusammen

Zunachst:

• Erste wichtige Rechenregeln fur Erwartungswerte

65

Satz 2.16: (Regeln fur E-Werte)

Es seien X eine beliebige ZV (diskret oder stetig), c, c1, c2 ∈ Rkonstante Zahlen und g, g1, g2 : R −→ R Funktionen. Dann geltendie folgenden Aussagen:

1. E(c) = c.

2. E[c · g(X)] = c · E[g(X)].

3. E[c1 · g1(X) + c2 · g2(X)] = c1 · E[g1(X)] + c2 · E[g2(X)].

4. Falls g1(x) ≤ g2(x) fur alle x ∈ R gilt, so folgt:

E[g1(X)] ≤ E[g2(X)].

Beweis: Ubungsaufgabe66

Jetzt:

• Betrachte die ZV X (diskret oder stetig) und die expliziteFunktion g(x) = [x− E(X)]2

−→ Varianz und Standardabweichung der ZV’en X

Definition 2.17: (Varianz, Standardabweichung)

Fur eine beliebige stetige oder diskrete ZV X ist die Varianzvon X [in Zeichen: Var(X)] definiert als die erwartete quadrierteAbweichung der ZV von ihrem Erwartungswert E(X), d.h.

Var(X) = E[(X − E(X))2].

Unter der Standardabweichung von X [in Zeichen: SD(X)] ver-steht man die (positive) Wurzel aus der Varianz, d.h.

SD(X) = +√

Var(X).

67

Bemerkungen:

• Mit g(X) = [X − E(X)]2 und Satz 2.15 (Folie 64) berechnetsich die Varianz von X explizit als

Var(X) = E[g(X)]

=

∑

xj∈TX[xj − E(X)]2 · P (X = xj) , fur diskretes X

∫ +∞

−∞[x− E(X)]2 · fX(x) dx , fur stetiges X

• Es gibt ZV’en, die keine endliche Varianz besitzen(vgl. Ubung)

68

Beispiel: (Diskrete ZV)

• Betrachte erneut den 2-maligen Wurfelwurf mit der ZV Xals (betraglicher) Differenz der Augenzahlen (vgl. Beispiel 1,Folie 35). Fur die Varianz gilt:

Var(X) = (0− 70/36)2 · 6/36 + (1− 70/36)2 · 10/36

+ (2− 70/36)2 · 8/36 + (3− 70/36)2 · 6/36

+ (4− 70/36)2 · 4/36 + (5− 70/36)2 · 2/36

= 2.05247

Man beachte:

• Die Varianz ist per definitionem ein Erwartungswert−→ Rechenregeln fur Erwartungswerte anwendbar

69

Satz 2.18: (Rechenregeln fur Varianzen)

Es seien X eine beliebige ZV (diskret oder stetig) sowie a, b ∈ Rreelle Zahlen. Es gilt

1. Var(X) = E(X2)− [E(X)]2.

2. Var(a + b ·X) = b2 ·Var(X).

Beweis: Ubungsaufgabe

Jetzt:

• Zwei wichtige Ungleichungen im Zusammenhang mit Erwar-tungswerten und transformierten ZV’en

70

Satz 2.19: (Allgemeine Chebyshey-Ungleichung)

Es seien X eine beliebige ZV sowie g : R −→ R+ eine nicht-negative Funktion. Dann gilt fur jedes k > 0

P [g(X) ≥ k] ≤E [g(X)]

k.

Jetzt Spezialfall:

• Betrachte

g(x) = [x− E(X)]2 und k = r2 ·Var(X) (r > 0)

• Hierfur liefert der Satz 2.19

P

[X − E(X)]2 ≥ r2 ·Var(X)

≤Var(X)

r2 ·Var(X)=

1r2

71

• Nun gilt

P

[X − E(X)]2 ≥ r2 ·Var(X)

= P |X − E(X)| ≥ r · SD(X)

= 1− P |X − E(X)| < r · SD(X)

• Daraus folgt

P |X − E(X)| < r · SD(X) ≥ 1−1r2

(spezielle Chebyshev-Ungleichung)

72

Bemerkung:

• Die spezielle Chebyshev-Ungleichung gibt die Mindestwahr-scheinlichkeit an, mit der eine beliebige ZV in das folgende(offene oder geschlossene) Intervall fallt:

[E(X)− r · SD(X),E(X) + r · SD(X)]

• Z.B. gilt fur r = 3:

P |X − E(X)| < 3 · SD(X) ≥ 1−132 =

89

was aquivalent ist zu

P E(X)− 3 · SD(X) < X < E(X) + 3 · SD(X) ≥ 0.8889

bzw.

P X ∈ (E(X)− 3 · SD(X),E(X) + 3 · SD(X)) ≥ 0.8889

73

Satz 2.20: (Jensen-Ungleichung)

Es seien X eine beliebige ZV sowie g : R −→ R eine konvexe(bzw. eine konkave) Funktion, d.h. fur alle x gelte g′′(x) ≥ 0(bzw. g′′(x) ≤ 0). Dann folgt

E [g(X)] ≥ g(E[X]) bzw. E [g(X)] ≤ g(E[X]).

Bemerkung:

• Es ist wichtig zu beachten, dass im Allgemeinen

E [g(X)] 6= g(E[X])

74

Beispiel:

• Betrachte die ZV X und die Funktion g(x) = x2

• Es gilt: g′′(x) = 2 ≥ 0 fur alle x, d.h. g ist konvex

• Mit der Jensen-Ungleichung folgt

E [g(X)]︸︷︷︸

=E(X2)

≥ g(E[X])︸︷︷︸

=[E(X)]2

d.h.

E(X2)− [E(X)]2 ≥ 0

• Mit dem Satz 2.18 folgt also

Var(X) = E(X2)− [E(X)]2 ≥ 0

(die Varianz einer ZV’en kann niemals negativ sein)

75

Jetzt:• Betrachte die beliebige ZV X mit E-Wert E(X) = µX, eine

naturliche Zahl n ∈ N sowie die Funktionen

g1(x) = xn

g2(x) = [x− µX]n

Definition 2.21: (Momente, zentrale Momente)

(a) Das n-te Moment der ZV’en X (in Zeichen: µ′n) ist definiertals

µ′n ≡ E[g1(X)] = E(Xn).

(b) Das n-te zentrale Moment um den Erwartungswert (in Zei-chen: µn) ist definiert als

µn ≡ E[g2(X)] = E[(X − µX)n].

76

Beziehungen:

• µ′1 = E(X) = µX(das 1. Moment entspricht dem E-Wert)

• µ1 = E[X − µX] = E(X)− µX = 0(das 1. zentrale Moment ist immer 0)

• µ2 = E[(X − µX)2] = Var(X)(das 2. zentrale Moment entspricht der Varianz)

77

Bemerkungen:

• Speziell die ersten 4 Momente einer ZV’en X sind Bausteinefur wichtige Kenngroßen der Verteilung(Erwartungswert, Varianz, Schiefe, Kurtosis)

• Die Momente einer ZV’en X spielen eine zentrale Rolle inder theoretischen und angewandten Statistik

• In einigen Fallen kann aus der Kenntnis aller Momente derZV’en X die vollstandige Verteilung (d.h. die Wahrscheinlich-keits- bzw. die Dichtefunktion) hergeleitet werden

78

Frage:

• Gibt es eine mathematische Funktion, die eine Darstellungaller Momente einer Verteilung liefert ?

Definition 2.22: (Momentenerzeugende Funktion)

Es sei X eine ZV mit Wskts- bzw. Dichtefunktion fX(x). Fureine reelle Zahl t ∈ R betrachte man den Erwartungswert E

[

et·X]

.Falls dieser E-Wert fur alle t aus einem Intervall −h < t < h, h > 0,existiert, so definiert man die momentenerzeugende Funktion vonX (in Zeichen: mX(t)) als diesen E-Wert, d.h.

mX(t) = E[

et·X]

.

79

Bemerkungen:

• Die momentenerzeugende Funktion mX(t) wird als Funktionin t aufgefasst

• Es gibt ZV’en X, fur die mX(t) nicht existiert

• Falls mX(t) existiert, so berechnet sich die Funktion aufgrunddes Satzes 2.15 (Folie 64) als

mX(t) = E[

et·X]

=

∑

xj∈TXet·xj · P (X = xj) , falls X diskret

∫ +∞

−∞et·x · fX(x) dx , falls X stetig

80

Frage:

• Warum heißt mX(t) momentenerzeugende Funktion ?

Antwort:

• Man betrachte die n-te Ableitung von mX(t) nach t:

dn

dtnmX(t) =

∑

xj∈TX(xj)

n · et·xj · P (X = xj) , falls X diskret

∫ +∞

−∞xn · et·x · fX(x) dx , falls X stetig

81

• Fur die n-te Ableitung an der Stelle t = 0 gilt

dn

dtnmX(0) =

∑

xj∈TX(xj)

n · P (X = xj) , falls X diskret

∫ +∞

−∞xn · fX(x) dx , falls X stetig

= E(Xn) = µ′n

(vgl. Definition 2.21(a), Folie 76)

82

Beispiel:

• Es sei X eine stetige ZV mit Dichtefunktion

fX(x) =

0 , falls x < 0λ · e−λ·x , falls x ≥ 0

(Exponentialverteilung mit Parameter λ > 0)

• Es gilt

mX(t) = E[

et·X]

=∫ +∞

−∞et·x · fX(x) dx

=∫ +∞

0λ · e(t−λ)·x dx =

λλ− t

fur t < λ

83

• Es folgt

m′X(t) =

λ(λ− t)2

sowie m′′X(t) =

2λ(λ− t)3

und somit

m′X(0) = E(X) =

1λ

sowie m′′X(0) = E(X2) =

2λ2

Jetzt:

• Zentrales Resultat uber momentenerzeugende Funktionen

84

Satz 2.23: (Identifikationseigenschaft)

Es seien X und Y zwei ZV’en mit Wskts- bzw. Dichtefunk-tionen fX(·) und fY (·). Angenommen, die beiden momenten-erzeugenden Funktionen mX(t) und mY (t) existieren und es giltmX(t) = mY (t) fur alle t im Intervall −h < t < h, h > 0. Dannhaben die beiden ZV’en identische Verteilungsfunktionen, d.h. esgilt FX(x) = FY (x) fur alle x.

Bemerkung:

• Der Satz 2.23 besagt, dass zu einer gegebenen momenten-erzeugenden Funktion mX(t) eine eindeutige Verteilungsfunk-tion FX(x) gehort−→ Wenn mX(t) fur die ZV X bekannt ist, dann kann man

(zumindest theoretisch) die Verteilung von X bestimmen

• Diese Eigenschaft werden wir in Kapitel 4 benutzen

85

Beispiel:

• Angenommen, die ZV X hat die momentenerzeugende Funk-tion

mX(t) =1

1− tfur − 1 < t < 1

• Dann muss die Dichtefunktion von X gegeben sein durch

fX(x) =

0 , falls x < 0e−x , falls x ≥ 0

(Exponentialverteilung mit Parameter λ = 1)

86

2.4 Spezielle Verteilungen

Bisher:

• Analyse allgemeiner mathematischer Eigenschaften beliebigerVerteilungen

• Unterscheidung zwischen diskreten und stetigen Verteilungen

• Betrachtung

der Verteilungsfunktion FX(x)

der Wskt- bzw. Dichtefunktion fX(x)

von Erwartungswerten E[g(X)]

der momentenerzeugenden Funktion mX(t)

87

Zentrale Erkenntnis:

• Die Verteilung einer ZV’en X ist (im wesentlichen) durchfX(x) oder FX(x) bestimmt

• Mit fX(x) lasst sich FX(x) bestimmen(vgl. Folie 46)

• Aus FX(x) lasst sich (im wesentlichen) fX(x) bestimmen(vgl. Folie 48)

Frage:

• Wieviele verschiedene Verteilungen gibt es?

88

Antwort:

• Unendlich viele

Jedoch:

• In der Praxis haben sich einige wichtige parametrische Vertei-lungsfamilien als ’gute’ Modelle fur real auftretende Zufallser-eignisse herauskristallisiert

• Diese Verteilungsfamilien werden in allen Statistik-Lehrbu-chern ausfuhrlich beschrieben(z.B. in Mosler & Schmid (2008), Mood et al. (1974))

89

• Zentrale diskrete Verteilungsfamilien

Bernoulli-Verteilung

Binomial-Verteilung

Geometrische Verteilung

Poisson-Verteilung

• Zentrale stetige Verteilungsfamilien

Gleichverteilung

Exponentialverteilung

Normalverteilung

90

Bemerkung:

• Die wichtigste parametrische Verteilungsfamilie uberhaupt istdie Normalverteilung

Definition 2.24: (Normalverteilung)

Die stetige ZV X heißt normalverteilt mit Parametern µ ∈ Rund σ2 > 0 [in Zeichen: X ∼ N(µ, σ2)], falls X die folgendeDichtefunktion besitzt:

fX(x) =1√

2π · σ· e−

12

(

x−µσ

)2

, x ∈ R.

91

Dichtefunktionen der Normalverteilung

92

0 5 x

fX(x)

N(0,1) N(5,1)

N(5,3)

N(5,5)

Bemerkungen:

• Die Normalverteilung N(0,1) heißt Standardnormalverteilung.Ihre Dichte wird oft mit ϕ(x) bezeichnet

• Die Kenntnis aller Eigenschaften sowie das Rechnen mit nor-malverteilten ZV’en ist zwingende Voraussetzung fur dieseVeranstaltung(vgl. Wilfling (2011), Kapitel 3.4)

93

3. Gemeinsame und bedingte Verteilung,stochastische Unabhangigkeit

Lernziele dieses Kapitels:

• Mehrdimensionale Zufallsvariablen (Zufallsvektoren)(Verteilung, Kenngroßen)

• Abhangigkeitsstrukturen

• Multivariate Normalverteilung(Definition, Eigenschaften)

Empfohlene Literatur:

• Mood, Graybill, Boes (1974), Kapitel IV, S. 129-174

• Wilfling (2011), Kapitel 4

94

3.1 Gemeinsame Verteilung und Randverteilung

Jetzt:

• Gleichzeitige Betrachtung mehrerer Zufallsvariablen

Einsatzgebiete:

• Diverse okonomische Anwendungen

• Statistische Inferenz

95

Definition 3.1: (Zufallsvektor)

Gegeben seien die n Zufallsvariablen X1, · · · , Xn zu ein und dem-selben Zufallsexperiment, d.h.

Xi : Ω −→ R fur i = 1, . . . , n.

Dann nennt man X = (X1, . . . , Xn)′ eine n-dimensionale Zu-fallsvariable oder einen n-dimensionalen Zufallsvektor.

Bemerkungen:

• In der Wahrscheinlichkeitstheorie verwendet man fur Zufalls-vektoren oft auch die Schreibweisen

X = (X1, . . . , Xn) oder einfach X1, . . . , Xn

96

• Fur n = 2 schreibt man oft

X = (X, Y )′ oder (X, Y ) oder X, Y

• Fur die Realisationen benutzt man Kleinbuchstaben:

x = (x1, . . . , xn)′ ∈ Rn oder x = (x, y)′ ∈ R2

Jetzt:

• Beschreibung der Wahrscheinlichkeitsverteilung des Zufalls-vektors X

97

Definition 3.2: (Gemeinsame Verteilungsfunktion)

Fur den Zufallsvektor X = (X1, . . . , Xn)′ heißt die Funktion

FX1,...,Xn : Rn −→ [0,1]

mit

FX1,...,Xn(x1, . . . , xn) = P (X1 ≤ x1, X2 ≤ x2, . . . , Xn ≤ xn)

die gemeinsame Verteilungsfunktion von X = (X1, . . . , Xn)′.

Bemerkung:

• Definition 3.2 bezieht sich sowohl auf diskrete als auch aufstetige Zufallsvariablen X1, . . . , Xn

98

Einige Eigenschaften der bivariaten VF (n = 2):

• FX,Y (x, y) ist monoton steigend in x und y

• limx→−∞

FX,Y (x, y) = 0

• limy→−∞

FX,Y (x, y) = 0

• limx→+∞y→+∞

FX,Y (x, y) = 1

Bemerkung:

• Fur die n-dimensionale VF FX1,...,Xn(x1, . . . , xn) gelten analogeEigenschaften

99

Jetzt:

• Gemeinsam diskrete versus stetige Verteilungen

Definition 3.3: (Gemeinsam diskrete Verteilung)

Der Zufallsvektor X = (X1, . . . , Xn)′ heißt gemeinsam diskret,wenn es nur endlich (oder abzahlbar unendlich) viele Realisatio-nen x = (x1, . . . , xn)′ gibt, so dass

P (X1 = x1, X2 = x2, . . . , Xn = xn) > 0

und∑

P (X1 = x1, X2 = x2, . . . , Xn = xn) = 1,

wobei die Summation uber alle moglichen Realisationen des Zu-fallsvektors erfolgt.

100

Definition 3.4: (Gemeinsam stetige Verteilung)

Der Zufallsvektor X = (X1, . . . , Xn)′ heißt gemeinsam stetig, fallses eine nicht-negative Funktion fX1,...,Xn(x1, . . . , xn) gibt, so dass

FX1,...,Xn(x1, . . . , xn) =∫ xn

−∞. . .

∫ x1

−∞fX1,...,Xn(u1, . . . , un) du1 . . . dun

gilt. Die Funktion fX1,...,Xn heißt gemeinsame Dichtefunktion desZufallsvektors.

Beispiel:

• Betrachte fur X = (X, Y )′ die Dichtefunktion

fX,Y (x, y) =

x + y , fur (x, y) ∈ [0,1]× [0,1]0 , sonst

101

Dichtefunktion fX,Y (x, y)

102

00.2

0.40.6

0.81

x0

0.2

0.4

0.6

0.8

1

y

00.5

11.5

2

fHx,yL

00.2

0.40.6

0.8x

• Fur die Verteilungsfunktion folgt

FX,Y (x, y) =∫ y

−∞

∫ x

−∞fX,Y (u, v) du dv

=∫ y

0

∫ x

0(u + v) du dv

= . . .

=

0.5(x2y + xy2) , fur (x, y) ∈ [0,1]× [0,1]0.5(x2 + x) , fur (x, y) ∈ [0,1]× [1,∞)0.5(y2 + y) , fur (x, y) ∈ [1,∞)× [0,1]

1 , fur (x, y) ∈ [1,∞)× [1,∞)

(Beweis: Ubungsaufgabe)

103

Bemerkungen:

• Es gilt:

∂nFX1,...,Xn(x1, . . . , xn)

∂x1 · · · ∂xn= fX1,...,Xn(x1, . . . , xn)

• Das Volumen unter der Dichtefunktion reprasentiert Wahr-scheinlichkeiten:

P (au1 < X1 ≤ ao

1, . . . , aun < Xn ≤ ao

n)

=∫ ao

n

aun

. . .∫ ao

1

au1

fX1,...,Xn(u1, . . . , un) du1 . . . dun

104

• In dieser VL:

Fokus auf stetige Zufallsvektoren

Fur diskrete Zufallsvektoren gelten analoge Aussagen(vgl. Mood, Graybill, Boes (1974), Kapitel IV)

Jetzt:

• Bestimmung der Verteilung einer einzelnen ZufallsvariablenXi aus der gemeinsamen Verteilung des Zufallsvektors(X1, . . . , Xn)′

−→ Randverteilung

105

Definition 3.5: (Randverteilung)

Es sei X = (X1, . . . , Xn)′ ein stetig verteilter Zufallsvektor mitden Verteilungs- und Dichtefunktionen FX1,...,Xn bzw. fX1,...,Xn.Dann heißen

FX1(x1) = FX1,...,Xn(x1,+∞,+∞, . . . ,+∞,+∞)

FX2(x2) = FX1,...,Xn(+∞, x2,+∞, . . . ,+∞,+∞)

. . .

FXn(xn) = FX1,...,Xn(+∞,+∞,+∞, . . . ,+∞, xn)

die Randverteilungsfunktionen bzw.

106

fX1(x1) =∫ +∞

−∞. . .

∫ +∞

−∞fX1,...,Xn(x1, x2, . . . , xn) dx2 . . . dxn

fX2(x2) =∫ +∞

−∞. . .

∫ +∞

−∞fX1,...,Xn(x1, x2, . . . , xn) dx1 dx3 . . . dxn

· · ·

fXn(xn) =∫ +∞

−∞. . .

∫ +∞

−∞fX1,...,Xn(x1, x2, . . . , xn) dx1 dx2 . . . dxn−1

die Randdichten der einzelnen (univariaten) ZufallsvariablenX1, . . . , Xn.

107

Beispiel:

• Gegeben sei die bivariate Dichtefunktion

fX,Y (x, y)

=

40(x− 0.5)2y3(3− 2x− y) , fur (x, y) ∈ [0,1]× [0,1]0 , sonst

108

Dichtefunktion fX,Y (x, y)

109

00.2

0.40.6

0.81

x0

0.2

0.4

0.6

0.8

1

y

01

23

fHx,yL

00.2

0.40.6

0.8x

• Fur die Randdichte von X gilt:

fX(x) =∫ 1

040(x− 0.5)2y3(3− 2x− y)dy

= 40(x− 0.5)2∫ 1

0(3y3 − 2xy3 − y4)dy

= 40(x− 0.5)2[34

y4 −2x4

y4 −15

y5]1

0

= 40(x− 0.5)2(34−

2x4−

15

)

= −20x3 + 42x2 − 27x + 5.5

110

Randdichte fX(x)

111

0.2 0.4 0.6 0.8 1x

0.25

0.5

0.75

1

1.25

1.5

fHxL

• Fur die Randdichte von Y gilt:

fY (y) =∫ 1

040(x− 0.5)2y3(3− 2x− y)dx

= 40y3∫ 1

0(x− 0.5)2(3− 2x− y)dx

= −103

y3(y − 2)

112

Randdichte fY (y)

113

0.2 0.4 0.6 0.8 1y

0.5

1

1.5

2

2.5

3

fHyL

Bemerkungen:

• Beim Ubergang zu den Randverteilungen ergibt sich ein In-formationsverlust(aus gemeinsamer Verteilung folgen die Randverteilungen,aber nicht umgekehrt)

• Neben den einzelnen univariaten Randverteilungen ergebensich auch die multivariaten Randverteilungen aus der gemein-samen Verteilung von X = (X1, . . . , Xn)′

114

Beispiel:

• Es sei n = 5, d.h. X = (X1, . . . , X5)′ mit gemeinsamer Dichte-funktion fX1,...,X5

• Dann ist die Randdichte von Z = (X1, X3, X5)′

fX1,X3,X5(x1, x3, x5)

=∫ +∞

−∞

∫ +∞

−∞fX1,...,X5(x1, x2, x3, x4, x5) dx2 dx4

(Herausintegrieren nicht interessierender Komponenten)

115

3.2 Bedingte Verteilungen und stochastische Un-abhangigkeit

Jetzt:

• Verteilung einer ZV’en X unter der Bedingung, dass eine an-dere ZV’en Y bereits einen bestimmten Wert y angenommenhat(Bedingte Verteilung von X unter Y = y)

116

Definition 3.6: (Bedingte Verteilung)

Es seien X = (X, Y )′ ein stetig verteilter Zufallsvektor mit gemein-samer Dichtefunktion fX,Y (x, y). Die bedingte Dichte von Xunter der Bedingung Y = y ist definiert durch

fX|Y =y(x) =fX,Y (x, y)

fY (y).

Analog ist die bedingte Dichte von Y unter der Bedingung X = xdefiniert als

fY |X=x(y) =fX,Y (x, y)

fX(x).

117

Bemerkung:

• Bedingte Dichten fur Zufallsvektoren werden analog definiert,z.B.

fX1,X2,X4|X3=x3,X5=x5(x1, x2, x4) =

fX1,X2,X3,X4,X5(x1, x2, x3, x4, x5)

fX3,X5(x3, x5)

118

Beispiel:

• Gegeben sei die bivariate Dichtefunktion

fX,Y (x, y)

=

40(x− 0.5)2y3(3− 2x− y) , fur (x, y) ∈ [0,1]× [0,1]0 , sonst

mit der Randdichte

fY (y) = −103

y3(y − 2)

(vgl. Folien 108-112)

119

• Dann gilt fur die bedingte Dichte


fY (y)

=40(x− 0.5)2y3(3− 2x− y)

−103 y3(y − 2)

=12(x− 0.5)2(3− 2x− y)

2− y

120

Bedingte Dichte fX|Y =0.01(x) von X unter Y = 0.01

121

0.2 0.4 0.6 0.8 1x

0.5

1

1.5

2

2.5

3

Bedingte Dichte

Bedingte Dichte fX|Y =0.95(x) von X unter Y = 0.95

122

0.2 0.4 0.6 0.8 1x

0.2

0.4

0.6

0.8

1

1.2

Bedingte Dichte

Jetzt:

• Benutze Konzepte der gemeinsamen Verteilung bzw. der be-dingten Verteilung zur Definition der stochastischen Unab-hangigkeit(zunachst fur 2 ZV’e)

Definition 3.7: (Stochastische Unabhangigkeit [I])

Es sei (X, Y )′ ein stetig verteilter Zufallsvektor mit gemeinsamerDichtefunktion fX,Y (x, y). Dann heißen X und Y stochastischunabhangig, falls die gemeinsame Dichtefunktion dem Produktder Randdichten entspricht:

fX,Y (x, y) = fX(x) · fY (y) fur alle x, y ∈ R.

123

Bemerkungen:

• Alternativ druckt man die Unabhangigkeit auch uber die ge-meinsame Verteilungsfunktion aus:X und Y sind genau dann unabhangig, wenn gilt:

FX,Y (x, y) = FX(x) · FY (y) fur alle x, y ∈ R.

• Sind X und Y unabhangig, so gilt fur die bedingten Verteilun-gen:


fY (y)=

fX(x) · fY (y)fY (y)

= fX(x)

fY |X=x(y) =fX,Y (x, y)

fX(x)=

fX(x) · fY (y)fX(x)

= fY (y)

• Sind X und Y unabhangig und g und h zwei stetige Funktio-nen, so sind auch g(X) und h(Y ) unabhangig

124

Jetzt:

• Verallgemeinerung auf n ZV’en

Definition 3.8: (Stochastische Unabhangigkeit [II])

Es sei (X1, . . . , Xn)′ ein stetig verteilter Zufallsvektor mit gemein-samer Dichtefunktion fX1,...,Xn(x1, . . . , xn) sowie Verteilungsfunk-tion FX1,...,Xn(x1, . . . , xn). Dann heißen X1, . . . , Xn stochastischunabhangig, falls fur alle (x1, . . . , xn)′ ∈ Rn gilt

fX1,...,Xn(x1, . . . , xn) = fX1(x1) · . . . · fXn(xn)

bzw.

FX1,...,Xn(x1, . . . , xn) = FX1(x1) · . . . · FXn(xn).

125

Bemerkungen:

• Fur diskret verteilte Zufallsvektoren definiert man analog:X1, . . . , Xn sind stochastisch unabhangig, falls fur alle Reali-sationen (x1, . . . , xn)′ ∈ Rn gilt:

P (X1 = x1, . . . , Xn = xn) = P (X1 = x1) · . . . · P (Xn = xn)

bzw.

FX1,...,Xn(x1, . . . , xn) = FX1(x1) · . . . · FXn(xn).

• Bei Unabhangigkeit ergibt sich die gemeinsame Verteilungaus den Randverteilungen (sonst nicht)

• Sind X1, . . . , Xn stochastisch unabhangig und g1, . . . , gn stetigeFunktionen, so sind auch die transformierten ZV’en Y1 =g1(X1), . . . , Yn = gn(Xn) stochastisch unabhangig

126

3.3 Erwartungswerte und gemeinsame momenten-erzeugende Funktion

Jetzt:

• Definition des Erwartungswertes einer Funktion

g : Rn −→ R(x1, . . . , xn) 7−→ g(x1, . . . xn)

eines stetig verteilten Zufallsvektors X = (X1, . . . , Xn)′

127

Definition 3.9: (E-Wert einer Funktion)

Es sei (X1, . . . , Xn)′ ein stetig verteilter Zufallsvektor mit Dichte-funktion fX1,...,Xn(x1, . . . , xn) und g : Rn −→ R eine reellwertigestetige Funktion. Dann ist der Erwartungswert der Funktion desZufallsvektors definiert als

E[g(X1, . . . , Xn)]

=∫ +∞

−∞. . .

∫ +∞

−∞g(x1, . . . , xn) · fX1,...,Xn(x1, . . . , xn) dx1 . . . dxn.

128

Bemerkungen:

• Fur einen diskret verteilten Zufallsvektor (X1, . . . , Xn)′ lautetdie entsprechende Definition

E[g(X1, . . . , Xn)] =∑

g(x1, . . . , xn) · P (X1 = x1, . . . , Xn = xn),

wobei uber alle Realisationen des Vektors zu summieren ist

• Definition 3.9 umfasst den Erwartungswert einer einzelnenZV’en X:Setze n = 1 sowie g(x) = x

−→ E(X1) ≡ E(X) =∫ +∞

−∞xfX(x) dx

• Definition 3.9 umfasst die Varianz einer ZV’en X:Setze n = 1 und sowie g(x) = [x− E(X)]2

−→ Var(X1) ≡ Var(X) =∫ +∞

−∞[x− E(X)]2fX(x) dx

129

• Definition 3.9 umfasst die Kovarianz zweier ZV’en:Setze n = 2 sowie g(x1, x2) = [x1 − E(X1)] · [x2 − E(X2)]

−→ Cov(X1, X2)

=∫ +∞

−∞

∫ +∞

−∞[x1 − E(X1)][x2 − E(X2)]fX1,X2(x1, x2) dx1 dx2

• Mit der Kovarianz folgt der Korrelationskoeffizient:

Corr(X1, X2) =Cov(X1, X2)

√

Var(X1)√

Var(X2)

• Eigenschaften von Erwartungswerten, Varianzen, Kovarianzen,Korrelationskoeffizienten−→ siehe Ubung

130

Jetzt:• ’Erwartungswerte’ und ’Varianzen’ fur Zufallsvektoren

Definition 3.10: (E-Wertvektor, Kovarianzmatrix)

X = (X1, . . . , Xn)′ sei ein Zufallsvektor. Unter dem Erwartungs-wertvektor von X versteht man den Vektor der Erwartungswerte

E(X) =

E(X1)...

E(Xn)

.

Unter der Kovarianzmatrix von X versteht man die folgende Ma-trix von Varianzen und Kovarianzen:

Cov(X) =

Var(X1) Cov(X1, X2) . . . Cov(X1, Xn)Cov(X2, X1) Var(X2) . . . Cov(X2, Xn)

... ... . . . ...Cov(Xn, X1) Cov(Xn, X2) . . . Var(Xn)

.

131

Bemerkung:

• Offensichtlich ist jede Kovarianzmatrix symmetrisch

Frage:

• Wie verhalten sich Erwartungswertvektoren und Kovarianz-matrizen unter linearen Transformationen von Zufallsvektoren

Es seien

• X = (X1, . . . , Xn)′ ein n-dimensionaler Zufallsvektor

• A eine (m× n)-Matrix reeller Zahlen

• b ein (m× 1) Spaltenvektor reeller Zahlen

132

Offensichtlich gilt:

• Y = AX + b ist ein (m× 1)-Zufallsvektor:

Y =

a11 a12 . . . a1na21 a22 . . . a2n... ... . . . ...

am1 am2 . . . amn

X1X2...

Xn

+

b1b2...

bm

=

a11X1 + a12X2 + . . . + a1nXn + b1a21X1 + a22X2 + . . . + a2nXn + b2

...am1X1 + am2X2 + . . . + amnXn + bm

133

• Fur den Erwartungswertvektor von Y gilt:

E(Y) =

a11E(X1) + a12E(X2) + . . . + a1nE(Xn) + b1a21E(X1) + a22E(X2) + . . . + a2nE(Xn) + b2

...am1E(X1) + am2E(X2) + . . . + amnE(Xn) + bm

= AE(X) + b

• Fur die Kovarianzmatrix von Y gilt:

Cov(Y) =

Var(Y1) Cov(Y1, Y2) . . . Cov(Y1, Yn)Cov(Y2, Y1) Var(Y2) . . . Cov(Y2, Yn)

... ... . . . ...Cov(Yn, Y1) Cov(Yn, Y2) . . . Var(Yn)

= ACov(X)A′

(Beweis: Ubung)

134

Bemerkung:

• Vgl. Analogien zu den univariaten Fallen:

E(a ·X + b) = a · E(X) + b

Var(a ·X + b) = a2 ·Var(X)

Bisher:

• Erwartungswerte fur unbedingte Verteilungen

Jetzt:

• Erwartungswerte fur bedingte Verteilungen(vgl. Definition 3.6, Folie 117)

135

Definition 3.11: (Bedingter E-Wert einer Funktion)

Es sei (X, Y )′ ein stetig verteilter Zufallsvektor mit gemeinsamerDichtefunktion fX,Y (x, y) und g : R2 −→ R eine reellwertigestetige Funktion. Dann ist der bedingte Erwartungswert derFunktion unter der Bedingung X = x definiert als

E[g(X, Y )|X = x] =∫ +∞

−∞g(x, y) · fY |X(y) dy.

136

Bemerkungen:

• Fur einen diskret verteilten Zufallsvektor (X, Y )′ gilt eineanaloge Definition

• Die Definition 3.11 kann auf hoher dimensionale Verteilungenverallgemeinert werden

• Fur g(x, y) = y erhalt man als Spezialfall E[g(X, Y )|X = x] =E(Y |X = x)

• Man beachte, dass E[g(X, Y )|X = x] im Allgemeinen eineFunktion von x darstellt

137

Beispiel:

• Man betrachte die gemeinsame stetige Dichtefunktion

fX,Y (x, y) =

x + y , fur (x, y) ∈ [0,1]× [0,1]0 , sonst

• Fur die bedingte Verteilung von Y unter X = x folgt

fY |X=x(y) =

x + yx + 0.5 , fur (x, y) ∈ [0,1]× [0,1]

0 , sonst

• Mit g(x, y) = y ergibt sich der bedingte Erwartungswert als

E(Y |X = x) =∫ 1

0y ·

x + yx + 0.5

dy =1

x + 0.5·(x2

+13

)

138

Bemerkungen:

• Wir betrachten die Funktion g(x, y) = g(y)(d.h. g hangt nicht von x ab)

• Nun bezeichne h(x) = E[g(Y )|X = x]

• Wir berechnen nun den unbedingten Erwartungswert derTransformation h(X)

• Es gilt:

139

E E[g(Y )|X = x] = E[h(X)] =∫ +∞

−∞h(x) · fX(x) dx

=∫ +∞

−∞E[g(Y )|X = x] · fX(x) dx

=∫ +∞

−∞

[

∫ +∞

−∞g(y) · fY |X(y) dy

]

· fX(x) dx

=∫ +∞

−∞

∫ +∞

−∞g(y) · fY |X(y) · fX(x) dy dx

=∫ +∞

−∞

∫ +∞

−∞g(y) · fX,Y (x, y) dy dx

= E[g(Y )]

140

Satz 3.12:

Es sei (X, Y )′ ein beliebig diskret oder stetig verteilter Zufallsvek-tor. Dann gilt

E[g(Y )] = E E[g(Y )|X = x]

und insbesondere

E[Y ] = E E[Y |X = x] .

Jetzt:

• Drei weitere wichtige Rechenregeln fur bedingte und unbed-ingte Erwartungswerte

141

Satz 3.13:

Es seien (X, Y )′ ein beliebig diskret oder stetig verteilter Zu-fallsvektor und g1(·), g2(·) zwei eindimensionale Funktionen. Danngilt fur die bedingten Erwartungswerte:

1. E[g1(Y ) + g2(Y )|X = x] = E[g1(Y )|X = x] + E[g2(Y )|X = x].

2. E[g1(Y ) · g2(X)|X = x] = g2(x) · E[g1(Y )|X = x].

3. Falls X und Y stochastisch unabhangig sind, so gilt fur dieunbedingten Erwartungswerte

E[g1(X) · g2(Y )] = E[g1(X)] · E[g2(Y )].

142

Abschließend:

• Momentenerzeugende Funktion fur Zufallsvektoren

Definition 3.14: (Gemeinsame momentenerz. Funktion)

Es sei (X1, . . . , Xn)′ ein beliebig diskret oder stetig verteilter Zu-fallsvektor. Dann ist dessen gemeinsame momentenerzeugendeFunktion definiert durch

mX1,...,Xn(t1, . . . , tn) = E[

et1·X1+...+tn·Xn]

,

falls dieser Erwartungswert fur alle Werte von t1, . . . , tn mit −h <tj < h fur irgendein h > 0 und alle j = 1, . . . , n existiert.

143

Bemerkungen:

• Anhand der gemeinsamen momentenerzeugenden FunktionmX1,...,Xn(t1, . . . , tn) lassen sich mit bestimmten Rechenoper-ationen die folgenden Objekte bestimmen:

die marginalen momentenerzeugenden FunktionenmX1(t1), . . . , mXn(tn)

die Momente der Randverteilungen

sogenannte gemeinsame Momente

144

Zentrales Resultat: (vgl. Satz 2.23, Folie 85)

Zu einer gegebenen gemeinsamen momentenerzeugendenFunktion mX1,...,Xn(t1, . . . , tn) gehort eine eindeutige gemein-same Verteilungsfunktion FX1,...,Xn(x1, . . . , xn)

145

3.4 Die multivariate Normalverteilung

Jetzt:• Verallgemeinerung der univariaten Normalverteilung

Definition 3.15: (Multivariate Normalverteilung)

Es sei X = (X1, . . . , Xn)′ ein n-dimensionaler stetiger Zufallsvek-tor. X heißt multivariat normalverteilt mit Parametern

µ =

µ1...

µn

und Σ =

σ21 · · · σ1n... . . . ...

σn1 · · · σ2n

,

falls fur x = (x1, . . . , xn)′ ∈ Rn die Dichtefunktion

fX(x) = (2π)−n/2 [det(Σ)]−1/2 · exp

−12

(x− µ)′Σ−1 (x− µ)

lautet.146

Bemerkungen:

• Fur die Definition und Eigenschaften der Determinanten einerMatrix A, det(A), vgl. Chang (1984, S. 92 ff)

• Ubliche Notation

X ∼ N(µ,Σ)

• µ ist ein Spaltenvektor mit µ1, . . . , µn ∈ R

• Σ ist (per Annahme) eine regulare, positiv definite, sym-metrische (n× n)-Matrix

• Bedeutung der Parameter:

E(X) = µ und Cov(X) = Σ

147

• Dichte der multivariaten Standardnormalverteilung N(0, In):

φ(x) = (2π)−n/2 · exp

−12x′x

• Man beachte die Analogien zur univariaten Dichte in Defini-tion 2.24, Folie 91

Eigenschaften der N(µ,Σ)-Verteilung:

• Teilvektoren (Randverteilungen) von X sind wieder normal-verteilt, d.h. falls

X =

[

X1X2

]

∼ N

([

µ1µ2

]

,

[

Σ11 Σ12Σ21 Σ22

])

dann gilt:

X1 ∼ N(µ1,Σ11)X2 ∼ N(µ2,Σ22)

148

• Somit sind alle univariaten Elemente des Zufallsvektors X =(X1, . . . , Xn)′ univariat normalverteilt:

X1 ∼ N(µ1, σ21)

X2 ∼ N(µ2, σ22)

...Xn ∼ N(µn, σ2

n)

• Auch die bedingten Verteilungen sind wiederum (uni- odermultivariat) normal:

X1|X2 = x2 ∼ N(

µ1 + Σ12Σ−122 (x2 − µ2),Σ11 −Σ12Σ

−122 Σ21

)

• Lineare Transformationen:Es seien A eine (m × n)-Matrix und b ein (m × 1)-Vektorreeller Zahlen sowie X = (X1, . . . , Xn)′ ∼ N(µ,Σ). Dann gilt:

AX + b ∼ N(Aµ + b,AΣA′)

149

Beispiel:

• Es sei

X ∼ N(µ,Σ)

∼ N

([

01

]

,

[

1 0.50.5 2

])

• Gesucht ist die Verteilung von Y = AX + b mit

A =

[

1 23 4

]

, b =

[

12

]

• Es gilt Y ∼ N(Aµ + b,AΣA′)

• Matrixalgebra ergibt

Aµ + b =

[

36

]

und AΣA′ =

[

12 2424 53

]

150

Jetzt:

• Spezialisierung auf bivariaten Fall (n = 2), d.h.

X = (X, Y )′, E(X) =

[

µXµY

]

, Σ =

[

σ2X σXY

σY X σ2Y

]

• Es gilt

σXY = σY X = Cov(X, Y ) = σX · σY ·Corr(X, Y ) = σX · σY · ρ• Mit Definition 3.15 und n = 2 gilt dann fur die Dichte

fX,Y (x, y) =1

2πσXσY

√

1− ρ2exp

−1

2(

1− ρ2)

×[

(x− µX)2

σ2X

−2ρ(x− µX)(y − µY )

σXσY+

(y − µY )2

σ2Y

]

(Herleitung: Ubungsaufgabe)

151

Dichte fX,Y (x, y) mit µX = µY = 0, σx = σY = 1 sowie ρ = 0

152

-2

0

2x -2

0

2

y

00.05

0.1

0.15

fHx,yL

-2

0

2x

Dichte fX,Y (x, y) mit µX = µY = 0, σx = σY = 1 sowie ρ = 0.9

153

-2

0

2x -2

0

2

y

00.1

0.2

0.3fHx,yL

-2

0

2x

Bemerkungen:

• Fur die Randverteilungen gilt

X ∼ N(µX , σ2X) und Y ∼ N(µY , σ2

Y )−→ Besonderheit der Normalverteilung:

Ist ρ = Corr(X, Y ) = 0 (d.h. sind X und Y unkorreliert), sosind X und Y stochastisch unabhangig

• Die bedingten Verteilungen sind gegeben durch

X|Y = y ∼ N

(

µX + ρσXσY

(y − µY ), σ2X

(

1− ρ2)

)

Y |X = x ∼ N

(

µY + ρσYσX

(x− µX), σ2Y

(

1− ρ2)

)

(Beweise: Ubungsaufgabe)

154

4. Verteilungen von Funktionen von Zufallsvari-ablen

Allgemeine Problemstellung:

• Gegeben sei die gemeinsame Verteilung der ZV’en X1, . . . , Xn

(d.h. bekannt seien fX1,...,Xn bzw. FX1,...,Xn)

• Wir betrachten k Funktionen

g1 : Rn −→ R, . . . , gk : Rn −→ R

• Gesucht wird die gemeinsame Verteilung der k ZV’en

Y1 = g1(X1, . . . , Xn), . . . , Yk = gk(X1, . . . Xn)

(d.h. gesucht wird fY1,...,Ykbzw. FY1,...,Yk

)

155

Beispiel:

• Gegeben seien die ZV’en X1, . . . , Xn mit fX1,...,Xn

• Wir betrachten die beiden Funktionen

g1(X1, . . . , Xn) =n

∑

i=1Xi und g2(X1, . . . , Xn) =

1n

n∑

i=1Xi

• Gesucht wird fY1,Y2 mit Y1 =∑n

i=1 Xi und Y2 = 1n

∑ni=1 Xi

Bemerkungen:

• Aus der gemeinsamen Verteilung fY1,...,Ykkann man die k

Randverteilungen fY1, . . . fYkermitteln

(vgl. Kapitel 3, Folien 106 ff.)

156

Inhalt dieses Kapitels:

• Techniken zur Bestimmung der (Rand)Verteilungenvon (Y1, . . . , Yk)

′

157

4.1 Erwartungswerte von Funktionen von Zufalls-variablen

Vereinfachung:

• Zunachst interessieren nicht die exakten Verteilungen, son-dern nur bestimmte Erwartungswerte von Y1, . . . , Yk

Voruberlegungen:

• Gegeben seien die (stetigen) ZV’en X1, . . . , Xn und die Funk-tion g : Rn −→ R

• Wir betrachten die ZV’e Y = g(X1, . . . , Xn) und interessierenuns fur deren E-Wert E[g(X1, . . . , Xn)]

158

• Mogliche Berechnungen:

E(Y ) =∫ +∞

−∞y · fY (y) dy

bzw.

E(Y ) =∫ +∞

−∞. . .

∫ +∞

−∞g(x1, . . . , xn)·fX1,...,Xn(x1, . . . xn) dx1 . . . dxn

(vgl. Definition 3.9, Folie 128)

• Es gilt:

Beide Berechnungen fuhren zum gleichen Ergebnis

−→ wahle die einfachere Berechnungsart

159

Jetzt:

• Berechnungsregeln fur Erwartungswerte, Varianzen, Kovari-anzen von Summen von Zufallsvariablen

Ausgangslage:

• X1, . . . , Xn seien gegebene stetige oder diskrete ZV’en mitgemeinsamer Dichte fX1,...,Xn

• Die (transformierende) Funktion g : Rn −→ R sei

g(x1, . . . , xn) =n

∑

i=1xi

160

• Gesucht werden zunachst der Erwartungswert und die Vari-anz von

Y = g(X1, . . . , Xn) =n

∑

i=1Xi

Satz 4.1: (E-Wert und Varianz einer Summe)

Fur die gegebenen ZV’en X1, . . . , Xn gelten

E

n∑

i=1Xi

=n

∑

i=1E(Xi)

bzw.

Var

n∑

i=1Xi

=n

∑

i=1Var(Xi) + 2 ·

n∑

i=1

n∑

j=i+1Cov(Xi, Xj).

161

Folgerungen:

• Fur gegebene Konstanten a1, . . . , an ∈ R gilt ferner

E

n∑

i=1ai ·Xi

=n

∑

i=1ai · E(Xi)

(warum?)

• Fur die ZV’en X1 und X2 gilt

E(X1 ±X2) = E(X1)± E(X2)

• Falls X1, . . . , Xn paarweise stochastisch unabhangig sind, sofolgt Cov(Xi, Xj) = 0 fur alle i 6= j und es gilt

Var

n∑

i=1Xi

=n

∑

i=1Var(Xi)

162

Jetzt:

• Berechnung der Kovarianz zweier Summen von ZV’en

Satz 4.2: (Kovarianz zweier Summen)

Gegeben seien die ZV’en X1, . . . , Xn sowie Y1, . . . , Ym und dieKonstanten a1, . . . an, b1, . . . , bm ∈ R. Dann gilt:

Cov

n∑

i=1ai ·Xi,

m∑

j=1bj · Yj

=n

∑

i=1

m∑

j=1ai · bj ·Cov(Xi, Yj).

163

Folgerungen:

• Fur die Varianz einer gewichteten Summe von ZV’en folgt

Var

n∑

i=1ai ·Xi

= Cov

n∑

i=1ai ·Xi,

n∑

j=1aj ·Xj

=n

∑

i=1

n∑

j=1ai · aj ·Cov(Xi, Xj)

=n

∑

i=1a2

i ·Var(Xi) +n

∑

i=1

n∑

j=1,j 6=iai · aj ·Cov(Xi, Xj)

=n

∑

i=1a2

i ·Var(Xi) + 2 ·n

∑

i=1

n∑

j=i+1ai · aj ·Cov(Xi, Xj)

164

• Fur die beiden ZV’en X1 und X2 gilt

Var(X1 ±X2) = Var(X1) + Var(X2)± 2 ·Cov(X1, X2)

bzw. unter stochastischer Unabhangigkeit

Var(X1 ±X2) = Var(X1) + Var(X2)

Abschließend:

• Wichtiges Resultat fur den Erwartungswert des Produkteszweier ZV’en

165

Ausgangslage:

• X1, X2 seien stetige oder diskrete ZV’en mit gemeinsamerDichte fX1,X2

• Die Funktion g : Rn −→ R sei g(x1, x2) = x1 · x2

• Gesucht wird der Erwartungswert von

Y = g(X1, X2) = X1 ·X2

Satz 4.3: (E-Wert eines Produktes)

Fur die ZV’en X1, X2 gilt

E (X1 ·X2) = E(X1) · E(X2) + Cov(X1, X2).

166

Folgerung:

• Fur stochastisch unabhangige ZV’en gilt

E (X1 ·X2) = E(X1) · E(X2)

Bemerkungen:

• Es gibt auch eine Formel fur die Varianz Var(X1 ·X2)

• Fur die Erwartungswerte und Varianzen anderer Transforma-tionen (z.B. Quotienten) existieren oft keine exakten Formeln

167

4.2 Die Verteilungsfunktions-Methode

Motivation:

• Gegeben sind die ZV’en X1, . . . , Xn mit gemeinsamer DichtefX1,...,Xn

• Gesucht ist die gemeinsame Verteilung von Y1, . . . , Yk mitYj = gj(X1, . . . , Xn) fur j = 1, . . . , k

• Die gemeinsame VF von Y1, . . . , Yk ist definiert durch

FY1,...,Yk(y1, . . . , yk) = P (Y1 ≤ y1, . . . , Yk ≤ yk)


168

• Nun gilt fur das Ereignis

Y1 ≤ y1, . . . , Yk ≤ yk

= g1(X1, . . . , Xn) ≤ y1, . . . , gk(X1, . . . , Xn) ≤ yk

d.h. das interessierende Ereignis fur Y1, . . . , Yk kann mit denFunktionen g1, . . . , gk durch X1, . . . , Xn ausgedruckt werden

−→ da die gemeinsame Verteilung von X1, . . . , Xn bekannt ist,kann man in bestimmten Fallen FY1,...,Yk

und damit fY1,...,Ykberechnen

169

Beispiel 1:

• Betrachte n = 1 (d.h. die ZV’e X1 ≡ X mit VF FX) undk = 1 (d.h. g1 ≡ g bzw. Y1 ≡ Y )

• Betrachte die Funktion

g(x) = a · x + b, b ∈ R, a > 0

• Gesucht wird die Verteilung von

Y = g(X) = a ·X + b

170

• Berechnung der VF von Y :

FY (y) = P (Y ≤ y)

= P [g(X) ≤ y]

= P (a ·X + b ≤ y)

= P(

X ≤y − b

a

)

= FX

(y − ba

)

• Falls X stetig ist, so folgt fur die Dichte von Y

fY (y) = F ′Y (y) = F ′X

(y − ba

)

=1a· fX

(y − ba

)

(vgl. Folie 48)

171

Beispiel 2:

• Betrachte n = 1 und k = 1 und die Funktion

g(x) = ex

• Fur die VF von Y = g(X) = eX gilt

FY (y) = P (Y ≤ y)

= P (eX ≤ y)

= P [X ≤ ln(y)]

= FX[ln(y)]

• Falls X stetig ist, so folgt fur die Dichte von Y

fY (y) = F ′Y (y) = F ′X [ln(y)] =fX [ln(y)]

y

172

Jetzt:

• Betrachte n = 2 und k = 2, d.h. gegeben sind die ZV’en X1und X2 mit gemeinsamer Dichte fX1,X2(x1, x2)

• Betrachte die Funktionen

g1(x1, x2) = x1 + x2 bzw. g2(x1, x2) = x1 − x2

• Gesucht werden die Verteilungen der Summe bzw. der Dif-ferenz zweier ZV’en

• Herleitung uber 2-dimensionale Anwendung der VF-Methode

173

Satz 4.4: (Verteilung einer Summe / Differenz)

Es seien X1 und X2 zwei stetige ZV’en mit gemeinsamer Dichte-funktion fX1,X2(x1, x2). Dann gilt fur die Dichtefunktionen vonY1 = X1 + X2 bzw. Y2 = X1 −X2

fY1(y1) =∫ +∞

−∞fX1,X2(x1, y1 − x1) dx1

=∫ +∞

−∞fX1,X2(y1 − x2, x2) dx2

bzw.

fY2(y2) =∫ +∞

−∞fX1,X2(x1, x1 − y2) dx1

=∫ +∞

−∞fX1,X2(y2 + x2, x2) dx2.

174

Folgerung:• Sind X1 und X2 stochastisch unabhangig, so folgt

fY1(y1) =∫ +∞

−∞fX1(x1) · fX2(y1 − x1) dx1

fY2(y2) =∫ +∞

−∞fX1(x1) · fX2(x1 − y2) dx1

Beispiel:• X1 und X2 seien stochastisch unabhangig mit identischer

Dichtefunktion

fX1(x) = fX2(x) =

1 , fur x ∈ [0,1]0 , sonst

• Gesucht wird die Dichtefunktion von Y = X1 + X2(vgl. Ubung)

175

Jetzt:

• Analoges Resultat fur das Produkt bzw. den Quotientenzweier ZV’en

Satz 4.5: (Verteilung eines Produktes / Quotienten)

Es seien X1 und X2 zwei stetige ZV’en mit gemeinsamer Dichte-funktion fX1,X2(x1, x2). Dann gilt fur die Dichtefunktionen vonY1 = X1 ·X2 bzw. Y2 = X1/X2

fY1(y1) =∫ +∞

−∞

1|x1|

fX1,X2(x1,y1

x1) dx1

bzw.

fY2(y2) =∫ +∞

−∞|x2| · fX1,X2(y2 · x2, x2) dx2.

176

4.3 Die Methode der momentenerzeugenden Funk-tionen

Motivation:

• Gegeben sind erneut die ZV’en X1, . . . , Xn mit gemeinsamerDichte fX1,...,Xn

• Gesucht ist wiederum die gemeinsame Verteilung vonY1, . . . , Yk mit Yj = gj(X1, . . . , Xn) fur j = 1, . . . , k

177

• Gemaß Definition 3.14, Folie 143, gilt fur die gemeinsamemomentenerzeugende Funktion der Y1, . . . , Yk (falls diese ex-istiert)

mY1,...,Yk(t1, . . . , tk) = E

[

et1·Y1+...+tk·Yk]

=∫ +∞

−∞. . .

∫ +∞

−∞et1·g1(x1,...,xn)+...+tk·gk(x1,...,xn)

×fX1,...,Xn(x1, . . . , xn) dx1 . . . dxn

• Falls sich mY1,...,Yk(t1, . . . , tk) berechnen und als eine ”bekan-

nte momentenerzeugende Funktion” identifizieren lasst, sohat Y1, . . . , Yk ebendiese zur momentenerzeugenden Funktiongehorige gemeinsame Verteilung(vgl. Folie 145)

178

Beispiel:

• Betrachte n = 1 und k = 1, wobei die gegebene ZV X1 ≡ Xstandardnormalverteilt sein soll

• Betrachte die Funktion g1(x) ≡ g(x) = x2

• Gesucht ist die Verteilung von Y = g(X) = X2

• Fur die momentenerzeugende Funktion von Y ergibt sich:

mY (t) = E[

et·Y]

= E[

et·X2]

=∫ +∞

−∞et·x2

· fX(x)dx

179

=∫ +∞

−∞et·x2

·1√2π

· e−12x2

dx

= . . .

=

12

12 − t

12

fur t <12

• Dies ist die momentenerzeugende Funktion einer Gamma-Verteilung mit Parametern λ = 1

2 und r = 12

(vgl. Mood, Graybill, Boes (1974), S. 540/541)

−→ Y = X2 ist Γ(0.5,0.5)-verteilt

180

Jetzt:

• Verteilung von Summen unabhangiger ZV’en

Voruberlegung:

• Betrachte die momentenerzeugende Funktion dieser Summe

• Es seien also X1, . . . , Xn gegebene stochastisch unabhangigeZV’en und Y =

∑ni=1 Xi

• Fur die momentenerzeugende Funktion von Y gilt

mY (t) = E[

et·Y]

= E[

et·∑n

i=1 Xi]

= E[

et·X1 · et·X2 · . . . · et·Xn]

= E[

et·X1]

· E[

et·X2]

· . . . · E[

et·Xn]

[Satz 3.13(c)]

= mX1(t) ·mX2(t) · . . . ·mXn(t)

181

Satz 4.6: (Momentenerzeugende Funktion einer Summe)

Es seien X1, . . . , Xn unabhangige Zufallsvariable mit existieren-den momentenerzeugenden Funktionen mX1(t), . . . , mXn(t) furalle t ∈ (−h, h), h > 0. Die momentenerzeugende Funktion derSumme Y =

∑ni=1 Xi ist dann gegeben durch

mY (t) =n∏

i=1mXi(t) fur t ∈ (−h, h).

Hoffnung:

• Vielleicht lasst sich anhand der momentenerzeugenden Funk-tion der Summe mY (t) die Verteilung der Summe Y =

∑ni=1 Xi

identifizieren

182

Beispiel 1:

• Es seien X1, . . . , Xn unabhangig und identisch exponential-verteilt mit Parameter λ > 0

• Die momentenerzeugende Funktion einer jeden ZV’en Xi(i = 1, . . . , n) ist damit gegeben durch

mXi(t) =λ

λ− tfur t < λ

(vgl. Mood, Graybill, Boes (1974), S. 540/541)

• Die momentenerzeugende Funktion der Summe Y =∑n

i=1 Xilautet dann

mY (t) = m∑

Xi(t) =

n∏

i=1mXi(t) =

( λλ− t

)n

183

• Dies entspricht der momentenerzeugenden Funktion einerΓ(n, λ)-Verteilung(vgl. Mood, Graybill, Boes (1974), S. 540/541)

−→ Die Summe von n unabhangigen identisch exponential-verteilter ZV’en mit Parameter λ ist also Γ(n, λ)-verteilt

184

Beispiel 2:

• Es seien X1, . . . , Xn unabhangig normalverteilte ZV’en mitParametern µi, σ2

i , d.h. Xi ∼ N(µi, σ2i )

• Ferner seien a1, . . . , an ∈ R Konstanten

• Dann gilt fur die gewichtete Summe

Y =n

∑

i=1ai ·Xi ∼ N

n∑

i=1ai · µi,

n∑

i=1a2

i · σ2i

(Herleitung: Ubungsaufgabe)

185

4.4 Allgemeine Transformationssatze

Bisher:

• Techniken, mit denen in speziellen Fallen die Verteilungen derTransformierten Y1 = g1(X1, . . . , Xn), . . . , Yk = gk(X1, . . . , Xn)gefunden werden konnen

Nachteil:

• Die Methoden fuhren nicht immer zum Ziel(z.B. Rechnungen zu kompliziert)

186

Ausweg:

• Es gibt konstruktive Methoden, mit denen sich die Verteilun-gen von Transformierten (unter bestimmten Voraussetzun-gen) stets berechnen lassen−→ Transformationssatze fur Dichten

In dieser VL:

• Wir betrachten nur den einfachen Fall n = 1, k = 1, d.h. dieTransformation Y = g(X)

• Fur multivariate Verallgemeinerungen (d.h. fur n ≥ 1, k ≥ 1)siehe Mood, Graybill, Boes (1974), S. 203 ff.

187

Satz 4.7: (Transformationssatz fur Dichten)

Es sei X eine stetige ZV mit Dichtefunktion fX(x). Es bezeichneD = x : fX(x) > 0. Weiter sei angenommen, dass

(a) die Transformation g : D −→ W mit y = g(x) eine bijektiveAbbildung von D auf W ist.

(b) die Ableitung der inversen Funktion g−1 : W −→ D mit x =g−1(y) bzgl. y fur alle y ∈ W stetig und von Null verschiedenist.

Dann ist Y = g(X) eine stetige ZV mit Dichtefunktion

fY (y) =

∣

∣

∣

∣

∣

dg−1(y)dy

∣

∣

∣

∣

∣

· fX(

g−1(y))

, fur y ∈ W

0 , sonst.

188

Bemerkung:

• Eine Abbildung g : D −→ W mit y = g(x) heißt bijektiv, wennzu jedem y ∈ W genau ein x ∈ D mit y = g(x) existiert

Beispiel:

• Die ZV X habe die Dichtefunktion

fX(x) =

θ · x−θ−1 , fur x ∈ [1,+∞)0 , sonst

(Pareto-Verteilung mit Parameter θ > 0)

• Gesucht ist die Verteilung von Y = ln(X)

• Wir haben D = [1,+∞), g(x) = ln(x), W = [0,+∞)

189

• Weiterhin ist g(x) = ln(x) eine bijektive Abbildung von D =[1,+∞) auf W = [0,+∞) mit der inversen Funktion

x = g−1(y) = ey

• Fur deren Ableitung nach y gilt

dg−1(y)dy

= ey,

d.h. die Ableitung ist fur alle y ∈ [0,+∞) stetig und von Nullverschieden

• Somit folgt fur die Dichtefunktion von Y = ln(x):

fY (y) =

ey · θ · (ey)−θ−1 , fur y ∈ [0,+∞)0 , sonst

=

θ · e−θ·y , fur y ∈ [0,+∞)0 , sonst

190

5. Statistische Schatztheorie

Problem:

• Sei X eine Zufallsvariable (oder X ein Zufallsvektor), dieeinen interessierenden Zufallsvorgang reprasentiere

• Man mochte die tatsachliche Verteilung von X (oder X) ken-nenlernen

Man beachte:

• In praxi ist die Verteilung von X zunachst unbekannt

191

Deshalb:

• Sammle Informationen uber die unbekannte Verteilung desZufallsvorgangs, indem man diesen (und damit die Zufallsvari-able X) mehrfach beobachtet

−→ Zufallsstichprobe−→ Statistiken−→ Schatzer

192

5.1 Stichproben, Schatzer, Grenzwertsatze

Situation:

• Sei X die Zufallsvariable, die den interessierenden Zufallsvor-gang reprasentiere(zunachst Betrachtung univariater Variablen)

• Man beabsichtigt, den Zufallsvorgang (d.h. X) insgesamt nmal zu beobachten

• Vor den Realisierungen kann man die n potenziellen Beobach-tungen als ZV’en X1, . . . , Xn auffassen

193

Definition 5.1: (Stichprobe)

Die ZV’en X1, . . . , Xn heißen einfache Stichprobe aus X, wenn

(a) jedes Xi, i = 1, . . . , n, wie X verteilt ist,

(b) X1, . . . , Xn stochastisch unabhangig sind.

Die Anzahl n heißt Stichprobenumfang.

194

Bemerkungen:

• Der interessierende Zufallsvorgang kann prinzipiell beliebigoft wiederholt werden

• Die Realisierungen x1, . . . , xn der Stichprobe X1, . . . , Xn heißenkonkrete Stichprobe

• Betrachtet man die Stichprobe X1, . . . , Xn als Zufallsvektor,so ist die gemeinsame Dichtefunktion wegen der Unabhangig-keit gegeben durch

fX1,...,Xn(x1, . . . , xn) =n∏

i=1fXi(xi)


195

Modell der einfachen Zufallsstichprobe

196

Zufallsvorgang X

Mögliche Realisationen

X1 (ZV) x1 (Realisation 1. Exp.)

X2 (ZV)

Xn (ZV)

x2 (Realisation 2. Exp.)

xn (Realisation n. Exp.)

. . . . . .

Jetzt:

• Betrachte Funktionen der Stichprobenvariablen X1, . . . , Xn

−→ Statistiken−→ Schatzer

Definition 5.2: (Statistik, Stichprobenfunktion)

Es seien X1, . . . , Xn eine einfache Stichprobe aus X sowie g :Rn −→ R eine reellwertige Funktion mit n Argumenten, die keineunbekannten Parameter enthalt. Dann nennt man die ZV

T = g(X1, . . . , Xn)

eine Statistik oder Stichprobenfunktion.

197

Beispiele:

• Stichprobenmittel:

X = g1(X1, . . . , Xn) =1n·

n∑

i=1Xi

• Stichprobenvarianz:

S2 = g2(X1, . . . , Xn) =1n·

n∑

i=1

(

Xi −X)2

• Stichprobenstandardabweichung:

S = g3(X1, . . . , Xn) =

√

√

√

√

1n·

n∑

i=1

(

Xi −X)2

198

Bemerkungen:

• Alle bisherigen Begriffe konnen inhaltsgleich auf den multi-variaten Fall ubertragen werden

• Die Statistik T = g(X1, . . . , Xn) ist eine Funktion von ZV’enund damit selbst eine ZV−→ eine Statistik hat eine Verteilung

(d.h. auch einen Erwartungswert und eine Varianz)

Zweck von Statistiken:

• Liefern Informationen uber die Verteilung von X

• Sind Grundbausteine beimSchatzen von ParameternTesten von Hypothesen uber Parameter

199

Stichproben und Statistiken

200

Stichprobe

( X1, . . ., Xn)

Messung Stichprobenrealisation ( x1, . . ., xn)

g( X1, . . ., Xn) Statistik

g( x1, . . ., xn) Realisation der Statistik

Jetzt folgende Situation:

• Es sei X (oder X) eine ZV’e mit unbekannter VF FX(x)

• Wir interessieren uns fur einen oder mehrere Parameter vonX

• Es sei θ dieser unbekannte Parametervektor, z.B.

θ =

[

E(X)Var(X)

]

• Oft ist die Verteilungsfamilie von X bekannt, z.B. X ∼ N(µ, σ2),nicht aber die Parameter, d.h.

θ =

[

µσ2

]

• Der unbekannte Parametervektor wird mit Hilfe von Statis-tiken einer Stichprobe X1, . . . , Xn geschatzt

201

Definition 5.3: (Schatzer, Schatzwert)

Die Statistik θ(X1, . . . , Xn) heißt Schatzer (auch Schatzfunktion)fur den unbekannten Parametervektor θ. Fur die konkrete Stich-probe x1, . . . , xn bezeichnet man die damit verbundene Real-isierung des Schatzers θ(x1, . . . , xn) als Schatzwert.

Bemerkungen:

• Der Schatzer θ(X1, . . . , Xn) ist ein Zufallsvektor−→ Schatzer hat eine Verteilung, einen Erwartungswert und

eine Varianz

• Der Schatzwert θ(x1, . . . , xn) ist dagegen eine Zahl oder einZahlenvektor

202

Beispiel:

• X sei N(µ, σ2)-verteilt mit unbek. Parametern µ und σ2

• Der zu schatzende Parametervektor ist dann

θ =

[

µσ2

]

=

[

E(X)Var(X)

]

• Mogliche Schatzer fur µ und σ2 sind

µ =1n

n∑

i=1Xi und σ2 =

1n− 1

n∑

i=1(Xi − µ)2

−→ ein Schatzer fur θ ist

θ =

[

µσ2

]

=

1n

∑ni=1 Xi

1n− 1

∑ni=1 (Xi − µ)2

203

Frage:

• Wozu braucht man das scheinbar komplizierte theoretischeKonzept des Schatzers als Zufallsvariable?

Antwort:

• Zum Vergleich alternativer Schatzer fur ein und denselbenParametervektor θ im Hinblick auf bestimmte Guteeigen-schaften

Beispiel:

• Es sei θ = Var(X) die Varianz von X

204

• Zwei alternative Schatzer fur θ sind

θ1(X1, . . . , Xn) =1n

n∑

i=1

(

Xi −X)2

θ2(X1, . . . , Xn) =1

n− 1

n∑

i=1

(

Xi −X)2

Frage:

• Welcher Schatzer ist ’besser’ und warum?−→ Eigenschaften (Qualitatskriterien) von Punktschatzern

(vgl. Abschnitt 5.2)

205

Wichtig:

• Einige dieser Kriterien beurteilen das Verhalten eines Schatzersfur große Stichprobenumfange(n →∞, Große-Stichproben-Eigenschaften)

Deshalb:

• Erlauterung einiger stochastischer Konvergenzbegriffe:

Zentraler Grenzwertsatz

Schwaches Gesetz der großen Zahl

Konvergenz nach Wahrscheinlichkeit

Konvergenz nach Verteilung

206

Satz 5.4: (Univariater zentraler Grenzwertsatz)

Es sei X eine beliebig verteilte Zufallsvariable mit E(X) = µ undVar(X) = σ2. Weiterhin sei X1, . . . , Xn eine einfache Stichprobeaus X und

Xn =1n

n∑

i=1Xi

das arithmetische Stichprobenmittel. Dann gilt fur n →∞:

Xn ∼ N

(

µ,σ2

n

)

bzw.√

nXn − µ

σ∼ N(0,1).

Jetzt:

• Verallgemeinerung auf multivariaten Fall

207

Satz 5.5: (Multivariater zentraler Grenzwertsatz)

Es sei X = (X1, . . . , Xm)′ ein beliebig verteilter Zufallsvektor mitE(X) = µ und Cov(X) = Σ. Weiterhin sei X1, . . . ,Xn eine (mul-tivariate) einfache Stichprobe aus X und

Xn =1n

n∑

i=1Xi

das multivariate arithmetische Stichprobenmittel. Dann gilt furn →∞:

Xn ∼ N(

µ,1nΣ

)

bzw.√

n(

Xn − µ)

∼ N(0,Σ).

208

Bemerkungen:

• Eine multivariate einfache Stichprobe aus dem ZufallsvektorX erhalt man, indem man in Definition 5.1 (Folie 194) alleunivariaten Zufallsvariablen durch entsprechende multivariateZufallsvektoren ersetzt

• Man beachte die formale Analogie zum univariaten Fall inSatz 5.4(Rechenoperationen fur Matrizen beachten!)

Jetzt:

• Bekannter Satz uber das arithmetische Stichprobenmittel

209

Satz 5.6: (Schwaches Gesetz der großen Zahl)

Es sei X1, X2, . . . eine Folge von unabhangigen und identischverteilten Zufallsvariablen mit

E(Xi) = µ < ∞,

Var(Xi) = σ2 < ∞.

Weiterhin betrachte man die Zufallsvariable

Xn =1n

n∑

i=1Xi

(arithmetisches Stichprobenmittel). Fur jedes ε > 0 gilt dann:

limn→∞P

(∣

∣

∣Xn − µ∣

∣

∣ ≥ ε)

= 0.

210

Bemerkungen:

• Satz 5.6 ist das schwache Gesetz der großen Zahl

• Fur jedes noch so kleine ε > 0 konvergiert die Wskt., dass Xn

um ±ε vom Erwartungswert µ abweicht, bei zunehmendemStichprobenumfang gegen Null

• Man beachte die Analogie zwischen einer Folge von unab-hangig, identisch verteilten ZV’en und der Definition 5.1(Folie 194) einer einfachen Stichprobe aus X

Jetzt:

• Erster wichtiger Konvergenzbegriff

211

Definition 5.7: (Konvergenz nach Wahrscheinlichkeit)

Es sei Y1, Y2, . . . eine Folge Zufallsvariablen. Man sagt: Die FolgeY1, Y2, . . . konvergiert nach Wahrscheinlichkeit gegen θ, wenn furjedes ε > 0 gilt:

limn→∞P (|Yn − θ| ≥ ε) = 0.

Man notiert die Konvergenz nach Wahrscheinlichkeit mit

plim Yn = θ oder Ynp→ θ.

Bemerkungen:

• Spezialfall: Schwaches Gesetz der großen Zahlen

plim Xn = µ oder Xnp→ µ

212

• Bei der Konvergenz nach Wahrscheinlichkeit strebt die Folgeder ZV’en meistens gegen einen Wert (θ ∈ R)

• Fur multivariate Folgen von Zufallsvektoren Y1,Y2, . . . ist dieDefinition 5.7 elementweise anzuwenden

• Die Konvergenz nach Wahrscheinlichkeit spielt bei der Beur-teilung von Schatzern eine wichtige Rolle

Jetzt:

• Alternativer stochastischer Konvergenzbegriff

213

Definition 5.8: (Konvergenz nach Verteilung)

Es sei Y1, Y2, . . . eine Folge Zufallsvariablen und Z ebenfalls eineZufallsvariable. Man sagt: Die Folge Y1, Y2, . . . konvergiert nachVerteilung gegen Z, wenn

limn→∞FYn(y) = FZ(y) fur jedes y ∈ R.

Man notiert die Konvergenz nach Verteilung mit

Ynd→ Z.

Bemerkungen:• Spezialfall: Zentraler Grenzwertsatz

Yn =√

nXn − µ

σd→ U ∼ N(0,1)

• Bei der Konvergenz nach Verteilung strebt die Folge derZV’en stets gegen eine Zufallsvariable

214

Satz 5.9: (plim -Rechenregeln)

Es seien X1, X2, . . . und Y1, Y2, . . . Folgen von Zufallsvariablen furdie gilt plim Xn = a bzw. plim Yn = b. Dann gilt:

(a) plim (Xn ± Yn) = a± b.

(b) plim (Xn · Yn) = a · b.

(c) plim(Xn

Yn

)

= ab , falls b 6= 0.

(d) (Slutsky-Theorem) Wenn g : R −→ R eine in a stetige Funk-tion ist, dann gilt

plim g (Xn) = g(a).

215

Bemerkung:

• Eine mit dem Slutsky-Theorem verwandte Eigenschaft giltauch fur die Konvergenz nach Verteilung

Satz 5.10: ( d→-Rechenregel)

Es seien X1, X2, . . . eine Folge von Zufallsvariablen, Z ebenfalls

eine Zufallsvariable und es gelte Xnd→ Z. Weiterhin sei h : R −→

R eine stetige Funktion. Dann gilt:

h (Xn)d→ h(Z).

Jetzt:

• Verbindung der beiden Konvergenzkonzepte

216

Satz 5.11: (Cramer-Theorem)

Es seien X1, X2, . . . sowie Y1, Y2, . . . Folgen von Zufallsvariablen,Z eine Zufallsvariable und a ∈ R. Außerdem gelte plim Xn = aund Yn

d→ Z. Dann gelten:

(a) Xn + Ynd→ a + Z.

(b) Xn · Ynd→ a · Z.

Beispiel:

• Es sei X1, . . . , Xn eine einfache Stichprobe aus X mit E(X) =µ bzw. Var(X) = σ2

217

• Man kann zeigen, dass

plim S∗2n = plim1

n− 1

n∑

i=1

(

Xi −Xn)2

= σ2

plim S2n = plim

1n

n∑

i=1

(

Xi −Xn)2

= σ2

• Fur g1(x) = x/σ2 folgt aus dem Slutksky-Theorem:

plim g1(

S∗2n)

= plimS∗2nσ2 = g1(σ

2) = 1

plim g1(

S2n

)

= plimS2

nσ2 = g1(σ

2) = 1

218

• Fur g2(x) = σ/√

x folgt aus dem Slutksky-Theorem:

plim g2(

S∗2n)

= plimσS∗n

= g2(σ2) = 1

plim g2(

S2n

)

= plimσSn

= g2(σ2) = 1

• Mit dem zentralen Grenzwertsatz folgt:

√n

Xn − µσ

d→ U ∼ N(0,1)

219

• Mit dem Cramer-Theorem folgt:

g2(

S∗2n)

·√

nXn − µ

σ=

σS∗n

·√

nXn − µ

σ

=√

nXn − µ

S∗n

d→ 1 · U

= U ∼ N(0,1)

• Ebenso liefert das Cramer-Theorem:

√n

Xn − µSn

d→ U ∼ N(0,1)

220

5.2 Eigenschaften von Schatzern

Inhalt von Definition 5.3:

• Ein Schatzer ist eine Statistik(Stichprobenfunktion)−→ Es gibt verschiedene Schatzer fur den unbekannten Pa-

rametervektor θ

Beispiel:

• Es seien X ∼ N(0, σ2) mit unbekannter Varianz σ2 undX1, . . . , Xn eine einfache Stichprobe aus X

• Mogliche Schatzer fur θ = σ2 sind:

θ1 =1n

n∑

i=1

(

Xi −X)2

bzw. θ2 =1

n− 1

n∑

i=1

(

Xi −X)2

221

Wichtige Fragen:

• Welche Qualitatskriterien dienen zur Auswahl eines ’guten’Schatzers ?

• Wie findet man ’gute’ Schatzer ?

1. Qualitatseigenschaft:

• Konzept der wiederholten Stichprobe:Ziehe mehrere einfache Stichproben aus XBetrachte den Schatzer an jeder StichprobeEine ’Mittelung’ der Schatzwerte sollte ’nahe’ am un-bekannten Parameter liegen(keine systematische Verzerrung)

−→ Erwartungstreue eines Schatzers

222

Definition 5.12: (Erwartungstreue, Verzerrung)

Der Schatzer θ(X1, . . . , Xn) fur den unbekannten Parameter θheißt erwartungstreu, falls sein Erwartungswert mit dem zuschatzenden Parameter θ ubereinstimmt, d.h. falls

E[

θ(X1, . . . , Xn)]

= θ.

Unter der Verzerrung des Schatzers (engl. Bias) versteht manden Abstand

Bias(θ) = E(θ)− θ.

Bemerkungen:

• Ubertragung auf den multivariaten Fall moglich

• Bei erwartungstreuen Schatzern ist der Bias gleich Null

223

Jetzt:• Wichtiges allgemeingultiges Resultat

Satz 5.13: (E-treue Schatzer fur E(X) und Var(X))

Es sei X1, . . . , Xn eine Stichprobe aus X und X sei beliebig verteiltmit unbekanntem Erwartungswert µ = E(X) sowie unbekannterVarianz σ2 = Var(X). Dann sind die beiden Schatzer

µ(X1, . . . , Xn) = X =1n·

n∑

i=1Xi

bzw.

σ2(X1, . . . , Xn) = S2 =1

n− 1·

n∑

i=1

(

Xi −X)2

stets erwartungstreu fur die Parameter µ = E(X) und σ2 =Var(X).

224

Bemerkungen:

• Beweis: Ubungsaufgabe

• Man beachte, dass keine explizite Verteilung fur X unterstelltwird

• Erwartungstreue pflanzt sich bei Parametertransformationennicht beliebig fort, z.B. ist

S =√

S2 nicht erwartungstreu fur σ = SD(X) =√

Var(X)

Frage:

• Wie kann man zwei erwartungstreue Schatzer fur den un-bekannten Parameter θ miteinander vergleichen?

225

Definition 5.14: (Relative Effizienz)

Es seien θ1 und θ2 zwei erwartungstreue Schatzer fur den un-bekannten Parameter θ. Dann heißt θ1 relativ effizienter als θ2,falls gilt

Var(θ1) ≤ Var(θ2)

fur alle moglichen Parameterwerte fur θ und

Var(θ1) < Var(θ2)

fur mindestens einen moglichen Parameterwert fur θ.

226

Beispiel:

• Es sei θ = E(X)

• Betrachte die beiden Schatzer

θ1(X1, . . . , Xn) =1n

n∑

i=1Xi

θ2(X1, . . . , Xn) =X1

2+

12(n− 1)

n∑

i=2Xi

• Welcher Schatzer ist relativ effizienter ?(Ubungsaufgabe)

Frage:

• Wie vergleicht man 2 Schatzer, wenn (mindestens) einerverzerrt ist?

227

Definition 5.15: (Mittlerer quadratischer Fehler)

Es sei θ ein beliebiger Schatzer fur den unbekannten Parameter θ.Unter dem mittleren quadratischen Fehler (mean-squared error)des Schatzers versteht man die Maßzahl

MSE(θ) = E[

(

θ − θ)2

]

= Var(

θ)

+[

Bias(θ)]2

.

Bemerkungen:

• Bei einem erwartungstreuen Schatzer ist der MSE gleich derVarianz des Schatzers

• Der MSE eines Schatzers θ hangt i.d.R. vom Wert des un-bekannten Parameters θ ab

228

Vergleich beliebiger Schatzer:

• Uber ihre MSEs

Definition 5.16: (MSE-Effizienz)

Es seien θ1 und θ2 zwei beliebige Schatzer fur den unbekanntenParameter θ. Dann heißt θ1 MSE-efffizienter als θ2, falls gilt

MSE(θ1) ≤ MSE(θ2)

fur alle moglichen Parameterwerte fur θ und

MSE(θ1) < MSE(θ2)

fur mindestens einen moglichen Parameterwert fur θ.

229

Vergleich erwartungstreuer vs. verzerrter Schatzer

230

),,( 12 nXX K∧θ

),,( 11 nXX K∧θ

θ

Bemerkungen:

• Oft sind 2 Schatzer fur θ nicht im Sinne der MSE-Effizienzvergleichbar, da sich die MSE-Kurven schneiden

• Es gibt kein allgemeines mathematisches Prinzip zur Bestim-mung eines MSE-effizienten Schatzers

• Es gibt aber Methoden, unter allen erwartungstreuen Schatzernden mit der gleichmaßig geringsten Varianz zu bestimmen−→ Beschrankung auf erwartungstreue Schatzer

• Diese Methoden nicht Gegenstand der VL(Theoreme von Rao-Blackwell, Lehmann-Scheffe)

• Hier nur ein wichtiges Resultat:

231

Satz 5.17: (Cramer-Rao Varianzuntergrenze)

Es sei X1, . . . , Xn eine einfache Stichprobe aus X und θ ein zuschatzender Parameter. Man betrachte die gemeinsame Dichte-funktion der Stichprobe, fX1,...,Xn(x1, . . . , xn), und definiere denWert

CR(θ) ≡

E

(

∂ fX1,...,Xn(X1, . . . , Xn)

∂ θ

)2

−1

.

Unter bestimmten Voraussetzungen gilt dann fur jeden beliebigenerwartungstreuen Schatzer θ(X1, . . . , Xn):

Var(θ) ≥ CR(θ).

232

Bemerkungen:

• Der Wert CR(θ) ist die geringste Varianz, die ein erwar-tungstreuer Schatzer haben kann

−→ Optimalitatskriterium fur erwartungstreue Schatzer

• Gilt fur den erwartungstreuen Schatzer θ(X1, . . . , Xn)

Var(θ) = CR(θ),

so bezeichnet man θ als UMVUE-Schatzer(Uniformly Minimum-Variance Unbiased Estimator)

233

2. Qualitatseigenschaft:

• Lasse den Stichprobenumfang wachsen (n →∞):

Notation: θn(X1, . . . , Xn) = θ(X1, . . . , Xn)

Untersuchung der Eigenschaften der asymptotischen Ver-teilung von θn

−→ Konsistenz eines Schatzers

Definition 5.18: ((Schwache) Konsistenz)

Der Schatzer θn(X1, . . . , Xn) heißt (schwach) konsistent fur θ,falls er nach Wahrscheinlichkeit gegen θ konvergiert, d.h. falls

plim θn(X1, . . . , Xn) = θ.

234

Beispiel:

• Es sei X ∼ N(µ, σ2) mit σ2 bekannt (z.B. σ2 = 1)

• Betrachte 2 Schatzer fur µ:

µn(X1, . . . , Xn) =1n

n∑

i=1Xi

µ∗n(X1, . . . , Xn) =1n

n∑

i=1Xi +

2n

• µn ist (schwach) konsistent fur µ(Satz 5.6, Folie 210: Schwaches Gesetz der großen Zahl)

235

• µ∗n ist (schwach) konsistent fur µ(folgt aus Satz 5.9(a), Folie 215)

• Exakte Verteilung von µn:

µn ∼ N(µ, σ2/n)

(Lineare Transformation der NV)

• Exakte Verteilung von µ∗n:

µ∗n ∼ N(µ + 2/n, σ2/n)

(Lineare Transformation der NV)

236

Dichtefunktionen des Schatzers µn fur n = 2,10,20 (σ2 = 1)

237

6

4

2

-1 -0.5 µ=0 0.5 1 0

8

Dichtefunktionen des Schatzers µ∗n fur n = 2,10,20 (σ2 = 1)

238

6

4

2

-0.5 µ=0 0.5 1 1.5 2 2.5 0

8

Bemerkungen:

• Hinreichende (aber nicht notwendige) Bedingung fur Konsis-tenz:

limn→∞E(θn) = θ (asymptotische Erwartungstreue)

limn→∞Var(θn) = 0

• Mogliche Eigenschaften eines Schatzers:

konsistent und erwartungstreu

inkonsistent und erwartungstreu

konsistent und verzerrt

inkonsistent und verzerrt

239

Jetzt:

• Anwendung des zentralen Grenzwertsatzes auf Schatzer

−→ asymptotische Normalitat des Schatzers

Definition 5.19: (Asymptotische Normalitat)

Ein Schatzer θn(X1, . . . , Xn) fur den unbekannten Parameter θheißt asymptotisch normalverteilt, falls es eine Folge reeller Zahlenθ1, θ2, . . . und eine Funktion V (θ) gibt, so dass gilt:

√n ·

(

θn − θn) d→ U ∼ N(0, V (θ)).

240

Bemerkungen:

• Andere Schreibweise:

θnappr.∼ N(θn, V (θ)/n)

• Zur asymptotischen Normalitat gibt es eine multivariate Ver-allgemeinerung

241

5.3 Schatzmethoden

Bisher:

• Definitionen + Qualitatskriterien fur Schatzer

Jetzt:

• Konstruktion von Schatzern

3 traditionelle Verfahren:

• Methode der kleinsten Quadrate (KQ)

• Momenten-Methode (MM)

• Maximum-Likelihood-Methode (ML)

242

Bemerkungen:

• Es gibt weitere Verfahren(z.B. die verallgemeinerte Momenten-Methode, GMM)

• Hier: hauptsachlich ML-Methode

243

5.3.1 Kleinste-Quadrate-Methode

Historie:• Eingefuhrt von

A.M. Legendre (1752-1833)C.F. Gauß (1777-1855)

Idee:• Approximiere verrauschte Beobachtungen x1, . . . , xn durch

Funktionen gi(θ1, . . . , θm), i = 1, . . . , n, m < n durch

S(x1, . . . , xn; θ) =n

∑

i=1[xi − gi(θ)]2 −→ min

θ• KQ-Schatzer ist dann

θ(X1, . . . , Xn) = argmin S(X1, . . . , Xn; θ)

244

Bemerkung:

• KQ-Methode ist zentrale Schatztechnik beim linearen Re-gressionsmodell(vgl. VLen Okonometrie I + II)

245

5.3.2 Momenten-Methode

Historie:

• Eingefuhrt von K. Pearson (1857-1936)

Definition 5.20: (Theoretische und empirische Momente)

(a) Es sei X eine Zufallsvariable mit Erwartungswert E(X). Dannist das gewohnliche theoretische p-te Moment von X (in Zei-chen: µ′p) definiert als als

µ′p = E(Xp).

Das zentrale theoretische p-te Moment von X (in Zeichen:µp) ist definiert durch

µp = E [X − E(X)]p .

246

(b) Es sei X1, . . . , Xn eine einfache Stichprobe aus X und esbezeichne X das arithmetische Stichprobenmittel. Dann istdas gewohnliche empirische p-te Moment (in Zeichen: µ′p)definiert durch

µ′p =1n

n∑

i=1Xp

i .

Das zentrale empirische p-te Moment (in Zeichen: µp) istdefiniert durch

µp =1n

n∑

i=1

(

Xi −X)p

.

247

Bemerkungen:

• Die theoretischen Momente µ′p und µp wurden bereits in derDefinition 2.21 (Folie 76) eingefuhrt

• Die empirischen Momente µ′p bzw. µp sind Schatzer fur dietheoretischen Momente µ′p bzw. µp

• Das arithmetische Stichprobenmittel ist das 1. gewohnlicheempirische Moment von X1, . . . , Xn

• Die Stichprobenvarianz ist das 2. zentrale empirische Mo-ment von X1, . . . , Xn

248

Ausgangssituation:

• Anhand der einfachen Stichprobe X1, . . . , Xn aus X sollen dier unbekannten Parameter θ1, . . . , θr geschatzt werden

Grundidee der Momentenmethode:

1. Drucke r theoretische Momente als Funktionen der r un-bekannten Parameter aus:

µ′1 = g1(θ1, . . . , θr)...

µ′r = gr(θ1, . . . , θr)

249

2. Drucke die r unbekannten Parameter als Funktionen der rtheoretischen Momente aus:

θ1 = h1(µ1, . . . , µr, µ′1, . . . , µ′r)...

θr = hr(µ1, . . . , µr, µ′1, . . . , µ′r)

3. Ersetze theoretische durch empirische Momente:

θ1(X1, . . . , Xn) = h1(µ1, . . . , µr, µ′1, . . . , µ′r)...

θr(X1, . . . , Xn) = hr(µ1, . . . , µr, µ′1, . . . , µ′r)

250

Beispiel: (Exponentialverteilung)

• Die ZV’e X heißt exponentialverteilt mit Parameter λ > 0,falls X die Dichtefunktion

fX(x) =

λe−λx , fur x > 00 , sonst

aufweist

• Es gilt:

E(X) =1λ

Var(X) =1λ2

251

• Momentenschatzer uber den Erwartungswert:

1. Wir wissen:

E(X) = µ′1 =1λ

2. Also folgt:

λ =1µ′1

3. Momentenschatzer fur λ:

λ(X1, . . . , Xn) =1

1/n∑n

i=1 Xi

252

• Momentenschatzer uber die Varianz:

1. Wir wissen:

Var(X) = µ2 =1λ2

2. Also folgt:

λ =

√

1µ2

3. Momentenschatzer fur λ:

λ(X1, . . . , Xn) =

√

√

√

√

√

1

1/n∑n

i=1

(

Xi −X)2

−→ Momentenschatzer fur einen unbekannten Parameter sindnicht eindeutig bestimmt

253

Bemerkungen:

• Momentenschatzer sind konsistent, denn

plim θ1 = plim h1(µ1, . . . , µr, µ′1, . . . , µ′r)

= h1(plim µ1, . . . ,plim µr,plim µ′1, . . . ,plim µ′r)

= h1(µ1, . . . , µr, µ′1, . . . , µ′r)

= θ1

• I.a. sind Momentenschatzer nicht erwartungstreu

• Momentenschatzer sind (i.a.) asymptotisch normalverteilt

• Die asymptotischen Varianzen sind haufig schwer zu bestim-men

254

5.3.3 Maximum-Likelihood-Methode

Historie:

• Eingefuhrt von Ronald Fisher (1890-1962)

Grundidee:

• Schatze die unbekannten Parameter θ1, . . . , θr derart, dassdie Wahrscheinlichkeit (likelihood) der konkreten Stichprobex1, . . . , xn als Funktion der unbekannten Parameter maximalwird

255

Beispiel:

• Eine Urne enthalte schwarze und weiße Kugeln

• Bekannt ist das Verhaltnis der Kugelanzahlen von 3 : 1

• Unbekannt ist, welche der Kugeln haufiger vorkommt

• Ziehe n Kugeln mit Zurucklegen

• X bezeichne die Anzahl schwarzer gezogener Kugeln

• Verteilung von X:

P (X = x) =(nx

)

px(1−p)n−x, x ∈ 0,1, . . . , n, p ∈ 0.25,0.75

(Binomialverteilung)

256

• p ∈ 0.25,0.75 ist zu schatzender Parameter

• Ziehe eine Stichprobe vom Umfang n = 3−→ Mogliche Stichprobenausgange:

Anzahl schwarze Kugeln: x 0 1 2 3P (X = x; p = 0.25) 27

642764

964

164

P (X = x; p = 0.75) 164

964

2764

2764

• Intuitives Schatzen:Schatze p als den Wert, der die Wskt. der tatsachlichenBeobachtung x (ex-ante) maximiert:

p =

0.25 , fur x = 0,10.75 , fur x = 2,3

−→ Maximum-Likelihood-Methode

257

Jetzt:

• Formalisierung der Maximum-Likelihood-Methode

Begriffe:

• Likelihood-, Loglikelihoodfunktion

• Maximum-Likelihood-Schatzer

Definition 5.21: (Likelihoodfunktion)

Die Likelihoodfunktion von n ZV’en X1, . . . , Xn ist definiert als diegemeinsame Dichte der n ZV’en, fX1,...,Xn(x1, . . . , xn; θ), jedochaufgefasst als eine Funktion des Parametervektors θ.

258

Bemerkungen:

• Sind X1, . . . , Xn eine einfache Stichprobe aus der stetigenZV’en X mit Dichtefunktion fX(x, θ), so ist

fX1,...,Xn(x1, . . . , xn; θ) =n∏

i=1fXi(xi; θ) =

n∏

i=1fX(xi; θ)

• Die Likelihoodfunktion wird oft mit L(θ;x1, . . . , xn) oder L(θ)bezeichnet, also im vorhergehenden Fall

L(θ;x1, . . . , xn) = L(θ) =n∏

i=1fX(xi; θ)

259

• Sind die X1, . . . , Xn eine Stichprobe aus einer diskreten ZV’enX, so ist die Likelihoodfunktion

L(θ;x1, . . . , xn) = P (X1 = x1, . . . , Xn = xn; θ) =n∏

i=1P (X = xi; θ)

(Hier: Likelihood = Wahrscheinlichkeit der Stichprobe)

Beispiel:

• Es sei X1, . . . , Xn eine einfache Stichprobe aus X ∼ N(µ, σ2).Dann ist θ = (µ, σ2)′ und

L(θ;x1, . . . , xn) =n∏

i=1

1√2πσ2

e−1/2((xi−µ)/σ)2

=( 12πσ2

)n/2· exp

−1

2σ2

n∑

i=1(xi − µ)2

260

Definition 5.22: (Maximum-Likelihood Schatzer)

Es sei L(θ, x1, . . . , xn) die Likelihoodfunktion der einfachen Stich-probe X1, . . . , Xn. Es bezeichne θ (wobei θ(x1, . . . , xn) von denBeobachtungen x1, . . . , xn abhangt) denjenigen Parametervektor,der L(θ, x1, . . . , xn) maximiert. Dann heißt θ(X1, . . . , Xn) derMaximum-Likelihood Schatzer von θ.

Bemerkungen:

• Man erhalt den ML-Schatzer uber die Maximierung der Like-lihood-Funktion

L(θ;x1, . . . , xn) = maxθ

L(θ;x1, . . . , xn)

und anschließendem Ersetzen der Realisationen x1, . . . , xndurch die Stichprobenvariablen X1, . . . , Xn

261

• Oft ist die Maximierung der Loglikelihoodfunktion

ln[L(θ;x1, . . . , xn)]

einfacher(Man beachte: L(θ) und ln[L(θ)] haben ihre Maxima an der-selben Stelle)

• Man bestimmt θ = (θ1, . . . , θr)′ durch Losen des Gleichungs-systems

∂∂ θ1

ln[L(θ;x1, . . . , xn)] = 0

...∂

∂ θrln[L(θ;x1, . . . , xn)] = 0

262

Beispiel:

• Es sei X1, . . . , Xn eine einfache Stichprobe aus X ∼ N(µ, σ2)mit Likelihoodfunktion

L(µ, σ2) =( 12πσ2

)n/2· exp

−1

2σ2

n∑

i=1(xi − µ)2

• Die Loglikelihoodfunktion ist

L∗(µ, σ2) = ln[L(µ, σ2)]

= −n2

ln(2π)−n2

ln(σ2)−1

2σ2

n∑

i=1(xi − µ)2

263

• Die partiellen Ableitungen lauten

∂ L∗(µ, σ2)∂ µ

=1σ2

n∑

i=1(xi − µ)

bzw.

∂ L∗(µ, σ2)∂ σ2 = −

n2

1σ2 +

12σ4

n∑

i=1(xi − µ)2

• Gleich-Null-Setzen, Losen des Gleichungssystems und Erset-zen der Realisationen durch die Stichprobenvariablen liefertdie ML-Schatzer

µ(X1, . . . , Xn) =1n

n∑

i=1Xi = X

σ2(X1, . . . , Xn) =1n

n∑

i=1

(

Xi −X)2

264

Eigenschaften der ML-Methode:

• Verteilungsannahmen sind unbedingt notwendig

• Unter bestimmten Bedingungen haben ML-Schatzer sehr an-genehme Eigenschaften:

1. Wenn θ der ML-Schatzer fur θ ist, dann ist g(θ) der ML-Schatzer von g(θ)(Aquivarianz)

2. Konsistenz:

plim θn = θ

265

3. Asymptotische Normalitat:√

n(

θn − θ) d→ U ∼ N(0, V (θ))

4. Asymptotische Effizienz:V (θ) ist die Cramer-Rao-Untergrenze

5. Berechenbarkeit (numerische Methoden)

6. Quasi-ML-Schatzung:ML-Schatzer, berechnet auf der Basis normalverteilterStichproben, sind robust gegenuber Abweichungen vonnormalverteilten Grundgesamtheiten

266

6. Statistische Hypothesentests

Ausgangssituation erneut:

• ZV X reprasentiere einen Zufallsvorgang

• X habe die unbekannte VF FX(x)

• Interessieren uns fur einen unbekannten Parameter θ der Ver-teilung von X

Jetzt:

• Testen von Hypothesen uber unbekanntes θ anhand einerStichprobe X1, . . . , Xn

• Demonstration am eindimensionalen Fall

267

Beispiel 1:

• In einer Studentenkneipe sollen geeichte Bierglaser im Aus-schank 0.4 Liter Bier enthalten. Wir haben die Vermutung,dass der Wirt haufig ’zu wenig’ ausschenkt.

• X reprasentiere den Zufallsvorgang ’Fullen eines 0.4-LiterBierglases durch den Wirt’

• Es bezeichne θ = E(X) die erwartete Fullmenge eines Glases

• Durch eine Stichprobe X1, . . . , Xn soll getestet werden

θ = 0.4 gegen θ < 0.4

268

Beispiel 2:

• Wir wissen aus der Vergangenheit, dass das Risiko einer Aktie(die Standardabweichung der Aktienrenditen) bei 25 % lag.Im Unternehmen wird nun das Management ausgetauscht.Verandert sich dadurch das Risiko der Aktie?

• X sei die Aktienrendite

• θ =√

Var(X) = SD(X) sei die Standardabweichung der Ren-diten

• Durch eine Stichprobe X1, . . . , Xn soll getestet werden

θ = 0.25 gegen θ 6= 0.25

269

6.1 Grundbegriffe des Testens

Definition 6.1: (Parametertest)

Es sei X eine Zufallsvariable und θ ein unbekannter Parameterder Verteilung von X. Ein Parametertest ist ein statistischesVerfahren, mit dem eine Hypothese uber den unbekannten Pa-rameter θ anhand einer einfachen Zufallsstichprobe X1, . . . , Xnaus X uberpruft wird.

Formulierung eines statistischen Testproblems:

• Es sei Θ die Menge aller moglichen Parameterwerte(d.h. θ ∈ Θ)

• Es sei Θ0 ⊂ Θ eine Teilmenge der Parametermenge

270

• Betrachte folgende Aussagen:

H0 : θ ∈ Θ0 gegen H1 : θ ∈ Θ/Θ0 = Θ1

• H0 heißt Nullhypothese, H1 Gegenhypothese oder Alternative

Arten von Hypothesen:

• Sind |Θ0| = 1 (d.h. Θ0 = θ0) und H0 : θ = θ0, so nenntman H0 einfach

• Andernfalls bezeichnet man H0 als zusammengesetzt

• Analoge Bezeichnungen gelten fur H1

271

Arten von Testproblemen:

• Es sei θ0 ∈ Θ eine feste reelle Zahl. Dann heißt

H0 : θ = θ0 gegen H1 : θ 6= θ0

zweiseitiges Testproblem

• Die Testprobleme

H0 : θ ≤ θ0 gegen H1 : θ > θ0

bzw.

H0 : θ ≥ θ0 gegen H1 : θ < θ0

heißen einseitig (rechts- bzw. linksseitig)

272

Jetzt:• Betrachte das allgemeine Testproblem

H0 : θ ∈ Θ0 gegen H1 : θ ∈ Θ1 = Θ/Θ0

Allgemeine Vorgehensweise:• Entscheide anhand einer Stichprobe X1, . . . , Xn aus X, ob H0

zugunsten von H1 abgelehnt wird oder nicht

Explizites Vorgehen:• Wahle ’geeignete’ Teststatistik T (X1, . . . , Xn) und bestimme

einen ’geeigneten’ kritischen Bereich K ⊂ R• Testentscheidung:

T (X1, . . . , Xn) ∈ K =⇒ H0 wird abgelehntT (X1, . . . , Xn) /∈ K =⇒ H0 wird nicht abgelehnt

273

Man beachte:

• T (X1, . . . , Xn) ist eine ZV (Stichprobenfunktion)−→ Die Testentscheidung ist zufallig−→ Fehlentscheidungen sind moglich

• Mogliche Fehlentscheidungen:

TestergebnisRealitat H0 ablehnen H0 nicht ablehnenH0 richtig Fehler 1. Art kein FehlerH0 falsch kein Fehler Fehler 2. Art

Fazit:

• Fehler 1. Art: Test lehnt H0 ab, obwohl H0 richtig

• Fehler 2. Art: Test lehnt H0 nicht ab, obwohl H0 falsch

274

Wann treten die Fehlentscheidungen auf?

• Der Fehler 1. Art tritt auf, falls

T (X1, . . . , Xn) ∈ K,

obwohl fur den wahren Parameter gilt θ ∈ Θ0

• Der Fehler 2. Art tritt auf, falls

T (X1, . . . , Xn) /∈ K,

obwohl fur den wahren Parameter gilt θ ∈ Θ1

275

Frage:

• Wann besitzt ein statistischer Test fur das Problem

H0 : θ ∈ Θ0 gegen H1 : θ ∈ Θ1 = Θ/Θ0

’gute’ Eigenschaften?

Intuitive Vorstellung:

• Test ist ’gut’, wenn er moglichst geringe Wahrscheinlichkeitenfur die Fehler 1. und 2. Art aufweist

Jetzt:

• Formales Instrument zur Messung der Fehlerwahrscheinlich-keiten 1. und 2. Art

276

Definition 6.2: (Gutefunktion eines Tests)

Man betrachte einen statistischen Test fur das obige Testprob-lem mit der Teststatistik T (X1, . . . , Xn) und einem ’geeignet ge-wahlten’ kritischen Bereich K. Unter der Gutefunktion des Testsversteht man die Funktion G, die, in Abhangigkeit des wahrenParameters θ ∈ Θ, die Wahrscheinlichkeit dafur angibt, dass derTest H0 ablehnt:

G : Θ −→ [0,1]

mit

G(θ) = P (T (X1, . . . , Xn) ∈ K).

277

Bemerkung:

• Mit der Gutefunktion sind die Wahrscheinlichkeiten fur denFehler 1. Art gegeben durch

G(θ) fur alle θ ∈ Θ0

sowie fur den Fehler 2. Art durch

1−G(θ) fur alle θ ∈ Θ1

Frage:

• Wie sieht ein idealer Test aus?

Intuition:

• Ein Test ist ideal, wenn die Fehlerwahrscheinlichkeiten 1. und2. Art stets (konstant) gleich Null sind−→ Test trifft mit Wskt. 1 die richtige Entscheidung

278

Beispiel:

• Es sei θ0 ∈ Θ. Betrachte das Testproblem

H0 : θ ≤ θ0 gegen H1 : θ > θ0

Grafik idealer Test

279

Leider:

• Es kann mathematisch gezeigt werden, dass ein solcher ide-aler Test im allgemeinen nicht existiert

Deshalb Ausweg:

• Betrachte zunachst rein theoretisch fur eine geeignete Test-statistik T (X1, . . . , Xn) die maximale Fehlerwahrscheinlichkeit1. Art

α = maxθ∈Θ0

P (T (X1, . . . , Xn) ∈ K) = maxθ∈Θ0

G(θ)

• Lege den kritischen Bereich K dann so fest, dass α einenvorgegebenen kleinen Wert annimmt

280

−→ Alle Fehlerwahrscheinlichkeiten 1. Art sind dann durch α be-grenzt(d.h. kleiner oder gleich α)

• Haufig benutzte α-Werte sind α = 0.01, α = 0.05, α = 0.1

Definition 6.3: (Signifikanzniveau eines Tests)

Man betrachte einen statistischen Test fur das Testproblem aufFolie 276 mit der Teststatistik T (X1, . . . , Xn) und einem geeignetgewahlten kritischen Bereich K. Dann bezeichnet man die max-imale Fehlerwahrscheinlichkeit 1. Art

α = maxθ∈Θ0

P (T (X1, . . . , Xn) ∈ K) = maxθ∈Θ0

G(θ)

als das Signifikanzniveau des Tests.

281

Konsequenzen dieser Testkonstruktion:

• Die Wskt., H0 aufgrund des Tests abzulehmen, obwohl H0richtig ist (d.h. die Wskt. des Fehlers 1. Art) ist hochstens α−→ Wird H0 aufgrund einer Testrealisation abgelehnt, so kann

man ziemlich sicher davon ausgehen, dass H0 tatsachlichfalsch ist(Man sagt auch: H1 ist statistisch gesichert)

• Die Wskt. fur den Fehler 2. Art (d.h. H0 nicht abzulehnen,obwohl H0 falsch ist), kann man dagegen nicht kontrollieren−→ Wird H0 aufgrund einer Testrealisation nicht abgelehnt,

so hat man keinerlei Wahrscheinlichkeitsaussage uber einemogliche Fehlentscheidung(Nichtablehung von H0 heißt nur: Die Daten sind nichtunvereinbar mit H0)

282

Wichtig deshalb:

• Es ist entscheidend, wie man H0 und H1 formuliert

• Das, was man zu zeigen hofft, formuliert man in H1(in der Hoffnung, H0 anhand des konkreten Tests ablehnenzu konnen)

Beispiel:

• Betrachte Beispiel 1 auf Folie 268

• Kann man anhand eines konkreten Tests H0 verwerfen, sokann man ziemlich sicher sein, dass der Wirt in der Regel zuwenig ausschenkt

• Kann man H0 nicht verwerfen, so kann man nichts explizitesuber die Ausschankgewohnheiten des Wirtes sagen.(Die Daten stehen lediglich nicht im Widerspruch zu H0)

283

6.2 Klassische Testverfahren

Jetzt:

• 3 allgemeine klassische Testkonstruktionen, die alle auf derLoglikelihoodfunktion der Stichprobe aufbauen

Ausgangssituation:

• Es sei X1, . . . , Xn eine einfache Stichprobe aus X

• θ ∈ R sei der unbekannte Parameter

• L(θ) = L(θ;x1, . . . , xn) sei die Likelihoodfunktion

284

• ln[L(θ)] sei die Loglikelihoodfunktion

• g : R −→ R sei eine beliebige, stetige Funktion

• Statistisches Testproblem:

H0 : g(θ) = q gegen H1 : g(θ) 6= q

Grundlage aller Tests:

• Maximum-Likelihood-Schatzer θML fur θ

285

6.2.1 Der Wald-Test

Historie:

• Vorgeschlagen von A. Wald (1902-1950)

Idee des Tests:

• Wenn H0 : g(θ) = q wahr ist, dann sollte die ZV’e g(θML)− qnicht signifikant von Null verschieden sein

286

Vorwissen:

• Aquivarianz des ML-Schatzers (Folie 265)−→ g(θML) ist ML-Schatzer fur g(θ)

• Asymptotische Normalitat (Folie 266)

−→(

g(θML)− g(θ)) d→ U ∼ N(0,Var(g(θML)))

• Die asymptotische Varianz Var(g(θML)) muss anhand derDaten geschatzt werden

Teststatistik des Wald-Tests:

W =

[

g(

θML)

− q]2

Var[

g(

θML)]

d(unter H0)−→ U ∼ χ2

1

287

Testentscheidung:

• Lehne H0 zum Signifikanzniveau α ab, wenn W > χ21;1−α

Bemerkungen:

• Der Wald-Test ist ein reiner Test gegen H0(es ist nicht notwendig, eine bestimmte Alternativhypothesezu spezifizieren)

• Das Prinzip des Wald-Tests kann auf jeden konsistenten,asymptotisch normalverteilten Schatzer angewendet werden

288

Wald-Teststatistik fur H0 : g(θ) = 0 gegen H1 : g(θ) 6= 0

289

g(θ )

≈ Wθ

MLθ

( )]ln[ θL

6.2.2 Der Likelihood-Ratio-Test (LR-Test)

Idee des Tests:

• Betrachte die Likelihood Funktion L(θ) an 2 Stellen:max

θ:g(θ)=qL(θ) (= L(θH0))

maxθ∈Θ

L(θ) (= L(θML))

• Betrachte die Große

λ =L(θH0)

L(θML)

• Fur λ gilt:0 ≤ λ ≤ 1Wenn H0 wahr ist, dann sollte λ in der Nahe von einsliegen

290

Teststatistik des LR-Tests:

LR = −2 ln(λ) = 2

ln[

L(θML)]

− ln[

L(θH0)]

d(unter H0)−→ U ∼ χ2

1

(ohne Beweis)

Fur die LR-Teststatistik gilt:

• 0 ≤ LR < ∞

• Wenn H0 wahr ist, dann sollte LR in der Nahe von Null liegen

Testentscheidung:

• Lehne H0 zum Signifikanzniveau α ab, wenn LR > χ21;1−α

291

Bemerkungen:

• Der LR-Test testet, ob der Abstand der Loglikelihoodfunk-tionen, ln[L(θML)]− ln[L(θH0)], signifikant großer als 0 ist

• Der LR-Test benotigt keine asymptotische Varianz

292

LR-Teststatistik fur H0 : g(θ) = 0 gegen H1 : g(θ) 6= 0

293

)](ln[ MLL∧θ g(θ ) g(θ ) ≈LR

)](ln[ 0HL∧θ

θ

MLθ0

ˆHθ

ln[L(θ )]

6.2.3 Der Lagrange-Multiplier-Test (LM-Test)

Historie:

• Der Test geht zuruck auf J.L. Lagrange (1736-1813)

Idee des Tests:

• Fur den ML-Schatzer θML gilt:

∂ ln[L(θ)]∂ θ

∣

∣

∣

∣

∣

θ=θML

= 0

• Wenn H0 : g(θ) = q wahr ist, dann sollte die Steigung derLoglikelihood-Funktion an der Stelle θH0 nicht signifikant vonNull verschieden sein

294

Teststatistik des LM-Tests:

LM =

∂ ln[L(θ)]∂ θ

∣

∣

∣

∣

∣

θH0

2

·[

Var(

θH0

)]−1d

(unter H0)−→ U ∼ χ21

(ohne Beweis)

Testentscheidung:

• Lehne H0 zum Signifikanzniveau α ab, wenn LM > χ21;1−α

295

LM-Teststatistik fur H0 : g(θ) = 0 gegen H1 : g(θ) 6= 0

296

( )θθ

∂∂ ]ln[L

MLθ

( )]ln[ θL

≈ LM θ

g(θ)

0H∧θ

Bemerkungen:

• Sowohl beim Wald-Test als auch beim LM-Test tauchen inden Teststatistiken die geschatzten Varianzen des SchatzersθH0 auf

• Diese unbekannten Varianzen werden konsistent durch dieFisher-Information geschatzt

• Viele okonometrische Tests beruhen auf diesen 3 Konstruk-tionsprinzipien

• Die 3 Test sind asymptotisch aquivalent, d.h. sie liefern furgroße Stichprobenumfange dieselben Testergebnisse

• Es gibt Verallgemeinerungen aller 3 Testprinzipien fur dasTesten von Hypothesen bzgl. eines Parametervektors θ

• Ist θ ∈ Rm, dann sind alle 3 Teststatistiken unter H0 χ2m-

verteilt

297

Zusammenfassung der 3 Tests

298

( )

θθ

∂∂ Lln

ln[( )] ML∧θ

ln[( )] 0H∧θ ≈ LR g(θ )

≈ LM ≈ Wθ

MLθ0

ˆHθ

( )θLln

Folien zur Vorlesung Fortgeschrittene Statistik · Inhalt 1 Einleitung 1.1 Organisatorisches 1.2...

Documents

Transcript of Folien zur Vorlesung Fortgeschrittene Statistik · Inhalt 1 Einleitung 1.1 Organisatorisches 1.2...