Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die...

163
Einf¨ uhrung in die Wahrscheinlichkeitstheorie und die Statistik Sommersemester 2016 Vorl¨ aufige Version 18. April 2016 Karl Oelschl¨ ager Institut f¨ ur Angewandte Mathematik Universit¨ at Heidelberg 1

Transcript of Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die...

Page 1: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

Einfuhrung in die

Wahrscheinlichkeitstheorie und die Statistik

Sommersemester 2016

Vorlaufige Version

18. April 2016

Karl OelschlagerInstitut fur Angewandte Mathematik

Universitat Heidelberg

1

Page 2: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik
Page 3: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

Inhaltsverzeichnis

Kapitel 1. Einleitung und Uberblick 71.1. Konzepte und Methoden in Wahrscheinlichkeitstheorie und Statistik 81.1.1. Einfache Modellannahmen 81.1.2. Ein wahrscheinlichkeitstheoretisches Modell 91.1.3. Wahrscheinlichkeitstheoretische Untersuchungen 121.1.4. Ein statistisches Modell 161.1.5. Statistische Untersuchungen 171.1.6. Zusammenfassung und Ausblick 201.2. (∗) Geschichte der Wahrscheinlichkeitstheorie und der Statistik 21

Kapitel 2. Wahrscheinlichkeitsraume 232.1. Elementare wahrscheinlichkeitstheoretische Modelle 242.2. Diskrete Wahrscheinlichkeitsmaße 282.3. Konsequenzen aus den Kolmogorovschen Axiomen 302.3.1. Weitere Eigenschaften von σ-Algebren 302.3.2. Weitere Eigenschaften von Wahrscheinlichkeitsmaßen 312.4. Konstruktion von σ-Algebren und Wahrscheinlichkeitsmaßen 322.4.1. Gleichverteilung auf [0, 1] 332.4.2. ∞-facher, unabhangiger Munzwurf 342.4.3. Lebesguemaß in Rd, d = 1, 2, . . . 362.5. Satz von Vitali 372.6. Wahrscheinlichkeitsmaße mit einer Dichte bzgl. des Lebesguemaßes 382.6.1. (∗)

”Anwendung“ der Gleichverteilung 40

2.7. Poissonapproximation der Binomialverteilung 412.7.1. Anwendung der Poissonapproximation 42

Kapitel 3. Zufallsvariablen 453.1. Verteilung von Zufallsvariablen 463.1.1. Konstruktion und Simulation diskreter Zufallsvariablen 483.2. Familien von Zufallsvariablen und deren gemeinsame Verteilung 513.2.1. Gemeinsame Verteilung endlich vieler diskreter Zufallsvariablen 533.2.2. Unabhangige Zufallsvariablen mit einer Dichte 553.2.3. Unabhangigkeit von Ereignissen 563.2.4. Verteilung von Summen unabhangiger Zufallsvariablen 583.2.5. Gleichheitsbegriffe fur Zufallsvariablen 603.3. Verteilungsfunktionen reellwertiger Zufallsvariablen 613.3.1. Eigenschaften von Verteilungsfunktionen 623.3.2. Beispiele fur Verteilungsfunktionen 633.3.3. Simulation einer Folge von i.i.d. Zufallsvariablen mit einer Dichte 653.3.4. Quantile reellwertiger Zufallsvariablen 673.4. Stochastische Prozesse 693.4.1. Stationare stochastische Prozesse 703.5. Wahrscheinlichkeitsraume und Zufallsvariablen in der Modellbildung 71

3

Page 4: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

4

Kapitel 4. Schatztheorie 754.1. Statistische Modelle 754.2. Maximum-Likelihood-Schatzer 764.3. Konfidenzbereiche 82

Kapitel 5. Laplacesche Wahrscheinlichkeitsraume und Kombinatorik 875.1. Urnenmodelle 885.1.1. Darstellung der Mengen Wk(N,n), k = 1, . . . , 4 895.1.2. Berechnung von |Wk(N,n)|, k = 1, . . . , 4 895.2. Anwendungen von Urnenmodellen 915.3. Eine Alternative zu den Urnenmodellen 955.4. Multinomialverteilung und hypergeometrische Verteilung 96

Kapitel 6. Erwartungswert und Varianz 1016.1. Erwartungswert fur diskrete Zufallsvariablen 1016.2. Eigenschaften der Abbildung X → E[X ] 1026.3. Erwartungswert fur allgemeine, reellwertige Zufallsvariablen 1056.4. Varianz und verwandte Begriffe 1086.4.1. Rechenregeln fur Varianz und Kovarianz 1126.5. Beispiele zum Erwartungswert und zur Varianz 1136.6. Erwartungstreue Schatzer 1166.6.1. Mittlerer quadratischer Fehler eines Schatzers 1196.7. Elementare Ungleichungen in der Wahrscheinlichkeitstheorie 1206.8. Konvergenzbegriffe in der Wahrscheinlichkeitstheorie 121

Kapitel 7. Gesetz der großen Zahlen 1257.1. Ein schwaches Gesetz der großen Zahlen 1257.2. Anwendungen des schwachen Gesetzes der großen Zahlen 1267.2.1. Monte-Carlo-Integration 1267.2.2. (∗) Bernstein-Polynome und Approximationssatz von Weierstraß 127

Kapitel 8. Bedingte Wahrscheinlichkeiten 1318.1. Bestimmung bedingter Wahrscheinlichkeiten 1328.1.1. Rechenregeln fur bedingte Wahrscheinlichkeiten 1358.2. Markovketten 1388.3. Modellbildung mit Markovketten 141

Kapitel 9. Zentraler Grenzwertsatz 1459.1. (∗) Konvergenzgeschwindigkeit beim Gesetz der großen Zahlen 1459.2. Eigenschaften charakteristischer Funktionen 1479.3. Zentraler Grenzwertsatz fur i.i.d. Zufallsvariablen 1499.4. (∗) Lokale Normalapproximation 1519.5. Bestimmung von Konfidenzintervallen 152

Anhang 157A.1. Erganzungen zu Kapitel 1 157A.1.1. Deskriptive Statistik 157A.2. Erganzungen zu Kapitel 2 162A.2.1. Beweis des Satzes von Vitali 162

Literaturverzeichnis 163

18. April 2016

Page 5: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

5

Anmerkungen zu den Fußnoten

Die folgenden Seiten enthalten zahlreiche Fußnoten.

Diese Fußnoten enthalten:

• Querverweise, Referenzen,• Erganzungen,• Prazisierungen, Erlauterungen,• Hinweise auf weiterfuhrende Resultate oder Begriffe,• Beweise und• Definitionen.

Sie sind gedacht

• nicht als Haupttext,• aber als Hilfestellung zum Verstandnis des Haupttextes,• zur Verdeutlichung von Verbindungen innerhalb der Vorlesung und• fur Ausblicke auf Resultate im spateren Verlauf der Vorlesung, bzw. inweiterfuhrenden Veranstaltungen.

18. April 2016

Page 6: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

6

18. April 2016

Page 7: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

KAPITEL 1

Einleitung und Uberblick

Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unterdem Namen Stochastik 1.1 zusammengefaßt werden, sind Disziplinen der Mathema-tik, die der Beschreibung und der Untersuchung von Gesetzmaßigkeiten, die durchden 1.2

”Zufall“ beeinflußt werden, gewidmet sind.

Beispiel 1.1 (Gesetzmaßigkeit in einem zufalligen Geschehen). Eine sehr oft ge-worfene faire Munze zeigt in etwa der Halfte aller Falle

”Kopf“. Diese Gesetzma-

ßigkeit wird im sog. Gesetz der großen Zahlen, einem zentralen Resultat der Wahr-scheinlichkeitstheorie, mathematisch gefaßt 1.3.

Beispiel 1.2 (Auswertung zufalliger Beobachtungen). Eine nicht notwendigerweisefaire Munze werde mehrmals geworfen. Mit Hilfe der konkreten Wurfergebnisse sollentschieden werden, ob

• die Munze fair ist, bzw.• wie groß die Wahrscheinlichkeit 1.4 p ist, daß bei einem einzigen Wurf

”Zahl“ erscheint 1.5.

Methoden zur Beantwortung solcher Fragen werden durch die Statistik bereitge-stellt. Beispielsweise konnen Schatzer oder Konfidenzintervalle fur p bestimmt wer-den. Es besteht auch die Moglichkeit, durch einen Test zu prufen, ob die Munzefair ist 1.6.

Beispiel 1.3 (Zufalliges Geschehen ohne eine erkennbare Gesetzmaßigkeit). 1.7

Offentliche Diskussionsbeitrage von Politikern und Funktionaren zur Steuer- oder

1.1In der Einleitung zu [5] findet sich eine Deutung des Wortes Stochastik aus Ursprungenim Altgriechischen.

1.2Ein fundamentaler Beitrag der Wahrscheinlichkeitstheorie ist insbesondere eine Beantwor-tung der Frage, wie

”Zufall“ mathematisch uberhaupt beschrieben werden soll. Die Antwort wird

durch die Kolmogorovschen Axiome (2.1) und (2.2) gegeben.1.3Das Gesetz der großen Zahlen exisitiert in vielen Variationen. Im vorliegenden Fall be-

schreibt es die Asymptotik bei Wurfanzahl N → ∞ der relativen Anzahl von”Kopf“, d.h. des

Quotienten (Anzahl von”Kopf“)/N . Insbesondere wird die Konvergenz dieses Quotienten gegen

seinen Erwartungswert, der bei einer fairen Munze 1/2 ist, festgehalten.Eine vergleichbar grundlegende Bedeutung hat der Zentrale Grenzwertsatz, der im Zu-

sammenhang dieses Beispiels die Asymptotik der zufalligen Fluktuationen der relativen Anzahlvon

”Kopf“ um den Erwartungswert 1/2, d.h. genauer von

√N((Anzahl von

”Kopf“)/N − 1/2),

charakterisiert.1.4Dieser zentrale Begriff ist zunachst formal zu verstehen. Spater wird genauer erlautert

werden, wie Ereignissen gewisse Wahrscheinlichkeiten ∈ [0, 1] zugeordnet werden. Es gilt: EinEreignis mit Wahrscheinlichkeit 0 tritt (fast) sicher nicht ein, ein Ereignis mit Wahrscheinlichkeit 1tritt (fast) sicher ein. Allgemein tritt ein Ereignis mit großerer Sicherheit ein, je hoher seineWahrscheinlichkeit ist.

1.5Die zu bestimmende Wahrscheinlichkeit ist 1/2, falls die Munze fair ist.1.6Die Begriffe Schatzer, Konfidenzintervall und Test sind in der Statistik grundlegend. Sie

beschreiben spezielle Methoden, beobachtete Daten auszuwerten.1.7Solche Phanomene, denen keine Gesetzmaßigkeit zugrundeliegt oder zugrunde zu liegen

scheint, werden in der Stochastik nicht behandelt.

7

Page 8: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

8

Rentengesetzgebung sind gelegentlich durch undurchschaubare Einflusse wie Wahl-kampfvorbereitungen, Profilierungssucht, Lobbytatigkeit, . . . bestimmt. Eine Bear-beitung derartiger Außerungen mit Methoden der Stochastik scheint nicht moglichzu sein.

Mathematische Gesetzmaßigkeiten z.B. in der Natur, der Technik oder derWirtschaft 1.8 werden mit Hilfe von Modellen formuliert 1.9 und untersucht 1.10.Daher ist das zentrale Thema dieser Vorlesung die Bildung und Untersuchung von

Modellen in der Wahrscheinlichkeitstheorie und der Statistik 1.11.

1.1. Konzepte und Methoden in Wahrscheinlichkeitstheorie und

Statistik

Im Rahmen einer speziellen Anwendung werden in diesem Abschnitt 1.1 einigetypische Fragestellungen und ubliche Vorgehensweisen in der Wahrscheinlichkeits-theorie und der Statistik erlautert 1.12.

Es sei angenommen, daß in einem Industriebetrieb N gleichartige Produktions-stucke 1.13 zufallig ausgewahlt und auf ihre Fehlerfreiheit getestet werden.

• Zunachst soll die Gesamtheit der moglichen Prufungsdaten fur die ver-schiedenen Produktionsstucke, d.h. die Struktur und die Eigenschaftendieser Daten, analysiert werden 1.14.

• Weiterhin soll untersucht werden, wie aus konkreten PrufungsergebnissenRuckschlusse auf die Verarbeitungsqualitat des Betriebs gezogen werdenkonnen 1.15.

1.1.1. Einfache Modellannahmen. 1.16 Es sei angenommen, daß

(i) ein einzelnes Produktionsstuck mit einer vorerst noch unbekannten Wahr-

scheinlichkeit p ∈ [0, 1] fehlerhaft ist 1.17, und daß(ii) die Qualitatseigenschaften der jeweiligen Produktionsstucke voneinander

unabhangig 1.18 sind.

1.8Dies betrifft alle Arten von Anwendungen, auch solche in denen kein Zufall involviert ist.1.9Bei der Formulierung eines Modells werden alle bekannten, fur wichtig erachteten Merkma-

le der jeweiligen Anwendung mathematisch formuliert. Vermeintlich unwesentliche Details werdenignoriert, wie z.B. bei der Modellierung des Wurfs eines Wurfels dessen Farbe.

1.10Nicht offensichtliche, sich als Konsequenzen spezieller Voraussetzungen, bzw. Modellan-nahmen ergebende Eigenschaften werden bewiesen.

1.11Eine mathematische Behandlung von Beispiel 1.3 scheitert an der Schwierigkeit, bzw.Unmoglichkeit ein vernunftiges Modell fur die dort angesprochenen Diskussionsbeitrage zuentwerfen.

1.12Damit ist dieser Abschnitt 1.1 ein Ausblick auf die folgenden Kapitel 2 - 9.1.13Je nach Branche konnten dies Gluhlampen, Speicherchips oder auch PKW’s sein.1.14In diesem Kontext werden insbesondere Methoden der Wahrscheinlichkeitstheorie ange-

wandt.1.15Bei diesem Vorhaben kommen Methoden der Statistik zum Einsatz.1.16Die nun vorgestellten Modellannahmen bilden die Basis der in den Abschnitten 1.1.2 und

1.1.4 eingefuhrten mathematischen Modelle fur wahrscheinlichkeitstheoretische, bzw. statistischeUntersuchungen. Derartige mathematische Modelle gehen immer von Annahmen aus, die plausibel,widerspruchsfrei und mit der zugrundeliegenden Realitat vertraglich sein sollen. Zur Klarung derFrage, ob diese Annahmen ausreichend sind oder aber verandert bzw. erganzt werden sollten,mussen vorhandene Daten und Fakten berucksichtigt, evtl. weitere Messungen und Experimentevorgenommen und auch die mathematischen Konsequenzen des Modells mit der Realitat verglichenwerden.

1.17Mit dieser Annahme wird u.a. auch zum Ausdruck gebracht, daß die Qualitat des Her-stellungsprozesses keinen Schwankungen unterliegt: Jedes Produktionsstuck besitzt die

”gleiche

Chance“, fehlerfrei zu sein.1.18Der Begriff der Unabhangigkeit oder auch stochastischen Unabhangigkeit, der in der Um-

gangssprache eine klare Bedeutung hat, bzw. seine mathematisch prazisierte Formulierung wird

18. April 2016

Page 9: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

9

Bemerkung 1.4. Vollig analoge Modellannahmen machen auch in anderen Situa-tionen einen Sinn, z.B. bei Alkoholkontrollen im Straßenverkehr, beim Prufen derWirksamkeit eines neuen Medikaments durch seine Verabreichung an Testperso-nen oder bei der Untersuchung von Schlachtvieh auf eine spezielle Krankheit. Indiesen Fallen waren die Produktionsstucke durch Autofahrer, Testpersonen, bzw.Schlachttiere zu ersetzen. Außerdem ware dann p die Wahrscheinlichkeit fur einenfestgestellten Alkoholkonsum, eine positive Wirkung des Medikaments, bzw. dasVorliegen einer Erkrankung 1.19.

Die Modellannahmen (i) und (ii) kann man zunachst

• innerhalb der Wahrscheinlichkeitstheorie in ein mathematisches Modellder Gesamtheit der moglichen Prufungsdaten fur die verschiedenen Pro-duktionsstucke umsetzen. Fur dieses wahrscheinlichkeitstheoretische Mo-

dell lassen sich mathematische Resultate herleiten, beispielsweise uber Er-wartungswerte oder die Asymptotik bei N → ∞ 1.20. Aufbauend auf demwahrscheinlichkeitstheoretischen Modell und den hierzu gewonnenen Er-kenntnissen kann in einem weiteren Schritt

• innerhalb der Statistik 1.21 ein mathematisches Modell zur Auswertungreal vorliegender Prufungsergebnisse entwickelt werden. Im Rahmen diesesstatistischen Modells konnen z.B. Verfahren erarbeitet werden, die eineSchatzung des

”wahren“ Parameters p = pw

1.22 aus konkret erhobenen

Daten 1.23 ermoglichen.

1.1.2. Ein wahrscheinlichkeitstheoretisches Modell. Die Annahmen (i)und (ii) in Abschnitt 1.1.1 konnen in einer mathematischen Struktur (ΩN ,FN ,PN,p)zusammengefaßt werden 1.24:

• ΩN = 0, 1N =(ω1, ω2, . . . , ωN) : ωk ∈ 0, 1, k = 1, . . . , N

be-

schreibt die Menge der moglichen Stichproben. ωk = 1, bzw. ωk = 0,bedeutet, daß das k-te Produktionsstuck 1.25 defekt, bzw. nicht defekt ist.ΩN wird Stichprobenraum genannt.

in der Stochastik außerordentlich oft verwendet. Die Unabhangigkeit von zwei Ereignissen A undB besagt, daß die Wahrscheinlichkeit, mit der A eintritt, sich nicht andert, wenn bekannt wird,daß B eingetreten ist.

Hier beschreibt die”Unabhangigkeit der . . . Produktionsstucke“ eine gewisse

”Optimalitat“

des Herstellungsprozesses: Auch wenn ein defektes Produktionsstuck gefunden wird, so hat den-noch das nachste wieder

”alle Chancen“, fehlerfrei zu sein.

1.19Um alle diese moglichen unterschiedlichen Situationen gleichzeitig behandeln zu konnenund um irrelevante, spezielle Details aus dem Blickfeld zu drangen, wird in der Stochastik oftder mehrmalige, unabhangige Wurf einer Munze betrachtet, die mit Wahrscheinlichkeit p

”Zahl“

zeigt. Wenn p = 1/2 ist, nennt man diese Munze fair, sonst wird sie als unfair bezeichnet.1.20In jenen Uberlegungen nimmt die Fehlerwahrscheinlichkeit p einen fest vorgegebenen

Wert an.1.21Genaugenommen ist hier die mathematische, induktive oder schließende Statistik ge-

meint. Im Gegensatz dazu werden in der deskriptiven, beschreibenden oder empirischen Statistikdie Prufungsdaten nur geeignet zusammengefaßt, beispielsweise in graphischen Darstellungen oder

Kennzahlen.1.22Hiermit ist dasjenige unbekannte p gemeint, das dem speziellen Produktionsprozeß, fur

den die Prufungen durchgefuhrt werden, zugeordnet ist.1.23D.h. aus den Prufungsergebnissen fur N ausgewahlte Produktionsstucke.1.24Mit der Struktur (ΩN ,FN ,PN,p) und den Eigenschaften ihrer Komponenten werden auf

eine elementare Weise die Kolmogorovschen Axiome erfullt. Insbesondere erlaubt diese Struktur,ein sog. Wahrscheinlichkeitsraum, die Modellannahmen (i) und (ii) aus Abschnitt 1.1.1 und diedadurch ausgedruckten

”Zufallsmechanismen“ im Rahmen der Mathematik zu realisieren.

1.25Hier wird implizit angenommen, daß die gepruften Produktionsstucke durchnummeriertwerden.

18. April 2016

Page 10: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

10

• Die Menge 1.26 FN = A : A ⊆ ΩN = Pot(ΩN ) beschreibt die Familiealler Ereignisse. Beispielsweise sind

(1.1) Ar =

ω ∈ ΩN :

N∑

i=1

ωi = r

, r = 0, . . . , N,

die Ereignisse, daß jeweils genau r der getesteten Produktionsstucke defektsind 1.27.

• Jedem Ereignis A ∈ FN wird durch PN,p[A] ∈ [0, 1] seine Wahrschein-

lichkeit zugeordnet 1.28. In Ubereinstimmung mit der Modellannahme (i)wird beispielsweise 1.29

PN,p

[ω ∈ ΩN : ωi = 1

]= p,(1.2)

PN,p

[ω ∈ ΩN : ωi = 0

]= 1− p, i = 1, . . . , N,

festgesetzt. Weiterhin ist

PN,p[Ar ] = PN,p

[ ⋃

ω∈Ar

ω]= 1.30

ω∈Ar

PN,p[ω],(1.3a)

wobei

PN,p[ω] = 1.31N∏

i=1

pωi(1− p)1−ωi

︸ ︷︷ ︸

=

p, falls ωi = 1,

1− p, falls ωi = 0,

(1.3b)

= p∑

Ni=1 ωi(1 − p)N−

∑Ni=1 ωi

= pr(1 − p)N−r, ω ∈ Ar.

1.26Pot(S) bezeichnet die Potenzmenge, d.h. die Menge aller Teilmengen einer Menge S.1.27In einer anderen Sprechweise ist Ar das Ereignis, daß

”die gezogene Stichprobe genau r

defekte Produktionsstucke umfaßt“.1.28Bei einem festen N hangt die Wahrscheinlichkeit eines Ereignisses von dem zwar inner-

halb dieses wahrscheinlichkeitstheoretischen Modells als fest, sonst aber als beliebig betrachtetenParameter p ab. ΩN und FN hingegen sind von p unabhangig.

1.29Fur i = 1, . . . , N ist ω ∈ ΩN : ωi = 1 (ω ∈ ΩN : ωi = 0) das Ereignis, daß das i-teProduktionsstuck defekt (nicht defekt) ist.

1.30Die Wahrscheinlichkeiten disjunkter Mengen addieren sich, d.h., wenn Ereignisse A undB aufgrund von A ∩B = ∅ sich gegenseitig ausschließen, gilt

PN,p[A oder B] = PN,p[ω ∈ ΩN : ω ∈ A oder ω ∈ B](∗)= PN,p[ω ∈ ΩN : ω ∈ A ∪ B] = PN,p[A ∪ B] = PN,p[A] +PN,p[B].

Somit addieren sich in diesem Fall die Einzelwahrscheinlichkeiten. Die Beziehung (∗) entspricht derAnschauung, d.h., dem intuitiven Verstandnis des Begriffs

”Wahrscheinlichkeit“. Man betrachte

z.B. den Wurf eines fairen Wurfels. Dann ist

1

3= Wahrscheinlichkeit[es wird 3 oder 4 geworfen]

= Wahrscheinlichkeit[es wird 3 oder geworfen] +Wahrscheinlichkeit[es wird 4 geworfen]

=1

6+

1

6.

Im Rahmen der Wahrscheinlichkeitstheorie wird (∗) als ein Bestandteil der Kolmogorovschen

Axiome gefordert.Im hier betrachteten konkreten Fall muß berucksichtigt werden, daß Ar aus den disjunkten

Mengenω : ω ∈ Ar

besteht.

18. April 2016

Page 11: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

11

Es gibt(Nr

)Moglichkeiten fur die

”Einordnung“ von r defekten Produkti-

onsstucken in die Folge aller N gepruften Produktionsstucke 1.32, d.h. 1.33

|Ar | =(Nr

). Mit (1.3a) und (1.3b) folgt daher

(1.3c) PN,p[Ar] =

(N

r

)pr(1− p)N−r, r = 0, . . . , N.

Somit ist die Anzahl der defekten Produktionsstucke binomialverteilt mit

den Parametern N und p 1.34.

Die nun konstruierte Struktur (ΩN ,FN ,PN,p) ist ein einfaches Beispiel einesWahrscheinlichkeitsraums. Mit ihm liegt ein wahrscheinlichkeitstheoretisches Mo-

dell fur die hier behandelte Qualitatsprufung von Produktionsstucken vor 1.35.Mit dem Wahrscheinlichkeitsraum (ΩN ,FN ,PN,p) sind auch Zufallsvariablen,

d.h. gewisse reellwertige Funktionen auf ΩN , gegeben 1.36, wie z.B.:

• Yi : ΩN → R, i = 1, . . . , N , mit

(1.4) Yi(ω) = ωi, ω = (ω1, . . . , ωN ) ∈ ΩN , i = 1, . . . , N.

Yi gibt das Testergebnis fur das i-te Produktionsstuck an 1.37.

1.31Wenn allgemein zwei Ereignisse A und B stochastisch unabhangig sind, gilt die Beziehung

PN,p[A und B] = PN,p[ω ∈ ΩN : ω ∈ A und ω ∈ B](∗1)= PN,p[ω ∈ ΩN : ω ∈ A ∩B] = PN,p[A ∩B] = PN,p[A]PN,p[B],

d.h. die Einzelwahrscheinlichkeiten werden multipliziert. (∗1) entspricht der Anschauung, d.h.,dem intuitiven Verstandnis von

”Unabhangigkeit“. Da nach der Modellannahme (ii) die Qua-

litatseigenschaften der Produktionsstucke unabhangig sind, gilt beispielsweise

PN,p[1. Produktionsstuck defekt, 2. Produktionsstuck nicht defekt]

= PN,p[ω ∈ ΩN : ω1 = 1, ω2 = 0]= PN,p[ω ∈ ΩN : ω1 = 1 ∩ ω ∈ ΩN : ω2 = 0]= PN,p[ω ∈ ΩN : ω1 = 1] ·PN,p[ω ∈ ΩN : ω2 = 0]= p(1− p) (vgl. (1.2)).

Im Rahmen der Wahrscheinlichkeitstheorie wird (∗1) als Definition der Unabhangigkeit von zwei

Ereignissen benutzt, vgl. (3.16).1.32Die Anzahl der Moglichkeiten fur die

”Einordnung“ . . . kann mit kombinatorischen Me-

thoden bestimmt werden, vgl. Abschnitt 5.1 und insbesondere (5.4).1.33Mit |M | wird die Machtigkeit einer endlichen Menge M bezeichnet.1.34Die Binomialverteilung ist eine der klassischen Wahrscheinlichlichkeitsmaße oder -ver-

teilungen, die in der Stochastik haufig betrachtet werden.1.35Nach der axiomatischen Begrundung der Wahrscheinlichkeitstheorie u.a. durch A.N. Kol-

mogorov liegt jedem wahrscheinlichkeitstheoretischen Modell ein Wahrscheinlichkeitsraum zugrun-de. Fur einen allgemeinen Wahrscheinlichkeitsraum (Ω,F,P) ist nach den Kolmogorovschen Axio-

men, vgl. (2.1), (2.2), Ω eine Menge, F eine σ-Algebra bestehend aus der Menge aller Ereignisse,d.h. einer geeigneten Menge von Teilmengen von Ω, und P ein Wahrscheinlichkeitsmaß, das jedem

A ∈ F eine Wahrscheinlichkeit P[A] ∈ [0, 1] zuweist. Ein Wahrscheinlichkeitsraum (Ω,F,P) kannauch betrachtet werden als ein meßbarer Raum (Ω,F), der durch ein Wahrscheinlichkeitsmaß P

eine Gewichtung der meßbaren Mengen F erhalt.Im allgemeinen ist F 6= Pot(Ω), da andernfalls eine vernunftige Definition von P nicht moglich

zu sein braucht, vgl. Abschnitt 2.5.1.36Allgemein mussen diese Funktionen meßbar sein, vgl. (3.1), und damit eine in der Stocha-

stik ubliche Minimalforderung fur Funktionen erfullen. Da im vorliegenden Fall die σ-Algebra FN

alle Teilmengen von ΩN umfaßt, sind automatisch alle reellwertigen Funktionen auf ΩN meßbar.1.37Wenn man die Zufallsvariablen Yi, i = 1, . . . , N , als eine Gesamtheit (Yi)i=1,...,N be-

trachtet, erhalt man ein einfaches Beispiel eines stochastischen Prozesses.Im allgemeinen sind stochastische Prozesse (Yt)t∈T Familien Yt, t ∈ T, von Zufallsvariablen,

die durch eine Menge T ⊆ R indiziert sind, welche als ein Bereich von Zeitpunkten betrachtetwerden kann. Stochastische Prozesse dienen u.a. der Modellierung vom Zufall beeinflußter, dyna-

mischer Vorgange.

18. April 2016

Page 12: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

12

• ZN : ΩN → R mit

(1.5) ZN (ω) =1

N

N∑

i=1

ωi, ω ∈ ΩN , d.h., ZN =1

N

N∑

i=1

Yi.

ZN gibt die relative Anzahl defekter Produktionsstucke an.• TN : ΩN → R mit

TN(ω) =

infi ∈ 1, ..., N : ωi=1

, falls

∑Ni=1 ωi>0,

N + 1, sonst,ω ∈ ΩN .

TN modelliert den Zeitpunkt 1.38 der ersten Beobachtung eines defektenProduktionsstucks.

Solche Zufallsvariablen konnen als Darstellungen von Verfahren zur Erhebung,bzw. Zusammenfassung von Daten betrachtet werden 1.39 1.40. Vor allem auch durchdas Studium von Zufallsvariablen kann das durch (ΩN ,FN ,PN,p) gegebene wahr-scheinlichkeitstheoretische Modell genauer untersucht werden 1.41.

1.1.3. Wahrscheinlichkeitstheoretische Untersuchungen. In der Wahr-scheinlichkeitstheorie werden primar fur einen gegebenen Wahrscheinlichkeitsraumdarauf definierte Zufallsvariablen mathematisch studiert 1.42. Detaillierte Uber-legungen, die reale Meßwerte einschließen, treten in den Hintergrund.

Fur das in Abschnitt 1.1.2 beschriebene mathematische Modell konnen in derWahrscheinlichkeitstheorie beispielsweise Kenngroßen wie Erwartungswerte oderVarianzen spezieller auf dem Wahrscheinlichkeitsraum (ΩN ,FN ,PN,p) definierterZufallsvariablen berechnet werden. Man kann auch die Falle N → ∞ und / oderp→ 0 betrachten und Resultate ableiten, die das asymptotische Verhalten charak-terisieren. In den folgenden Beispielen 1.5 - 1.8 werden insbesondere die Zufallsva-riablen 1.43 ZN , N ∈ N, untersucht.

Beispiel 1.5 (Erwartungswert). Allgemein ist der Erwartungswert E[X ] einer re-ellwertigen Zufallsvariable X definiert als ein gewichtetes Mittel uber den Werte-bereich von X . Die Gewichte sind hierbei gegeben durch die Wahrscheinlichkeiten,mit der die jeweiligen Werte von X angenommen werden, d.h. durch die Verteilung

1.38Es sei angenommen, daß die Tests in aufeinanderfolgenden Zeitpunkten durchgefuhrtwerden. In diesem Fall ist die Identifizierung der Folge der Zufallsvariablen Yi, i = 1, . . . , N , mitdem stochastischen Prozeß (Yi)i=1,...,N naheliegend, vgl. Fußnote 1.37. Aufgrund von (1.4) kanndann insbesondere

TN =

infi ∈ 1, ...,N : Yi = 1

, falls

∑Ni=1 Yi > 0,

N + 1, sonst,

geschrieben werden.1.39Fur jede mogliche Stichprobe ω ∈ ΩN ist z.B. mit ZN (ω) die relative Anzahl der defekten

Produktionsstucke in dieser Stichprobe gegeben.1.40Im mathematischen Gebiet der Statistik werden Zufallsvariablen auch als Statistiken

bezeichnet.1.41Aus diesem Grund ist es oft auch sinnvoll, alle oder zumindest eine als wichtig erachtete

Familie von Zufallsvariablen zusammen mit dem Wahrscheinlichkeitsraum (ΩN ,FN ,PN,p) als

wahrscheinlichkeitstheoretisches Modell zu bezeichnen.1.42Beispielsweise werden Satze bewiesen, Verbesserungen und Verallgemeinerungen bekann-

ter Resultate gesucht oder Verbindungen zu anderen Teilgebieten der Mathematik hergestellt.1.43Vgl. (1.5).

18. April 2016

Page 13: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

13

von X 1.44 1.45 1.46.

EN,p[ZN ] =

N∑

k=0

k

NPN,p

[ω ∈ ΩN : ZN (ω) =

k

N

]

︸ ︷︷ ︸= 1.47 PN,p[ZN = k/N ]

(1.6)

= 1.48 1

N

N∑

k=0

kPN,p[Ak]

= 1.49 1

N

N∑

k=1

k

(N

k

)

︸ ︷︷ ︸= k

N !

k!(N − k)!= N

(N − 1

k − 1

)pk(1 − p)N−k

= p

N∑

k=1

(N − 1

k − 1

)pk−1(1− p)N−1−(k−1)

︸ ︷︷ ︸

=

N−1∑

l=0

(N−1

l

)pl(1−p)N−1−l=(p+ (1−p))N−1=1

= 1.50 p.

Beispiel 1.6 (Varianz). Die Varianz Var(X) einer reellwertigen ZufallsvariableX ist definiert als der Erwartungswert der quadratischen Abweichung von X von

1.44Der Erwartungswert entspricht somit dem intuitiven Begriff des”Mittelwerts“.

1.45Der Erwartungswert existiert, wenn jenes gewichtete Mittel wohldefiniert ist. Das ist z.B.fur integrable, bzw. fur nicht-negative Zufallsvariablen der Fall.

1.46Um die zugrundeliegenden Parameter N und p und damit den Bezug zum Wahrschein-lichkeitsmaß PN,p hervorzuheben, wird im folgenden die Notation EN,p[. . . ] benutzt. Allgemein

wird der Erwartungswert einer reellwertigen Zufallsvariable X mit E[X] bezeichnet.1.47Dies ist eine abkurzende Schreibweise.1.48Vgl. (1.1) und (1.5). Insbesondere ist ω ∈ ΩN : ZN (ω) = k/N = Ak, k = 0, 1, . . . , N .1.49Vgl. (1.3c).1.50Eine einfachere Begrundung von (1.6) ware folgende:

(a) Die Zuordnung X → E[X], die jeder reellwertigen Zufallsvariable X auf einem Wahr-scheinlichkeitsraum (Ω,F,P), die einen Erwartungswert besitzt, diesen ErwartungswertE[X] zuordnet, ist ein linearer Operator, d.h., es gilt

E[αX + βY ] = αE[X] + βE[Y ], X, Y Zufallsvariablen, α, β ∈ R.

(b) Bei Berucksichtigung von (1.5) folgt somit

EN,p[ZN ] =1

N

N∑

i=1

EN,p[Yi],

wobei die Zufallsvariablen Yi, i = 1, . . . , N , in (1.4) eingefuhrt wurden.(c) Aufgrund von (1.2) und (1.4) ist

EN,p[Yi] = PN,p[Yi = 1] · 1 +PN,p[Yi = 0] · 0 = p, i = 1, . . . , N.

(d) Zusammenfassend folgt nun

EN,p[ZN ] =1

N

N∑

i=1

p = p.

Durch wenige simple Berechnungen wie in (b), (c) und (d) und ein allgemeines Resultatder Stochastik, genauer der Maß- und Integrationstheorie, wie in (a) erubrigen sich somit auf-wendigere, langweilige und auch fehleranfallige Berechnungen wie bei der obigen Herleitung von(1.6).

18. April 2016

Page 14: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

14

ihrem Erwartungswert E[X ], d.h., Var(X) = E[(X − E[X ])2]. Sie charakterisiertdie Große der Schwankungen von X um E[X ] 1.51.

VarN,p(ZN ) = EN,p

[(ZN −EN,p[ZN ])2

](1.7)

= 1.52N∑

k=0

( kN

− p)2

PN,p[ZN = k/N ]

= . . .

= 1.53 1

Np(1− p).

Beispiel 1.7 (Gesetz der großen Zahlen). 1.54 Die Beziehungen (1.6) und (1.7)besagen, daß die Schwankungen der Zufallsvariablen ZN um ihren Erwartungswertp mit wachsendem N immer kleiner werden. Mit Hilfe eines allgemeinen Resultatsaus der Wahrscheinlichkeitstheorie, der Cebysev’schen Ungleichung 1.55

(1.8) P[|X −E[X ]| ≥ ǫ

]≤ 1

ǫ2Var(X), X Zufallsvariable, ǫ > 0,

laßt sich diese Aussage genauer fassen. Es ergibt sich die Konvergenz von ZN gegenp bei N → ∞ in der Form

PN,p

[|ZN − p| ≥ ǫ

]≤ 1

ǫ2VarN,p(ZN )(1.9)

=1

ǫ2Np(1− p)

N→∞−−−−→ 0, ǫ > 0.

1.51Nicht fur alle ZufallsvariablenX istVar(X) < ∞. Eine ZufallsvariableX mitVar(X) = 0nimmt fast-sicher nur den Wert E[X] an, d.h., X ist deterministisch.

1.52Man beachte, daß die Zufallsvariable (ZN − EN,p[ZN ])2 fur k = 0, 1, . . . , N den Wert

((k/N) − p)2 mit Wahrscheinlichkeit PN,p[ZN = k/N ] annimmt.1.53Zur Begrundung von (1.7) konnte man detaillierte Berechnungen wie bei der Herleitung

von (1.6) in Beispiel 1.5 durchfuhren. Andererseits konnte mit Hilfe allgemeiner Zusammenhangeder Wahrscheinlichkeitstheorie auch wie folgt argumentiert werden.

(a) Gemaß (1.5) ist ZN = (1/N)∑N

i=1 Yi eine gewichtete Summe der Zufallsvariablen Yi,

i = 1, . . . , N . In Ubereinstimmung mit der Modellannahme (ii) in Abschnitt 1.1.1 sinddiese Zufallsvariablen (stochastisch) unabhangig.

(b) Fur unabhangige Zufallsvariablen X und Y auf einem Wahrscheinlichkeitsraum(Ω,F,P) und α, β ∈ R gilt allgemein die Beziehung:

Var(αX + βY ) = α2Var(X) + β2Var(Y ),

vgl. Abschnitt 6.4.1.(c) Wegen (1.2), (1.4), weil EN,p[Yi] = p, i = 1, . . . , N , vgl. Fußnote 1.50(c), und wegen

der Linearitat des Operators EN,p[ . ], vgl. Fußnote 1.50(a), ergibt sich:

VarN,p(Yi) = EN,p[(Yi − p)2]

= EN,p[Y2i ]− 2EN,p[Yi]p+ p2 = p− p2 = p(1− p), i = 1, . . . , N.

(d) Zusammenfassend folgt (1.7), d.h.,

VarN,p(ZN ) =1

N2

N∑

i=1

VarN,p(Yi) =1

N2

N∑

i=1

p(1− p) =1

Np(1− p).

1.54In diesem Beispiel 1.7 ist N nicht mehr fest, sondern kann beliebige Werte in N annehmen.Um insbesondere große N zu behandeln, wird der Grenzubergang N → ∞ diskutiert.

1.55Damit (1.8) eine brauchbare Information liefert, sollte Var(X) < ∞ vorausgesetzt wer-

den. Die Cebysev’sche Ungleichung, vgl. Satz 6.18, bzw. (6.40), ist eine der vielen Ungleichungen,die in den mathematischen Untersuchungen in der Stochastik unverzichtbar sind.

18. April 2016

Page 15: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

15

Das in (1.9) beschriebene Konvergenzresultat ist auch als schwaches Gesetz der

großen Zahlen bekannt 1.56 1.57.

Beispiel 1.8 (Zentraler Grenzwertsatz). Eine Prazisierung der durch (1.9) be-schriebenen Konvergenz von ZN wird durch den Zentralen Grenzwertsatz gegeben.Wahrend das Gesetz der großen Zahlen ohne Angabe einer Konvergenzgeschwin-

digkeit nur besagt, daß ZN − pN→∞−−−−→ 0 bzgl. eines geeigneten Konvergenzbe-

griffs, identifiziert der Zentrale Grenzwertsatz diese Konvergenzgeschwindigkeit als∼ 1/

√N . In einer genauen Formulierung wird festgestellt, daß die mit

√N skalier-

ten Fluktuationen von ZN um den Erwartungswert p fur N → ∞ normalverteilt

sind, d.h. 1.58 1.59 1.60 1.61

limN→∞

PN,p

[√N/p(1− p)(ZN − p) ∈ [a, b]

](1.10)

=1√2π

∫ b

a

dx exp(−x2/2), a, b ∈ R, a < b.

1.56Es gibt auch ein starkes Gesetz der großen Zahlen fur ZN , N ∈ N. Die beiden Vari-anten des Gesetzes der großen Zahlen unterscheiden sich durch den jeweils zur Feststellung derKonvergenz von ZN gegen p verwendeten Konvergenzbegriff. Wahrend bei der Formulierung desschwachen Gesetzes der großen Zahlen wie in (1.9) die stochastische Konvergenz benutzt wird,findet beim starken Gesetz der großen Zahlen die fast-sichere Konvergenz Verwendung.

Die hier genannten und auch andere Konvergenzbegriffe werden in der Maß- und Integrati-

onstheorie genauer untersucht. U.a. werden dort die Beziehungen zwischen den unterschiedlichenKonvergenzkonzepten verdeutlicht. So folgt beispielsweise die stochastische Konvergenz aus derfast-sicheren, vgl. Satz 6.20. Daher impliziert das starke Gesetz der großen Zahlen das schwache,wodurch insbesondere die gewahlte Namensgebung gerechtfertigt wird.

1.57In einer allgemeineren Form wird beim Gesetz der großen Zahlen die Konvergenz

1

N

N∑

k=1

XkN→∞−−−−→ E[X1]

fur unabhangige, identisch verteilte, integrable Zufallsvariablen X1, X2, . . . festgestellt. WeitereVarianten des Gesetzes der großen Zahlen werden in Satz 7.1 und Bemerkung 7.2 vorgestellt.

1.58Die Normalverteilung N(µ, σ2) mit Erwartungswert µ und Varianz σ2 ist ein Wahrschein-lichkeitsmaß auf R, das einem Intervall [a, b], −∞ ≤ a < b ≤ ∞, jeweils die Wahrscheinlichkeit

(2πσ2)−1/2∫ badx exp(−(x− µ)2/2σ2) zuordnet. Die Verteilung N(0, 1), die auf der rechten Seite

von (1.10) auftaucht, wird als standard Normalverteilung bezeichnet.1.59Mit (1.10) wird ein weiterer, in der Stochastik ublicher Konvergenzbegriff vorgestellt,

namlich die sog. Konvergenz in Verteilung. Diese Namensgebung wird verstandlich, wenn beachtetwird, daß die Großen P[X ∈ [a, b]] = P[ω ∈ Ω : X(ω) ∈ [a, b]], a, b ∈ R, a < b, die Verteilung

einer reellwertigen Zufallsvariable X auf einem Wahrscheinlichkeitsraum (Ω,F,P) kennzeichnen.

Insbesondere wird durch (1.10) festgehalten, daß die Zufallsvariablen√N/p(1− p)(ZN − p)

bei N → ∞ in Verteilung gegen eine standard normalverteilte Zufallvariable konvergieren. Diestandard Normalverteilung N(0, 1) wird in Fußnote 1.58 beschrieben.

1.60In einer allgemeineren Form besagt der Zentrale Grenzwertsatz, daß fur unabhangige,

identisch verteilte, quadratintegrable Zufallsvariablen X1, X2, . . . mit Varianz σ2 ∈ (0,∞) dieZufallsvariablen

ηN =

√N

σ2

(1

N

N∑

k=1

Xk −E[X1]

), N = 1, 2, . . . ,

bei N → ∞ in Verteilung gegen eine standard normalverteilte Zufallsvariable konvergieren, vgl.Satz 9.3.

1.61Als Prazisierung des Gesetzes der großen Zahlen (1.9) besagt der Zentrale Grenzwertsatz

(1.10) zumindest formal, daß√N/p(1 − p)(ZN − p)

N→∞∼ Z, bzw. ZNN→∞∼ p+

√p(1− p)/NZ,

wobei Z eine normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz 1 ist. Insbesondere

tendiert der Abstand zwischen ZN und p bei N → ∞ wie 1/√N gegen 0.

18. April 2016

Page 16: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

16

1.1.4. Ein statistisches Modell. Die Aufgabe, die Qualitat des Produkti-onsverfahrens zu prufen 1.62, soll nun mit Methoden der Statistik bearbeitet wer-den. Basierend auf dem in Abschnitt 1.1.2 eingefuhrten und in Abschnitt 1.1.3 un-tersuchten wahrscheinlichkeitstheoretischen Modell der Gesamtheit der moglichenPrufungsdaten fur die Menge der Produktionsstucke sei angenommen 1.63, daß

• diesem Produktionsprozeß eine”wahre“, allerdings unbekannte Fehler-

wahrscheinlichkeit pw zugeordnet ist, und daß somit• aufgrund von Qualitatskontrollen vorliegende Prufungsergebnisse y1, . . . ,yN mit

yi =

1, falls das i-te Produktionsstuck fehlerhaft ist,

0, sonst,i = 1, ..., N,

Realisierungen 1.64 der Zufallsvariablen Yi, i = 1, . . . , N , auf dem Wahr-scheinlichkeitsraum (ΩN ,FN ,PN,pw

) sind.

Die Aufgabe besteht nun darin, Informationen uber pw zu gewinnen, wobei nur dieempirisch bestimmten Daten y1, . . . , yN den Uberlegungen zugrundegelegt werdenkonnen.

Vor der Losung der Aufgabe kann ein Statistiker seine Situation folgendermaßenzusammenfassen 1.65:

• Es gibt eine Menge XN = 0, 1, 2, . . . , N, die die moglichen Werte fur dieAnzahl der fehlerhaften Produktionsstucke umfaßt. XN wird Stichproben-

raum genannt 1.66.• Die σ-Algebra GN = Pot(XN ) der Teilmengen von XN reprasentiert dieMenge der Ereignisse, auf denen der Statistiker seine Entscheidungen auf-bauen kann.

• Auf dem meßbaren Raum (XN ,GN ) gibt es mit (QN,p)p∈[0,1] eine Fami-lie von Wahrscheinlichkeitsmaßen, so daß fur eine zugrundeliegende Feh-lerwahrscheinlichkeit p durch QN,p die zugehorige Wahrscheinlichkeits-

verteilung der Anzahl fehlerhafter Produktionsstucke bei N Stichprobenbeschrieben wird. Aufgrund von (1.3c) gilt

(1.11) QN,p = B(N, p), p ∈ [0, 1],

wobei B(N, p) die Binomialverteilung mit den Parametern N und p ist.

1.62Diese Aufgabe war eine Motivation fur die Uberlegungen dieses Abschnitts 1.1.1.63Sobald ein mit der Losung der Aufgabe der Qualitatsprufung betrauter Statistiker auf-

grund der Auskunfte der am Produktionsprozeß beteiligten Personen mit den Modellannahmen(i) und (ii) in Abschnitt 1.1.1 einverstanden ist, kann er bei seinen Uberlegungen das genanntewahrscheinlichkeitstheoretische Modell akzeptieren und sich auf die daraus folgenden mathema-tischen Konsequenzen verlassen. In den Beispielen 1.5 - 1.8 werden einige solcher Konsequenzenvorgestellt.

1.64Eine Realisierung einer Zufallsvariable X auf einem Wahrscheinlichkeitsraum (Ω,F,P)ergibt sich als X(ω) nach Auswahl eines zufalligen, dann aber als fest betrachteten ω ∈ Ω.

1.65Offensichtlich reicht nach der Prufung einer festen Anzahl N von Produktionsstuckenzur Einschatzung der Verarbeitungsqualitat, d.h. zu einer vernunftigen Schatzung pw von pw,allein die Kenntnis der Anzahl fehlerhafter Produktionsstucke. Weitere Details wie die genaueReihenfolge ihres Auftretens, sind nicht notwendig.

1.66Da in der hier betrachteten speziellen Situation nur die Anzahl der fehlerhaften gepruftenProduktionsstucke von Interesse ist, vgl. Fußnote 1.65, wird es sinnvoll, mit XN einen Stichpro-benraum zu wahlen, der

”ubersichtlicher“ ist als der in den Abschnitten 1.1.2 und 1.1.3 benutzte

Stichprobenraum ΩN .

18. April 2016

Page 17: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

17

Die Struktur (XN ,GN , (QN,p)p∈[0,1]) ist ein Beispiel eines statistischen Mo-

dells 1.67. In jeder Anwendungssituation ist die Bestimmung eines derartigen statis-tischen Modells die erste Aufgabe eines Statistikers. Seine mathematischen Uber-legungen kann er dann im Rahmen dieses statistischen Modells ausfuhren.

1.1.5. Statistische Untersuchungen. 1.68 In der Realitat sind die Ziele unddie Methoden statistischer Uberlegungen stark von der konkreten Anwendungssi-tuation abhangig. Fur den vorliegenden Fall einer Prufung der Verarbeitungsqua-litat sollen drei typische Fragestellungen und ihre jeweilige Losung durch Methodender Statistik vorgestellt werden.

Beispiel 1.9 (Maximum-Likelihood-Schatzer). Ein mogliches Verfahren zur Be-stimmung eines Schatzers 1.69 pw fur pw basiert auf dem sog. Maximum-Likeli-

hood-Prinzip: Fur eine beobachtete Anzahl x fehlerhafter Produktionsstucke wirdpw dadurch charakterisiert, daß unter der zugehorigen Verteilung, d.h. unter derBinomialverteilung 1.70 QN,pw

= B(N, pw), jener Wert x die maximale Wahrschein-lichkeit hat 1.71. pw lost somit 1.72

QN,pw[x] =

(N

x

)pw

x(1 − pw)

N−x(1.12)

= supp∈[0,1]

(N

x

)px(1− p)N−x = sup

p∈[0,1]

QN,p[x].

Als Maximum-Likelihood-Schatzer, d.h. als Losung von (1.12), ergibt sich mit

(1.13) pw =x

Ndie relative Anzahl der defekten Produktionsstucke in der auszuwertenden Stich-probe vom Umfang N 1.73.

1.67Genaugenommen liegt hier ein parametrisches Modell mit dem Parameterbereich Θ =[0, 1] vor. Θ parametrisiert die unterschiedlichen Wahrscheinlichkeitsverteilungen QN,p, p ∈ [0, 1],die als mogliche Kandidaten fur die real zugrundeliegende Wahrscheinlichkeitsverteilung QN,pw

der Daten, d.h. der Anzahl der defekten unter den gepruften Produktionsstucken, in Fragekommen.

1.68In diesem Abschnitt 1.1.5 sei die Anzahl N der gepruften Produktionsstucke fest.1.69Mit pw soll die wahre Fehlerwahrscheinlichkeit pw des Produktionsverfahrens geschatzt

werden.1.70Vgl. (1.11).1.71Unter allen moglichen p ∈ [0, 1] ist also der beobachtete Wert x fur jenes pw ”

am wahr-scheinlichsten“.

1.72Fur ein etwas allgemeineres statistisches Modell (X, G, (Qp)p∈Θ), wobei X hochstensabzahlbar, G = Pot(X) und Qp, p ∈ Θ, eine Familie von Wahrscheinlichkeitsmaßen auf (X,G)sei, ist bei einer Anwendung des Maximum-Likelihood-Prinzips zu x ∈ X eine Losung p = p(x)von

(∗) Qp[x] = supp∈Θ

Qp[x]

zu suchen. Fur ein festes x ∈ X bezeichnet man ubrigens die Funktion Θ ∋ p→ Qp[x] = Lx(p) ∈[0, 1] als Likelihood-Funktion zum Beobachtungswert x. Aufgrund von (∗) ist zur Bestimmung vonp(x) ein p ∈ Θ, an dem die Likelihood-Funktion Lx ein globales Maximum besitzt, zu suchen.

1.73Zur Losung von (1.12) ist fur x ∈ XN zu klaren, wo die Likelihood-Funktion p →(Nx

)px(1 − p)N−x = Lx(p), bzw. in einer aquivalenten Formulierung, wo die Log-Likelihood-

Funktion

p→ log(Lx(p)) = log((N

x

)px(1 − p)N−x

)= log

(Nx

)+ x log(p) + (N − x) log(1− p) = ℓx(p)

maximal wird. Fur x = 1, 2, . . . , N − 1 ergibt sich nun (1.13) aus

ℓ′x(p) =x

p− N − x

1− p= 0 ⇐⇒ p =

x

N,

ℓ′′x(p) = − x

p2− N − x

(1− p)2< 0, p ∈ (0, 1),

18. April 2016

Page 18: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

18

Der Schatzer pw ist zunachst unbefriedigend, da mit ihm keine Angabe uberseine Genauigkeit, bzw. seine Zuverlassigkeit verbunden ist.

Beispiel 1.10 (Konfidenzbereich). 1.74 Eine vertrauenswurdige, bzw. zuverlassigeSchatzung fur pw liegt dann vor, wenn ein moglichst kleiner sog. Konfidenzbereich

angegeben wird, innerhalb dessen mit einer vorgegebenen”hinreichend großen Si-

cherheit“ 1.75 dieses pw erwartet werden kann. Eine sinnvolle Vorgehensweise bestehtdarin,

• zunachst ein Irrtumsniveau s ∈ (0, 1) 1.76 zu wahlen und dann• eine Zuordnung XN ∋ x→ C(x) = [pu(x), po(x)] ⊆ [0, 1] so zu bestimmen,daß fur alle x das jeweilige Intervall C(x) moglichst klein ist und

• fur jedes mogliche pw ∈ [0, 1] bzgl. des zugehorigen Wahrscheinlichkeits-maßes QN,pw

solche x, fur die C(x) 6∋ pw gilt, hochstens mit Wahrschein-lichkeit s beobachtet werden.

Wegen (1.11) sollte daher

supp∈[0,1]

QN,p[x ∈ XN : C(x) 6∋ p](1.14)

= supp∈[0,1]

x=0,1,...,NC(x) 6∋p

(N

x

)px(1− p)N−x ≤ s

gelten. Man bezeichnet in diesem Fall die Abbildung XN ∋ x → C(x) ⊆ [0, 1] alsKonfidenzbereich zum Irrtumsniveau s 1.77 1.78.

Fur einen festen Beobachtungswert x und nach der Bestimmung von C(x) kannnun der Statistiker sein Ergebnis in der folgenden Form prasentieren:

”Mit einer

Sicherheit von mindestens (1− s) ·100 % liegt pw in dem Intervall C(x)“ 1.79, bzw.,

”das Risiko fur die Gultigkeit von pw 6∈ C(x) ist hochstens s · 100 %.

und

limpց0

ℓx(p) = limpր1

ℓx(p) = −∞.

Abschließend beachte man, daß L0(p) = (1 − p)N , bzw. LN (p) = pN , p ∈ [0, 1]. Somit ist esoffensichtlich, daß die Likelihood-Funktion Lx auch fur x = 0 und x = N an der durch (1.13)gegebenen Stelle ein globales Maximum hat.

1.74In den Uberlegungen dieses Beispiels wird auf den moglichen Wunsch des Herstellers, dieEinschatzung der Verarbeitungsqualitat seines Produkts mit einer Angabe zur Genauigkeit jenerEinschatzung zu verbinden, eingegangen.

1.75Eine derartige Phrase muß naturlich mathematisch gefaßt werden.1.76Man konnte auch von einem Sicherheitsniveau 1− s sprechen.1.77Fur C(x) = [0, 1], x ∈ XN , ist x ∈ XN : C(x) 6∋ p = ∅, p ∈ [0, 1]. Da QN,p[∅] = 0,

vgl. (2.8), ist somit (1.14) erfullt. Allerdings liefert ein solcher Konfidenzbereich offensichtlichkeine brauchbare Information und sollte daher verkleinert werden. Die Bestimmung eines solchen

”kleineren“ Konfidenzbereichs wird z.B. in Beispiel 4.8 vorgenommen.

1.78In einer allgemeineren, im Rahmen eines statistischen Modells (X,G, (Qp)p∈Θ) gewahltenFormulierung sollte der Konfidenzbereich, d.h. die Zuordnung X ∋ x → C(x) ⊆ Θ so bestimmtwerden, daß

supp∈Θ

Qp[x ∈ X : C(x) 6∋ p

]≤ s.

1.79Die haufig umgangssprachlich verwendete Aussage”Mit einer Wahrscheinlichkeit von

mindestens (1 − s) · 100 % liegt pw in dem Intervall C(x)“ ist unprazise und irrefuhrend, da siesuggeriert, daß pw zufallig ist, was nicht der Fall ist.

18. April 2016

Page 19: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

19

Beispiel 1.11 (Testen einer Hypothese). 1.80 Durch einen Vertrag sei der Herstellerder Produktionsstucke zur Zahlung einer Konventionalstrafe verpflichtet, wenn beieiner Lieferung eine Fehlerquote 1.81 pf ∈ [0, 1] uberschritten wird. Das Risiko, jenemaximale Fehlerwahrscheinlichkeit pf unbemerkt 1.82 zu uberschreiten, soll fur denHersteller unter einem vorgegebenen, gerade noch akzeptablen Niveau bleiben 1.83.In einem systematischen statistischen Verfahren zur Risikobegrenzung besteht

• ein erster Schritt darin, ein Irrtumsniveau t ∈ (0, 1) und• eine Nullhypothese 1.84

(1.15) Θ0 = p ∈ [0, 1] : p ≥ pffestzulegen.

• Fur das noch genauer zu bestimmende Entscheidungsschema, einen sog.Test φ, mit 1.85

XN ∋ x→ φ(x) =

0, falls p ∈ Θ0 vermutet wird 1.86,

1, falls p 6∈ Θ0 angenommen wird 1.87,(1.16)

sollte dann einerseits die maximale Irrtumswahrscheinlichkeit bei einer zugroßen Fehlerquote, d.h. bei Gultigkeit der Nullhypothese Θ0, nicht großerals t sein 1.88, d.h., es sollte

supp∈Θ0

QN,p[x ∈ XN : φ(x) = 1](1.17)

= supp∈Θ0

x∈XN :φ(x)=1

(N

x

)px(1− p)N−x ≤ t

gelten 1.89.

1.80Die Anwendung des nun diskutierten Verfahrens kann fur den Hersteller dann interes-

sant werden, wenn er beim Unterschreiten einer vorher vereinbarten Qualitatsgrenze, d.h. beimUberschreiten einer vorgegebenen Fehlerwahrscheinlichkeit, zur Vermeidung von Regressforderun-gen der Kunden informiert werden will.

1.81Die”Fehlerquote“ pf sei der relative Anteil der defekten Produktionsstucke in einer

Lieferung an einen Kunden. Nach dem Gesetz der großen Zahlen, vgl. Beispiel 1.7, wird fur großeLiefermengen diese Fehlerquote durch die Fehlerwahrscheinlichkeit p, d.h. die Wahrscheinlichkeit,daß ein beliebiges einzelnes Produktionsstuck defekt ist, approximiert.

1.82Wenn die Fehlerwahrscheinlichkeit pf ”unbemerkt “ uberschritten wird, kann die Auslie-

ferung der Ware nicht verhindert werden, d.h., der Eingang einer Regressforderung ist zu erwarten.1.83Ein

”akzeptables Niveau“ ist im folgenden bestimmt durch die fur den Hersteller noch

vertretbare”Wahrscheinlichkeit“, mit der die Zahlung der Konventionalstrafe fallig wird.

1.84Das Risiko, die Gultigkeit der Nullhypothese Θ0 zu ubersehen, sollte durch das vorgege-

bene Irrtumsniveau begrenzt sein, da ein solches Versaumnis mit hohen Kosten verbunden seinkann.

1.85Bei der genauen Bestimmung von φ(.) werden die Mengen A0 = x ∈ XN : φ(x) = 0und A1 = x ∈ XN : φ(x) = 1 = XN \A0 spezifiziert.

1.86Der Statistiker, der die Datenauswertung vornimmt, kommt zum Ergebnis, daß die Feh-lerwahrscheinlichkeit pf uberschritten wird. Er schlagt nun dem Betrieb vor, Verbesserungen im

Produktionsprozeß vorzunehmen.1.87Der Statistiker kommt zum Schluß, daß die Fehlerwahrscheinlichkeit pf nicht erreicht

wird. Er empfiehlt nun, den Produktionsprozeß nicht zu verandern.1.88Die maximale Wahrscheinlichkeit fur einen sog. Fehler 1. Art sollte das Niveau t nicht

uberschreiten.1.89In einem allgemeineren, im Rahmen eines statistischen Modells (X, G, (Qp)p∈Θ) formu-

lierten Testproblem sollte fur eine gegebene Nullhypothese Θ0 ⊆ Θ der Test φ : X → 0, 1 sobestimmt werden, daß

supp∈Θ0

Qp[x ∈ X : φ(x) = 1] ≤ t

18. April 2016

Page 20: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

20

• Andererseits sollte auch im Fall einer eigentlich akzeptablen Fehlerquo-te p < pf die entsprechende Irrtumswahrscheinlichkeit moglichst kleinsein 1.90, d.h. 1.91

QN,p[x ∈ XN : φ(x) = 0] =∑

x∈XN :φ(x)=0

(N

x

)px(1− p)N−x(1.18)

!!= minimal fur den zu suchenden Test φ, falls p 6∈Θ0.

Nach der Bestimmung eines Tests φ, der (1.16) - (1.18) zu vorgegebenem Irrtums-niveau t und Nullhypothese Θ0 lost, kann ein Statistiker dessen Wirkungsweise fol-gendermaßen charakterisieren:

”Die Nullhypothese Θ0 wird in hochstens t · 100 %

aller Falle ubersehen“ oder auch”die Nullhypothese wird mit einer Sicherheit von

mindestens (1−t)·100 % erkannt“ 1.92. Zusatzlich wird auf das eventuelle”Vorliegen

der Alternative p < pf mit maximaler Zuverlassigkeit hingewiesen“ 1.93.

1.1.6. Zusammenfassung und Ausblick. In der Stochastik werden Gesetz-maßigkeiten in zufalligen Vorgangen mathematisch beschrieben. Hierbei wird mitmathematischen Modellen gearbeitet.

Im Teilgebiet der Wahrscheinlichkeitstheorie werden die Eigenschaften fest vor-gegebener wahrscheinlichkeitstheoretischer Modelle studiert 1.94.

Im Teilgebiet der Statistik werden im Rahmen statistischer Modelle reale Be-obachtungsdaten interpretiert.

In diesem Abschnitt 1.1 wurden u.a. folgende Begriffe, Konzepte und Resultate

der Stochastik vorgestellt 1.95:

• Wahrscheinlichkeitsraum(Stichprobenraum, σ-Algebra der Ereignisse, Wahrscheinlichkeitsmaß)

• Zufallsvariable, Verteilung einer Zufallsvariable, stochastischer Prozeß• Unabhangigkeit• Erwartungswert, Varianz• (schwaches bzw. starkes) Gesetz der großen Zahlen• Zentraler Grenzwertsatz• Cebysev’sche Ungleichung• stochastische bzw. fast-sichere Konvergenz, Konvergenz in Verteilung• Binomialverteilung, Normalverteilung

gilt. Analog zu (1.16) hat auch hier φ die Bedeutung

φ(x) =

0, falls Θ0 akzeptiert wird,

1, falls Θ0 verworfen wird,x ∈ X.

1.90Durch diese Forderung soll der sog. Fehler 2. Art moglichst”unwahrscheinlich“ werden,

d.h., die Gefahr eines falschen Alarms soll moglichst klein werden. Damit soll eine evtl. kosten-intensive, aber uberflussige Anderung des Produktionsprozesses vermieden werden. Insbesonderesoll die Verwendung des trivialen Tests φ ≡ 0 ausgeschlossen werden. Bei Anwendung diesesTests, einer offensichtlichen Losung von (1.17), wird ohne Berucksichtigung der Prufergebnissevorgeschlagen, den Produktionsprozeß zu verbessern.

1.91Fur alle p < pf soll in der Klasse aller Tests, die (1.17) erfullen, das Minimum der linken

Seite von (1.18) durch den zu suchenden Test φ angenommen werden.1.92Eine Verwendung des Wortes

”Wahrscheinlichkeit“ anstelle von

”Sicherheit“ ware un-

prazise, da sie eine nicht vorhandene Zufalligkeit von p suggerieren wurde.1.93Wenn φ : XN → 0, 1 die Bedingung (1.17) erfullt, nennt man φ einen Test zum Irrtums-

niveau t. Wenn zusatzlich (1.18) gilt, wird φ als ein gleichmaßig bester Test zum Irrtumsniveau tbezeichnet.

1.94Insbesondere werden Wahrscheinlichkeitsraume und darauf definierte Zufallsvariablenuntersucht.

1.95Zum Teil wurden diese Begriffe nur in Fußnoten erwahnt.

18. April 2016

Page 21: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

21

• deskriptive und mathematische Statistik• (parametrisches) statistisches Modell• Maximum-Likelihood-Prinzip, Schatzer• Konfidenzbereich• Testen einer Hypothese• Maß- und Integrationstheorie

Diese Begriffe spielen zentrale Rollen in den mathematischen Disziplinen Wahr-scheinlichkeitstheorie und Statistik. Sie werden im weiteren Verlauf der Vorlesungimmer wieder auftauchen und dann auch mathematisch prazisiert und in Anwen-dungen und Beispielen erlautert werden.

1.2. (∗) Geschichte der Wahrscheinlichkeitstheorie und der Statistik

Um die Einordnung der Wahrscheinlichkeitstheorie und der Statistik in denallgemeinen Rahmen der Mathematik und ihre außermathematische Bedeutung an-zudeuten, werden in diesem Abschnitt 1.2 einige wenige Entwicklungsphasen undmarkante Zeitpunkte festgehalten.

Antike und Mittelalter. Da vollig unklar ist, wie Begriffe wie Zufall oder Wahr-

scheinlichkeit mathematisch faßbar sind, kann sich noch keine Wahrschein-lichkeitstheorie entwickeln. Einzelne Abhandlungen uber Glucksspiele sindbekannt.

ca. 1655. Ein Briefwechsel zwischen B. Pascal und P. de Fermat u.a. uber kombi-natorische Probleme bei Glucksspielen wird als Beginn der mathematischenDisziplin Wahrscheinlichkeitstheorie betrachtet. In einer Abhandlung eben-falls uber Glucksspiele fuhrt Ch. Huygens den Erwartungswert ein.

ca. 1710. U.a. durch Arbeiten von J. Bernoulli (Gesetz der großen Zahlen) und A.de Moivre (Zentraler Grenzwertsatz) gibt es Fortschritte in der

”elementaren“

Stochastik. Es entwickelt sich das Gebiet der Statistik.18. und Beginn des 19. Jahrhunderts. In den mathematischen Auseinandersetzun-

gen mit der Stochastik bleiben große Probleme mit kontinuierlichen Wahr-scheinlichkeitsverteilungen bestehen. In philosphischen Uberlegungen wirdu.a. von J.B. d’Alembert und P.S. Laplace versucht, den

”Zufall“ zu verste-

hen. T. Bayes (bedingte Wahrscheinlichkeit) begrundet die”angelsachsische

Schule“ der mathematischen Statistik. C.F. Gauß und A.M. Legendre erar-beiten die Methode der kleinsten Quadrate.

Ende des 19. Jahrhunderts. Die Mengenlehre (G. Cantor) und die Maß- und Inte-

grationstheorie (E. Borel, H. Lebesgue) werden entwickelt. Sie erweisen sichspater als die Basis der

”modernen“ Stochastik.

Beginn des 20. Jahrhunderts. Vielfaltige theoretische Untersuchungen und Anwen-dungen

”konvergieren“ letztendlich zum noch heute akzeptierten

”Gebaude“

der Wahrscheinlichkeitstheorie. Durch Arbeiten von L. Bachelier (Modellie-rung von Aktienkursen, 1900) und A. Einstein (Molekularbewegung, 1905)findet mit der Brownschen Bewegung ein stochastischer Prozeß erste wichtigeAnwendungen.

1933. A.N. Kolmogorov veroffentlicht das Axiomensystem der Wahrscheinlichkeits-theorie. In den folgenden zwei Jahrzehnten sind schnelle Fortschritte moglich(Stochastische Prozesse, Stochastische Differentialgleichungen, Martingale).

2. Halfte des 20. Jahrhunderts. Erst durch Anwendungen von Resultaten der mo-dernen Wahrscheinlichkeitstheorie werden viele technische oder wirtschaftli-che Entwicklungen moglich, wie z.B.

• Manhattan-Projekt, Entwicklung der H-Bombe (Monte-Carlo Simula-

tionen u.a. von S. Ulam, E. Fermi, J. v. Neumann),

18. April 2016

Page 22: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

22

• Steuerung von Satelliten und Raketen, bzw. Satellitennavigationssyste-me (Kalman-Bucy Filter),

• Bestimmung des Preises fur gewisse Finanzderivate (z.B. Terminkon-trakte, Aktienoptionen) (u.a. Black-Scholes Modell).

18. April 2016

Page 23: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

KAPITEL 2

Wahrscheinlichkeitsraume

Ein Wahrscheinlichkeitsraum ist ein Tripel (Ω,F,P), wobei

• Ω eine Menge,• F eine σ-Algebra 2.1, d.h. eine spezielle Familie von Teilmengen von Ω 2.2,und

• P ein Wahrscheinlichkeitsmaß 2.3 auf (Ω,F) ist.

Ω heißt Stichprobenraum. Die Elemente 2.4 A ∈ F beschreiben Ereignisse, welchendurch P eine Wahrscheinlichkeit P[A] ∈ [0, 1] zugewiesen wird.

Wahrend Stichprobenraume keinerlei Einschrankungen unterliegen 2.5, mussenσ-Algebren und Wahrscheinlichkeitsmaße den im folgenden beschriebenen Kolmo-

gorovschen Axiomen (2.1) und (2.2) genugen.Sei Ω 6= ∅ eine Menge. Eine Familie F ⊆ Pot(Ω) heißt σ-Algebra, wenn

Ω ∈ F,(2.1a)

A ∈ F =⇒ Ω \A ∈ F,(2.1b)

A1, A2, · · · ∈ F =⇒∞⋃

k=1

Ak ∈ F.(2.1c)

Nun wird (Ω,F) als meßbarer Raum bezeichnet. Die Elemente von F heißen auchmeßbare Mengen.

Im Rahmen eines wahrscheinlichkeitstheoretischen Modells lassen sich die Be-dingungen (2.1) wie folgt interpretieren.

• Mit (2.1a) wird festgehalten, daß durch Ω ein Ereignis, namlich”irgend-

etwas geschieht“ beschrieben wird.• (2.1b) besagt, daß mit A auch

”A geschieht nicht“ ein Ereignis ist.

• Aufgrund von (2.1c) ist mit A1, A2, . . . auch”A1 oder A2 oder . . .“ ein

Ereignis 2.6 2.7.

Beispiel 2.1. (i) Fur eine beliebige Menge Ω ist F = ∅,Ω eine σ-Algebra. Manbezeichnet F als triviale σ-Algebra.

2.1Die genaue Definition von σ-Algebren folgt in (2.1).2.2I. allg. ist F eine echte Teilmenge der Potenzmenge Pot(Ω) von Ω, vgl. Abschnitt 2.5.2.3Die genaue Definition von Wahrscheinlichkeitsmaßen folgt in (2.2).2.4Die Elemente A ∈ F sind Teilmengen von Ω.2.5In konkreten Anwendungen sollten Stichprobenraume einfach nur

”groß genug“ sein, d.h.,

eine hinreichend detaillierte Struktur besitzen.2.6Man beachte, daß in (2.1c) nur abzahlbare Vereinigungen betrachtet werden.2.7Aus (2.1) konnen weitere Eigenschaften von σ-Algebren, wie z.B.

A1, A2, · · · ∈ F =⇒∞⋂

k=1

Ak ∈ F,

abgeleitet werden, vgl. Abschnitt 2.3.1.⋂∞

k=1Ak entspricht dem Ereignis”A1 und A2 und . . .“.

23

Page 24: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

24

(ii) Sei Ω′ eine Menge mit einer Darstellung Ω′ = A1∪· · ·∪An, wobei Ak∩Al =∅, k 6= l 2.8. Weiterhin sei F′ =

⋃l∈ΛAl : Λ ∈ Pot(1, . . . , n)

, d.h., F′ ist die

Menge aller Vereinigungen der Elemente von Teilmengen von A1, . . . , An 2.9. F′

ist eine σ-Algebra.

Fur einen meßbaren Raum (Ω,F) heißt eine Funktion P : F → [0, 1] Wahr-

scheinlichkeitsmaß, wenn

P[Ω] = 1,(2.2a)

P

[ ∞⋃

k=1

Ak

]2.10 =

∞∑

k=1

P[Ak],(2.2b)

A1, A2, · · · ∈ F, Ak ∩ Al = ∅, k, l ∈ N, k 6= l.

Die Eigenschaft (2.2b) wird als σ-Additivitat von P bezeichnet. Man beachte, daßdie Gultigkeit dieser Beziehung nur fur abzahlbar viele, paarweise disjunkte A1, A2,· · · ∈ F gefordert wird 2.11.

Die Eigenschaften (2.2) sind mit einem anschaulichen Begriff der”Wahrschein-

lichkeit“ vereinbar 2.12.

• Beispielsweise besagt (2.2a), daß mit Wahrscheinlichkeit 1 “irgendetwasgeschieht“ 2.13.

• Mit der σ-Additivitat (2.2b) von P wird verlangt, daß sich die Wahr-scheinlichkeiten abzahlbar vieler, sich gegenseitig ausschließender Ereig-nisse addieren 2.14 2.15.

Beispiel 2.2. In der in Beispiel 2.1(ii) beschriebenen Situation seien pk, k =1, . . . , n, mit pk ∈ [0, 1], k = 1, . . . , n, und

∑nk=1 pk = 1 gegeben. Durch P′[Ak] :=

pk, k = 1, . . . , n, und P′[⋃

l∈ΛAl] :=∑

l∈Λ pl, Λ ∈ Pot(1, . . . , n), wird ein Wahr-scheinlichkeitsmaß P′[ · ] auf dem meßbaren Raum (Ω′,F′) definiert.

2.1. Elementare wahrscheinlichkeitstheoretische Modelle

Die Bildung einfacher wahrscheinlichkeitstheoretischer Modelle wird in diesemAbschnitt mit einigen Beispielen fur unterschiedliche Varianten des Wurfs einerMunze, bzw. eines Wurfels erlautert 2.16.

2.8Um anzudeuten, daß die Mengen A1, . . . , AN paarweise disjunkt sind, schreibt man auch

Ω′ = A1·∪ · · · ·∪ An und bezeichnet A1

·∪ · · · ·∪ An als Zerlegung von Ω′.2.9Man betrachtet Teilmengen A = Al1 , . . . , Alr ⊆ A1, . . . , An und dann die Vereinigung

Al1 ∪ · · · ∪Alr der Elemente Al1 , . . . , Alr von A.2.10Als Folge von (2.1c) ist mit A1, A2, · · · ∈ F auch

⋃∞k=1Ak ∈ F, d.h., die linke Seite von

(2.2b) ist wohldefiniert.2.11Fur beliebige, nicht notwendigerweise paarweise disjunkte A1, A2, · · · ∈ F gilt (2.2b)

i. allg. nicht. Vielmehr liegt dann σ-Subadditivitat vor, vgl. (2.13).2.12Es ist bemerkenswert, daß (2.2a) und (2.2b), d.h., nur zwei Eigenschaften, ausreichen,

um auf eine eindeutige Weise Wahrscheinlichkeitsmaße auf einem meßbaren Raum (Ω,F) zucharakterisieren.

2.13Das Ereignis Ω umfaßt “alles mogliche, das eintreten kann“. Man beachte, daß P[Ω]aufgrund von (2.1a) wohldefiniert ist.

2.14Sich ausschließende Ereignisse entsprechen disjunkten Mengen.2.15Es ist wesentlich, daß (2.2b) fur abzahlbar viele und nicht nur fur endliche viele disjunkte

A1, . . . , AN ∈ F, N ∈ N, gefordert wird. Jene endliche Additivitat von P kann als Konsequenz von(2.2) bewiesen werden, vgl. (2.9). Zusammen mit (2.9) werden weitere Konsequenzen aus (2.2) inAbschnitt 2.3.2 zusammengestellt.

2.16Insbesondere wird beschrieben, wie in diesen Fallen zur Modellierung geeignete Wahr-scheinlichkeitsraume angegeben werden konnen.

18. April 2016

Page 25: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

25

Beispiel 2.3 (Wurf einer fairen Munze). Bei einem Wurf einer fairen Munze kannsich Kopf oder Zahl ergeben, wobei diese beiden Moglichkeiten die gleiche Wahr-

scheinlichkeit besitzen. Zur mathematischen Modellierung dieses Vorgangs kann

”Kopf“ mit der Zahl 0 und

”Zahl“ mit 1 identifiziert werden und dann

Ω = 0, 1,F =

∅, 0, 1,Ω

= Pot(Ω),

P[∅] = 0, P[0] = 1

2, P[1] = 1

2, P[Ω] = 1

gewahlt werden.Die Menge Ω faßt die moglichen Ausgange des Munzwurfs zusammen. Mit

diesen Ausgangen sind die durch F beschriebenen Ereignisse

∅ ,”Es wird weder Kopf noch Zahl geworfen“ 2.17,

0 ,”Es wird Kopf geworfen“,

1 ,”Es wird Zahl geworfen“,

Ω ,”Es wird Kopf oder Zahl geworfen“

verbunden. Da die Munze als fair vorausgesetzt wurde, besitzen diese Ereignisse

”offensichtlich“ 2.18 die durch P angegebenen Wahrscheinlichkeiten.

Mit dem hier beschriebenen wahrscheinlichkeitstheoretischen Modell (Ω,F,P)kann offenbar auch jedes andere

”Experiment“ mit zwei moglichen, gleichwahr-

scheinlichen Ausgangen beschrieben werden 2.19.

Beispiel 2.4 (Wurf einer unfairen Munze). Bei einem Wurf einer Munze, die be-vorzugt auf eine der beiden Seiten fallt, d.h. einer unfairen Munze, konnen Ω undF wie in Beispiel 2.3 gewahlt werden. Mit einem geeigneten p ∈ [0, 1] 2.20 ist dannallerdings P gemaß

P[∅] = 0, P[0] = 1− p, P[1] = p, P[Ω] = 1

zu modifizieren.Mit einem derartigen Wahrscheinlichkeitsraum (Ω,F,P) konnen Experimente

mit zwei moglichen, unterschiedlich wahrscheinlichen Ausgangen modelliert wer-den 2.21.

Beispiel 2.5 (Wurf eines fairen Wurfels). Anders als in den Beispielen 2.3 und 2.4sind in diesem Fall sechs Ausgange moglich, wobei diese wie in Beispiel 2.3 gleich-wahrscheinlich sind. Nun kann durch

Ω = 1, 2, . . . , 6,F = Pot(Ω),

2.17Mit ∅ ∈ F werden hier auch”unwahrscheinliche“ Ereignisse wie

”die Munze bleibt in der

Luft hangen“ oder”im Zeitpunkt ihres Wurfs schlagt ein Blitz in die Munze ein und sie verdampft“

modelliert.2.18Hier wird auf die menschliche Erfahrung Bezug genommen. In mathematischen Modellen

realer Phanomene geht diese menschliche Erfahrung immer ein.2.19Beispiele sind ein

”Wurf eines fairen Wurfels, bei dem gefragt wird, ob eine gerade oder

eine ungerade Augenzahl auftritt“ oder eine”Ultraschalluntersuchung eines Embryos zur Feststel-

lung seines Geschlechts“.2.20p = 0 oder p = 1 wird dann benutzt, wenn die Munze so prapariert ist, daß sie immer

auf die gleiche Seite fallt.2.21Weitere Beispiele waren der

”Wurf eines Reißnagels“, bei dem die glatte Seite, bzw.

der Stift nach oben zeigen kann, die”Frage an einen zufallig ausgewahlten Passanten, ob er im

kommenden Sommer Urlaub machen wird oder nicht“ oder die”Untersuchung einer Blutkonserve,

ob diese HIV-positiv ist oder nicht“.

18. April 2016

Page 26: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

26

P[k] = 1

6, k = 1, . . . , 6,

P[A] = P

[⋃

k∈A

k]= 2.22

k∈A

P[k] = |A|6

=|A||Ω| , A ∈ F,

ein zur Modellierung geeigneter Wahrscheinlichkeitsraum (Ω,F,P) definiert wer-den.

Beispiel 2.6 (Wurf eines unfairen Wurfels). Ein Wurfel sei so manipuliert, daß diesechs Seiten mit unterschiedlichen Wahrscheinlichkeiten pk, k = 1, . . . , 6, geworfenwerden. Hierbei sollte

pk ∈ [0, 1], k = 1, . . . , 6,6∑

k=1

pk = 1

gelten. Zur Modellierung kann in diesem Fall (Ω,F) wie in Beispiel 2.5 gewahlt unddas Wahrscheinlichkeitsmaß P durch

P[A] =∑

k∈A

P[k] =∑

k∈A

pk, A ∈ F,

definiert werden.

Beispiel 2.7 (Mehrmaliger, unabhangiger Wurf einer fairen Munze). 2.23 Ausge-hend von den Uberlegungen in Beispiel 2.3 kann die Menge der Sequenzen von NWurfen der Munze durch

Ω = 0, 1N = (ω1, . . . , ωN) : ωk ∈ 0, 1, k = 1, . . . , N

beschrieben werden. Wie in den Beispielen 2.3 - 2.6 ist weiterhin die Wahl

F = Pot(Ω)

sinnvoll 2.24. Bei der Bestimmung der Wahrscheinlichkeit P[ω] fur das Werfeneiner einzelnen festen Sequenz ω = (ω1, . . . , ωN) ∈ Ω muß beachtet werden, daß furalle k = 1, . . . , N die Wahrscheinlichkeit fur den Wurf von 0, bzw. 1 beim k-tenWurf unabhangig von den Resultaten der restlichen Wurfe l 6= k jeweils 1/2 ist.Somit folgt zunachst

P[ω] = P[1. Wurf , ω1, 2. Wurf , ω2, . . . , N . Wurf , ωN ](2.3a)

= 2.25 P[1. Wurf , ω1]P[2. Wurf , ω2] · · ·P[N . Wurf , ωN ]

=(12

)N= 2.26 1

|Ω| , ω = (ω1, . . . , ωN) ∈ Ω,

2.22Hier wird benutzt, daß sich die Wahrscheinlichkeiten endlich vieler, sich gegenseitig aus-

schließender, d.h. disjunkter Ereignisse zu ihrer Gesamtwahrscheinlichkeit addieren, vgl. Fußno-te 1.30, bzw. (2.2b) oder (2.9).

2.23Der Begriff der Unabhangigkeit in der Wahrscheinlichkeitstheorie wird noch erlautertwerden. Analog zu den zu (1.3b) fuhrenden Uberlegungen, vgl. insbesondere Fußnote 1.31, seivorerst damit gemeint, daß die

”Augenzahlen der einzelnen Wurfe nicht durch die Ausgange der

anderen Wurfe beeinflußt werden“.Bei der rigorosen Definition der Unabhangigkeit zweier Ereignisse wird die intuitiv einleuch-

tende Beziehung

P[A und B] = P[A ∩B] = P[A]P[B]

fur”unabhangige“ Ereignisse A und B benutzt, vgl. Abschnitt 3.2.3.2.24Einer Menge A von Wurfsequenzen entspricht das Ereignis, daß die

”geworfene Wurfse-

quenz in A enthalten ist“.

18. April 2016

Page 27: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

27

und dann als Erganzung

(2.3b) P[A] =∑

ω∈A

P[ω] = |A||Ω| , A ∈ F.

Beispiel 2.8 (Mehrmaliger, unabhangiger Wurf einer unfairen Munze). 2.27 DieMenge der moglichen Wurfsequenzen ist offensichtlich die gleiche wie in Beispiel 2.7,d.h., wenn die Munze N mal geworfen wird, kann

Ω = 0, 1N

gewahlt werden. Ebenso konnen die gleichen Ereignisse wie in Beispiel 2.7 betrach-tet werden, so daß

F = Pot(Ω)

definiert werden sollte. Wenn allerdings 2.28 p 6= 1/2 ist, so besitzen jene Ereignissenun andere Wahrscheinlichkeiten als in Beispiel 2.7, d.h., P ist zu modifizieren.Wenn die Unabhangigkeit der einzelnen Wurfe berucksichtigt wird, fuhrt die inBeispiel 2.4 festgehaltene Wahrscheinlichkeitsverteilung 2.29 fur das Ergebnis eineseinzelnen Wurfs zu 2.30

P[ω] = 2.31N∏

i=1

pωi(1 − p)1−ωi = p∑N

i=1 ωi(1− p)N−∑Ni=1 ωi , ω ∈ Ω,(2.4a)

bzw., 2.32

(2.4b) P[A] =∑

ω∈A

P[ω], A ∈ F.

Bemerkungen 2.9. (i) Wie in den Beispielen 2.3 - 2.8 ist i. allg. bei endlichenoder abzahlbar unendlichen Stichprobenraumen Ω die Wahl F = Pot(Ω) ublich.Wenn aber Ω uberabzahlbar unendlich ist, kann eine derartige Wahl von F zu einemWiderspruch fuhren 2.33.

(ii) Wenn |Ω| < ∞ und P[ω] = 1/|Ω|, ω ∈ Ω, wie in den Beispielen 2.3, 2.5und 2.7, wird P als Gleichverteilung auf Ω bezeichnet 2.34. Nun ist (Ω,F,P) einLaplacescher Wahrscheinlichkeitsraum.

2.25Wegen der Unabhangigkeit der Wurfe, vgl. Fußnote 2.23.2.26Dieser Zusammenhang ergibt sich aus der Tatsache, daß Ω insgesamt 2N Elemente

enthalt, d.h., |Ω| = 2N .2.27Das nun vorgestellte wahrscheinlichkeitstheoretische Modell wurde schon bei der Un-

tersuchung einer anderen Fragestellung (Prufung der Qualitat von Produktionsstucken) in Ab-schnitt 1.1.2 eingefuhrt.

2.28p ∈ [0, 1] ist die Wahrscheinlichkeit fur den Wurf von 1 ,”Zahl“ bei einem einzelnen

Wurf der Munze, vgl. Beispiel 2.4.2.29Wahrscheinlichkeitsverteilung ist ein Synonym fur Wahrscheinlichkeitsmaß.2.30Vgl. die entsprechende Bestimmung von PN,p in Abschnitt 1.1.2 und insbesondere auch

die Herleitung von (1.3b).

2.31Man beachte, daß pωi(1− p)1−ωi =

p, falls ωi = 1,

1− p, falls ωi = 0,, i = 1, . . . , N .

2.32Wenn p 6= 1/2, sind in (2.4) anders als in (2.3) die Wahrscheinlichkeiten P[ω], ω ∈ Ω,unterschiedlich.

2.33Vgl. Abschnitt 2.5.2.34In diesen Fallen hat jedes einpunktige

”Elementarereignis“ ω, ω ∈ Ω, die gleiche Wahr-

scheinlichkeit.

18. April 2016

Page 28: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

28

2.2. Diskrete Wahrscheinlichkeitsmaße

Die in diesem Abschnitt 2.2 vorgestelltenWahrscheinlichkeitsmaße tauchen sehroft in den klassischen Beispielen der elementarenWahrscheinlichkeitstheorie auf. Seizunachst allgemein

• Ω eine endliche oder abzahlbar unendliche Menge,• F = Pot(Ω) und• P[A] =

∑a∈A pa, A ∈ F,

wobei

pa = P[a] ∈ [0, 1], a ∈ Ω, mit∑

a∈Ω

pa = 1.

In einem solchen Fall wird (Ω,F,P) als diskreter Wahrscheinlichkeitsraum undP als diskretes Wahrscheinlichkeitsmaß bezeichnet 2.35. Spezielle Beispiele sind infolgender Liste zusammengestellt:

Bernoulli-Verteilung mit Parameter p ∈ [0, 1]:

Ω = 0, 1; p0 = 1− p, p1 = p.

Anwendung: Modellierung eines Munzwurfs (fair, wenn p = 1/2, sonst un-fair) 2.36.

Binomial-Verteilung B(N, p) mit Parametern N ∈ N und p ∈ [0, 1]:

Ω = 0, 1, . . . , N; pk =

(N

k

)pk(1 − p)N−k, k ∈ Ω.

Anwendung: Mit B(N, p) kann die Anzahl der Erfolge beim N -maligen, un-abhangigenMunzwurf mit Erfolgswahrscheinlichkeit pmodelliert werden 2.37.

Geometrische Verteilung (auf N) mit Parameter p ∈ (0, 1) 2.38:

Ω = N = 1, 2, . . .; pk = (1− p)k−1p, k ∈ Ω.

Anwendung: Modellierung des Zeitpunkts des ersten Wurfs von”Zahl“ bei

dem ∞-fachen, unabhangigen Wurf einer Munze mit Wahrscheinlichkeit pfur

”Zahl“ beim einmaligen Wurf 2.39 2.40.

Negative Binomial-Verteilung mit Parametern r ∈ N und p ∈ (0, 1):

Ω = N0 = 0, 1, 2, . . .; pk =

(k + r − 1

k

)pr(1− p)k, k ∈ Ω.

2.35Die in Abschnitt 2.1 beschriebenen Wahrscheinlichkeitsraume sind alle diskret.2.36Vgl. Beispiele 2.3 und 2.4. Auch andere

”Experimente“ mit zwei moglichen Ausgangen

konnen mit Hilfe einer Bernoulli-Verteilung modelliert werden. Beispiele waren der Test einerPerson auf eine HIV-Infektion oder eine Funktionsprufung einer Gluhbirne.

2.37Vgl. auch Abschnitt 1.1.2, insbesondere (1.3c). Die Anzahl der defekten Produkti-onsstucke bei N unabhangigen Prufungen ist binomialverteilt mit den Parametern N und derFehlerwahrscheinlichkeit p.

2.38In [5] wird auch die Wahrscheinlichkeitsverteilung auf N0 = 0, 1, 2, . . . mit pk = (1 −p)kp, k ∈ N0, als geometrische Verteilung bezeichnet. Die beiden geometrischen Verteilungengehen durch eine

”Verschiebung um 1“ auseinander hervor.

2.39Wegen der Unabhangigkeit der Wurfe, vgl. Fußnote 2.23, gilt insbesondere

P[zum Zeitpunkt n wird das erste Mal

”Zahl“ geworfen

]

= P[1. Wurf ,

”Kopf“, . . . , (n− 1)-ter Wurf ,

”Kopf“, n-ter Wurf ,

”Zahl“

]

= P[1. Wurf ,”Kopf“] · · ·P[(n− 1)-ter Wurf ,

”Kopf“]P[n-ter Wurf ,

”Zahl“]

= (1− p)n−1p, n ∈ N.

2.40Die Modellierung des ∞-fachen, unabhangigen Wurf einer Munze wird ausfuhrlich inAbschnitt 2.4.2 erlautert.

18. April 2016

Page 29: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

29

Anwendung: Modellierung der Anzahl der Mißerfolge vor dem r-ten Erfolgbei einem beliebig oft unabhangig wiederholten

”Bernoulli-Experiment“ mit

Erfolgswahrscheinlichkeit p 2.41 2.42. Die Negative Binomial-Verteilung, dieauch als Pascal-Verteilung bezeichnet wird, ist eine Verallgemeinerung dersich fur r = 1 ergebenden geometrischen Verteilung 2.43 2.44.

Laplacesche Verteilung (Gleichverteilung) auf einer endlichen Menge M 2.45:

Ω =M ; pm =1

|M | , m ∈ Ω.

Anwendung: Modellierung von Experimenten mit einer endlichen Anzahlmoglicher Ausgange, die gleichwahrscheinlich sind, bzw. evtl. aufgrund ein-geschrankter Vorkenntnisse als gleichwahrscheinlich betrachtet werden.

Poissonverteilung P (λ) mit Parameter λ > 0:

Ω = N0 = 0, 1, 2, . . .; pk =λk

k!exp(−λ), k ∈ Ω.

Anwendung: Modellierung der Anzahl von”total zufalligen“ Zeitpunkten 2.46

in einem Zeitintervall [0, T ], z.B. der Anzahl eingehender Anrufe in einerTelefonzentrale 2.47.

2.41Bei einem”Bernoulli-Experiment“ denke man nicht nur an einen Wurf einer Munze.

2.42Das Ereignis, daß k (durch”0“ beschriebene) Mißerfolge vor dem r-ten (durch

”1“ be-

schriebenen) Erfolg eintreten, wird reprasentiert durch die Menge der Sequenzen der Lange k+ rmit Werten in 0, 1, die mit einer 1 enden und in den vorangehenden k + r − 1 Stellen genau kmal eine 0 und r − 1 mal eine 1 haben. Somit zeigt sich, wenn wie bei der Herleitung von (1.3c)argumentiert wird, daß die Wahrscheinlichkeit fur dieses Ereignis

(k + r − 1

k

)pr(1− p)k

ist.2.43Mit geometrischer Verteilung ist hier die in Fußnote 2.38 beschriebene Variante auf N0

gemeint.2.44Der Name

”negative Binomial-Verteilung“ bezieht sich auf die Darstellung

(k + r − 1

k

)pr(1 − p)k =

(−rk

)(−1)kpr(1− p)k, k ∈ N0, r ∈ N,

die sich ergibt, wenn(m0

)= 1,

(ml

)=m(m − 1) · · · (m − l + 1)

l!, l = 1, 2, . . . ,

fur beliebige m ∈ Z definiert wird.2.45In den Beispielen 2.3, 2.5 und 2.7 wurden Laplacesche Verteilungen betrachtet. Spater,

vgl. Abschnitte 2.4.1 und 2.6, wird auch die Gleichverteilung auf [0, 1], bzw. einem beschrankten

Gebiet G ⊆ Rd eingefuhrt werden.2.46Sowohl die Anzahl als auch die Lage jener Zeitpunkte innerhalb von [0, T ] seien

”zufallig“.

Insbesondere seien keine Wechselwirkungen zwischen den einzelnen Zeitpunkten vorhanden. EinePrazisierung des Ausdrucks

”total zufallig“ wird durch die Ausfuhrungen in Abschnitt 2.7 gegeben.

2.47Weitere Beispiele waren jeweils in einem Zeitintervall [0, T ] die Anzahl der bei einem E-Mailserver eingehenden E-Mails, die Anzahl der Verkehrsunfalle auf einem festen Straßenabschnitt,der Vulkaneruptionen auf der Erde, der von Astronomen beobachteten Supernova-Explosionen,. . . .

Die Tatsache, daß in derartigen Situationen mit Hilfe der Poissonverteilung eine vernunftigemathematische Modellierung vorgenommen werden kann, ergibt sich aus der Gultigkeit derPoisson-Approximation der Binomialverteilung. Dieses Resultat besagt, daß bei N → ∞ dieBinomialverteilung B(N, pN ) gegen die Poissonverteilung P (λ)

”konvergiert“, falls NpN → λ,

vgl. Abschnitt 2.7. Die Entwicklung eines Poissonschen Modells in einem konkreten Beispiel wirdin Abschnitt 2.7.1 diskutiert.

18. April 2016

Page 30: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

30

Multinomialverteilung und hypergeometrische Verteilung 2.48 sind weitere diskreteWahrscheinlichkeitsmaße, die auf speziellen endlichen Teilmengen eines Zd,d = 2, 3, . . . , konzentriert sind. Sie treten auf bei der Modellierung der Re-sultate von mehrmaligen Ziehungen aus einer Urne, die endlich viele Kugelnmit teilweise unterschiedlichen Farben enthalt. Verschiedenartige Situationenergeben sich, je nachdem ob die gezogenen Kugeln zuruckgelegt oder nichtzuruckgelegt werden.

Bemerkung 2.10. (i) Sei Ω ⊂ Rd hochstens abzahlbar. Ein diskretes Wahrschein-lichkeitsmaß P auf Ω kann auch als ein Wahrscheinlichkeitsmaß auf 2.49 (Rd,B(Rd))betrachtet werden. Man definiert dann

P[A] =∑

a∈Ω∩A

P[a], A ∈ B(Rd).

(ii) Fur ein allgemeines Wahrscheinlichkeitsmaß P 2.50 auf (Rd,B(Rd)) bezeichnetman Punkte a ∈ Rd mit P[a] > 0 auch als Atome von P. Offensichtlich ist eindiskretes Wahrscheinlichkeitsmaß auf seinen Atomen konzentriert 2.51.

2.3. Konsequenzen aus den Kolmogorovschen Axiomen

In diesem Abschnitt 2.3 wird die Struktur allgemeiner σ-Algebren und Wahr-scheinlichkeitsmaße ein wenig detaillierter betrachtet 2.52.

2.3.1. Weitere Eigenschaften von σ-Algebren. Sei (Ω,F) ein meßbarerRaum. Unmittelbar aus (2.1) folgt zunachst 2.53

(2.5) ∅ ∈ F.

Weiterhin ist F auch unter endlichen Vereinigungen abgeschlossen, d.h., 2.54

(2.6) A1, . . . , AN ∈ F, N ∈ N =⇒N⋃

k=1

Ak ∈ F.

2.48Vgl. Abschnitt 5.4.2.49Die Borelsche σ-Algebra B(Rd) ist die kleinste σ-Algebra in Rd, die alle d-dimensionalen

Rechtecke in Rd enthalt, vgl. Abschnitt 2.4.3.2.50P muß insbesondere nicht diskret sein.2.51Fur ein Wahrscheinlichkeitsmaß P auf (Rd,B(Rd)) mit einer Dichte f , vgl. Abschnitt 2.6,

gilt P[A] =∫Adx f(x), A ∈ B(Rd), und somit P[a] =

∫a dx f(x) = 0, a ∈ Rd. Ein solches

Wahrscheinlichkeitsmaß hat daher keine Atome.2.52Insbesondere werden einfache Folgerungen aus (2.1) und (2.2), welche σ-Algebren und

Wahrscheinlichkeitsmaße eindeutig charakterisieren, zusammengestellt.2.53Zum Beweis von (2.5) beachte man

∅ = Ω \ Ω︸︷︷︸∈ F (vgl. (2.1a))

∈ F (vgl. (2.1b)).

2.54Aufgrund von (2.1c) scheint (2.6)”offensichtlich“ zu sein. Diese Beziehung sollte aber

dennoch einmal prazise bewiesen werden. Wenn hierzu

A′k =

Ak, k = 1, . . . , N,

∅, k = N + 1, N + 2, . . . ,

gesetzt wird, folgt

N⋃

k=1

Ak =∞⋃

k=1

A′k ∈ F (aufgrund von (2.5) und (2.1c)).

18. April 2016

Page 31: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

31

Schließlich laßt sich (2.1c) auf eine naturliche Weise durch 2.55

(2.7) A1, A2, · · · ∈ F =⇒∞⋂

k=1

Ak ∈ F

erganzen.

2.3.2. Weitere Eigenschaften von Wahrscheinlichkeitsmaßen. Sei einallgemeiner Wahrscheinlichkeitsraum (Ω,F,P) gegeben. Komplementar zu (2.2a)ist 2.56 2.57

(2.8) P[∅] = 0.

Naturlich ist neben der σ-Additivitat 2.58 auch die endliche Additivitat von P,d.h., 2.59

P

[N⋃

k=1

Ak

]=

N∑

k=1

P[Ak],(2.9)

A1, . . . , AN ∈F, Ak∩Al = ∅, k, l = 1, . . . , N, k 6= l, N ∈N,

zu erwarten. Fur sich nicht gegenseitig ausschließende Ereignisse kann (2.9) bei-spielsweise durch 2.60

(2.10) P[A ∪B] = P[A] +P[B]−P[A ∩B], A,B ∈ F,

2.55(2.7) folgt aus

∞⋂

k=1

Ak = Ω \( ∞⋃

k=1

(Ω \Ak︸ ︷︷ ︸∈ F (vgl. (2.1b))

)

︸ ︷︷ ︸∈ F (vgl. (2.1c))

)∈ F (vgl. (2.1b)).

2.56(2.8) besagt, daß die Wahrscheinlichkeit, daß”nichts geschieht“ 0 ist.

2.57Man beachte, daß ∅ ∈ F, vgl. (2.5). Damit ist P[∅] wohldefiniert. Nun gilt

1 = P[Ω] (vgl. (2.2a))(∗)= P[Ω

.∪ ∅ .∪ ∅ .∪ . . .︸ ︷︷ ︸disjunkte Vereinigung

]

= P[Ω]︸ ︷︷ ︸= 1 (vgl. (2.2a))

+∞∑

k=2

P[∅] (vgl. (2.2b)).

(∗) kann nur gelten, wenn (2.8) richtig ist.2.58Vgl. (2.2b).2.59Zum Beweis von (2.9) beachte man

P

[N⋃

k=1

Ak

]= P

[N⋃

k=1

Ak ∪∞⋃

k=N+1

︸ ︷︷ ︸disjunkte Vereinigung

]

=N∑

k=1

P[Ak] +∞∑

k=N+1

P[∅]︸︷︷︸= 0 (vgl. (2.8))

(vgl. (2.2b)).

2.60Zum Beweis von (2.10) beachte man, daß A ∪ B = (A \ B).∪ (B \ A) .∪ (A ∩ B) eine

disjunkte Vereinigung ist. Mit (2.9) folgt nun

P[A ∪ B] +P[A ∩ B] = (P[A \B] +P[A ∩B]︸ ︷︷ ︸

= P[A]

) + (P[B \A] +P[A ∩ B]︸ ︷︷ ︸

= P[B]

),

womit (2.10) bewiesen ist.

18. April 2016

Page 32: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

32

erganzt werden. Als Konsequenzen von (2.10) ergeben sich mit 2.61

(2.11) P[A ∪B] ≤ P[A] +P[B], A,B ∈ F,

die Subadditivitat von P und mit 2.62

(2.12) P[A] ≤ P[B], A,B ∈ F, A ⊆ B,

die Monotonie von P. Die Beziehung (2.11) bleibt auch fur abzahlbar viele, nichtnotwendigerweise paarweise disjunkte Ereignisse bestehen, d.h., es gilt die σ-Sub-additivitat 2.63

(2.13) P

[ ∞⋃

k=1

Ak

]≤

∞∑

k=1

P[Ak], A1, A2, · · · ∈ F,

von P.

2.4. Konstruktion von σ-Algebren und Wahrscheinlichkeitsmaßen

In diesem Abschnitt 2.4 wird erlautert, wie in komplexen Situationen, wennmit sehr großen Stichprobenraumen Ω zu arbeiten ist, geeignete σ-Algebren F undWahrscheinlichkeitsmaße P konstruiert werden konnen 2.64. Wenn insbesondere Ωuberabzahlbar unendlich ist und daher i. allg. die Wahl F = Pot(Ω) nicht sinnvollist 2.65, bietet sich die folgende Vorgehensweise an 2.66:

(i) Angabe einer Menge F∗ von”elementaren“, dem menschlichen Verstandnis

leicht zuganglichen,”wichtigen“ Ereignissen 2.67.

(ii) Angabe einer Funktion P∗ : F∗ → [0, 1] mit den Eigenschaften (2.2a) und(2.2b) 2.68.

In dieser Vorlesung wird im wesentlichen im Rahmen von (i) und (ii) gearbeitet.Dies ist gerechtfertigt, falls der nachste Schritt (iii) gelingt.

2.61Da P[A ∩B] ≥ 0, folgt (2.11) aus (2.10).2.62(2.12) folgt aus

P[B] = P[A] +P[B \A] (vgl. (2.9))

≥ P[A] (da P[B \A] ≥ 0).

2.63Die Abschatzung (2.13) ist eine Konsequenz aus

P

[ ∞⋃

k=1

Ak

]= P

[ ∞⋃

k=1

(Ak \

k−1⋃

l=1

Al

)](Darstellung von

⋃∞k=1Ak als disjunkte Vereinigung)

=∞∑

k=1

P

[Ak \

k−1⋃

l=1

Al

](vgl. (2.2b))

≤∞∑

k=1

P[Ak] (vgl. (2.12)).

2.64Hierbei ist beispielsweise die Modellierung von vielschichtigen realen Geschehnissen ge-meint, wenn die Verwendung von endlichen oder abzahlbar unendlichen Stichprobenraumen aus-geschlossen ist.

2.65Vgl. Abschnitt 2.5. Der dort vorgestellte Satz von Vitali verdeutlicht, wie in dem inAbschnitt 2.4.2 entworfenen Modell fur den ∞-fachen, unabhangigen, fairen Munzwurf die WahlF = Pot(Ω) zu einem Widerspruch fuhren wurde.

2.66Diese allgemeine Vorgehensweise wird in den in den Abschnitten 2.4.1 - 2.4.3 behandeltenBeispielen konkretisiert werden.

2.67F∗ braucht keine σ-Algebra zu sein. Im Rahmen einer Modellbildung sollten die Wahr-scheinlichkeiten der Ereignisse in F∗ bekannt, bzw. einfach zu berechnen sein.

2.68Die Bedingung (2.2b) muß bei P∗ nur fur paarweise disjunkte Mengen A1, A2, · · · ∈ F∗

mit⋃∞

k=1Ak ∈ F∗ gelten.

18. April 2016

Page 33: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

33

(iii) Nachweis der eindeutigen Fortsetzbarkeit von P∗ zu einem Wahrschein-lichkeitsmaß P : F → [0, 1], wobei F = σ(F∗) die kleinste, F∗ umfassendeσ-Algebra, d.h. die von F∗ erzeugte σ-Algebra ist 2.69.

Der Schritt (iii) wird in weiterfuhrenden Vorlesungen behandelt 2.70.Letztendlich ist dann (Ω,F,P) der Wahrscheinlichkeitsraum, mit dem ma-

thematisch rigoros fur wahrscheinlichkeitstheoretische Untersuchungen gearbeitetwird.

2.4.1. Gleichverteilung auf [0, 1]. Sei Ω = [0, 1], F∗ = [a, b] : 0 ≤ a ≤ b≤ 1 2.71 und P∗ : F∗ → [0, 1] mit P∗[[a, b]] = b− a, 0 ≤ a ≤ b ≤ 1.

σ(F∗) =: B([0, 1]) 2.72 ist die Borelsche σ-Algebra in [0, 1]. P∗ besitzt eineeindeutige Fortsetzung 2.73 λ = λ[0,1] auf B([0, 1]), das sog. Lebesguemaß auf [0, 1].

λ[0,1] wird auch als Gleichverteilung auf [0, 1] bezeichnet 2.74.

Beispiel 2.11. In B([0, 1]) sind u.a. einpunktige Mengen 2.75 a, a ∈ [0, 1], oderauch abzahlbare Teilmengen 2.76 ak : k ∈ N, ak ∈ [0, 1], k ∈ N, von [0, 1] enthalten.Weil

λ[ak : k ∈ N] = λ

[ ∞⋃

k=1

ak]

= 2.77∞∑

k=1

λ[ak]︸ ︷︷ ︸= |ak − ak| = 0

= 0, ak ∈ [0, 1], k ∈ N,

2.69σ(F∗) existiert immer auf eine eindeutige Weise. Insbesondere kann nachgewiesen werden,daß σ(F∗) =

⋂G∈F∗ G, wobei F∗ die Menge alle σ-Algebren G mit G ⊇ F∗ ist. Die Fortsetzung P

von P∗ auf σ(F∗) braucht jedoch nicht immer zu existieren, bzw. eindeutig zu sein.2.70 Die eindeutige Existenz eines Wahrscheinlicheitsmaßes P, das P∗ fortsetzt, wird z.B.

mit dem Satz von Caratheodory gesichert, vgl. [3], Appendix A.1. Jenes Resultat besagt, daß eineFunktion P∗ : F∗ → [0, 1], welche die in (2.2) angegebenen Eigenschaften besitzt, vgl. dazu Fußno-te 2.68, sich u.a. dann auf eine eindeutige Weise zu einem Wahrscheinlichkeitsmaß auf (Ω, σ(F∗))fortsetzen laßt, wenn F∗ eine Algebra ist.

Hierbei wird eine Familie F∗ von Teilmengen von Ω als Algebra bezeichnet, wenn F∗ dieEigenschaften (2.1a) und (2.1b) besitzt und wenn fur A,B ∈ F∗ auch A ∪B ∈ F∗ gilt.

2.71F∗ ist die Menge der abgeschlossenen Intervalle in [0, 1].2.72B([0, 1]) ist die kleinste σ-Algebra, die alle abgeschlossenen Intervalle in [0, 1] umfaßt.

B([0, 1]) ist ebenso die kleinste σ-Algebra, die alle offenen, bzw. halboffenen Intervalle in [0, 1]enthalt.

2.73Zum Nachweis der eindeutigen Existenz von λ kann der in Fußnote 2.70 beschriebene Satzvon Caratheodory nicht direkt angewandt werden, da F∗ keine Algebra ist. Allerdings konnte man

F∗ durch die Menge F∗ der endlichen Vereinigungen beliebiger, d.h. auch offener oder halboffenerdisjunkter Intervalle in [0, 1], d.h. durch die Menge

F∗ =

I1 ∪ I2 ∪ · · · ∪ In : Ik ⊆ [0, 1] Intervall, Ik ∩ Il = ∅, k, l = 1, . . . , n, k 6= l, n ∈ N

ersetzen. Bezeichnet man mit |I| die Lange eines Intervalls I kann nun mit

P∗[I1 ∪ · · · ∪ In]=

n∑

r=1

|Ir|, Ik ⊆ [0, 1] Intervall, Ik ∩ Il = ∅, k, l = 1, . . . , n, k 6= l, n ∈ N,

P∗ auf F∗ fortgesetzt werden. F∗ ist eine Algebra und in der Tat ist es mit dem Satz von Ca-

ratheodory moglich, zu zeigen, daß auf B([0, 1]) eine eindeutige Fortsetzung λ der auf F∗ definierten

Funktion P∗ existiert.2.74In Abschnitt 2.2 war die Gleichverteilung auf einer endlichen Menge beschrieben worden.

Die beiden Gleichverteilungen besitzen aus offensichtlichen Grunden den gleichen Namen, sindaber vollig unterschiedlich strukturierte Wahrscheinlichkeitsmaße.

2.75Da a = [a, a] ∈ F∗.2.76Da ak ∈ B([0, 1]), k = 1, 2, . . . , ist wegen (2.1c) auch ak : k ∈ N =

⋃∞k=1ak ∈

B([0, 1]).

18. April 2016

Page 34: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

34

besitzen alle abzahlbaren Teilmengen von [0, 1] das Lebesguemaß 0 2.78.

2.4.2. ∞-facher, unabhangiger Munzwurf. Bei manchen Experimentenmit vielen unabhangigen Wurfen einer Munze, wie z.B. beim Bestimmen des er-sten Zeitpunkts, an dem

”Kopf“ geworfen wird, steht anfangs nicht fest, wie oft

die Munze uberhaupt geworfen werden muß 2.79. Um derartige Situationen zu un-tersuchen, ist es sinnvoll, zu p ∈ [0, 1] den ∞-fachen, unabhangigen Munzwurf mit

Erfolgswahrscheinlichkeit p zu modellieren 2.80.Wenn die Uberlegungen in den Beispielen 2.7 und 2.8 als Ausgangspunkt ge-

nommen werden, ist es naheliegend, als Stichprobenraum 2.81

(2.14) Ω = 0, 1N :=(ω1, ω2, . . . ) : ωk ∈ 0, 1, k ∈ N

zu wahlen. Ω ist insbesondere uberabzahlbar unendlich 2.82.Mit einem vernunftigen Modell fur den ∞-fachen, unabhangigen Munzwurf

sollte es insbesondere moglich sein, jede endliche Folge von Wurfen zu beschreiben.Aus diesem Grund wird F∗ als eine Menge von Ereignissen, die durch Wurfe derMunze an endlich vielen festen Zeitpunkten bestimmt sind, gewahlt, d.h.,

F∗ =ω ∈ Ω : ωk1 = ηk1 , . . . , ωkn

= ηkn 2.83 :(2.15)

k1, . . . , kn∈N, 1≤k1<. . .<kn, ηk1 , . . . , ηkn∈0, 1, n∈N

.

Um eine Funktion P∗ : F∗ → [0, 1] zur Angabe von Wahrscheinlichkeiten P∗[A]fur Ereignisse A ∈ F∗ zu definieren, konnen die Uberlegungen in Beispiel 2.8 her-angezogen werden. Daher setzt man 2.84

P∗[ω ∈ Ω : ωk1 = ηk1 , . . . , ωkn= ηkn

](2.16)

=

n∏

l=1

pηkl (1− p)1−ηkl = p∑

nl=1 ηkl (1− p)n−

∑nl=1 ηkl ,

k1, . . . , kn∈N, 1≤k1<. . .<kn, ηk1 , . . . , ηkn∈0, 1, n∈N.

Zu dieser Funktion P∗ : F∗ → [0, 1] existiert als eindeutig bestimmte Fortsetzungein Wahrscheinlichkeitsmaß P auf (Ω,F), wobei F = σ(F∗).

2.77Wegen der σ-Additivitat von λ, vgl. (2.2b). O.E.d.A. sei hierzu angenommen, daß alleak , k ∈ N, verschieden sind.

2.78Es gibt auch Mengen M ∈ B([0, 1]), die die gleiche Machtigkeit wie R haben und damituberabzahlbar sind, mit λ[M ] = 0, z.B. gewisse Cantormengen.

2.79Andere Beispiele sind die Bestimmung des ersten Zeitpunkts, an dem insgesamt 104 mal

”Zahl“ geworfen wurde, die Bestimmung des ersten Zeitpunkts, an dem eine ununterbrocheneSequenz von mehr als 105 Wurfen von

”Kopf“ beendet wird, oder auch die Beantwortung der

Frage, mit welcher Wahrscheinlichkeit, zumindest einmal”Zahl“ geworfen wird. Bei der Losung

dieser Probleme muß man bereit sein, die Munze evtl. unendlich oft zu werfen.2.80Mit einem

”Modell“ ist hier ein Wahrscheinlichkeitsraum (Ω,F,P) gemeint, so daß ins-

besondere abzahlbar unendlich lange Wurfsequenzen der Munze durch die Elemente ω von Ωreprasentiert werden.

2.810, 1N ist die Menge der 0, 1-wertigen Folgen. Fur ein ω ∈ Ω und k ∈ N beschreibt ωk

das Ergebnis des k-ten Wurfs.2.82Zur Begrundung sei daraufhingewiesen, daß durch die Abbildung

Ω ∋ (ωk)k∈N →∞∑

k=1

ωk2−k ∈ [0, 1]

Ω surjektiv auf [0, 1] abgebildet werden kann.2.83Hier wird das Ereignis, daß beim k1-ten Wurf ηk1

, . . . und beim kn-ten Wurf ηkngeworfen

wird, betrachtet.2.84Wahrend Ω und F∗ und somit auch F = σ(F∗) von p ∈ [0, 1] unabhangig sind, hangt P∗

und folglich auch P von p ab.

18. April 2016

Page 35: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

35

Beispiel 2.12. Fur den∞-fachen, unabhangigen Munzwurf mit Erfolgswahrschein-lichkeit p ∈ (0, 1) ist die Wahrscheinlichkeit q1, daß der erste Wurf von

”Kopf“ in

einem”geraden“ Zeitpunkt, d.h. zu einem Zeitpunkt 2k mit k ∈ N eintritt, zu

bestimmen 2.85. Es gilt:

q1 = P[erster Wurf von

”Kopf“ in einem der Zeitpunkte 2k, k ∈ N

]

= P[ω ∈ Ω : ωl = 1, l = 1, . . . , 2k − 1; ω2k = 0 fur ein k ∈ N

]

= P

[2.86

∞⋃

k=1

ω ∈ 0, 1N : ωl = 1, l = 1, . . . , 2k − 1; ω2k = 0]

= 2.87∞∑

k=1

P[ω ∈ 0, 1N : ωl = 1, l = 1, . . . , 2k − 1; ω2k = 0︸ ︷︷ ︸

∈ F∗ 2.88

]

= 2.89∞∑

k=1

p2k−1(1 − p) =1− p

p

∞∑

k=1

(p2)k

︸ ︷︷ ︸

=1

1− p2− 1 =

p2

1− p2=

p2

(1− p)(1 + p)

=p

1 + p.

Speziell ergibt sich q1 = 1/3 fur p = 1/2, d.h. fur den ∞-fachen, unabhangigen,fairen Munzwurf 2.90.

Beispiel 2.13. Fur den∞-fachen, unabhangigen Munzwurf mit Erfolgswahrschein-lichkeit p ∈ [0, 1) ist die Wahrscheinlichkeit q2, daß nur endlich oft

”Kopf“ geworfen

wird, zu bestimmen 2.91.

2.85Fur den ∞-fachen, unabhangigen, fairen Munzwurf, d.h., fur p = 1/2, mag eine sehrnaive Vorgehensweise mit dem Argument

”genau die Halfte der Zeitpunkte ist gerade“ zu q1 = 1/2

fuhren. Da aber zunachst in dem”ungeraden“ Zeitpunkt 1, dann erst in dem

”geraden“ Zeitpunkt 2

. . .”Kopf“ oder

”Zahl“ geworfen wird, zeigt sich bald, daß q1 < 1/2 sein muß.

2.86Hier liegt eine Zerlegung in disjunkte, d.h. sich ausschließende Ereignisse vor.2.87Wegen der σ-Additivitat von P, vgl. (2.2b).2.88Vgl. (2.15). Da dieses Ereignis durch die ersten 2k Wurfe der Munze bestimmt wird,

kann seine Wahrscheinlichkeit in einem Modell fur den 2k-fachen, unabhangigen Munzwurf mitErfolgswahrscheinlichkeit p berechnet werden, vgl. Beispiel 2.8 bzw. (2.16).

2.89Vgl. (2.16).2.90In vielen wahrscheinlichkeitstheoretischen Untersuchungen wird die Asymptotik von Mo-

dellen betrachtet. In diesem Beispiel ist evtl. das Verhalten von q1 = q1(p) fur p → 0, bzw. furp→ 1 interessant.

Zunachst gilt limp→0 q1(p) = 0. Dies ist plausibel, da bei p → 0 mit gegen 1 strebenderWahrscheinlichkeit gleich beim 1. Wurf, d.h. in einem ungeraden Zeitpunkt,

”Kopf“ geworfen

wird.Weiterhin ist limp→1 q1(p) = 1/2. Da bei p → 1 bei jedem einzelnen Wurf mit nahe bei 1

liegender Wahrscheinlichkeit”Zahl“ geworfen wird, dauert es i. allg. extrem lang, bis irgendwann

mal”Kopf“ erscheint. Die Tatsache, daß in dem ungeraden Zeitpunkt 1 mit dem Werfen begonnen

wurde, ist dann”langst vergessen“. In dieser fernen Zukunft wird dann jeweils mit Wahrschein-

lichkeit 1/2”Kopf“ erstmals in einem geraden, bzw. einem ungeraden Zeitpunkt geworfen.

Im Fall p = 1 wird immer”Zahl“ geworfen, so daß q1(1) = 0 definiert werden sollte. Dann

ist limp→1 q1(p) = 1/2 6= 0 = q1(1), d.h., die Funktion [0, 1] ∋ p → q1(p) ∈ [0, 1] ist unstetig fur

p = 1.2.91Da p < 1, ist insbesondere fur jeden einzelnen Wurf die Wahrscheinlichkeit 1 − p, daß

”Kopf“ geworfen wird, von 0 verschieden.

18. April 2016

Page 36: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

36

Die gesuchte Wahrscheinlichkeit q2 konnte zunachst auch experimentell durchwiederholtes Werfen einer realen Munze oder auch mit Hilfe einer Computersimu-

lation 2.92

”bestimmt“ werden 2.93. Es wurde sich andeuten, daß 2.94 q2 = 0 ist.

Bei einem mathematisch prazisen Vorgehen ergibt sich

q2 = 2.95 P

[ ∞⋃

k=1

ω ∈ 0, 1N : ωk = ωk+1 = · · · = 1

]

(2.17)

≤∞∑

k=1

P[ω ∈ Ω : ωk = ωk+1 = · · · = 1

︸ ︷︷ ︸

= 2.96 Bk

],

wobei die σ-Subadditivitat (2.13) von P benutzt wird.Weiterhin folgt

P[Bk] ≤ 2.97 P[ω ∈ Ω : ωk = · · · = ωk+N = 1

]= 2.98 pN+1, k,N ∈ N,

d.h., 2.99 P[Bk] = 0, k ∈ N.Aus (2.17) ergibt sich somit 2.100 q2 = 0.

2.4.3. Lebesguemaß in Rd, d = 1, 2, . . . . Sei Ω = Rd, F∗ =[a1, b1]× · · · ×

[ad, bd] : −∞ < ak ≤ bk < ∞, k = 1, . . . , d

und 2.101 λ∗ : F∗ → [0,∞) mit

λ∗[[a1, b1]× · · · × [ad, bd]

]=∏d

k=1(bk − ak), −∞ < ak ≤ bk <∞, k = 1, . . . , d.

σ(F∗) =: B(Rd) ist die Borelsche σ-Algebra in Rd 2.102. Die eindeutig existie-rende Fortsetzung λ(= λRd) : B(Rd) → [0,∞] von λ∗ auf den meßbaren Raum(Rd,B(Rd)) ist das Lebesguemaß auf Rd.

λRd ist kein Wahrscheinlichkeitsmaß, da offensichtlich (2.2a) nicht gilt. Aller-dings wird das Maß λRd bei der Arbeit mit Wahrscheinlichkeitsmaßen mit einer

Dichte (bzgl. des Lebesguemaßes), wie z.B. der Normalverteilung oder der Expo-

nentialverteilung benotigt 2.103.

2.92Es ist eine beliebig lange Folge von unabhangigen, 0, 1-wertigen”Zufallszahlen“, die

mit Wahrscheinlichkeit p den Wert 1 und mit Wahrscheinlichkeit 1− p den Wert 0 annehmen, zusimulieren. Hinweise zur Durchfuhrung einer solchen Simulation finden sich in Beispiel 3.4.

2.93Eine mathematisch korrekte Aussage kann mit derartigen Mitteln naturlich nicht gewon-nen werden.

2.94Wenn die Munze lange genug geworfen wird, erscheint immer wieder”irgendwann mal“

”Kopf“.

2.95Es wird”nur endlich oft

”Kopf“ geworfen“ genau dann, wenn ein k ∈ N existiert, so daß

nach dem Zeitpunkt k nur noch”Zahl“ geworfen wird.

2.96Bk ist das Ereignis, daß zum Zeitpunkt k und danach nur”Zahl“ geworfen wird.

2.97Wegen der Monotonie von P, vgl. (2.12). Man beachte, daß Bk =ω ∈ Ω : ωk = ωk+1 =

· · · = 1⊆ω ∈ Ω : ωk = ωk+1 = · · · = ωk+N = 1

.

2.98Vgl. (2.16). Man beachte, daßω ∈ Ω : ωk = ωk+1 = · · · = ωk+N = 1

∈ F∗ und daß die

Einschrankung von P auf F∗ mit P∗ ubereinstimmt.2.99Man beachte, daß p < 1 und daß N ∈ N beliebig ist.2.100Damit ware eine

”experimentelle“ Bestimmung von q2 bestatigt.

2.101λ∗ weist jedem beschrankten d-dimensionalen Rechteck A in Rd sein Volumen Vol(A)zu.

2.102Fur ein Gebiet G in Rd definiert man auf analoge Weise B(G) als die kleinste σ-Algebra,die alle in G enthaltenen Rechtecke umfaßt.

2.103Vgl. Abschnitt 2.6. Eine hinreichend regulare Funktion f : Rd → [0,∞) ist eine Wahr-

scheinlichkeitsdichte, wenn∫Rd dx f(x) = 1. Durch

P[A] =

Adx f(x), A ∈ B(Rd),

definiert f ein Wahrscheinlichkeitsmaß P auf (Rd,B(Rd)). Jenes P wird als das Wahrscheinlich-

keitsmaß mit der Dichte f bzgl. des Lebesguemaßes auf Rd bezeichnet.

18. April 2016

Page 37: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

37

2.5. Satz von Vitali

Das in diesem Abschnitt 2.5 vorgestellte Resultat deutet an, daß in uberabzahl-

baren Stichprobenraumen Ω die Verwendung der σ-Algebra Pot(Ω) im allgemeinennicht sinnvoll ist 2.104.

Wie in Abschnitt 2.4.2 sei zur Modellierung des ∞-fachen, unabhangigen Wurfs

einer fairen Munze der Stichprobenraum Ω = 0, 1N = ω = (ωi)i∈N : ωi ∈0, 1, i ∈ N 2.105 gewahlt.

Mit

(2.18a) Tnω = (ω1, . . . , ωn−1, 1− ωn, ωn+1, . . . ), ω ∈ Ω, n ∈ N,

sei 2.106

(2.18b) TnA = Tnω : ω ∈ A, A ⊆ Ω, n ∈ N.

Auf Ω sei weiterhin eine σ-Algebra F von Ereignissen gegeben 2.107.Wegen der Fairness der Munze sollte ein vernunftiges Wahrscheinlichkeitsmaß

P auf (Ω,F) insbesondere die Invarianzeigenschaft 2.108

(2.18c) P[A] = P[TnA], A ∈ F, n ∈ N,

besitzen 2.109.

Satz 2.14 (Vitali). 2.110 Fur F = Pot(0, 1N) kann kein Wahrscheinlichkeits-

maß auf dem meßbaren Raum (0, 1N,F) existieren, das neben den ublichen, in

(2.2) geforderten Eigenschaften eines Wahrscheinlichkeitsmaßes auch die bei der

Modellierung des ∞-fachen, unabhangigen Wurfs einer fairen Munze erwartete In-

varianzeigenschaft (2.18) besitzt.

Zum Beweis dieses Satzes kann mit Hilfe des Auswahlaxioms 2.111 eine Men-ge A1 ∈ Pot(0, 1N) konstruiert werden, die sich dadurch auszeichnet, daß jedermogliche Wert fur P[A1] zu einem Widerspruch fuhrt.

Beispiele fur Wahrscheinlichkeitsdichten auf R sind

fµ,σ2 : x→ 1√2πσ2

exp

(− (x− µ)2

2σ2

), µ ∈ R, σ2 > 0.

fµ,σ2 ist die Dichte der Normalverteilung mit Erwartungswert µ und Varianz σ2, vgl. Beispiel 1.8.Weitere Wahrscheinlichkeitsdichten sind beispielsweise

fλ : x→λ exp(−λx), x ≥ 0,

0, x < 0,, λ > 0.

fλ ist die Dichte der Exponentialverteilung mit Parameter λ > 0.2.104Die Einfuhrung von σ-Algebren durch (2.1) und auch die Uberlegungen in Abschnitt 2.4

zur Konstruktion von σ-Algebren werden letztendlich erst aufgrund jenes Resultats notwendig.2.105Ω ist die Menge aller 0, 1-wertigen Folgen. Dieser Raum ist uberabzahlbar unendlich,

vgl. Fußnote 2.82.2.106Fur ω ∈ Ω beschreibt Tnω eine Wurfsequenz, bei der im Vergleich zu ω beim n-ten Wurf

das Ergebnis von 0 nach 1, bzw. von 1 nach 0 verandert ist. Fur A ⊆ Ω geht TnA aus A durchAnderung des n-ten Wurfergebnisses fur alle ω ∈ A hervor.

2.107In diesem Moment sei die σ-Algebra F noch nicht festgelegt. Es folgen nun Uberlegungenzur Wahl von F.

2.108Mit (2.18c) wird implizit auch gefordert, daß aus A ∈ F die Beziehungen TnA ∈ F,n ∈ N, folgen.

2.109(2.18c) besagt, daß bei einer Modellierung des ∞-fachen, unabhangigen Wurf einer fai-ren Munze die Wahrscheinlichkeit eines Ereignisses sich nicht andern sollte, wenn man in einemfestgelegten Wurfzeitpunkt die Rollen von

”Kopf“ und

”Zahl“ vertauscht.

2.110Vgl. [5], Satz (1.5). Ein Beweis von Satz 2.14 findet sich in Anhang A.2.1.2.111SeiM eine Menge von nichtleeren Mengen. Das Auswahlaxiom besagt, daß es eine Funk-

tion F mit Definitionsbereich M und

F (ξ) ∈ ξ, ξ ∈M,

gibt. F wahlt also aus jeder Menge ξ ∈ M genau ein Element aus.

18. April 2016

Page 38: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

38

Auf Ω = 0, 1N muß folglich zur Beschreibung des ∞-fachen, unabhangigenWurfs einer fairen Munze mit einer σ-Algebra F gearbeitet werden, die kleiner alsPot(Ω) ist, d.h. weniger Elemente enthalt 2.112 2.113.

2.6. Wahrscheinlichkeitsmaße mit einer Dichte bzgl. des

Lebesguemaßes

Eine hinreichend regulare 2.114, z.B. stetige oder stuckweise stetige Funktionf : Rd → [0,∞) mit

(2.19)

Rd

dx f(x) = 1

heißt Wahrscheinlichkeitsdichte.Sei 2.115 Ω = Rd, F∗ = 2.116

[a1, b1]× · · · × [ad, bd] : −∞ < ak ≤ bk <∞, k =

1, . . . , dund

(2.20) P∗[A] =

A

dx f(x), A ∈ F∗.

Wenn f stetig oder stuckweise stetig ist, konnen die Integrale in (2.19) und (2.20)als Riemann-Integrale aufgefaßt werden. Wenn allgemeiner f nur eine meßbare 2.117

Funktion ist, so sind jene Integrale als Lebesgue-Integrale zu betrachten 2.118.Die eindeutig existierende Fortsetzung P von P∗ auf 2.119 B(Rd) ist das Wahr-

scheinlichkeitsmaß mit der Dichte f (bzgl. des Lebesguemaßes auf Rd) 2.120.Es folgt eine Zusammenstellung einiger wichtiger Wahrscheinlichkeitsmaße mit

einer Dichte auf R, bzw. Rd.

2.112Damit der obengenannte Widerspruch nicht auftritt, darf F insbesondere nicht die MengeA1 enthalten. Durch die in Abschnitt 2.4.2 vorgestellte σ-Algebra F = σ(F∗), wobei F∗ in (2.15)definiert ist, ist eine geeignete σ-Algebra gegeben.

2.113Um den Widerspruch zu vermeiden, konnte auch die Invarianzeigenschaft (2.18) fallengelassen werden. Damit ware der Versuch, den ∞-fachen, unabhangigen Wurf einer fairen Munzezu modellieren, aufgegeben. In der Folge ware die Konstruktion einer symmetrischen Irrfahrt,vgl. Beispiel 3.21, und weiterhin der Brownschen Bewegung, die aus der symmetrischen Irrfahrtdurch eine Reskalierung hervorgeht, und letztendlich das mathematische Gebiet der stochastischenAnalysis (inkl. stochastische Differentialgleichungen, Martingale, . . . ) fraglich. Eine Aufgabe von(2.18) wurde das somit das Gebaude der modernen Wahrscheinlichkeitstheorie ins Wanken bringenund sollte aus praktischen Grunden vermieden werden.

2.114Im allgemeinen Fall wird als”Regularitat“ die Meßbarkeit der Abbildung f : (Rd,B(Rd))

→ ([0,∞),B([0,∞))) benotigt, vgl. (3.1). Die Meßbarkeit ist der in der Stochastik ubliche Regu-laritatsbegriff fur Funktionen oder Zufallsvariablen. Borelsche σ-Algebren wie hier B(Rd), bzw.B([0,∞)) werden in den Abschnitten 2.4.1 und 2.4.3 vorgestellt.

2.115Nun wird ausgehend von einer Wahrscheinlichkeitsdichte f gemaß der in Abschnitt 2.4beschriebenen Vorgehensweise ein Wahrscheinlichkeitsmaß konstruiert.

2.116F∗ ist die Menge der abgeschlossenen, beschrankten Rechtecke in Ω = Rd.2.117Vgl. Fußnote 2.114.2.118Eine Einfuhrung des abstrakten Lebesgue-Integrals wird in [8], § 12, gegeben. Das dort

beschriebene Verfahren entspricht der in den Abschnitten 6.1 - 6.3 vorgestellten Einfuhrungdes Erwartungswerts reellwertiger Zufallsvariablen. Fur eine meßbare, reellwertige Funktion f

auf [0, 1], vgl. Fußnote 2.114, gilt beispielsweise∫ 10 dx f(x) = E[f ], wobei auf der rechten Sei-

te f als eine Zufallsvariable auf dem in Abschnitt 2.4.1 eingefuhrten Wahrscheinlichkeitsraum([0, 1],B([0, 1]), λ[0,1]) zu betrachten ist.

2.119Die Borelsche σ-Algebra B(Rd) ist die kleinste σ-Algebra, die F∗ enthalt, vgl. Ab-schnitt 2.4.3.

2.120Wie in den Ausfuhrungen am Anfang von Abschnitt 2.4 angedeutet, wird in dieser Vor-lesung im wesentlichen nur mit P∗, d.h. mit (2.20) gearbeitet, wenn Wahrscheinlichkeitsmaße miteiner Dichte betrachtet werden. Daruberhinaus sind im folgenden alle Wahrscheinlichkeitsdichtenstetig, bzw. stuckweise stetig.

18. April 2016

Page 39: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

39

Normalverteilung N(µ, σ2) mit Erwartungswert 2.121 µ ∈ R und Varianz σ2 > 0:

fµ,σ2(x) =1√2πσ2

exp

(− (x− µ)2

2σ2

), x ∈ R.

N(0, 1) wird auch als standard Normalverteilung bezeichnet.Anwendung: Modellierung vom Meßfehlern, bzw. von

”Beobachtungen“, die

durch”Rauschen“ gestort sind. Der Hintergrund solcher Anwendungen ist die

Tatsache, daß die Normalverteilung die Asymptotik beim Zentralen Grenz-

wertsatz 2.122 beschreibt.Exponentialverteilung mit Parameter λ > 0:

fλ(x) =

λ exp(−λx), x ≥ 0,

0, x < 0.

Anwendung: Modellierung vonWartezeiten in kontinuierlicher Zeit 2.123. DerHintergrund solcher Anwendungen ist die Gedachtnislosigkeit der Exponen-tialverteilung 2.124 2.125.

Gleichverteilung 2.126 auf einem beschrankten Gebiet 2.127 G ⊆ Rd:

fG(x) =

1/Vol(G) 2.128, x ∈ G,

0, x 6∈ G.

Anwendung: Modellierung einer zufalligen Position in einem beschranktenBereich des Rd, wenn z. B. aufgrund eingeschrankter Vorkenntnisse kein Teil-bereich als bevorzugt erscheint.

Cauchy-Verteilung mit Parameter a > 0 2.129 2.130:

fa(x) =a

π(a2 + x2), x ∈ R.

2.121Die Begriffe Erwartungswert und Varianz wurden in Abschnitt 1.1.3 kurz angesprochen,

vgl. Beispiele 1.5 und 1.6. Detaillierte Erlauterungen folgen in Kapitel 6. Zunachst genugt es, µund σ2 als Parameter zu betrachten. Spater in Beispiel 6.12 werden µ und σ2 als Erwartungswert,bzw. Varianz des Wahrscheinlichkeitsmaßes auf R mit der Dichte fµ,σ2 identifiziert.

2.122Vgl. Beispiel 1.8 und insbesondere Abschnitt 9.3.2.123Man nehme an, daß ein Anfangszeitpunkt festgelegt wird. Nun eignet sich die Exponen-

tialverteilung mit einem jeweils geeignet zu wahlenden λ > 0, um die Wartezeit bis zum erstenTelefonanruf, zum Eingang der ersten E-Mail, zum ersten Vulkanausbruch, zum ersten Einschlageines Asteroiden, . . . zu modellieren.

2.124Vgl. Beispiel 8.3. Die Gedachtnislosigkeit einer Wartezeit besagt, daß die”Wahrschein-

lichkeitsverteilung“ der verbleibenden Wartezeit nicht davon abhangt, wie lang man schon wartet.Mit anderen Worten, die Wartezeit bis zu einem Hauptgewinn beim Zahlenlotto wird nicht kurzer,wenn man jahrelang keinen Gewinn erzielt hat.

2.125Die Exponentialverteilung ist ein”kontinuierliches“ Analogon zur geometrischen Vertei-

lung, die zur Modellierung von Wartezeiten in diskreter Zeit geeignet ist, vgl. Abschnitt 2.2 undinsbesondere Fußnote 2.39.

2.126Ein Spezialfall der nun beschriebenen Wahrscheinlichkeitsmaße mit G = [0, 1] wird inAbschnitt 2.4.1 betrachtet. Diskrete Gleichverteilungen werden in Abschnitt 2.2 vorgestellt.

2.127Ein Gebiet ist eine einfach zusammenhangende Teilmenge des Rd mit einem”glatten“

Rand.2.128Vol(G) bezeichnet das Volumen von G.2.129Die Cauchy-Verteilung ist ein Spezialfall der Student’schen t-Verteilung, vgl. [10], De-

finition 14.2, ff. Um unabhangig von diesem Zusammenhang nachzuweisen, daß fa eine Wahr-scheinlichkeitsdichte auf R ist, d.h., daß insbesondere

∫∞−∞ dx fa(x) = 1, kann der Residuensatz

aus der Funktionentheorie verwendet werden, vgl. [1], Chapter 4, Section 5.3, Part 2.2.130Die Graphen der Dichten der Normalverteilung und der Cauchy-Verteilung haben bei-

de eine”glockenformige“ Gestalt. Jedoch fallt der Graph der Dichte der Cauchy-Verteilung im

Unendlichen wesentlich langsamer ab als der Graph der Dichte der Normalverteilung. Als Konse-quenz zeichnet sich die Cauchy-Verteilung dadurch aus, daß Zufallsvariablen mit dieser Verteilungkeinen Erwartungswert besitzen, vgl. Beispiel 6.11.

18. April 2016

Page 40: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

40

Gamma-Verteilung mit Parametern α, r > 0 2.131:

fα,r(x) =2.132

αr

Γ(r)xr−1 exp(−αx), x ≥ 0,

0, x < 0.

Fur n ∈ N heißt die Gamma-Verteilung mit den Parametern α = 1/2und r = n/2 auch χ2-Verteilung mit n Freiheitsgraden oder auch kurz χ2

n-

Verteilung.Anwendung: Die χ2-Verteilungen werden sehr haufig in der Statistik be-notigt 2.133.

2.6.1. (∗)”Anwendung“ der Gleichverteilung. 2.134 Es ist die Wahr-

scheinlichkeit pM zu bestimmen, daß der nachste Meteorit mit einem Durchmessergroßer als 100 m, der auf Deutschland sturzt, Baden-Wurttemberg trifft.

Eine Standardvorgehensweise zur Losung ware:

Modellierung des Einschlagspunktes des Meteoriten durch die Gleichverteilung aufDeutschland 2.135.

Losung:

pM =Flache von Baden-Wurttemberg

Flache von Deutschland=

35.752 km2

357.050 km2 = 0,1

Bei einer Diskussion der Fragestellung und ihrer Losung ergeben sich folgendeAspekte 2.136.

• Meteorite mit einem Durchmesser großer als 100 m schlagen sehr sel-ten in Deutschland ein. Mit dem nachsten Einschlag ist

”im Mittel“ erst

in mehreren Millionen Jahren zu rechnen 2.137. Es kann nicht angenom-men werden, daß nach Ablauf dieser Zeit Baden-Wurttemberg oder auchDeutschland noch existieren, bzw. uberhaupt noch bekannt sind.

• Jeder Einschlag eines Meteoriten mit einem Durchmesser großer als 100 mhat katastrophale Auswirkungen, die i. allg. weit uber Deutschlands Gren-zen hinaus reichen 2.138. Allerdings hangt das Ausmaß der Katastrophe

2.131Offensichtlich sind die Gamma-Verteilungen mit r = 1 Exponentialverteilungen.2.132Γ : (0,∞) → (0,∞) mit Γ(r) =

∫∞0 ds sr−1 exp(−s), r > 0, ist die Eulersche Gamma-

Funktion.2.133Fur n ∈ N besitzt die Summe

∑ni=1X

2i der Quadrate von unabhangigen, standard nor-

malverteilten Zufallsvariablen X1, . . . , Xn eine χ2n-Verteilung, vgl. [5], Satz (9.11). Daher spielen

χ2-Verteilungen eine große Rolle sowohl bei der Untersuchung normalverteilter Daten, als auchin einigen Situationen, wo große Datenmengen als Folge des Zentralen Grenzwertsatzes auf nor-malverteilte Großen reduziert werden konnen. Beispiele derartiger Anwendungen werden in [5],Abschnitt 11.1 - 11.3, vorgestellt.

2.134Die Anfuhrungszeichen deuten an, daß der Sinn dieser zunachst vernunftig erscheinendenAnwendung letztendlich fraglich ist.

2.135Kleine Meteorite haben in dunn besiedelten Gegenden eine geringere Chance, entdecktzu werden. Bei einer Berucksichtigung aller Objekte, die auch beobachtet werden, ware somit dieGleichverteilung keine gute Wahl. Da Meteorite mit einem Durchmesser großer als 100 m sicherlich

immer bemerkt werden, ist fur solche Objekte die Annahme einer raumlichen Gleichverteilungsinnvoll.

2.136Die folgenden Uberlegungen basieren auf teilweise unsicheren Schatzungen, die aus demInternet entnommen wurden.

2.137Beispielsweise wird die durchschnittliche Zeit bis zum nachsten Einschlag eines Meteo-riten mit einem Durchmesser großer als 75 m auf der Erdoberflache auf 1000 Jahre geschatzt. Dadie Flache Deutschlands nur 0, 07 % der Erdoberflache betragt, ergeben sich 1428571 Jahre furdie mittlere Zeit bis zum nachsten Einschlag eines solchen Meteoriten in Deutschland. Meteoritemit einem Durchmesser großer als 100 m kommen naturlich noch seltener vor.

2.138Einige Beispiele derartiger Einschlage von Meteoriten:

18. April 2016

Page 41: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

41

stark von der Zusammensetzung und nicht nur von der Große des Meteo-riten ab.

Die Große der Wahrscheinlichkeit pM wird dann interessant, wenn das EreignisE, daß ein Meteorit mit einem Durchmesser großer als 100 m auf Deutschlandsturzt, eintritt. Mit dem Eintreten von E in nachster Zeit sollte man aber nichtrechnen 2.139. Wenn allerdings E wirklich eingetreten sein wird, wird das Wissenum den Wert von pM relativ nutzlos sein, da es dann fur die meisten BewohnerDeutschlands, wenn es uberhaupt noch exisitieren sollte, keine Rolle spielen wird,wo genau der Meteorit aufgetroffen ist.

Die Berechnung von pM beantwortet eine oberflachlich vielleicht”interessant“

erscheinende Frage, ist aber genaugenommen vollig nutzlos und gleicht hierin vielenanderen

”Modellen“ und

”Studien“, die durch die Medien geistern 2.140.

2.7. Poissonapproximation der Binomialverteilung

In diesem Abschnitt 2.7 wird nachgewiesen, daß unter gewissen Voraussetzun-gen die fur explizite Berechnungen schwer zugangliche Binomialverteilung durchdie leichter handhabbare Poissonverteilung 2.141 approximiert werden kann. DieseApproximation ist der Hintergrund der vielfaltigen Anwendungsmoglichkeiten derPoissonverteilung.

Satz 2.15. Sei pn, n ∈ N, eine Folge in (0, 1) mit

(2.21) limn→∞

npn = λ ∈ (0,∞).

– Tscheljabinsk-Meteorit (Februar 2013, Ural). Durchmesser des Meteoriten ca. 17 m, Masse7000 - 10000 t, flacher Eintrittswinkel in die Atmosphare, Geschwindigkeit ca. 64000km/h;Explosion in 15 - 20 km Hohe, 500 Kilotonnen TNT Sprengkraft; 1200 Verletzte, tausendezersplitterte Fensterscheiben.

– Tunguska-Einschlag (1908, westl. Sibirien). Durchmesser des Meteoriten ca. 60 m, lose zu-sammengepreßtes Material; Zerstorung des Objekts in ca. 8 km Hohe; kein Krater; 10 - 15Megatonnen TNT Sprengkraft; massive Verwustungen im Umkreis von 30 km; Larm derExplosion war in London zu horen.

– Barringer-Krater (vor ca. 50000 Jahren, Arizona). 50 m Durchmesser, 300000 t Gewicht,im wesentlichen aus Eisen; Krater ursprunglich mit 1200 m Durchmesser und 170 m Tiefe;Feuerball bis 10 km Entfernung, Schockwelle mit 2000 km/h bis 40 km Entfernung.

– Chiemgau-Impakt (vor ca. 2500 Jahren, Chiemgau). Ca. 1 km Durchmesser, geringe Dich-te; Explosion in 70 km Hohe, Zerfall in kleinere Objekte; viele Krater mit bis zu 370 mDurchmesser in einem Bereich von 27 km Breite und 70 km Lange. Wahrscheinlich seitdem Einschlag dieses Meteoriten hatten die sonst furchtlosen Kelten

”Angst, daß ihnen der

Himmel auf den Kopf fallt“ (Bericht eines Chronisten Alexanders des Großen).– Nordlinger Ries (vor 15 Millionen Jahren, Bayern). Ca. 1 km Durchmesser, 70000 km/h Ein-

schlagsgeschwindigkeit; Krater mit 25 km Durchmesser und 4 km Tiefe; 140000 MegatonnenTNT Sprengkraft; Ausloschung allen Lebens im Umkreis von 100 km.

– Chicxulub-Impakt (vor 65 Millionen Jahren, Yukatan-Halbinsel in Mexiko). 10 - 15 km Durch-messer; Krater mit 190 km Durchmesser; 100 Millionen Megatonnen TNT Sprengkraft; ver-mutlich verantwortlich fur weltweite Ausloschung der Dinosaurier.

Zur besseren Einschatzung der Sprengkraft jener Meteoriten sei erwahnt, daß die starkste jemalsgezundete Wasserstoffbombe ein Sprengkraft von ca. 57 Megatonnen TNT hatte.

2.139Man hatte dann viele schlaflose Nachte vor sich, da die”mittlere Zeit“ bis zum nachsten

Einschlag recht groß ist.2.140Oft wird wahrscheinlich der Wert derartiger

”Studien“ aber erst durch ihre oberflachliche

Darstellung in den Medien gemindert.2.141Die Poissonverteilung wurde in Abschnitt 2.2 vorgestellt.

18. April 2016

Page 42: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

42

Dann gilt:

(2.22) limn→∞

B(n, pn)[k]︸ ︷︷ ︸=

(n

k

)pkn(1− pn)

n−k

=λk

k!exp(−λ)

︸ ︷︷ ︸= P (λ)[k]

, k = 0, 1, 2, . . .

Beweis. Sei k = 0, 1, 2, . . . fest. Dann ist zunachst

(2.23) limn→∞

(n

k

)n−k = lim

n→∞n(n− 1) · · · (n− k + 1)

k! nk=

1

k!

und weiterhin

(2.24) limn→∞

(1 − pn)n = lim

n→∞

((1− pn)

1/pn

︸ ︷︷ ︸→ 2.142 exp(−1)

)npn= 2.143 exp(−λ).

Somit folgt:

limn→∞

B(n, pn)[k]

= limn→∞

(n

k

)n−k

︸ ︷︷ ︸→ 2.144 1/k!

(npn)k

︸ ︷︷ ︸→ 2.145 λk

→ 2.146 exp(−λ)︷ ︸︸ ︷(1 − pn)

n (1 − pn)−k

︸ ︷︷ ︸→ 2.147 1

=λk

k!exp(−λ).

2.7.1. Anwendung der Poissonapproximation. 2.148 In einer Steppe 2.149

wird eine rechteckige Versuchsflache A betrachtet. Gesucht ist ein mathematisches

Modell fur die Anzahl der Baume in A. Zu diesem Zweck ist das folgende Vorgehensinnvoll:

• In einem Diskretisierungsschritt wird fur jedes n ∈ N die VersuchsflacheA in kleine Rechtecke Rn

k , k = 1, . . . , n, mit der Flache αn2.150 aufgeteilt,

d.h.,

nαn = |A| = Flache von A.

n sei so groß, d.h., αn sei so klein, daß unter den gegebenen Bedingungen(Bodenbeschaffenheit, Klima, . . . ) in jedem Rechteck Rn

k , k = 1, . . . , n, i.allg. hochstens ein Baum steht.

• In einem vorlaufigen Modell 2.151 sei

2.142Aufgrund der Definition der Zahl e. Man beachte, daß (2.21) zu pn → 0 bei n → ∞fuhrt.

2.143Da npn → λ bei n → ∞, vgl. (2.21).2.144Wegen (2.23).2.145Wegen (2.21).2.146Wegen (2.24).2.147Da pn → 0 bei n → ∞.2.148In diesem Abschnitt 2.7.1 wird eine typische Anwendung der Poissonverteilung bei der

mathematischen Modellierung beschrieben.2.149Eine Steppe ist durch eine sparliche Vegetation charakterisiert. Insbesondere wachsen

dort nur sehr wenige, vereinzelt stehende Baume.2.150Alle kleinen Rechtecke sollen die gleiche Flache αn haben. Da letztendlich sehr große n

betrachtet werden, ist αn im Verhaltnis zur Gesamtflache |A| sehr klein.2.151In den spater folgenden Uberlegungen wird aus diesem vorlaufigen Modell ein

”end-

gultiges“ Modell hergeleitet.

18. April 2016

Page 43: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

43

– fur k = 1, . . . , n die Wahrscheinlichkeit fur einen Baum in Rnk pro-

portional zur Flache |Rnk | = αn, d.h.,

P[ein Baum in Rnk ] = µαn,

P[kein Baum in Rnk ] = 1− µαn, k = 1, . . . , n,

fur ein µ > 0 2.152.– Die Baumbestande in den verschiedenen RechteckenRn

k , k = 1, . . . , n,seien stochastisch unabhangig.

Als Konsequenz besitzt in diesem vorlaufigen Modell die Anzahl der Bau-me in A eine Binomialverteilung B(n, µαn)

2.153.• Wenn die Diskretisierung von A immer feiner wird, d.h. bei n→ ∞, folgt:

P[k Baume in A] =

(n

k

)(µαn)

k(1 − µαn)n−k = B(n, µαn)[k]

n→∞≈ 2.154 P (µ|A|)[k] = (µ|A|)kk!

exp(−µ|A|), k = 0, 1, 2, . . .

• Obige Uberlegungen fuhren zu einem endgultigen Modell und zeigen, daßdie Wahl der Poissonverteilung P (µ|A|) zur Modellierung der Anzahl derin A wachsenden Baume sinnvoll ist 2.155.

Das soeben beschriebene Verfahren ist auch in vielen ahnlichen Situationenanwendbar. Beispiele fur solche Anwendungen der Poissonverteilung sind 2.156:

• Modellierung der Anzahl der Zerfalle eines radioaktiven Praparats in ei-nem festen Zeitintervall [0, t] durch eine Poissonverteilung mit einem Pa-rameter µt 2.157.

2.152Da αn = |A|/n, ist µαn < 1, wenn n hinreichend groß ist.2.153Die Anzahl der Baume in A bestimmt sich im vorliegenden Modell genauso wie die

Anzahl der Erfolge bei einem n-fachen, unabhangigen Munzwurf mit Erfolgswahrscheinlichkeitµαn, vgl. Abschnitt 2.2 und insbesondere auch die Herleitung von (1.3c) in Abschnitt 1.1.2.

2.154Mit der Poissonapproximation der Binomialverteilung, vgl. Satz 2.15. Man beachte hier-bei, daß nµαn = µ|A| fur alle n ∈ N.

2.155In diesem endgultigen Modell ist die zwar hilfreiche, aber dennoch kunstliche Einteilungder Flache A in kleine Rechtecke nicht mehr vorhanden.

2.156In jedem der folgenden Beispiele kann wie bei der obigen Modellierung der Anzahl derBaume in einem beschrankten Gebiet einer Steppe

• zunachst durch Einteilung des jeweiligen Bereichs von Raum oder Zeit in sehr kleineTeilbereiche ein

”vorlaufiges“ diskretes Modell entworfen werden.

• Es zeigt sich, daß in dem jeweiligen diskreten Modell die Anzahl von”Punkten“

binomialverteilt ist.• Nach einer Anwendung der Poissonapproximation der Binomialverteilung wird deut-

lich, daß• in dem

”endgultigen“ Modell, wenn die Diskretisierung immer feiner wird und dann

ganz verschwindet, die Anzahl der”Punkte“ eine Poissonverteilung besitzt.

2.157Damit die obigen Uberlegungen auf die hier vorliegende Situation ubertragen werdenkonnen, mussen die physikalischen Bedingungen innerhalb des Zeitintervalls [0, t] im wesentlichenkonstant bleiben. Insbesondere sollte t kleiner als die Halbwertszeit des radioaktiven Materials sein.Weiterhin durfen die Zerfalle moglicher kurzlebiger Zerfallsprodukte nicht berucksichtigt werden.

18. April 2016

Page 44: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

44

• Modellierung der Anzahl der Anfragen an einen E-Mail-Server 2.158 ineinem vorgegebenen Zeitintervall [s, t] durch eine Poissonverteilung miteinem Parameter µ(t− s) 2.159.

• Modellierung der Anzahl der Sterne in einem hinreichend großen BereichA des Weltalls 2.160 durch eine Poissonverteilung mit einem Parameterµ|A| 2.161.

In diesen verschiedenen Situationen ist jeweils ein geeigneter Parameter µ > 0 zuverwenden 2.162.

Allgemein findet die Poissonverteilung Anwendungen bei der Modellierung der

Anzahl von zufalligen, sich gegenseitig nicht beeinflußenden”Punkten“ in einem

festen Bereich von Raum oder Zeit 2.163 2.164.

2.158Ein E-Mail-Server ist ein Rechner, der E-Mails verwaltet, d.h. entgegennimmt, speichert,verschickt, weiterleitet, usw.

”Anfragen“ beziehen sich auf das Verschicken oder Entgegennehmen

von E-Mails durch einzelne User, oder auch auf Aktionen zur Verwaltung des jeweiligen E-Mail-Accounts.

2.159In einem praziseren Modell sollte µ abhangig von der Tageszeit sein. Evtl. sollte auch eindeterministischer Beitrag in das Modell hinzugenommen werden, um regelmaßige, automatischeAnfragen zu modellieren.

2.160Damit in dem Bereich A”raumlich homogene Bedingungen“ vorliegen, sollte

Durchmesser eines Sonnensystems ≪ Durchmesser von A ≪ Durchmesser einer Galaxie

angenommen werden.2.161Hier bezeichnet |A| das Volumen von A.2.162Gegebenenfalls kann µ ausgehend von einigen Beobachtungen geschatzt werden, vgl.

Beispiel 4.2.2.163Die Modellierung der genauen Lage dieser

”Punkte“ steht hier nicht zur Debatte. Hierzu

werden sog. Poissonprozesse verwendet. Ein Teilproblem in diesem Zusammenhang (Lage des

”ersten Punktes“) wird in Beispiel 8.3 angesprochen.

2.164Aufgrund ihrer breiten Anwendungspalette ist die Poissonverteilung eine der wichtigstenWahrscheinlichkeitsverteilungen.

18. April 2016

Page 45: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

KAPITEL 3

Zufallsvariablen

Mit Zufallsvariablen konnen”Beobachtungsgroßen“, die zufallige Werte anneh-

men, modelliert werden. Der fur die Modellierung”benotigte Zufall“ wird durch

einen Wahrscheinlichkeitsraum, auf dem diese Zufallsvariablen als Funktionen 3.1

definiert sind,”erzeugt“ 3.2.

Zunachst seien (Ω,F) und (Ω′,F′) meßbare Raume 3.3. Weiterhin sei 3.4 X :(Ω,F) → (Ω′,F′) eine Funktion. X wird meßbar genannt, wenn

(3.1) X−1(A′) := 3.5 ω ∈ Ω : X(ω) ∈ A′ =: 3.6 X ∈ A′ ∈ F, A′ ∈ F′.

Wenn P ein Wahrscheinlichkeitsmaß auf dem Definitionsbereich (Ω,F) von X ist,schreibt man X : (Ω,F,P) → (Ω′,F′) und bezeichnet X als (Ω′- oder auch (Ω′,F′)-wertige) Zufallsvariable, wenn (3.1) gilt 3.7 3.8 3.9.

3.1Funktionen, die eine Zufallsvariable darstellen, mussen mit der Meßbarkeit, vgl. (3.1), einespezielle Eigenschaft besitzen.

3.2Jener Wahrscheinlichkeitsraum dient als”Zufallsgenerator“.

3.3Vgl. (2.1).3.4Die Schreibweise X : (Ω,F) → (Ω′,F′) ist im Vergleich zu X : Ω → Ω′ vorzuziehen, da die

fur das folgende wesentlichen σ-Algebren F und F′ hervorgehoben werden.3.5X−1(A′) ist das Urbild von A′ unter X. X muß keine invertierbare Funktion sein.3.6Diese Abkurzung wird im folgenden haufig verwendet werden.3.7In der Definition des Begriffs Zufallsvariable ist das Wahrscheinlichkeitsmaß P noch be-

deutungslos. Es wird allerdings wesentlich, wenn mit X gearbeitet wird.3.8Bei den in dieser Vorlesung in Erscheinung tretenden Zufallsvariablen X ist oft

• der Definitionsbereich (Ω,F,P) ein”anonymer Zufallsgenerator“, der im Hintergrund

bleibt, wahrend• der Wertebereich (Ω′,F′) und insbesondere die Verteilung PX von X, vgl. Ab-

schnitt 3.1, im Zentrum des Interesses steht. PX ist ein Wahrscheinlichkeitsmaß auf(Ω′,F′), welches angibt,

”mit welchen Wahrscheinlichkeiten die Zufallsvariable X ihre

verschiedenen Werte annimmt“.• In den allermeisten konkreten Fallen ist (Ω′,F′) = (G,B(G)) oder (Ω′,F′) =

(M,Pot(M)), wobei G ein Gebiet in einem Rd, d = 1, 2, . . . , undM hochstens abzahlbarunendlich ist.

3.9Die Begriffe meßbarer Raum und Zufallsvariable, die fundamental fur die Stochastik sind,

erinnern an die ahnlich erscheinenden Begriffe topologischer Raum, bzw. stetige Funktion, diegrundlegend fur viele mathematische Disziplinen sind.

Ein topologischer Raum (M,O) besteht aus einer Menge M und einer Topologie O auf M .Hierbei ist O eine Familie von Teilmengen von M , die die Bedingungen

∅,M ∈ O,

Oi ∈ O, i ∈ I =⇒⋃

i∈I

Oi ∈ O,

O1, . . . , On ∈ O =⇒n⋂

i=1

Oi ∈ O

mit jeder beliebigen Menge I und n ∈ N erfullt. Die Mengen O ∈ O werden offene Mengen genannt.Wahrend σ-Algebren abzahlbare Vereinigungen und abzahlbare Durchschnitte ihrer Elemente ent-halten, vgl. (2.1c) und (2.7), sind in Topologien beliebige Vereinigungen, aber nur endliche Durch-schnitte von Elementen enthalten.

45

Page 46: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

46

Wenn Ω hochstens abzahlbar unendlich und F = Pot(Ω) ist, gilt die Meßbar-

keitsbedingung (3.1) immer 3.10.Wenn andererseits Ω′ hochstens abzahlbar unendlich ist, ist eine Funktion X :

(Ω,F) → (Ω′,Pot(Ω′)) genau dann meßbar, wenn 3.11

(3.2) X−1(ω′) = ω ∈ Ω : X(ω) = ω′ = X = ω′ ∈ F, ω′ ∈ Ω′.

In diesem Fall wird X als diskrete meßbare Funktion bezeichnet.

Beispiel 3.1. Um den Begriff der Meßbarkeit naher zu beleuchten, werden nunnicht-meßbare Funktionen vorgestellt 3.12.

Seien (Ω,F) und (Ω′,F′) meßbare Raume. Weiterhin sei X : (Ω,F) → (Ω′,F′)eine Funktion. Offensichtlich kann die Meßbarkeit (3.1) von X verloren gehen, wennF zu klein ist.

In einem ersten Beispiel sei Ω = 0, 1 und F = ∅,Ω 3.13. Weiterhin seiΩ′ = 0, 1 = Ω, F′ = Pot(Ω′) und X : Ω → Ω′ die Identitat, d.h., X(ω) = ω,ω ∈ Ω. Da 1 ∈ F′ und X−1(1) = 1 /∈ F, ist X nicht meßbar.

In einem zweiten Beispiel sei Ω = [0, 1] und F =∅,Ω, [0, 1/2], (1/2, 1]

3.14. Sei

außerdem Ω′ = R, F′ = B(R) 3.15 und X wiederum die Identitat, d.h., X(ω) = ω,ω ∈ Ω. Da [1/4, 3/4] ∈ F′ und X−1([1/4, 3/4]) = [1/4, 3/4] /∈ F, ist auch in diesemFall X nicht meßbar.

Hatte man in den beiden Situationen in Ω die jeweils ubliche σ-Algebra, d.h.,F = Pot(0, 1), bzw. F = B([0, 1]), gewahlt, waren die Funktionen X naturlichmeßbar gewesen.

3.1. Verteilung von Zufallsvariablen

Sei X : (Ω,F,P) → (Ω′,F′) eine Zufallsvariable 3.16. Die Meßbarkeitsbedingung(3.1) besagt, daß die X zugeordneten Mengen X−1(A′), A′ ∈ F′, Elemente von F

sind, d.h. Ereignisse 3.17, die jeweils eine durch P bestimmte Wahrscheinlichkeitbesitzen. Man faßt diese Wahrscheinlichkeiten in der Verteilung PX von X mit

PX [A′] := P[ω ∈ Ω : X(ω) ∈ A′︸ ︷︷ ︸= X−1(A′) ∈ 3.18 F

](3.3)

Die zur Meßbarkeit (3.1) analoge Bedingung

f−1(O′) = m ∈ M : f(m) ∈ O′ ∈ O, O′ ∈ O′,

zeichnet stetige Funktionen f : (M,O) → (M ′,O′) eines topologischen Raums (M,O) in einenweiteren topologischen Raum (M ′,O′) aus.

3.10Zur Begrundung beachte man, daß fur alle Mengen Ω′, alle A′ ⊆ Ω′ und alle FunktionenX : Ω → Ω′ immer X−1(A′) ∈ Pot(Ω) = F gilt.

3.11Aus der Meßbarkeit von X : (Ω,F) → (Ω′,Pot(Ω′)) ergibt sich naturlich (3.2). Ande-rerseits folgt offensichtlich aus (2.1c), (3.2) und der Tatsache, daß A′ ⊆ Ω′ hochstens abzahlbarunendlich ist, insbesondere

X−1(A′) = ω ∈ Ω : X(ω) ∈ A′ =⋃

ω′∈A′

ω ∈ Ω : X(ω) = ω′︸ ︷︷ ︸= X−1(ω′) ∈ F

∈ F, A′ ∈ Pot(Ω′).

3.12In der Mathematik sollte man immer auch versuchen, die Bedeutung neu eingefuhrterBegriffe durch Gegenbeispiele zu erhellen.

3.13Fur dieses triviale Mengensystem sind die Eigenschaften einer σ-Algebra, vgl. (2.1), of-fensichtlich erfullt.

3.14Diese σ-Algebra in [0, 1] wird ublicherweise naturlich nicht betrachtet.3.15Die Wahl der Borelschen σ-Algebra, d.h. der kleinsten σ-Algebra, die alle Intervalle

enthalt, ist fur R ublich.3.16In den nun folgenden Uberlegungen wird insbesondere das Wahrscheinlichkeitsmaß P eine

entscheidende Rolle spielen.3.17Diese Ereignisse beschreiben das Verhalten der Zufallsvariable X.

18. April 2016

Page 47: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

47

= : 3.19 P[X ∈ A′], A′ ∈ F′,

zusammen. PX ist ein Wahrscheinlichkeitsmaß auf (Ω′,F′) 3.20, d.h., (Ω′,F′,PX) istein Wahrscheinlichkeitsraum. Dieses Wahrscheinlichkeitsmaß PX beschreibt,

”mit

welchen Wahrscheinlichkeiten die Zufallsvariable X ihre verschiedenen moglichenWerte in Ω′ annimmt“.

Bemerkung 3.2. Sei X : (Ω,F,P) → (Ω′,F′) eine Zufallsvariable, wobei Ω′

hochstens abzahlbar und F′ = Pot(Ω′) ist 3.21. Die Verteilung PX ist dann ein-deutig bestimmt durch 3.22

PX [η] = P[ω ∈ Ω : X(ω) = η] = P[X = η], η ∈ Ω′.

Insbesondere gilt:

PX [A′] = PX

[ •⋃η∈A′

η]= 3.23

η∈A′

PX [η], A′ ∈ F′.

Beispiel 3.3. Zur Modellierung des ∞-fachen, unabhangigen Munzwurfs mit Er-folgswahrscheinlichkeit p ∈ (0, 1) wird der in Abschnitt 2.4.2 eingefuhrte Wahr-scheinlichkeitsraum (Ω,F,P) benutzt. Insbesondere ist Ω = 0, 1N und 3.24 F =σ(F∗). Außerdem ist das Wahrscheinlichkeitsmaß P durch seine durch (2.16) be-schriebene Einschrankung P∗ auf F∗ bestimmt.

3.18Da X meßbar ist, vgl. (3.1).3.19P[X ∈ A′] ist eine Abkurzung fur P[ω ∈ Ω : X(ω) ∈ A′].3.20Zur Begrundung ist zu zeigen, daß PX die Eigenschaften (2.2) erfullt. Zunachst folgt

(2.2a) aus

PX [Ω′] = P[ω ∈ Ω : X(ω) ∈ Ω′︸ ︷︷ ︸

= Ω

]

= 1 (da (2.2a) fur P gilt).

Zum Nachweis der σ-Additivitat (2.2b) von PX seien A′1, A

′2, · · · ∈ F′ mit A′

k ∩ A′l = ∅, k, l ∈ N,

k 6= l. Dann gilt:

PX

[ •⋃∞

k=1A′

k

](die Notation

•∪∞k=1 . . . bezeichnet eine disjunkte Vereinigung)

= P

[ ω ∈ Ω : X(ω) ∈

•⋃∞

k=1A′

k

︸ ︷︷ ︸

=

•⋃∞

k=1ω ∈ Ω : X(ω) ∈ A′

k

]

(da fur k 6= l und ω ∈ Ω nicht gleichzeitig X(ω) ∈ A′k und X(ω) ∈ A′

l)

=∞∑

k=1

P[ω ∈ Ω : X(ω) ∈ A′k] (wegen (2.2b) fur P)

=∞∑

k=1

PX [A′k] (wegen (3.3)).

3.21X ist somit eine diskrete Zufallsvariable.3.22PX ist in diesem Fall durch seine Einschrankung auf die einpunktigen Teilmengen von

Ω′ charakterisiert.3.23Wegen der σ-Additivitat von PX .3.24Ω ist der Raum der 0, 1-wertigen Folgen und F die kleinste σ-Algebra, die die Menge

F∗ enthalt, d.h., jene Ereignisse, die durch endlich viele Wurfe der Munze bestimmt sind, vgl.(2.15).

18. April 2016

Page 48: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

48

Zunachst sind Xk : (Ω,F,P) → (0, 1,Pot(0, 1)), k ∈ N, mit 3.25 Xk(ω) =ωk, ω ∈ Ω, k ∈ N, Zufallsvariablen. Offensichtlich modelliert fur k ∈ N die Zufalls-variable Xk das Ergebnis des k-ten Wurfs der Munze 3.26.

Durch T (ω) := infk ∈ N : Xk(ω) = 1, ω ∈ Ω, wird nun eine (N,Pot(N))-wertige Funktion T auf (Ω,F,P) definiert. Da

T = n = ω ∈ Ω : T (ω) = n(3.4)

= ω ∈ Ω : X1(ω) = · · · = Xn−1(ω) = 0, Xn(ω) = 1= ω ∈ Ω : ω1 = · · · = ωn−1 = 0, ωn = 1 ∈ F∗ ⊂ F, n ∈ N,

ist T eine diskrete Zufallsvariable 3.27. Diese Zufallsvariable modelliert den Zeit-punkt des ersten Wurfs von

”Zahl“. Ihre Verteilung PT ist eindeutig bestimmt

durch 3.28 PT [n] = P[T = n], n ∈ N. Weil

P[T = n] = 3.29 P[ω ∈ Ω : ω1 = · · · = ωn−1 = 0, ωn = 1]= 3.30 (1 − p)n−1p, n ∈ N,

ist T geometrisch verteilt mit Parameter p 3.31.Auch bei anderen, beliebig oft unabhangig wiederholten, identischen

”Experi-

menten“ mit zwei moglichen Ausgangen”Erfolg“, bzw.

”Mißerfolg“ ist der Zeit-

punkt des ersten Erfolgs geometrisch verteilt 3.32.

3.1.1. Konstruktion und Simulation diskreter Zufallsvariablen. 3.33

Auf 3.34 N sei ein Wahrscheinlichkeitsmaß 3.35 µ = (µn)n∈N gegeben. Gesucht ist eineN-wertige Zufallsvariable mit der Verteilung µ. Damit ist insbesondere ein Wahr-scheinlichkeitsraum (Ω,F,P) und eine meßbare 3.36 (N,Pot(N))-wertige FunktionX auf (Ω,F,P) anzugeben, d.h. zu konstruieren, so daß

PX [n] = P[X = n] = µn, n ∈ N.

3.25Beachte, daß ω = (ω1, ω2, . . . ), ω ∈ Ω. Xk ist somit die Projektion auf die k-te Koordinatevon Ω.

3.26Wenn die Familie der Zufallsvariablen Xk, k ∈ N, zu einem Objekt (Xk)k∈N zusam-mengefaßt wird, ergibt sich ein einfaches Beispiel eines stochastischen Prozesses. Insbesondereliegt hier ein Bernoulli-Prozeß vor. Allgemein sind bei einem Bernoulli-Prozeß Y = (Yk)k∈N dieZufallsvariablen Yk, k ∈ N, unabhangig und identisch verteilt.

3.27Man beachte, daß die Funktion T die Bedingung (3.2) erfullt.3.28Vgl. Bemerkung 3.2.3.29Wegen (3.4).3.30Aufgrund von (2.16).3.31Mit den hier durchgefuhrten Uberlegungen sind die eher formal einzuschatzenden

Ausfuhrungen in Fußnote 2.39 auf eine mathematisch korrekte Basis gestellt.3.32Der Parameter dieser geometrischen Verteilung stimmt mit der Erfolgswahrscheinlichkeit

bei der einmaligen Durchfuhrung des Experiments uberein. Beispielsweise ist beim ∞-fachen,unabhangigen Wurf eines fairen Wurfels der Zeitpunkt des ersten Wurfs einer 5 geometrisch mitParameter 1/6 verteilt.

3.33Zum besseren Verstandnis mathematischer Objekte ist es hilfreich, wenn geklart wird,wie derartige Strukturen konkret

”erzeugt“, bzw. konstruiert werden konnen. Hierbei kann diese

Konstruktion rein abstrakt in einem mathematischen Umfeld oder auch”real“ mit Hilfe eines

Computers vorgenommen werden. In diesem Abschnitt 3.1.1 sollen auf diese Weise speziell diskre-te Zufallsvariablen, d.h. Zufallsvariablen, deren Wertebereich hochstens abzahlbar ist,

”erzeugt“

werden. Als Ausgangspunkt ist die Verteilung der zu konstruierenden Zufallsvariable fest vorge-geben.

A priori ist ubrigens nicht klar, ob es zu jedem Wahrscheinlichkeitsmaß µ auch eine Zufalls-variable X gibt, deren Verteilung PX gleich µ ist.

3.34Die folgenden Uberlegungen lassen sich leicht modifizieren, wenn N durch eine beliebige,

hochstens abzahlbare Menge Ω′ ersetzt wird.3.35Insbesondere ist µn ≥ 0, n ∈ N, und

∑n∈N

µn = 1.3.36Auf der abzahlbaren Menge N wird ublicherweise die σ-Algebra Pot(N) verwendet.

18. April 2016

Page 49: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

49

Eine erste Moglichkeit besteht darin, zunachst Ω = N, F = Pot(N) und P = µzu wahlen und anschließend X : (Ω,F,P) → (N,Pot(N)) durch 3.37 X(ω) = ω,ω ∈ Ω, zu definieren. Da

PX [n] = 3.38 P[ω ∈ Ω : X(ω) = n]= 3.39 P[ω ∈ Ω : ω = n] = P[n] = 3.40 µn, n ∈ N,

wird damit das Konstruktionsproblem gelost.Es 3.41 ware auch moglich, 3.42 (Ω,F,P) = ([0, 1],B([0, 1]), λ[0,1]) zu wahlen und

X1 durch 3.43

(3.5) X1(ω) = n, ω ∈[∑n−1

k=1 µk,∑n

k=1 µk

), n ∈ N,

zu definieren. Da

PX1 [n] = 3.44 λ[0,1][ω ∈ [0, 1] : X1(ω) = n](3.6)

= 3.45 λ[0,1][ω ∈ [0, 1] :

∑n−1k=1 µk ≤ ω <

∑nk=1 µk

]

= 3.46 |∑nk=1 µk −

∑n−1k=1 µk| = µn, n ∈ N,

lost auch dieser Ansatz mit der Zufallsvariablen X1 das vorgegebene Konstrukti-onsproblem 3.47.

3.37X ist die Identitat auf Ω = N.3.38Aufgrund der Definition (3.3) der Verteilung PX einer Zufallsvariable X.3.39Wegen der speziellen Definition der Zufallsvariable X als Identitat auf Ω = N.3.40Da P = µ gewahlt wird.3.41Es folgt nun eine zweite Konstruktion einer N-wertigen ZufallsvariableX1 mit der vorgege-

benen Verteilung µ. Diese zweite Konstruktion wird sich in Beispiel 3.4 als nutzlich herausstellen,wenn die Zufallsvariable X1 mit Hilfe eines Computers simuliert werden soll.

3.42Vgl. Abschnitt 2.4.13.43Der Funktion X1 sollte auch ein Wert X1(ω) fur ω = 1 zugewiesen werden. Da

λ[0,1][1] = 0, ist der genaue Wert X1(1) allerdings irrelevant. Allgemein werden zwei auf einem

Wahrscheinlichkeitsraum (Ω,F,P) definierte Zufallsvariablen X und Y als identisch betrachtet,d.h. miteinander identifiziert, wenn

P[ω ∈ Ω : X(ω) = Y (ω)] = P[X = Y ] = 1.

In diesem Fall schreibt man X = Y , f.s. (fast-sicher). Verschiedene Gleichheitsbegriffe fur Zufalls-variablen werden in Abschnitt 3.2.5 diskutiert.

3.44Weil die Zufallsvariable X1 auf dem Wahrscheinlichkeitsraum ([0, 1],B([0, 1]), λ[0,1]) de-

finiert ist.3.45Aufgrund von (3.5).3.46Da das Lebesguemaß eines Intervalls dessen Lange ist, vgl. Abschnitt 2.4.13.47Ist (Ω,F,P) ein Wahrscheinlichkeitsraum und X : (Ω,F,P) → ([0, 1],B([0, 1])) eine Zu-

fallsvariable mit PX = λ[0,1], so folgt wie in (3.6), daß

PX1(X)[n] = P[ω ∈ Ω : X1(X(ω)) = n]= P

[ω ∈ Ω : X(ω) ∈

[∑n−1k=1 µk,

∑nk=1 µk

)](wegen (3.5))

= λ[0,1][[∑n−1

k=1 µk ,∑n

k=1 µk)]

(da PX = λ[0,1])

= µn, n ∈ N.

Insbesondere besitzt die transformierte Zufallsvariable X1(X) = X1 X : (Ω,F,P) → (N,Pot(N))die Verteilung PX1(X) = µ. Von dieser Beobachtung ausgehend wird im folgenden Beispiel 3.4

die Zufallsvariable X durch eine Simulation x einer in [0, 1] gleichverteilten Zufallsvariable ersetzt,um mit X1(x) eine Simulation einer Zufallsvariable mit der Verteilung µ zu erhalten.

18. April 2016

Page 50: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

50

Beispiel 3.4 (Simulation einer Folge unabhangiger 3.48, N-wertiger Zufallsvaria-blen mit einer vorgegebenen Verteilung). Als Basis zur Verwendung von Statis-tik-Software erzeugen Computer, bzw. sog. Zufallsgeneratoren, die auf diesen Com-putern implementiert sind, ublicherweise Folgen von

”unabhangigen“ Zufallszah-

len x1, x2, . . . , die in [0, 1]”gleichverteilt“ sind, d.h., mit den Zahlen x1, x2, . . .

wird eine 3.49 Realisierung einer Folge unabhangiger, in [0, 1] gleichverteilter 3.50

Zufallsvariablen simuliert. Genaugenommen sind diese Zahlen aber in keiner Wei-se zufallig oder unabhangig, da sie durch spezielle, i. allg. rekursive Algorithmenberechnet werden und somit vollig deterministisch sind. Nur aufgrund ihrer Kom-plexitat scheinen sie jene Eigenschaften zu besitzen. Sie werden daher auch alsPseudozufallszahlen bezeichnet 3.51.

Die Uberlegungen zu (3.6) demonstrieren 3.52, daß durch die transformiertenZufallszahlen 3.53 X1(x1), X1(x2), . . . unabhangige, N-wertige Zufallsvariablen mitder Verteilung µ simuliert werden konnen.

Bemerkung 3.5. Auf den ublichen Computern sind Zufallsgeneratoren und auchBefehle zur Simulation von unabhangigen Zufallsvariablen mit einer vorgegebenenVerteilung meistens direkt verfugbar, evtl. als Teil des Betriebssystems oder imRahmen von Softwarepaketen wie Maple, Mathematica, Scilab oder R 3.54.

In R konnen beispielsweise unabhangige, geometrisch verteilte Zufallsvaria-ben 3.55 mit dem Befehl rgeom simuliert werden. Wenn R interaktiv genutzt wird,

3.48Der Begriff der Unabhangigkeit von Zufallsvariablen wird erst in Abschnitt 3.2 eingefuhrtwerden, vgl. (3.8). Zum Verstandnis der Uberlegungen in diesem Beispiel sollte allerdings einintuitives Verstandnis der Unabhangigkeit ausreichen.

3.49Eine Realisierung einer Familie X1, X2, . . . von Zufallsvariablen, die auf einem Wahr-scheinlichkeitsraum (Ω,F,P) definiert sind, ergibt sich, wenn eine Folge X1(ω), X2(ω), . . . fur einfestes, aber beliebiges ω ∈ Ω betrachtet wird.

3.50Die Gleichverteilung in [0, 1] wird in Abschnitt 2.4.1 eingefuhrt.3.51Ein bekanntes Verfahren zur Erzeugung von Pseudozufallszahlen ist die lineare Kongru-

enzmethode, vgl. z.B. [7], Abschnitt 10.2. Zu vorgegebenen Parametern m ∈ N, a = 1, . . . ,m− 1,c = 0, 1, . . . , m − 1 und einem Startwert y0 = 0, 1, . . . , m − 1 betrachtet man zunachst die Folge

yn, n ∈ N0, mit

(∗) yn+1 = (ayn + c) mod m, n = 0, 1, 2, . . . ,

und bildet diese anschließend mit xn = yn/m, n = 0, 1, 2, . . . , in das Intervall [0, 1] ab. Wenn m,a, c und y0 ”

geschickt“ gewahlt werden, hat die Folge xn, n = 0, 1, 2, . . . , ein Erscheinungsbild wieeine

”typische“ Realisierung einer Folge unabhangiger, in [0, 1] gleichverteilter Zufallsvariablen.

Bei einer unglucklichen Wahl der Parameter erhalt man aber u.U. eine sehr regelmaßige Folgey0, y1, y2, . . . . Beispielsweise ergibt sich 5, 0, 5, 0, . . . fur a = c = y0 = 5, m = 10. Allgemeinbesitzt eine durch eine Relation wie (∗) bestimmte Zahlenfolge immer eine endliche Periode, diehochstens gleich m ist.

Etliche klassische, altere Zufallsgeneratoren basieren auf der linearen Kongruenzmethode.Oft hat sich allerdings im Lauf der Zeit herausgestellt, daß jene oft benutzten Zufallsgeneratoren,deren Perioden zwischen 230 und 248 liegen, eine nur geringe Qualitat besitzen. Hingegen gibt esmit dem Mersenne Twister einen modernen Zufallsgenerator, der in einer gut bewahrten Variantemit 219937 − 1 eine extrem große Mersennesche Primzahl als Periode besitzt, vgl. z.B. [11].

3.52Vgl. insbesondere auch Fußnote 3.47.3.53Die Funktion X1 wird in (3.5) definiert.3.54Vgl. z.B. http://www.maplesoft.com/products/Maple/index.aspx, http://www.wolf-

ram.com/mathematica/, http://www.scilab.org/, bzw. http://www.r-project.org. Auch eini-ge wissenschaftliche Software-Bibliotheken, wie beispielsweise die GNU Scientific Library (GSL),vgl. http://www.gnu.org/software/gsl/, enthalten derartige Software zur Simulation von Zu-fallsvariaben mit gegebener Verteilung.

3.55Mit geometrischer Verteilung ist hier die in Fußnote 2.38 beschriebene Verteilung auf N0

gemeint.

18. April 2016

Page 51: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

51

ergibt sich z.B. 3.56:

> rgeom(60,0.3)

[1] 0 0 1 0 3 2 3 0 3 3 1 1 3 2 1 10 1 7 3 18 2 0 0 0 1

[26] 1 2 0 2 1 2 2 3 5 0 0 5 13 0 0 8 1 0 0 20 2 1 3 2 8

[51] 0 4 5 3 7 1 0 2 1 7

3.2. Familien von Zufallsvariablen und deren gemeinsame Verteilung

In diesem Abschnitt 3.2 wird insbesondere dargelegt, wie sich”Zusammen-

hange“ 3.57 zwischen mehreren Zufallsvariablen und auch deren Unabhangigkeit 3.58

mathematisch beschreiben lassen.

Beispiel 3.6 (Abhangige Zufallsvariablen). Fur k = 1, 2, . . . sei Tk der Tip einesLottospielers 3.59 in der k-ten Woche. Insbesondere seien Tk, k = 1, 2, . . . , auf einemWahrscheinlichkeitsraum (Ω,F,P) definierte Zufallsvariablen mit Werten in 3.60

Ω′ = M ⊂ 1, . . . , 49 : |M | = 6. Wie es fur einen endlichen Stichprobenraumublich ist, wird Ω′ mit der σ-Algebra F′ = Pot(Ω′) versehen 3.61.

Fur ein p ∈ [0, 1] habe der Lottospieler folgendes spezielle Tip-Verfahren:

• T1 sei gleichverteilt auf Ω′, d.h., P[T1 = ν] = 1/|Ω′|, ν ∈ Ω′ 3.62.• Die Tips Tk fur k = 2, 3, . . . werden sukzessive folgendermaßen bestimmt:

– Sei Tk−1 = µ fur ein µ ∈ Ω′.– Mit Wahrscheinlichkeit 1− p sei Tk = µ.– Mit Wahrscheinlichkeit p werde ein

· l ∈ µ 3.63 gemaß der Gleichverteilung auf 3.64 µ und ein· l′ ∈ 1, . . . , 49 \ µ gemaß der Gleichverteilung auf 3.65 1, . . . ,49 \ µ ausgewahlt 3.66.

3.56Mit dem R-Befehl rgeom(n, p) werden n unabhangige, geometrisch mit Parameter p ver-teilte Zufallsvariaben simuliert, vgl. Fußnote 3.55.

3.57Dieser vage Begriff wird durch das Konzept der gemeinsamen Verteilung von Zufallsva-

riablen prazisiert.3.58Unabhangigkeit liegt vor, wenn sich

”Zufallsvariablen nicht gegenseitig beeinflussen“. Der

bisher verwendete intuitive Zugang zu diesem Begriff muß nun in eine mathematisch korrekteForm gebracht werden.

3.59Es sei das Spiel”6 aus 49“ gemeint.

3.60|A| bezeichnet die Machtigkeit einer Menge A.3.61(Ω′,F′) ist somit ein meßbarer Raum. In dieser Situation ist es bemerkenswert, daß Ω′

eine Menge von Mengen und daher Pot(Ω′) die Menge aller Teilmengen einer Menge von Mengenist.

3.62|Ω′| ist die Anzahl der Moglichkeiten, aus einer Menge mit 49 Elementen eine 6-elementige

Teilmenge auszuwahlen, d.h., |Ω′| =(496

), vgl. Abschnitt 5.1, insbesondere (5.4).

3.63Man beachte, daß µ als Element von Ω′ eine Teilmenge von 1, . . . , 49 mit 6 Elementenist.

3.64An diese Stelle wird mit dem Wahrscheinlichkeitsraum (µ,Pot(µ),Pµ) gearbeitet, wobei

Pµ die Gleichverteilung auf der Menge µ ist.3.65An diese Stelle wird mit dem Wahrscheinlichkeitsraum (1, . . . , 49 \ µ,Pot(1, . . . , 49 \

µ),P1,...,49\µ) gearbeitet, wobei P1,...,49\µ die Gleichverteilung auf der Menge 1, . . . , 49\µist.

3.66Die Wahrscheinlichkeitsraume (µ,Pot(µ),Pµ) und (1, . . . , 49 \ µ,Pot(1, . . . , 49 \ µ),P1,...,49\µ), die bei der Wahl von l und l′ verwendet werden, sind nur Hilfsmittel bei der Be-schreibung der Zufallsvariablen Tk, k = 1, 2, . . . . Der

”eigentliche“ Wahrscheinlichkeitsraum, auf

dem die Zufallsvariablen Tk, k = 1, 2, . . . , definiert sind, ist der eingangs genannte (Ω,F,P), dernicht naher spezifiziert wird, allerdings

”groß genug“ sein muß, damit die beschriebene Konstruk-

tion der Zufallsvariablen Tk, k = 1, 2, . . . , durchfuhrbar wird.

18. April 2016

Page 52: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

52

– Nun sei Tk = (µ \ l) ∪ l′ 3.67.

Man beobachtet, daß

• P[Tk = ν] = 1/|Ω′| = 3.68(496

)−1, ν ∈ Ω′, fur alle k = 1, 2, . . . . Die

Zufallsvariablen Tk, k = 1, 2, . . . , besitzen daher die gleiche Verteilung 3.69.• Wenn p = 0 3.70, so ist Tk = T1 fur alle k = 2, 3, . . . , d.h., die Zu-fallsvariablen Tk, k = 1, 2, . . . , sind

”stark voneinander abhangig“. Diese

”Abhangigkeit sinkt“ mit wachsendem p 3.71.

Die Basis einer quantitativen Beschreibung der Abhangigkeit von Zufallsvariablenist deren gemeinsame Verteilung 3.72.

Es ware ubrigens zweckmaßig die Familie der Zufallsvariablen Tk, k = 1, 2, . . . ,zusammenzufassen und als als einen stochastischen Prozeß 3.73 (Tk)k∈N zu betrach-ten 3.74.

Sei nun (Ω,F,P) ein Wahrscheinlichkeitsraum und (Ω′λ,F

′λ), λ ∈ Λ, eine Fa-

milie meßbarer Raume 3.75. Außerdem seien Xλ : (Ω,F,P) → (Ω′λ,F

′λ), λ ∈ Λ,

Zufallsvariablen 3.76. Die gemeinsame Verteilung der Zufallsvariablen Xλ, λ ∈ Λ,ist charakterisiert durch die Großen 3.77 3.78

P[Xλ1 ∈ A′

λ1, Xλ2 ∈ A′

λ2, . . . , Xλm

∈ A′λm

](3.7)

= P[ω ∈ Ω : Xλ1(ω) ∈ A′

λ1, . . . , Xλm

(ω) ∈ A′λm

],

3.67Mit Wahrscheinlichkeit p wird also bei der Bestimmung des zukunftigen Tips eine Zahldes aktuellen Tips zufallig ausgewahlt und durch eine aktuell nicht getippte Zahl ersetzt. Hierbeiwerden die zu ersetzende und die neue Zahl jeweils gemaß einer Gleichverteilung ausgewahlt.

3.68Vgl. Fußnote 3.62.3.69Die Zufallsvariablen Tk, k = 1, 2, . . . , sind somit identisch verteilt.3.70In diesem Fall wird zu keinem Zeitpunkt eine der aktuell getippten Zahlen modifiziert.3.71Mit wachsendem p steigt die Wahrscheinlichkeit, daß beim Zusammenstellen eines neuen

Tips eine der zuletzt getippten Zahlen verandert wird. Allerdings besteht auch fur p = 1, wennmit Sicherheit genau eine der Zahlen des aktuellen Tips geandert wird, eine gewisse Abhangigkeitzwischen aufeinanderfolgenden Tips Tk und Tk+1.

3.72Der Begriff der gemeinsamen Verteilung einer Familie von Zufallsvariablen wird in diesemAbschnitt 3.2 eingefuhrt, vgl. (3.7).

3.73Vgl. Abschnitt 3.4. Ein stochastischer Prozeß ist eine durch”Zeitpunkte“ indizierte Fa-

milie von Zufallsvariablen.3.74Offensichtlich ermoglicht bei gegebenem gegenwartigen Tip Tk die zusatzliche Kenntnis

der Tips Tk−1, Tk−2, . . . in der Vergangenheit keine prazisere Beschreibung des zukunftigen Tips

Tk+1. Daher ist (Tk)k∈N sogar ein Markovprozeß, vgl. Abschnitt 8.2.3.75Λ ist eine beliebige Menge, die auch uberabzahlbar sein kann. Die meßbaren Raume

(Ω′λ,F

′λ), λ ∈ Λ, konnen durchaus verschieden sein.

3.76Um die nun folgenden Erlauterungen der Begriffe gemeinsame Verteilung und Un-

abhangigkeit in (3.7), bzw. in (3.8) besser zu verstehen, kann man zuerst |Λ| = 2, 3, . . . und(Ω′

λ,F′λ) = (R,B(R)), λ ∈ Λ, annehmen. Insbesondere sollte man auch den folgenden Ab-

schnitt 3.2.1, in dem eine endliche Menge diskreter Zufallsvariablen betrachtet wird, beachten.3.77Fur alle endlichenTeilmengen Λe = λ1, . . . , λm ⊆ Λ geben die entsprechenden Terme in

(3.7) an, mit welchen Wahrscheinlichkeiten die∏m

k=1 Ω′λk

-wertige Zufallsvariable (Xλ1, . . . ,Xλm

)

ihre Werte in den Mengen A′λ1

× · · · × A′λm

, A′λ1

∈ F′λ1, . . . , A′

λm∈ F′

λm, annimmt.

3.78

”Charakterisiert durch . . .“ heißt nicht

”definiert durch . . .“. In (3.7) wird nur eine Familie

von Wahrscheinlichkeiten angegeben. Die vollstandige Definition der gemeinsamen Verteilung derZufallsvariablen Xλ, λ ∈ Λ, als ein Wahrscheinlichkeitsmaß auf dem Produktraum

∏λ∈Λ Ω′

λ wirdin weiterfuhrenden Vorlesungen vorgestellt.

Es sei nur erwahnt, daß fur ein beliebiges Λ die gemeinsame Verteilung der Zufallsvaria-blen Xλ : (Ω,F,P) → (Ω′

λ,F′λ), λ ∈ Λ, ein Wahrscheinlichkeitsmaß auf dem meßbaren Raum(∏

λ∈Λ Ω′λ,⊗

λ∈Λ F′λ

), dem Produkt der meßbaren Raume (Ω′

λ,F′λ), λ ∈ Λ, ist. Die Produkt-

σ-Algebra⊗

λ∈Λ F′λ ist hierbei die kleinste σ-Algebra, die die endlich-dimensionalen Rechtecke

ω = (ωλ)λ∈Λ : ωλ1∈ A′

λ1, . . . , ωλm

∈ A′λm

, λ1, . . . , λm ⊆ Λ, A′λ1

∈ F′λ1, . . . , A′

λm∈ F′

λm,

m ∈ N, enthalt.

18. April 2016

Page 53: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

53

λ1, . . . , λm ⊆ Λ, A′λ1

∈ F′λ1, . . . , A′

λm∈ F′

λm, m ∈ N.

Falls die gemeinsame Verteilung der Zufallsvariablen Xλ, λ ∈ Λ, faktorisiert, d.h.,wenn 3.79

P[Xλ1 ∈ A′

λ1, Xλ2 ∈ A′

λ2, . . . , Xλm

∈ A′λm

](3.8)

= P[Xλ1 ∈ A′λ1]P[Xλ2 ∈ A′

λ2] · · ·P[Xλm

∈ A′λm

],

λ1, . . . , λm ⊆ Λ, A′λ1

∈ F′λ1, . . . , A′

λm∈ F′

λm, m ∈ N,

werden diese Zufallsvariablen unabhangig genannt 3.80 3.81.In den einfachsten Varianten vieler klassischer Resultate der Wahrscheinlich-

keitstheorie, z.B. dem Gesetz der großen Zahlen oder dem Zentralen Grenzwert-

satz 3.82, wird mit Folgen 3.83 Xk, k ∈ N, unabhangiger, identisch verteilter Zufallsva-riablen gearbeitet. Hierbei sind Zufallsvariablen Xλ, λ ∈ Λ, identisch verteilt, wennsie die gleiche Verteilung besitzen, d.h., wenn 3.84 PXλ1

= PXλ2, λ1, λ2 ∈ Λ 3.85.

Als Abkurzung fur”unabhangig, identisch verteilt “ benutzt man haufig auch

i.i.d. 3.86. Mit i.i.d. Zufallsvariablen kann ein mehrmals unabhangig unter gleich-bleibenden Bedingungen wiederholtes Experiment modelliert werden 3.87.

3.2.1. Gemeinsame Verteilung endlich vieler diskreter Zufallsvaria-

blen. 3.88 Seien Xk : (Ω,F,P) → (Mk,Pot(Mk)), k = 1, . . . , n, Zufallsvariablen,wobei Mk, k = 1, . . . , n, hochstens abzahlbare Mengen sind. Die gemeinsame Ver-teilung der Zufallsvariablen X1, . . . , Xn wird eindeutig charakterisiert durch 3.89

P[ω ∈ Ω : X1(ω) = m1, . . . , Xn(ω) = mn

](3.9)

= P[X1 = m1, . . . , Xn = mn], m1 ∈M1, . . . ,mn ∈Mn.

Durch Addition solcher Terme, d.h., mit

PX1,...,Xn[A] := P[(X1, . . . , Xn) ∈ A](3.10)

= P

[ •⋃(m1,...,mn)∈A

X1 = m1, . . . , Xn = mn]

= 3.90∑

(m1,...,mn)∈A

P[X1=m1, . . . , Xn=mn], A∈Pot(M1×. . .×Mn),

3.79Genaugenommen wird in (3.8) verlangt, daß alle gemeinsamen Verteilungen von jeweilsendlich vielen der Zufallsvariablen Xλ, λ ∈ Λ, faktorisieren.

3.80Um den Unterschied zur linearen Unabhangigkeit zu betonen, bezeichnet man die Zu-fallsvariablen Xλ, λ ∈ Λ, auch als stochastisch unabhangig.

3.81Neben der Unabhangigkeit von Zufallsvariablen gibt es auch den Begriff der Un-

abhangigkeit von Ereignissen, mit dem auf einem intuitiven Niveau schon gearbeitet wurde, vgl.z.B. Fußnote 1.31 oder (2.3a). Die Unabhangigkeit von Ereignissen wird in Abschnitt 3.2.3 erlautertwerden. Sie kann als ein Spezialfall der Unabhangigkeit von Zufallsvariablen betrachtet werden.

3.82Diese beiden Resultate werden in den Beispielen 1.7 und 1.8 vorgestellt. AusfuhrlichereDiskussionen folgen in den Kapiteln 7 und 9.

3.83Somit ist Λ = N.3.84PX bezeichnet die Verteilung einer Zufallsvariablen X, vgl. (3.3).3.85Man beachte: Zufallsvariablen, die die gleiche Verteilung besitzen, mussen nicht, aber

konnen gleichverteilt sein! Zufallsvariablen X werden gleichverteilt genannt, wenn ihre VerteilungPX die Gleichverteilung auf einer endlichen Menge, vgl. Abschnitt 2.2, oder die Gleichverteilung

in einem beschrankten Gebiet eines Rd, vgl. Abschnitt 2.6, ist.3.86i.i.d. bedeutet

”independent, identically distributed“.

3.87Ein Beispiel ist der ∞-fache, unabhangige Munzwurf mit einer festen Erfolgswahr-scheinlichkeit.

3.88Zur Illustration der allgemeinen in (3.7), bzw. (3.8) betrachteten Situation wird nun ein

”ubersichtlicher“ Spezialfall vorgestellt.

3.89Vgl. (3.7). Dort werden in einer allgemeinen Situation analoge Wahrscheinlichkeitenbetrachtet.

18. April 2016

Page 54: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

54

erhalt man ein Wahrscheinlichkeitsmaß 3.91 PX1,...,Xnauf (M1×· · ·×Mn,Pot(M1×

· · · ×Mn)). Dieses Wahrscheinlichkeitsmaß PX1,...,Xnist die (gemeinsame) Vertei-

lung von X1, . . . , Xn3.92.

Faßt man ubrigens die Zufallsvariablen X1, . . . , Xn zu einer einzigen n-dimen-sionalen Zufallsvariable X = (X1, . . . , Xn) zusammen, so ist

PX1,...,Xn= PX ,

wobei PX die mit (3.3) eingefuhrte Verteilung von X ist.Die Zufallsvariablen X1, . . . , Xn sind unabhangig, genau dann wenn die Terme

in (3.9) faktorisieren 3.93, d.h., wenn

P[X1 = m1, . . . , Xn = mn](3.11)

= P[X1 = m1] · · ·P[Xn = mn], m1 ∈M1, . . . ,mn ∈Mn.

Beispiel 3.7 (Gemeinsame Verteilung von zwei Zufallsvariablen). Wie in Bei-spiel 2.8 wird der N -fache, unabhangige Wurf einer Munze mit der Wahrschein-lichkeit p fur den Wurf von

”Zahl“ , 1 betrachtet 3.94.

Gesucht ist die gemeinsame Verteilung der Zufallsvariablen Z und T mit 3.95

Z(ω) = ω1 + · · ·+ ωN , bzw.

T (ω) =

infi ∈ 1, . . . , N : ωi = 1, falls Z(ω) > 0,

N + 1, falls Z(ω) = 0,

fur ω = (ω1, . . . , ωN) ∈ Ω = 0, 1N . Dazu ist

P[Z = k, T = n], k = 0, 1, . . . , N, n = 1, . . . , N + 1,

zu bestimmen 3.96. Zunachst gilt:

P[Z = 0, T = N + 1] = 3.97 (1− p)N ,(3.12)

P[Z = 0, T = n] = 3.98 0, n = 1, . . . , N,

P[Z = k, T = N + 1] = 3.99 0, k = 1, . . . , N,

P[Z = k, T = n] = 3.100 0, n = 1, . . . , N, k = N − n+ 2, . . . , N.

Wenn fur ein ω ∈ Ω weiterhin T (ω) = n und Z(ω) = k fur n = 1, . . . , N undk = 1, . . . , N − n+ 1 ist, so folgt

• ωi = 0, i = 1, . . . , n− 1,• ωn = 1,

3.90Aufgrund der σ-Additivitat von P.3.91Wie in den Uberlegungen in Fußnote 3.20 beim Nachweis, daß die Verteilung PX einer

einzelnen Zufallsvariable X ein Wahrscheinlichkeitsmaß ist, kann gezeigt werden, daß die Eigen-schaften (2.2) fur PX1,...,Xn

gelten.3.92Zumindest fur eine endliche Menge diskreter Zufallsvariablen X1, . . . , Xn wird hier die

gemeinsame Verteilung PX1,...,Xndefiniert. In (3.7) wird diese gemeinsame Verteilung nur cha-

rakterisiert. Vgl. hierzu Fußnote 3.78.3.93Vgl. (3.8).3.94Insbesondere wird nun auch mit dem in Beispiel 2.8 betrachteten Wahrscheinlichkeits-

raum (Ω,F,P), wobei Ω = 0, 1N , F = Pot(Ω) und P durch (2.4) definiert ist, gearbeitet.3.95Z beschreibt die Anzahl der Wurfe von

”Zahl“, wahrend T den Zeitpunkt des ersten

Wurfs von”Zahl“ modelliert.

3.96Nach (3.9) und (3.10) ist die gemeinsame Verteilung von Z und T durch diese Großeneindeutig bestimmt.

3.97Hier wird nach der Wahrscheinlichkeit fur N Wurfe von”Kopf“ gefragt.

3.98Wenn Z = 0 ist, so kann nicht T ≤ N sein.3.99Wenn Z > 0 ist, so ist T ≤ N .3.100Wenn T = n, konnen in den nachfolgenden Zeitpunkten n, n+1, . . . , N hochstens N−n+1

Wurfe von”Zahl“ auftreten.

18. April 2016

Page 55: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

55

• ωl = 1 fur genau k − 1 verschiedene l ∈ n+ 1, . . . , N.Es gibt 3.101

(N−nk−1

)derartige ω ∈ Ω, wobei jedes die Wahrscheinlichkeit pk(1−p)N−k

besitzt. Somit ist

P[Z = k, T = n] =

(N − n

k − 1

)pk(1− p)N−k,(3.13)

n = 1, . . . , N, k = 1, . . . , N − n+ 1.

Durch (3.12) - (3.13) ist die gemeinsame Verteilung der Zufallsvariablen Z und Tbestimmt 3.102.

3.2.2. Unabhangige Zufallsvariablen mit einer Dichte. Fur ein N ∈ Nseien X1, . . . , XN unabhangige 3.103, reellwertige Zufallsvariablen auf einem Wahr-scheinlichkeitsraum (Ω,F,P). Fur k = 1, . . . , N habe die Verteilung PXk

von Xk

die Dichte 3.104 fk bzgl. des Lebesguemaßes auf (R,B(R)).Dann hat die gemeinsame Verteilung PX1,...,XN

von X1, . . . , XN die Dichte

RN ∋ (y1, . . . , yN ) → ∏Nk=1 fk(yk) ∈ [0,∞) bzgl. des Lebesguemaßes auf (RN ,

B(RN )) 3.105 3.106.Zur Begrundung dieser Behauptung beachte man, daß

P[(X1, . . . , XN) ∈ A1 × · · · ×AN ] = 3.107 P[X1 ∈ A1, . . . , XN ∈ AN ](3.14)

= 3.108 P[X1 ∈ A1] · · ·P[XN ∈ AN ] = 3.109 PX1 [A1] · · ·PXn[An]

= 3.110

(∫

A1

dy1 f1(y1)

)· · ·(∫

AN

dyN fN (yN )

)

= 3.111

A1×···×AN

dy1 · · · dyN f1(y1) · · · fN(yN ), A1, . . . , AN ∈B(R).

Da in einem weiteren Schritt gefolgert werden kann 3.112, daß (3.14) nicht nur fur

”Rechtecke“ A1 × · · · × AN = y = (y1, . . . , yN) ∈ RN : y1 ∈ A1, . . . , yN ∈ AN ∈B(RN ), sondern fur beliebige A ∈ B(RN ) gilt, ist die Behauptung bewiesen.

3.101Die Anzahl dieser ω’s ist gleich der Anzahl der Moglichkeiten aus einer Menge mit N−nElementen eine Teilmenge mit k−1 Elementen auszuwahlen, vgl. Abschnitt 5.1, insbesondere (5.4).

3.102Zur Kontrolle der obigen Ausfuhrungen kann nachgewiesen werden, daß die in (3.12) -(3.13) berechneten Koeffizienten νk,n = P[Z = k, T = n], k = 0, 1, . . . , N , n = 1, . . . , N +1, in der

Tat in Ubereinstimmung mit den Uberlegungen zu (3.9) und (3.10) ein Wahrscheinlichkeitsmaßauf 0, 1, . . . , N × 1, . . . , N + 1 beschreiben. Offensichtlich ist νk,n ≥ 0, k = 0, 1, . . . , N , n =

1, . . . , N + 1. Weiterhin zeigt sich, daß∑N

k=0

∑N+1n=1 νk,n = 1.

3.103Vgl. (3.8).3.104Fur alle k = 1, . . . , N sei PXk

ein Wahrscheinlichkeitsmaß auf (R,B(R)) mit der Dichte

fk, vgl. Abschnitt 2.6.3.105Somit hat die gemeinsame Verteilung endlich vieler, unabhangiger Zufallsvariablen mit

einer Dichte ebenfalls eine Dichte. Jene gemeinsame Dichte ist das Produkt der einzelnen Dichten.3.106Wenn zwei reellwertige Zufallsvariablen X und Y zwar Dichten f bzw. g besitzen, jedoch

nicht unabhangig sind, braucht keine Dichte fur ihre gemeinsame Verteilung PX,Y zu existieren.

Ist beispielsweise X = Y , so konzentriert sich PX,Y auf die Diagonale D = (x, y) ∈ R2 : x = y.Da

∫D dx dy ψ(x, y) = 0 fur alle meßbaren ψ : (R2,B(R2)) → ([0,∞),B([0,∞))), kann PX,Y

keine Dichte besitzen.3.107Hier wird nur die Schreibweise geandert.3.108Da die Zufallsvariablen X1, . . . ,XN unabhangig sind, vgl. (3.8).3.109Vgl. (3.3).3.110Da fur k = 1, . . . , N die Verteilung PXk

der Zufallsvariable Xk die Dichte fk besitzt.3.111Die Darstellung eines Produkts eindimensionaler Integrale als ein mehrdimensionales

Integral kann mit dem Satz von Fubini, vgl. [3], Appendix A.6, Theorem (6.2), begrundet werden.3.112Hierzu kann Satz (1.12) in [5] benutzt werden.

18. April 2016

Page 56: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

56

Beispiel 3.8 (Unabhangige, normalverteilte Zufallsvariablen). Seien X1, . . . , XN

unabhangige, normalverteilte Zufallsvariablen mit den Dichten 3.113

fk(x) =1√2πσ2

k

exp

(− (x− µk)

2

2σ2k

), x ∈ R, k = 1, . . . , N,

wobei µ1, . . . , µN ∈ R und σ21 , . . . , σ

2N > 0. Um die Dichte f : RN → [0,∞) der

gemeinsamen Verteilung PX1,...,XNvon X1, . . . , XN mit

f(x) = f(x1, . . . , xN ) =

N∏

k=1

fk(xk)

=

N∏

k=1

1√2πσ2

k

exp

(− (xk − µk)

2

2σ2k

), x = (x1, . . . , xN ) ∈ RN ,

in einer”kompakten“ Form darstellen zu konnen, wird der Vektor µ = (µ1, . . . , µN)

∈ RN und die N × N -Matrix σ2 = (σ2

kδk,l)k,l=1,...,N3.114 eingefuhrt. Nun ist die

Dichte f von PX1,...,XNdarstellbar in der Form 3.115 3.116

f(x) =1√

(2π)N∏N

k=1σ2k

exp

(−1

2

N∑

k=1

(xk − µk)(σ2k)

−1(xk − µk)

)(3.15)

=1√

(2π)N det(σ2)exp

(−1

2(x− µ)(σ2)−1(x− µ)T

), x ∈ RN ,

d.h., die Zufallsvariablen X1, . . . , XN sind gemeinsam normalverteilt mit Erwar-

tungswert µ und Kovarianzmatrix σ2 3.117. Man schreibt PX1,...,XN

= N(µ,σ2).

3.2.3. Unabhangigkeit von Ereignissen. 3.118 Mit (Ω,F,P) sei ein Wahr-scheinlichkeitsraum und mit Aλ, λ ∈ Λ, eine Menge von Ereignissen gegeben. Diese

3.113Vgl. Abschnitt 2.6.3.114

δk,l =

1, falls k = l,

0, falls k 6= l,

ist das Kronecker-Symbol. Somit ist σ2 eine Diagonalmatrix, deren Diagonalelemente durch dieVarianzen σ2k , k = 1, . . . , N , der Zufallsvariablen X1, . . . ,XN gegeben sind.

3.115Da (σ2)−1 = ((σ2k)−1δk,l)k,l=1,...,N und weil det(σ2) =

∏Nk=1 σ

2k.

3.116x− µ wird als Zeilenvektor in RN betrachtet. Zu y ∈ RN bezeichnet yT den zu y trans-

ponierten Vektor. Fur einen Zeilenvektor y ist insbesondere yT der entsprechende Spaltenvektor.3.117Wenn eine allgemeine N-dimensionale Normalverteilung eine Dichte f besitzt, so hat

diese die Gestalt

(∗) f(x) = fν,A(x) =1√

(2π)N det(A)exp

(−1

2(x− ν)(A)−1(x− ν)T

), x ∈ RN ,

wobei ν ∈ RN der Erwartungswert und A die Kovarianzmatrix ist. A ist eine positiv-definite,symmetrische N ×N-Matrix.

Es gibt zu jedem ν ∈ RN und jeder positiv-semidefiniten, symmetrischen N × N-Matrix A

eine Normalverteilung N(ν,A) auf RN mit dem Erwartungswert ν und der Kovarianzmatrix A.Diese besitzt genau dann eine Dichte fν,A : RN → [0,∞), wenn A positiv-definit ist. fν,A ist indiesem Fall durch (∗) gegeben.

Wenn eine Normalverteilung im RN eine nur positiv-semidefinite, nicht aber positiv-definiteKovarianzmatrix besitzt, ist sie auf einer niederdimensionalen, linearen Untermannigfaltigkeit desRN

”konzentriert“ und besitzt somit keine Dichte.3.118Die Unabhangigkeit von Ereignissen, mit der auf eine formale Weise schon mehrfach

gearbeitet wurde, z.B. in den Fußnoten 1.31 und 2.39, ist ein Spezialfall der Unabhangigkeit von

Zufallsvariablen, vgl. (3.8).

18. April 2016

Page 57: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

57

heißen unabhangig, wenn 3.119

(3.16) P

[ ⋂

λ∈∆

]=∏

λ∈∆

P[Aλ], ∆ ⊆ Λ, |∆| <∞.

Wenn Ereignisse A und B unabhangig sind, so sind auch A und Ω \B, bzw. Ω \Aund B, bzw. Ω \ A und Ω \ B unabhangig 3.120. Daher folgt insbesondere, daß dieUnabhangigkeit der Ereignisse Aλ, λ ∈ Λ, gleichbedeutend mit der Unabhangigkeitder (0, 1,Pot(0, 1))-wertigen Zufallsvariablen 3.121 IAλ

, λ ∈ Λ, ist.

Beispiel 3.9 (Paarweise Unabhangigkeit von Ereignissen). Sei (Ω,F,P) ein Wahr-scheinlichkeitsraum. Ereignisse A1, A2, . . . ∈ F sind paarweise (stochastisch) un-

abhangig, wenn

P[Ak1 ∩ Ak2 ] = P[Ak1 ] ·P[Ak2 ], 1 ≤ k1 < k2 <∞.(3.17)

Offensichtlich impliziert die Unabhangigkeit von Ereignissen ihre paarweise Un-abhangigkeit. Wie nun gezeigt wird, gilt der umgekehrte Schluß nicht 3.122.

Wir betrachten den 2-fachen, unabhangigen Wurf einer fairen Munze, d.h., wirarbeiten mit dem Wahrscheinlichkeitsraum (Ω,F,P) mit 3.123

Ω = 0, 12, F = Pot(Ω),

P[ω] = 1

4, ω ∈ Ω.

Fur die Ereignisse

A = 3.124 (1, 0), (1, 1),B = 3.125 (0, 1), (1, 1),C = 3.126 (0, 0), (1, 1)

3.119⋂λ∈∆Aλ , Aλ1

und . . . und Aλm, falls ∆ = λ1, . . . , λm. Die Faktorisierungseigen-

schaft (3.16) muß fur alle endlichen Teilmengen ∆ der beliebigen Menge Λ gelten.3.120Beispielsweise gilt

P[A ∩ (Ω \B)︸ ︷︷ ︸

= A \ (A ∩ B)

] = P[A]−P[A ∩B]︸ ︷︷ ︸= P[A] ·P[B] (Unabhangigkeit von A und B)

(Additivitat von P)

= P[A](1−P[B]︸ ︷︷ ︸

= P[Ω \B]

).

3.121Fur A ⊆ Ω bezeichnet IA mit

IA(ω) =

1, ω ∈ A,

0, ω ∈ Ω \A,

die Indikatorfunktion von A.Die Aquivalenz der Unabhangigkeit der Ereignisse Aλ, λ ∈ Λ, und der Unabhangigkeit der

Zufallsvariablen IAλ, λ ∈ Λ, folgt aus Beziehungen wie z.B.

P[A ∩ B] = P[IA = 1, IB = 1] oder P[A ∩ (Ω \B)] = P[IA = 1, IB = 0].

3.122Beachte, daß die Ereignisse A1, A2, . . . unabhangig sind, wenn die in (3.17) beschriebeneFaktorisierungseigenschaft nicht nur fur zwei sondern fur jeweils endlich viele A...’s gilt, vgl. (3.16).

3.123Vgl. Beispiel 2.7.

18. April 2016

Page 58: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

58

gilt

P[A] = P[B] = P[C] =1

2,(3.18a)

P[A ∩B] = P[(1, 1)] = 1

4= P[A] ·P[B],(3.18b)

P[A ∩ C] = P[(1, 1)] = 1

4= P[A] ·P[C],(3.18c)

P[B ∩ C] = P[(1, 1)] = 1

4= P[B] ·P[C],(3.18d)

P[A ∩B ∩ C] = P[(1, 1)] = 1

46= 1

8= P[A] ·P[B] ·P[C].(3.18e)

Die Beziehungen (3.18b) - (3.18d) zeigen, daß die Ereignisse A, B und C paar-

weise unabhangig sind. Aufgrund von (3.18e) sind sie allerdings nicht unabhangig.Die Unabhangigkeit zweier Ereignisse bedeutet nicht, daß

”sie nichts miteinan-

der zu tun haben“. So sind wegen (3.18c) die Ereignisse A und C zwar unabhangig,allerdings kann, wenn bekannt ist, daß A geschieht, das Ereignis C nur eintreten,wenn der zweite Wurf

”Zahl“ , 1 ergibt 3.127.

3.2.4. Verteilung von Summen unabhangiger Zufallsvariablen. 3.128

Fur unabhangige, reellwertige Zufallsvariablen X und Y ist die Verteilung der Sum-me X+Y zu bestimmen 3.129. Zur Vereinfachung der Berechnungen werden im fol-genden zwei Spezialfalle betrachtet, wobei sowohlX als auch Y Zufallsvariablen mitWerten in Z 3.130, bzw. Zufallsvariablen mit einer Dichte bzgl. des Lebesguemaßesauf R sind.

Falls die unabhangigen Zufallsvariablen X und Y Werte in Z annehmen, gilt:

P[X + Y = m] = 3.131 P

[ •⋃∞

n=−∞X = n, Y = m− n

](3.19)

= 3.132∞∑

n=−∞P[X = n, Y = m− n]

= 3.133∞∑

n=−∞P[X = n]P[Y = m− n], m ∈ Z.

3.124A beschreibt das Ereignis, daß der erste Wurf”Zahl“ , 1 ergibt.

3.125B beschreibt das Ereignis, daß der zweite Wurf”Zahl“ ergibt.

3.126C beschreibt das Ereignis, daß die Ergebnisse der beiden Wurfe ubereinstimmen.3.127Von einem intuitiven Standpunkt aus sind zwei Ereignisse D und E stochastisch un-

abhangig, wenn das Wissen uber das Eintreten von D (bzw. E) die Wahrscheinlichkeit fur dasEintreten von E (bzw. D) nicht andert. Mathematisch rigoros bedeutet dies, daß

P[E|D] = P[E] (bzw. P[D|E] = P[D]),

wobei P[E|D] die bedingte Wahrscheinlichkeit des Ereignisses E unter der Bedingung D bezeich-net, vgl. Abschnitt 8.1.

3.128In vielen Anwendungen ist eine zufallige Beobachtungsgroße, d.h. eine reellwertigeZufallsvariable X, eine Summe von mehreren unabhangigen, kleineren Beitragen X1, . . . , Xn.Oft treten diese nicht als individuelle Großen, sondern nur als Bestandteil von X in Erschei-nung. Beispielsweise kann X ein Gesamtertrag (eine Gesamtwartezeit) sein, der (die) als SummeX = X1 + · · ·+Xn einzelner Ertrage (Wartezeiten) darstellbar ist. In diesem Abschnitt 3.2.4 sollgeklart werden, wie aus den Verteilungen von X1, . . . , Xn die Verteilung von X berechnet werdenkann.

3.129Die Verteilung beliebiger endlicher Summen unabhangiger, reellwertiger Zufallsvariablenkann anschließend mit einem Iterationsverfahren bestimmt werden.

3.130Somit sind in diesem Fall X und Y diskrete Zufallsvariablen.

18. April 2016

Page 59: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

59

Die Faltung p ∗ q zweier reellwertiger Sequenzen p = (pn)n∈Z und q = (qn)n∈Z

ist durch

(p ∗ q)m :=

∞∑

n=−∞pnqm−n(3.20)

= 3.134∞∑

l=−∞pm−lql =

3.135 (q ∗ p)m, m ∈ Z,

definiert. Daher zeigt (3.19), daß die Verteilung PX+Y der Summe zweier un-abhangiger, Z-wertiger Zufallsvariablen X und Y die Faltung von PX und PY

ist.

Beispiel 3.10. Wenn Folgen 3.136 p = (pn)n∈N0 und q = (qn)n∈N0 gefaltet werden,fuhrt (3.20) zu

(3.21) (p ∗ q)m =

∞∑

n=−∞pnqm−nIN0(n)IN0(m− n) =

m∑

n=0

pnqm−n, m ∈ N0.

Fur die Verteilung der Summe X + Y zweier unabhangiger, geometrisch 3.137

mit Parameter p ∈ (0, 1) verteilter Zufallsvariablen X und Y ergibt sich daherinsbesondere

P[X + Y = m] = 3.138m∑

n=0

P[X = n]︸ ︷︷ ︸= 3.139 (1 − p)np

P[Y = m− n]

= (m+ 1)︸ ︷︷ ︸=

(m+ 1

m

)p2(1 − p)m, m ∈ N0.

Somit ist die Verteilung von X + Y eine negative Binomialverteilung 3.140 mit denParametern r = 2 und p.

Falls die Verteilungen unabhangiger, reellwertiger Zufallsvariablen X und YDichten f , bzw. g bzgl. des Lebesguemaßes besitzen, so ist

P[X + Y ≤ z] = 3.141

∫ ∞

−∞dx

∫ ∞

−∞dy I(−∞,z](x+ y)f(x)g(y)(3.22)

= 3.142

∫ z

−∞du

∫ ∞

−∞dv f(v)g(u− v)

=

∫ z

−∞du (f ∗ g)(u), z ∈ R,

3.131•⋃∞

n=−∞X = n, Y = m−n ist eine disjunkte Zerlegung des Ereignisses X+Y = m.3.132Wegen der σ-Additivitat von P.3.133Da X und Y unabhangig sind.3.134Mit der Substitution l = m − n.3.135Die Faltung ist somit kommutativ, d.h., p ∗ q = q ∗ p.3.136Durch solche Folgen sind z.B. die Verteilungen N0-wertiger Zufallsvariablen bestimmt.3.137Hier ist die in Fußnote 2.38 beschriebene Variante der geometrischen Verteilung gemeint.3.138Vgl. (3.19) und (3.21).3.139Vgl. Fußnote 2.38.3.140Vgl. Abschnitt 2.2.

18. April 2016

Page 60: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

60

wobei

(3.23) (f ∗ g)(u) =∫ ∞

−∞dv f(v)g(u− v) = (g ∗ f)(u), u ∈ R,

die Faltung der Wahrscheinlichkeitsdichten f und g bezeichnet.Aus (3.22) und (3.23) kann geschlossen werden, daß die Summe X + Y zwei-

er unabhangiger, reellwertiger Zufallsvariablen X und Y mit Dichten f , bzw. gebenfalls eine Dichte besitzt, namlich f ∗ g 3.143 3.144 3.145.

Beispiel 3.11. Die Zufallsvariablen X1 und X2 seien unabhangig mit den Vertei-lungen 3.146 N(µi, σ

2i ), i = 1, 2. Dann besitzt X1+X2 die Verteilung N(µ1+µ2, σ

21+

σ22)

3.147.

3.2.5. Gleichheitsbegriffe fur Zufallsvariablen. 3.148 In diesem Abschnittwerden zwei verschiedene Gleichheitsbegriffe fur Zufallsvariablen vorgestellt.

3.141Da die gemeinsame Verteilung von X und Y die Dichte R2 ∋ (x, y) → f(x)·g(y) ∈ [0,∞)hat, vgl. Abschnitt 3.2.2.

3.142Mit der Substitution x = v, y = u − v. An dieser Stelle kann der Transformationssatz

fur hoherdimensionale Integrale angewandt werden. Fur einen Diffeomorphismus φ : Rd → Rd

und eine integrable Funktion h : Rd → R besagt dieses Resultat, daß∫

Rddz h(z) =

Rddw |detDφ(w)|h(φ(w)),

wobei Dφ(·) die Jacobi-Matrix von φ ist.3.143In (3.22) wird die Verteilungsfunktion FX+Y der Zufallsvariable X + Y berechnet. All-

gemein ist die Verteilungsfunktion FZ : R → [0, 1] einer reellwertigen Zufallsvariable Z durchFZ(ζ) = P[Z ≤ ζ] = PZ [(−∞, ζ]], ζ ∈ R, definiert, vgl. Abschnitt 3.3. Durch FZ ist die Vertei-

lung PZ von Z eindeutig bestimmt.3.144Die in (3.20), (3.21) oder (3.23) beschriebenen Faltungen sind Spezialfalle der Faltung

von Wahrscheinlichkeitsmaßen auf R, die durch

(P ∗Q)[A] =

R

P(dx)Q[A − x], A ∈ B(R), P,Q Wahrscheinlichkeitsmaße auf (R,B(R)),

mit A− x = y ∈ R : y = a− x fur ein a ∈ A definiert ist.Allgemein ist die Verteilung PX+Y einer Summe X + Y unabhangiger, reellwertiger Zu-

fallsvariablen X und Y mit den Verteilungen PX , bzw. PY durch deren Faltung gegeben, d.h.,PX+Y = PX ∗PY .

3.145Die Berechnung von Faltungen wie in (3.20), (3.21), (3.23) oder auch im allgemeinen,in Fußnote 3.144 betrachteten Fall kann wesentlich vereinfacht werden, wenn erzeugende bzw.charakteristische Funktionen verwendet werden.

Insbesondere ist die charakteristische Funktion ψZ : R → C einer reellwertigen ZufallsvariableZ durch ψZ(λ) = E[exp(iλZ)], λ ∈ R, definiert. Durch ψZ ist die Verteilung PZ von Z eindeutigbestimmt. Fur unabhangige Zufallsvariablen X und Y gilt außerdem die Faktorisierungseigen-

schaft ψX+Y (λ) = ψX(λ) · ψY (λ), λ ∈ R, vgl. (9.3). Somit brauchen in einem solchen Fall zurIdentifizierung der Verteilung PX+Y von X + Y nur die charakteristischen Funktionen ψX und

ψY multipliziert werden.3.146N(µ, σ2) ist die Normalverteilung mit Erwartungswert µ ∈ R und Varianz σ2 > 0, vgl.

Abschnitt 2.6.3.147Ein Beweis dieser Aussage mit der Berechnung eines Integrals wie in (3.23) findet sich

in [10], Satz 11.9.Wenn allerdings charakteristische Funktionen, vgl. Fußnote 3.145, benutzt werden, wird die

Folgerung dieses Beispiels 3.11”trivial“. Da als Folge von (9.5) und (9.6) eine Zufallsvariable Z mit

PZ = N(µ, σ2) die charakteristische Funktion ψZ (λ) = exp(iλµ − λ2σ2/2), λ ∈ R, besitzt, folgtmit der Unabhangigkeit von X1 und X2 und (9.3) die Beziehung ψX1+X2

(λ) = ψX1(λ)ψX2

(λ) =

exp(iλ(µ1 + µ2)− λ2(σ21 + σ22)/2), λ ∈ R, d.h., PX1+X2= N(µ1 + µ2, σ21 + σ22).

3.148Die Zufallsvariablen Tk, k = 1, 2, . . . , in Beispiel 3.6 sind identisch verteilt, d.h., siebesitzen die gleiche Verteilung und sind daher in einem speziellen Sinn

”gleich“. Andererseits sind

sie zumindest fur p > 0 naturlich unterschiedliche Zufallsvariablen. Nur fur p = 0 gilt Tk = T1 furalle k ∈ N. Somit gibt es verschiedene Moglichkeiten, die Gleichheit zwischen zwei Zufallsvariablenzu definieren.

18. April 2016

Page 61: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

61

Gleichheit in Verteilung. Seien X : (Ω,F,P) → (Ω′,F′) und Y : (Ω1,F1,P1) →(Ω′,F′) Zufallsvariablen 3.149. Wenn X und Y die gleiche Verteilung besitzen,d.h., wenn 3.150 PX = PY , bzw.

PX [A′] = P[X ∈ A′] = 3.151 P1[Y ∈ A′] = PY [A′], A′ ∈ F′,

so bezeichnet man X und Y als gleich in Verteilung oder identisch verteilt.Man schreibt 3.152

XL= Y oder X

d= Y.

Fast-sichere Gleichheit. Seien X,Y : (Ω,F,P) → (Ω′,F′) Zufallsvariablen 3.153.Man bezeichnet X und Y als fast-sicher gleich und schreibt

X = Y, f.s.,

wenn 3.154 3.155

P[X = Y ] = P[ω ∈ Ω : X(ω) = Y (ω)] = 1.

Zwei Zufallsvariablen, die auf dem gleichen Wahrscheinlichkeitsraum defi-niert sind und fast-sicher gleich sind, werden ublicherweise miteinander iden-tifiziert, d.h. als identisch betrachtet.

Bemerkungen 3.12. (i) Wenn X = Y , f.s., so folgt Xd= Y . Wenn umgekehrt

Xd= Y , so braucht X = Y , f.s., nicht zu gelten 3.156.

(ii) Die unterschiedlichen Gleichheitsbegriffe deuten an, daß es auch verschiedeneKonvergenzbegriffe fur Zufallsvariablen gibt 3.157.

3.3. Verteilungsfunktionen reellwertiger Zufallsvariablen

Die Verteilung 3.158 einer ZufallsvariableX : (Ω,F,P) → (R,B(R)) ist eindeutigbestimmt durch die Großen 3.159

PX [A′] = P[X ∈ A′], A′ ⊆ R, A′ Intervall 3.160.

Insbesondere ist es ausreichend, die Einschrankung des WahrscheinlichkeitsmaßesPX auf die Intervalle (−∞, y], y ∈ R, zu betrachten.

3.149Die Definitionsbereiche (Ω,F,P), bzw. (Ω1,F1,P1) der Zufallsvariablen X und Ykonnen verschieden sein. Allerdings besitzen X und Y den gleichen Wertebereich (Ω′,F′).

3.150Die Verteilung PX einer Zufallsvariable X wird in (3.3) definiert.3.151Es ist hier zu beachten, daß die Zufallsvariable Y eine Funktion auf dem Wahrschein-

lichkeitsraum (Ω1,F1,P1) ist.3.152Die Notationen

L= und

d= erinnern an die englischen Bezeichnungen law und distribution

fur Verteilung.3.153Nun sind X und Y auf dem gleichen Wahrscheinlichkeitsraum (Ω,F,P) definiert.3.154Die Menge A = ω ∈ Ω : X(ω) 6= Y (ω) braucht nicht leer zu sein. Allerdings muß

P[A] = 0 sein, wenn X = Y , f.s.3.155Auf eine analoge Weise ist die Bedeutung von Ausdrucken wie X 6= Y , f.s., oder X ≤ Y ,

f.s., definiert.3.156Diese Aussage kann z.B. mit Hilfe der Zufallsvariablen Tk, k = 1, 2, . . . , in Beispiel 3.6

im Fall p > 0 begrundet werden. Wenn X und Y auf verschiedenen Wahrscheinlichkeitsraumendefiniert sind, so macht es sowieso uberhaupt keinen Sinn zu fragen, ob X = Y , f.s.

3.157Beim schwachen Gesetz der großen Zahlen, beim starken Gesetz der großen Zahlen undbeim Zentralen Grenzwertsatz, drei Hauptresultaten der Wahrscheinlichkeitstheorie, werden inder Tat die unterschiedlichen Konvergenzbegriffe der stochastischen Konvergenz, der fast-sicherenKonvergenz, bzw. der Konvergenz in Verteilung verwendet, vgl. Beispiel 1.7 und 1.8 und insbe-sondere Satz 7.1, Bemerkung 7.2 und Satz 9.3. Die genannten drei Konvergenzbegriffe werden inAbschnitt 6.8 gegenubergestellt.

3.158Vgl. (3.3).3.159Vgl. [5], Satz (1.12). Man beachte, daß die Menge der offenen (oder abgeschlossenen

oder . . . ) Intervalle durchschnittsstabil ist.3.160Es reicht, offene, bzw. abgeschlossene, bzw. halboffene Intervalle zu betrachten.

18. April 2016

Page 62: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

62

Dementsprechend fuhrt man zur eindeutigen Charakterisierung der Verteilungeiner (R,B(R))-wertigen Zufallsvariable X deren Verteilungsfunktion FX : R →[0, 1] mit

(3.24) FX(y) = PX [(−∞, y]] = P[X ≤ y], y ∈ R,

ein.

3.3.1. Eigenschaften von Verteilungsfunktionen. Die Verteilungsfunkti-on FX einer reellwertigen Zufallsvariable X zeichnet sich durch die folgenden Ei-genschaften aus:

(i) Es gilt

PX [(a, b]] = 3.161 P[X ∈ (a, b]](3.25)

= 3.162 P[X ≤ b]−P[X ≤ a]

= FX(b)− FX(a), −∞ < a < b <∞.

(ii) FX ist monoton wachsend, d.h., 3.163

(3.26) FX(a) ≤ FX(b), −∞ < a < b <∞.

(iii) Das Verhalten der Funktion FX an den Randern ihres DefinitionsbereichsR wird durch 3.164

(3.27) limy→−∞

FX(y) = 0, limy→∞

FX(y) = 1

beschrieben.(iv) FX ist rechtsstetig, d.h., 3.165

(3.28) limyցy0

FX(y) 3.166 = FX(y0), y0 ∈ R.

(v) FX besitzt linksseitige Grenzwerte, d.h., 3.167

(3.29) limyրy0

FX(y) 3.168 = P[X < y0] =: F−X (y0), y0 ∈ R.

Es gilt:

F−X (y0) ≤ FX(y0), y0 ∈ R,(3.30)

FX(y0)− F−X (y0) = P[X = y0] = PX [y0], y0 ∈ R.

Somit ist FX in y0 ∈ R genau dann stetig, wenn y0 kein Atom 3.169 von PX ist 3.170.

3.161Es werden hier spezielle, halboffene Intervalle betrachtet.3.162Da sich aus der Additivitat von P, vgl. (2.9),

P[X ≤ a] +P[X ∈ (a, b]] = P[X ≤ b]

ergibt.3.163Zur Begrundung beachte man, daß die linke Seite von (3.25) immer ≥ 0 ist.3.164Die Eigenschaften (3.27), (3.28) und (3.29) von Verteilungsfunktionen konnen aus

gewissen Stetigkeitseigenschaften von Wahrscheinlichkeitsmaßen abgeleitet werden, vgl. [5],Satz (1.11)(e).

3.165Vgl. Fußnote 3.164.3.166Mit

”limyցy0 . . .“ wird der Grenzwert bei monoton gegen y0 fallenden y beschrieben.

3.167Vgl. Fußnote 3.164.3.168Mit

”limyրy0 . . .“ wird der Grenzwert bei monoton gegen y0 steigenden y beschrieben.

3.169Der Begriff Atom wird in Bemerkung 2.10(ii) eingefuhrt.3.170M.a.W., FX hat genau in den Atomen von PX Sprungstellen. Die Wahrscheinlichkeit

PX [a] gibt fur ein Atom a von PX die Große des Sprungs von FX an der Stelle a an.

18. April 2016

Page 63: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

63

(vi) Besitzt PX eine stetige Dichte 3.171 f bzgl. des Lebesguemaßes auf R, sofolgt

(3.31) FX(y) = PX [(−∞, y]] =

∫ y

−∞dx f(x), y ∈ R,

d.h., 3.172 f = F ′X . Wenn umgekehrt FX eine stetige Ableitung f besitzt, so hat

FX die Darstellung (3.31) und folglich PX die Dichte f bzgl. des Lebesguema-ßes 3.173 3.174.

3.3.2. Beispiele fur Verteilungsfunktionen. Die Struktur und die Anwen-dungsmoglichkeiten von Verteilungsfunktionen reellwertiger Zufallsvariablen wer-den in diesem Abschnitt 3.3.2 anhand einiger Beispiele erlautert.

Beispiel 3.13. Sei X eine in [a, b] gleichverteilte Zufallsvariable 3.175. PX besitztsomit die Dichte f(y) = (b − a)−1I[a,b](y), y ∈ R. In diesem Fall ist

FX(y) = 3.176 PX

[(−∞, y]

]

= 3.177

∫ y

−∞dz f(z) = 3.178

0, y < a,y − a

b − a, y ∈ [a, b),

1, y ≥ b.

Beispiel 3.14. Sei A eine hochstens abzahlbare Teilmenge von R und seien pa ∈(0, 1], a ∈ A, mit

∑a∈A pa = 1. Sei außerdem X eine A-wertige Zufallsvariable

mit 3.179 3.180

(3.32) P[X = a] = 3.181 PX [a] = 3.182 pa, a ∈ A.

3.171Vgl. Abschnitt 2.6.3.172Nach dem Hauptsatz der Differential- und Integralrechnung.3.173Man beachte, daß f = F ′

X ≥ 0 wegen der Monotonie von FX , vgl. (3.26), und daß∫ ∞

−∞dx f(x) = lim

y→∞

∫ y

−∞dx f(x) = lim

y→∞FX(y) = 1,

vgl. (3.27). Somit ist in der Tat f = F ′X eine Wahrscheinlichkeitsdichte.

3.174Die Verteilungsfunktion FX ist immer stetig, wenn PX eine Dichte bzgl. des Lebesgue-maßes auf R hat. Umgekehrt gibt es allerdings auch Zufallsvariablen X mit einer stetigen Ver-teilungsfunktion FX , deren Verteilung PX weder eine Dichte besitzt noch diskret ist. In solchenFallen ist FX nicht absolutstetig. Allgemein besitzt die Verteilung PX einer reellwertigen Zufalls-variable X genau dann eine Dichte bzgl. des Lebesguemaßes auf R, wenn die VerteilungsfunktionFX absolutstetig ist.

Hierbei heißt eine Funktion h : R → R absolutstetig, wenn fur alle K > 0 zu ε > 0 einδ > 0 existiert, so daß

∑nk=1 |h(dk) − h(ck)| < ε fur jede endliche Menge (ck , dk), k = 1, . . . , n,

disjunkter, offener Intervalle in [−K,K] mit∑n

k=1 |dk − ck| < δ. Der Hauptsatz der Differential-

und Integralrechnung besagt, daß zu jeder absolutstetigen Funktion h : R → R eine Funktion

h′ : R → R mit∫ ba dx |h′(x)| < ∞ und h(b) = h(a) +

∫ ba dx h

′(x), −∞ < a < b < ∞, existiert.Fur weitere Informationen zu absolutstetigen Funktionen sei auf [8], § 18, verwiesen.

Fur eine reellwertige Zufallsvariable X mit absolutstetiger Verteilungsfunktion FX ist somitF ′X die Dichte der Verteilung PX von X bzgl. des Lebesguemaßes.

3.175D.h., PX ist die Gleichverteilung auf [a, b], vgl. Abschnitte 2.4.1 und 2.6.3.176Nach der Definition (3.24) der Verteilungsfunktion FX einer reellwertigen Zufallsvaria-

ble X.3.177Da PX die Dichte f besitzt.3.178Links von a ist FX ≡ 0, wahrend FX ≡ 1 rechts von b. Zwischen a und b steigt FX linear

an.3.179X ist eine diskrete, reellwertige Zufallsvariable. Ihre Verteilung PX ist auf der Menge

A ihrer Atome konzentriert, vgl. Bemerkung 2.10(ii).3.180Man konnte sich hier wie in Abschnitt 3.1.1 die Frage stellen, ob eine derartige Zu-

fallsvariable X uberhaupt existiert. Um diese Frage mit”ja“ beantworten zu konnen, kann man

18. April 2016

Page 64: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

64

Es folgt nun 3.183:

FX(y) = PX

[(−∞, y]

]

= 3.184∑

a∈A∩(−∞,y]

PX [a] =∑

a∈A∩(−∞,y]

pa, y ∈ R.

Beispiel 3.15. Sei zunachst X eine reellwertige Zufallsvariable auf einem Wahr-scheinlichkeitsraum (Ω,F,P). Die Verteilung von X habe eine stetige Dichte ψ.Nun ist Z = X2 eine positive reellwertige Zufallsvariable auf (Ω,F,P) 3.185. Eszeigt sich, daß

FZ(y) = 0, y ≤ 0,

FZ(y) = P[Z ≤ y] = P[X2 ∈ [0, y]

]

= P[X ∈ [−√

y,√y]]=

∫ √y

−√y

dζ ψ(ζ), y > 0.

Insbesondere besitzt auch die Verteilung PZ von Z eine Dichte, namlich ϕ mit

ϕ(y) = 3.186

0, y ≤ 0,

F ′Z(y) =

1

2√y

(ψ(−√

y) + ψ(√y)), y > 0.

Beispiel 3.16 (Dichtetransformation 3.187). Sei X eine reellwertige Zufallsvaria-ble, deren Verteilung eine stetige Dichte ψ hat. Weiterhin sei H : R → R ste-tig differenzierbar und streng monoton steigend mit H ′(x) > 0, x ∈ R, und

beispielsweise durch Modifikation der ersten in Abschnitt 3.1.1 beschriebenen Methode folgender-

maßen eine solche Zufallsvariable konstruieren: Man betrachtet den diskreten Wahrscheinlichkeits-raum (A,Pot(A),P1), wobei P1[A′] =

∑a∈A′ pa, A′ ∈ Pot(A), und definiert X durch X(ω) = ω,

ω ∈ A.3.181Aufgrund der Definition (3.3) der Verteilung PX von X.3.182Dies ist eine Annahme, die in diesem Beispiel gemacht wird.3.183Wenn beispielsweise A = ak : k ∈ N mit −∞ < a1 < a2 < · · · < ∞, kann FX auch in

der Form

FX(y) =

0, y < a1,∑k≤m−1 pak

, y ∈ [am−1, am), m = 2, 3, . . . ,

1, y ≥ supak : k ∈ N,geschrieben werden.

Eine derart ubersichtliche Struktur hat die Verteilungsfunktion FX naturlich nicht fur jedediskrete reellwertige Zufallsvariable X. Wenn z.B. X eine Q-wertige Zufallsvariable ist und wennP[X = q] > 0 fur alle q ∈ Q, liegen die Sprungstellen von FX dicht in R und es gibt kein nichtleeresoffenes Intervall, in dem FX konstant ist.

3.184Vgl. Bemerkung 2.10(i).3.185Die Meßbarkeitsbedingung (3.1) laßt sich fur die reellwertige Funktion Z auf (Ω,F,P)

leicht nachprufen.3.186Vgl. Abschnitt 3.3.1(vi). Die Tatsache, daß F ′

Z(y) fur y = 0 nicht existiert, ist letzt-endlich nicht problematisch, da die Funktion FZ absolutstetig ist und daher dem Hauptsatz der

Differential- und Integralrechnung genugt, vgl. Fußnote 3.174.

Man beachte hier, daß FZ(y) = G(A(y), B(y)), wobei G(a, b) =∫ badζ ψ(ζ), A(y) = −√

y undB(y) =

√y fur a, b ∈ R, a < b und y > 0. Somit ist

F ′Z(y) =

∂aG(a, b)

∣∣∣a=A(y),b=B(y)

A′(y) +∂

∂bG(a, b)

∣∣∣a=A(y),b=B(y)

B′(y)

= − ψ(−√y)

(−1)

2√y

+ ψ(√y)

1

2√y, y > 0.

3.187In diesem Beispiel wird erlautert, wie die Dichte einer Zufallsvariable X transformiertwird, wenn X durch H(X) ersetzt wird, wobei H eine

”glatte“, evtl. nichtlineare Abbildung ist.

18. April 2016

Page 65: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

65

limx→−∞H(x) = −∞, bzw. limx→∞H(x) = ∞. Somit besitzt die Funktion Heine streng monoton steigende und stetig differenzierbare Inverse H−1 : R → Rmit 3.188

(3.33) (H−1)′(x) =1

H ′(H−1(x)), x ∈ R.

Die Verteilungsfunktion FZ der Zufallsvariable 3.189 Z = H(X) hat in diesem Falldie Darstellung

FZ(y) = P[H(X) ≤ y]

= P[X ≤ H−1(y)] =

∫ H−1(y)

−∞dx ψ(x), y ∈ R.

Da

F ′Z(y) = ψ(H−1(y))(H−1)′(y) = 3.190 ψ(H−1(y))

1

H ′(H−1(y)), y ∈ R,

besitzt die Verteilung PZ von Z die Dichte ψH mit 3.191

(3.34) ψH(y) =ψ(H−1(y))

H ′(H−1(y)), y ∈ R.

Fur a > 0 und b ∈ R ist insbesondere 3.192

(3.35) ψH(y) =1

(y − b

a

), y ∈ R,

die Dichte der Zufallsvariable H(X) = aX + b.

Die in Abschnitt 3.3.1 aufgefuhrten Eigenschaften einer Verteilungsfunktionlassen sich in den in den Beispielen 3.13 - 3.16 vorgestellten Fallen leicht nach-prufen. Insbesondere ist in Beispiel 3.14 die Verteilungsfunktion FX rechtsstetigund besitzt linksseitige Grenzwerte, ist aber nicht stetig 3.193. Hingegen sind dieVerteilungsfunktionen FX und FZ in den Beispielen 3.13, 3.15 und 3.16 stetig.

3.3.3. Simulation einer Folge von i.i.d. Zufallsvariablen mit einer

Dichte. 3.194 Es sei mit Hilfe eines Computers eine Folge X1, X2, . . . von un-abhangigen, reellwertigen Zufallsvariablen, die die Verteilung µ = PX1 = PX2 =. . . besitzen, zu simulieren. Hierbei sei angenommen, daß µ eine Dichte f > 0

3.188Wenn die Identitat H(H−1(x)) = x, x ∈ R, auf beiden Seiten differenziert wird, folgtH′(H−1(x))(H−1)′(x) = 1, x ∈ R, woraus (3.33) geschlossen werden kann.

3.189Wenn X : (Ω,F,P) → (Ω′,F′) eine Zufallsvariable und ϕ : (Ω′,F′) → (Ω′′,F′′) meßbarist, so ist auch ϕ X = ϕ(X) : (Ω,F,P) → (Ω′′,F′′) eine Zufallsvariable.

3.190Wegen (3.33).3.191Vgl. Abschnitt 3.3.1(vi). Wenn nur |H′(x)| 6= 0, x ∈ R, verlangt wird, ergibt sich

ψH (y) =ψ(H−1(y))

|H′(H−1(y))| , y ∈ R,

als Dichte der Verteilung der Zufallsvariable Z = H(X).3.192Nun ist H(x) = ax+ b, x ∈ R, bzw. H−1(y) = (y − b)/a, y ∈ R.3.193In jedem a ∈ A besitzt FX einen Sprung der Große pa.3.194Zufallsvariablen X1, X2, . . . , die alle die gleiche Verteilung besitzen, werden als identisch

verteilt bezeichnet. Wenn solche Zufallsvariablen auch unabhangig sind, wird die Notation i.i.d.

benutzt, vgl. die Ausfuhrungen nach (3.8). Wahrend die Simulation von diskreten i.i.d. Zufallsva-riablen in Beispiel 3.4 diskutiert wird, sollen nun die zu simulierenden Zufallsvariablen eine Dichtebzgl. des Lebesguemaßes auf R besitzen, vgl. Abschnitt 2.6.

18. April 2016

Page 66: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

66

besitzt. Damit ist die Verteilungsfunktion 3.195 3.196 Fµ : R → (0, 1) von µ stetigund streng monoton steigend. Als Konsequenz besitzt Fµ eine stetige und strengmonoton steigende Umkehrfunktion F−1

µ : (0, 1) → R.Seien nun U1, U2, . . . unabhangige, (0, 1)-wertige, gleichverteilte

3.197 Zufallsva-riablen. Dann sind F−1

µ (U1), F−1µ (U2), . . . unabhangige, identisch verteilte Zufalls-

variablen. Da

P[F−1µ (Uk) ≤ y] = 3.198 P[Uk ≤ Fµ(y)](3.36)

= 3.199

∫ Fµ(y)

0

dx = Fµ(y), y ∈ R, k = 1, 2, . . . ,

besitzen diese Zufallsvariablen die Verteilungsfunktion Fµ und somit die Verteilungµ 3.200 3.201 3.202.

Wie in Beispiel 3.4 sei jetzt x1, x2, . . . eine durch einen Computer erzeugte

”unabhangige Folge in [0, 1] gleichverteilter“ Pseudozufallszahlen. Die Uberlegungenin (3.36) deuten an, daß durch die transformierten Zufallszahlen F−1

µ (x1), F−1µ (x2),

. . . unabhangige Zufallsvariablen mit der Verteilung µ simuliert werden konnen.Die vorgestellte Simulationsmethode wird aufgrund der Verwendung der Inver-

sen der Verteilungsfunktion als Inversionsmethode bezeichnet 3.203.

3.195Die Verteilungsfunktion Fµ eines Wahrscheinlichkeitsmaßes µ ist analog zur Vertei-

lungsfunktion einer Zufallsvariable zu definieren, d.h., Fµ(x) = µ[(−∞, x]], x ∈ R. Insbesondereist unter der Verteilungsfunktion Fµ eines Wahrscheinlichkeitsmaßes µ die Verteilungsfunktion

einer Zufallsvariable X mit der Verteilung PX = µ zu verstehen.3.196Da f(y) > 0, y ∈ R, ist 0 <

∫ x−∞ dy f(y) = Fµ(x) < 1, x ∈ R, vgl. Abschnitt 3.3.1(vi).

Die Werte 1 und 0 werden durch Fµ asymptotisch bei x → ±∞ angenommen, vgl. Abschnitt

3.3.1(iii).3.197Die Zufallsvariablen U1, U2, . . . sind somit i.i.d. und in (0, 1) gleichverteilt.3.198Da Fµ streng monoton steigend ist.3.199Vgl. Abschnitt 3.3.1(vi). Hier wird benutzt, daß die Gleichverteilung auf (0, 1) die Dichte

I(0,1)(.) hat.3.200Da die Verteilung einer reellwertigen Zufallsvariablen durch ihre Verteilungsfunktion

eindeutig bestimmt ist.3.201Die bisher in diesem Abschnitt 3.3.3 prasentierten Uberlegungen zeigen, wie eine i.i.d.

Folge von Zufallsvariablen mit einer vorgegebenen, strikt positiven Dichte mit Hilfe einer i.i.d.Folge von in (0, 1) gleichverteilten Zufallsvariablen konstruiert werden kann.

3.202(3.36) zeigt, daß die Zufallsvariablen F−1µ (Uk), k = 1, 2, . . . , die Verteilung µ und daher

die Dichte f haben. Dieses Resultat kann auch mit Hilfe von Beispiel 3.16 begrundet werden.Allerdings ist diese Begrundung nur formal, da die in Beispiel 3.16 angegebenen Voraussetzungennicht alle erfullt sind.

Zu dieser Begrundung von (3.36) sei H = F−1µ und U eine in (0, 1) gleichverteilte Zufallsva-

riable. U hat somit die Dichte ψ = I(0,1). Da nun H−1 = Fµ und

H′(x) = (F−1µ )′(x) =

1

(Fµ)′(F−1µ (x))

(vgl. (3.33))

=1

f(F−1µ (x))

, x ∈ (0, 1), (da (Fµ)′ = f)

fuhren (3.34), F−1µ (Fµ(y)) = y, y ∈ R, und Fµ(.) ∈ (0, 1) zu

ψH (y) =ψ(H−1(y))

H′(H−1(y))=

I(0,1)(Fµ(y))

(F−1µ )′(Fµ(y))

= f(F−1µ (Fµ(y))) = f(y), y ∈ R,

d.h., H(U) = F−1µ (U) hat die Dichte f .

3.203Eine Diskussion dieser und anderer Verfahren zur Simulation von Zufallsvariablen findetsich in [7], Abschnitt 10.2. Dort wird insbesondere auch eine allgemeinere Form der Inversions-methode betrachtet, mit welcher die Simulation von reellwertigen Zufallsvariablen mit beliebigerVerteilung moglich ist. Die in Beispiel 3.4 vorgestellte Methode zur Simulation diskreter, N-wertigerZufallsvariablen ist ubrigens auch eine Variante jener allgemeinen Inversionsmethode.

18. April 2016

Page 67: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

67

3.3.4. Quantile reellwertiger Zufallsvariablen. 3.204 SeiX eine (R,B(R))-wertige Zufallsvariable 3.205 und α ∈ (0, 1). Ein qα ∈ R mit 3.206

(3.37) P[X ≤ qα]︸ ︷︷ ︸= FX(qα)

≥ α und P[X ≥ qα] ≥ 1− α

wird als α-Quantil von X bezeichnet 3.207. Ein 1/2-Quantil wird auch Median ge-nannt.

Ein α-Quantil qα einer ZufallsvariableX ist dadurch gekennzeichnet, daßX mitmindestens der Wahrscheinlichkeit α (1−α) einen Wert ≤ qα (≥ qα) annimmt 3.208.

Quantile sind i. allg. nicht eindeutig. Wenn z.B. P[X ≤ a] = α′ und P[X ∈(a, b]] = 0 fur −∞ < a < b <∞, so sind alle q ∈ [a, b] offensichtlich α′-Quantile vonX . Andererseits, wenn die Verteilungsfunktion FX von X streng monoton wachsendist 3.209, so sind alle Quantile eindeutig bestimmt.

Beispiel 3.17. Sei X eine exponentiell mit Parameter λ > 0 verteilte Zufallsva-riable 3.210, d.h.,

FX(y) =

0, y ≤ 0,

λ

∫ y

0

dx exp(−λx) = 1− exp(−λy), y > 0.

Da FX stetig ist und in [0,∞) streng monoton von 0 nach 1 anwachst, ist fur jedesα ∈ (0, 1) das α-Quantil qα von X eindeutig bestimmt und erfullt α = FX(qα) =1− exp(−λqα), d.h.,

qα = − 1

λlog(1 − α) =

1

λlog( 1

1− α

), α ∈ (0, 1).

Beispiel 3.18. Sei X eine reellwertige Zufallsvariable und α ∈ (0, 1). Dann ist 3.211

(3.38) qα := infy ∈ R : P[X ≤ y] = FX(y) ≥ α

3.204Quantile werden in der Statistik, insbesondere auch zur Bestimmung von Konfidenzin-

tervallen benotigt, vgl. z.B. Beispiel 4.7.3.205Wie haufig in der Wahrscheinlichkeitstheorie findet der Wahrscheinlichkeitsraum (Ω,F,

P), auf dem eine Zufallsvariable X definiert ist, keine Beachtung.3.206Wenn die Verteilung PX einer ZufallsvariableX in einem α-Quantil qα ein Atom besitzt,

so ist P[X ≤ qα] > α oder P[X ≥ qα] > 1− α.3.207Auf eine analoge Weise definiert man α-Quantile von Wahrscheinlichkeitsmaßen.3.208Ein Median wird von X mit mindestens der Wahrscheinlichkeit 1/2 unter-, bzw. uber-

schritten. Daher kann ein Median von X auch als”eine Art mittlerer Wert von X“ betrachtet

werden.3.209Dies ist z.B. der Fall, wenn X eine strikt positive Dichte hat. In diesem Fall ist FX auch

stetig und in (3.37) gilt FX(qα) = P[X ≤ qα] = α und P[X ≥ qα] = 1− α fur alle α ∈ (0, 1).3.210Vgl. Abschnitt 2.6.3.211Wenn die Rechtsstetigkeit von FX berucksichtigt wird, wird deutlich, daß qα die kleinste

Stelle ist, an der FX den Wert α erreicht oder uberschreitet, d.h., es gilt FX(qα) ≥ α undFX(y) < α fur alle y < qα, vgl. Fußnote 3.212.

18. April 2016

Page 68: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

68

das kleinste α-Quantil von X 3.212 3.213.

Beispiel 3.19 (∗) (Quantile einer diskreten Gleichverteilung 3.214). Fur L ∈ Zund M ∈ N sei PL,M die Gleichverteilung auf L,L + 1, . . . , L + M 3.215. ZurBestimmung der α-Quantile von PL,M reicht es, den Fall L = 0 zu behandeln,denn qα ist genau dann ein α-Quantil von P0,M auf 0, 1, . . . ,M, wenn qα +L einα-Quantil von PL,M auf L,L+ 1, . . . , L+M ist 3.216.

Zunachst ist

(3.39) P0,M

[(−∞, x]

]=

0, x < 0,

k/(M + 1), x ∈ [k − 1, k), k = 1, 2, . . . ,M,

1, x ≥M,

und

(3.40) P0,M

[[x,∞)

]=

1, x ≤ 0,

(M+1−k)/(M+1), x ∈ (k − 1, k], k = 1, 2, . . . ,M,

0, x > M.

Bei der Bestimmung der α-Quantile qα, α ∈ (0, 1), von P0,M muß im folgendenunterschieden werden, ob α ein Vielfaches von 1/(M + 1) ist oder nicht.

(a) Sei α = m/(M + 1) fur ein m = 1, . . . ,M . In dieser Situation gilt

(3.41a) P0,M

[(−∞, q]

]≥ α ⇐⇒ 3.217 q ≥ m− 1

und

(3.41b) P0,M

[[q,∞)

]≥ 1− α =

M + 1−m

M + 1⇐⇒ 3.218 q ≤ m.

3.212Zur Begrundung betrachte man zunachst y1 > y2 > · · · > qα mit limn→∞ yn = qα.Dann gilt:

P[X ≤ qα]︸ ︷︷ ︸= FX(qα)

(∗1)

= limn→∞

FX(yn)︸ ︷︷ ︸= P[X ≤ yn] ≥ α

(da FX rechtsstetig ist, vgl. Abschnitt 3.3.1(iv))

(da yn>qα und weil FX monoton steigend ist, vgl. Abschnitt 3.3.1(ii))

≥ α.

Nun sei y1 < y2 < · · · < qα mit limn→∞ yn = qα. Es ergibt sich zuerst

P[X < qα] = F−X (qα) = lim

n→∞P[X ≤ yn]︸ ︷︷ ︸< α (da yn < qα und wegen (3.38))

(vgl. Abschnitt 3.3.1(v))

≤ α

und anschließend

(∗2) P[X ≥ qα] = 1−P[X < qα] ≥ 1− α.

Wegen (∗1) und (∗2) ist (3.37) fur qα erfullt, d.h., qα ist in der Tat ein α-Quantil. Aufgrund von(3.38) ist es jetzt offensichtlich, daß qα das kleinste α-Quantil ist.

3.213Da limy→−∞ FX(y) = 0, bzw. limy→∞ FX(y) = 1, vgl. Abschnitt 3.3.1(iii), ist fur alleα ∈ (0, 1) durch (3.38) ein qα wohldefiniert. Damit ist insbesondere fur alle α ∈ (0, 1) die Existenz

eines α-Quantils bewiesen.3.214In einer anderen Formulierung sind die Quantile einer Zufallsvariablen, die auf einer

endlichen Menge aquidistanter Punkte in R gleichverteilt ist, zu berechnen.3.215Vgl. Abschnitt 2.2. Jeder der M + 1 Punkte in L,L + 1, . . . , L+M hat unter PL,M

die gleiche Wahrscheinlichkeit 1/(M + 1).3.216Im folgenden wird P0,M als ein Wahrscheinlichkeitsmaß auf R betrachtet, vgl. Bemer-

kung 2.10(i)

18. April 2016

Page 69: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

69

Als Konsequenz von (3.41) zeigt sich, daß fur α = m/(M + 1) jedes q ∈ [m− 1,m]ein α-Quantil von P0,M ist 3.219.

(b) Sei 3.220 α(M + 1) /∈ 1, . . . ,M und seien 3.221 m′ = ⌈α(M + 1)⌉, bzw.α′ = m′/(M + 1). In diesem Fall ist

P0,M

[(−∞, q]

]≥ α ⇐⇒ 3.222 P0,M

[(−∞, q]

]≥ α′ ⇐⇒ 3.223 q ≥ m′ − 1

und

P0,M

[[q,∞)

]≥ 1− α

⇐⇒ 3.224 P0,M

[[q,∞)

]≥ ⌈(1− α)(M + 1)⌉

M + 1= 3.225 M + 2−m′

M + 1

⇐⇒ 3.226 q ≤ m′ − 1.

Nun kann gefolgert werden, daß das α-Quantil eindeutig bestimmt und durch 3.227

m′ − 1 = ⌈α(M + 1)⌉ − 1 = ⌊α(M + 1)⌋ gegeben ist.

3.4. Stochastische Prozesse

Mit stochastischen oder zufalligen Prozessen konnen zeitliche Entwicklungen

modelliert werden, die”vom Zufall beeinflußt sind“.

Sei (Ω,F,P) ein Wahrscheinlichkeitsraum, (Ω′,F′) ein meßbarer Raum und 3.228

T ⊆ R eine Menge von Zeitpunkten. Fur alle t ∈ T sei Xt : (Ω,F, P) → (Ω′,F′)eine Zufallsvariable. Ein stochastischer Prozeß X = (Xt)t∈T ergibt sich, wenn dieFamilie Xt : t ∈ T dieser Zufallsvariablen zu einem Objekt zusammengefaßt wird.

Der gemeinsame Wertebereich (Ω′,F′) der ZufallsvariablenXt, t ∈ T, wird auchals Zustandsraum von X bezeichnet. Unter der Verteilung eines stochastischen Pro-

zesses X = (Xt)t∈T versteht man die gemeinsame Verteilung der ZufallsvariablenXt : t ∈ T 3.229.

Beispiel 3.20 (Bernoulli-Prozeß 3.230). Zu p ∈ [0, 1] seien Yn, n ∈ N, unabhangige,−1, 1-wertige Zufallsvariablen mit

(3.42) P[Yn = 1] = p = 1−P[Yn = −1], n ∈ N.

Der stochastische Prozeß Y = (Yn)n∈N wird als Bernoulli-Prozeß (mit Parameter

p) bezeichnet. Mit einem derartigen Prozeß kann z.B. der zeitliche Verlauf eines

3.217Wegen (3.39).3.218Wegen (3.40).3.219Vgl. die Definition der Quantile in (3.37).3.220α hat nicht die Gestalt α = m/(M + 1) fur ein m = 1, . . . ,M .3.221⌈x⌉ = infn ∈ Z : n ≥ x, x ∈ R. Fur x ∈ R ist ⌈x⌉ die kleinste ganze Zahl, die ≥ x ist.3.222Da P0,M [ . ] nur Werte der Form k/(M + 1), k = 0, 1, . . . ,M + 1, annehmen kann, gilt

fur ein A ∈ B(R) und y ∈ [0, 1] genau dann P0,M [A] ≥ y, wenn P0,M [A] ≥ ⌈y(M + 1)⌉/(M + 1).

Hierbei ist zu beachten, daß ⌈y(M + 1)⌉/(M + 1) die kleinste Zahl der Form k/(M + 1), k =0, 1, . . . ,M + 1, ist, welche großer oder gleich y ist.

3.223Aufgrund der Uberlegungen in (3.41a).3.224Vgl. Fußnote 3.222.3.225Da α(M + 1) /∈ 1, . . . ,M, gilt

⌈(1 − α)(M + 1)⌉M + 1

=⌈M + 1− α(M + 1)⌉

M + 1=M + 1− ⌈α(M + 1)⌉ + 1

M + 1=M + 2−m′

M + 1.

3.226Aufgrund der Uberlegungen in (3.41b).3.227⌊x⌋ = supn ∈ Z : n ≤ x, x ∈ R. Fur x ∈ R ist ⌊x⌋ die großte ganze Zahl, die ≤ x ist.3.228In den konkreten Beispielen dieser Vorlesung ist ublicherweise T = N oder N0 oder Z.3.229Die gemeinsame Verteilung einer Familie von Zufallsvariablen ist durch Terme wie in

(3.7) charakterisiert.3.230Dieser spezielle Typ eines stochastischen Prozesses wurde bereits in Fußnote 3.26

angesprochen.

18. April 2016

Page 70: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

70

beliebig oft unabhangig wiederholten Munzwurfs mit Erfolgswahrscheinlichkeit pmodelliert werden 3.231. Die Verteilung von Y wird durch die Großen 3.232

P[Yk1 = ηk1 , . . . , Ykn= ηkn

] = 3.233n∏

l=1

P[Ykl= ηkl

](3.43)

= 3.234n∏

l=1

p(1+ηkl)/2(1 − p)(1−ηkl

)/2

= 3.235 p∑

nl=1(1+ηkl

)/2(1 − p)∑

nl=1(1−ηkl

)/2,

k1, . . . , kn∈N, 1≤k1<. . .<kn, ηk1 , . . . , ηkn∈−1, 1, n∈N,

charakterisiert 3.236.

Beispiel 3.21 (Irrfahrt). Sei Y = (Yn)n∈N der Bernoulli-Prozeß zum Parameterp ∈ [0, 1] aus Beispiel 3.20. Weiterhin sei

(3.44) Xk =

0, k = 0,

Xk−1 + Yk =∑k

l=1 Yl, k = 1, 2, . . . .

Der stochastische Prozeß X = (Xk)k∈N0 wird als Irrfahrt (auf Z) bezeichnet. Furp = 1/2 ergibt sich die symmetrische Irrfahrt.

Auf eine anschauliche Weise laßt sich die Irrfahrt X folgendermaßen beschrei-ben:

• X startet zum Zeitpunkt 0 im Ursprung 0.• Zu jedem spateren Zeitpunkt k = 1, 2, . . . springt X mit Wahrscheinlich-keit p nach rechts, bzw. mit Wahrscheinlichkeit 1− p nach links 3.237.

• Zwischen zwei aufeinanderfolgenden Zeitpunkten in N0 bewegt sich X

nicht.

Fur p ∈ (0, 1) kann die Irrfahrt als ein einfaches Modell fur ein”eindimensiona-

les diffundierendes Teilchen“ betrachtet werden. In den Fallen p 6= 1/2 hat diesesTeilchen eine

”Drift“.

3.4.1. Stationare stochastische Prozesse. 3.238 Sei (Ω,F,P) ein Wahr-scheinlichkeitsraum und (Ω′,F′) ein meßbarer Raum. Weiterhin seiXn : (Ω,F,P) →(Ω′,F′), n ∈ N0, eine Familie von Zufallsvariablen. Der stochastische Prozeß X =(Xn)n∈N0 heißt stationar, wenn fur alle m ∈ N und alle k1, . . . , km ∈ N0 mit

3.231Vgl. hierzu Abschnitt 2.4.2. Im hier beschriebenen Modellierungsansatz kann −1 mit

”Mißerfolg“ und 1 mit

”Erfolg“ identifiziert werden.

3.232(3.43) ergibt sich aus (2.16), wenn berucksichtigt wird, daß −1, 1 der Wertebereichder Zufallsvariablen Yn, n ∈ N, ist.

3.233Da die Zufallsvariablen Yn, n ∈ N, unabhangig sind.3.234Man beachte, daß (1 + η)/2 = 1 und (1− η)/2 = 0, falls η = 1, bzw. (1 + η)/2 = 0 und

(1− η)/2 = 1, falls η = −1.3.235∑n

l=1(1+ηkl)/2 ist die Anzahl der l’s mit ηkl

= 1, d.h. die Anzahl der Erfolge;∑n

l=1(1−ηkl

)/2 ist die Anzahl der l’s mit ηkl= −1, d.h. die Anzahl der Mißerfolge.

3.236Allgemein wird ein (Ω′,F′)-wertiger stochastischer Prozeß ζ = (ζt)t∈T als Bernoulli-

Prozeß bezeichnet, wenn die Zufallsvariablen ζt, t ∈ T, i.i.d. sind.3.237Im Zeitpunkt n ∈ N0 beschreibt die Bernoulli-verteilte Zufallsvariable Yn+1, wie die

unmittelbar folgende Bewegung von X verlauft.3.238Stationare stochastische Prozesse bilden eine spezielle Klasse stochastischer Prozesse.

Andere solcher Klassen sind Markovprozesse, Diffusionsprozesse, Martingale, . . . . Markovprozes-se in diskreter Zeit mit diskretem Zustandsraum werden in den Abschnitten 8.2 und 8.3 etwasausfuhrlicher behandelt.

18. April 2016

Page 71: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

71

0 ≤ k1 < · · · < km < ∞ die gemeinsame Verteilung von Xk+k1 , . . . , Xk+kmun-

abhangig von k ∈ N0 ist 3.239, d.h., wenn

P[Xk+k1 ∈ A′

k1, . . . , Xk+km

∈ A′km

]= P

[Xk1 ∈ A′

k1, . . . , Xkm

∈ A′km

],(3.45)

0 ≤ k1 < · · · < km <∞, A′k1, . . . , A′

km∈ F′, m ∈ N, k ∈ N0.

Ein stochastischer Prozeß ist somit stationar, wenn sein”Verhalten in einem end-

lichen Zeitintervall“ 3.240 nicht von der genauen Lage dieses Zeitintervalls auf derZeitachse abhangt.

Beispiel 3.22. Der in Beispiel 3.20 vorgestellte Bernoulli-Prozess Y = (Yn)n∈N

mit Parameter p ∈ [0, 1] ist stationar. In der Tat sind die Großen

P[Yk+k1 = ηk1 , . . . , Yk+km

= ηkm

]

= 3.241 p∑

mr=1(1+ηkr )/2(1− p)

∑mr=1(1−ηkr )/2,

1 ≤ k1 < · · · < km <∞, ηk1 , . . . , ηkm∈ −1, 1, m ∈ N, k ∈ N0,

welche die endlich-dimensionalen Verteilungen von Y charakterisieren, von k un-abhangig.

Beispiel 3.23. Die in Beispiel 3.21 beschriebene Irrfahrt X = (Xn)n∈N0 ist nichtstationar, da z.B.

P[X0 = 0] = 1 6= 0 = P[X1 = 0]

gilt.

Beispiel 3.24. An einem festen aquatornahen Ort werde an jedem Tag k =1, 2, . . . zur Mittagszeit die Temperatur und die Luftfeuchtigkeit gemessen. In ei-nem vernunftigen Modell der Meßreihe scheint die Verwendung eines stationarenProzesses Y = (Yn)n∈N sinnvoll zu sein 3.242.

3.5. Wahrscheinlichkeitsraume und Zufallsvariablen in der

Modellbildung

3.243 In Anwendungen der Wahrscheinlichkeitstheorie bei der Bildung von Mo-dellen fur vom Zufall beeinflußte Phanomene dient typischerweise ein allgemeiner

Wahrscheinlichkeitsraum (Ω,F,P) als ein”Zufallsgenerator“, wahrend Zufallsvaria-

blen, die auf (Ω,F,P) definiert sind, Messungen oder Beobachtungen mit zufalligemAusgang modellieren. (Ω,F,P) muß so

”groß“ sein, daß alle benotigten Zufallsvaria-

blen mit den von ihnen erwarteten Eigenschaften konstruiert werden konnen. Insbe-sondere muß die gemeinsame Verteilung dieser Zufallsvariablen 3.244 den Wunschenund Vorstellungen des modellbildenden Mathematikers gerecht werden.

Beim Entwurf eines mathematischen Modells fur einen physikalischen odertechnischen Vorgang ist nur die realistische

”Nachbildung“ der moglichen Beob-

achtungsergebnisse wesentlich. Dies bedeutet, daß der zugrundeliegende allgemeine

3.239Auf die gleiche Weise lassen sich naturlich auch stationare stochastische Prozesse wie(Xn)n∈N, (Xn)n∈Z oder (Xn)n∈Zd mit N, Z oder Zd, wobei d = 2, 3, . . . , als Indexmenge

charakterisieren.3.240Dies ist (3.45) entsprechend in einem speziellen wahrscheinlichkeitstheoretischen Sinn

gemeint. Insbesondere wird die”zeitliche Invarianz des Verhaltens des Prozesses“ mit Hilfe des

Begriffs der Verteilung von Zufallsvariablen formuliert.3.241Vgl. (3.43).3.242Der in Beispiel 3.6 betrachtete Prozeß T = (Tk)k∈N, der die Tips eines eine spezielle

Strategie anwendenden Lotto-Spielers beschreibt, ist auch ein Beispiel eines stationaren Prozesses.3.243In diesem Abschnitt 3.5 sind einige Bemerkungen uber allgemeine Prinzipien zur Struktur

mathematischer Modelle, die auf der Wahrscheinlichkeitstheorie aufbauen, zu finden.3.244Vgl. (3.7). Durch ihre gemeinsame Verteilung werden die

”Abhangigkeiten“ zwischen

verschiedenen Zufallsvariablen Xλ, λ ∈ Λ, ausgedruckt.

18. April 2016

Page 72: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

72

Wahrscheinlichkeitsraum (Ω,F,P) in den Hintergrund tritt, d.h. sein detaillierterAufbau irrelevant bleibt, solange nur die fur die Modellbildung benutzten Zufalls-variablen die richtige Verteilung besitzen 3.245.

Beispiel 3.25. Zur Modellierung des N -fachen, unabhangigen Wurfs einer fairenMunze konnte anstelle des in Beispiel 2.7 vorgestellten Wahrscheinlichkeitsraums(Ω,F,P) mit

Ω = 0, 1N , F = Pot(Ω), P[ω] = 2−N , ω ∈ Ω,

ebenso (Ω, F, P) mit

Ω = 0, 1, . . . , 2N − 1, F = Pot(Ω), P[ω] = 2−N , ω ∈ Ω, 3.246

benutzt werden. Nun sind z.B. die 0, 1-wertigen Zufallsvariablen Xi, i = 1, . . . , N ,mit 3.247 3.248

Xi(ω) =

⌊ω

2i−1

⌋mod 2, ω ∈ Ω, i = 1, . . . , N,

unabhangig 3.249 mit der Verteilung

PXi[0] = P[Xi = 0] =

1

2= P[Xi = 1] = PXi

[1], i = 1, . . . , N,

d.h., fur i = 1, . . . , N modelliert Xi das Ergebnis des i-ten Wurfs der Munze.

Bei Anwendungen der Wahrscheinlichkeitstheorie treten spezielle Wahrschein-lichkeitsraume meistens dann in Erscheinung, wenn letztendlich die Verteilungen

von Zufallsvariablen untersucht werden sollen 3.250. Wenn diese beispielsweise nurendlich viele Werte annehmen konnen und wenn außerdem diese Werte alle diegleiche Wahrscheinlichkeit besitzen 3.251, kann man mit den Laplaceschen Wahr-

scheinlichkeitsraumen 3.252 arbeiten 3.253 3.254.

3.245Diese Tatsache außert sich u.a. durch die ubliche Verwendung der Phrase”Sei (Ω,F,P)

ein Wahrscheinlichkeitsraum . . .“ am Anfang vieler mathematischer Beitrage zur wahrscheinlich-keitstheoretischen Modellbildung. Auf die genaue Struktur von (Ω,F,P) wird dann in keiner Weiseeingegangen.

3.246Fur beliebige A ∈ F folgt P[A] = |A|2−N aus der σ-Additivitat von Wahrscheinlichkeits-maßen, vgl. (2.2b).

3.247⌊x⌋ = supn ∈ Z : n ≤ x, x ∈ R.3.248Schreibt man ω ∈ Ω in der Dualdarstellung ω =

∑N−1k=0 ωk2

k mit ωk ∈ 0, 1 furk = 0, 1, . . . , N − 1, folgt

ω

2i−1=

N−1∑

k=0

ωk2k−i+1, d.h.,

⌊ω

2i−1

⌋=

N−1∑

k=i−1

ωk2k−i+1.

Fur i = 1, . . . , N ist damit Xi(ω) = ⌊ω/2i−1⌋ mod 2 = ωi−1 die i-te Stelle in der Entwicklung

von ω im Dualsystem.3.249D.h., man kann (3.8) nachweisen.3.250Fur eine Zufallsvariable X : (Ω,F,P) → (Ω′,F′) ist die Verteilung PX ein Wahrschein-

lichkeitsmaß auf dem meßbaren Raum (Ω′,F′), vgl. Abschnitt 3.1 und insbesondere Fußnote 3.20.Damit ist (Ω′,F′,PX) ein Wahrscheinlichkeitsraum.

3.251Man denke z.B. an den Wurf einer fairen Munze oder eines fairen Wurfels.3.252Vgl. Abschnitt 2.2.3.253Insbesondere in der Statistik wird mit speziellen Wahrscheinlichkeitsraumen gearbeitet.

In klassischen Anwendungen ist dann

• Ω = M , wobei M hochstens abzahlbar ist, und F = Pot(M), bzw.• Ω ∈ B(Rn) fur ein n ∈ N und F = B(Ω) = A ∩Ω : A ∈ B(Rn).

In (Ω,F) ist weiterhin eine FamiliePλ, λ ∈ Λ, von Wahrscheinlichkeitsmaßen, die geeignet sind, einzu untersuchendes zufallsbeeinflußtes Phanomen zu charakterisieren, gegeben. Mit der Struktur(Ω,F, (Pλ)λ∈Λ) liegt ein statistisches Modell vor, vgl. Abschnitte 1.1.4 und 4.1. Ziel statistischerUberlegungen konnte nun die Identifizierung eines

”wahren“ Wahrscheinlichkeitsmaßes Pλw

sein.3.254Gelegentlich wird in der Wahrscheinlichkeitstheorie eine spezielle Wahl eines Wahr-

scheinlichkeitsraums auch durch dessen Brauchbarkeit fur die notwendigen mathematischen

18. April 2016

Page 73: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

73

Uberlegungen oder die Beweise der Resultate bestimmt. Es ist dann zu prufen, ob die Zufalls-variablen, mit denen gearbeitet werden muß, auf diesem Wahrscheinlichkeitsraums auch wirklichkonstruiert werden konnen.

18. April 2016

Page 74: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik
Page 75: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

KAPITEL 4

Schatztheorie

4.1 Bei vielen zufallsbeeinflußten Phanomenen im menschlichen Umfeld 4.2 wirdaufgrund von logischen Uberlegungen schnell deutlich, daß ein gewisser Typ wahr-

scheinlichkeitstheoretischer Modelle, z.B. eine besondere Klasse von Zufallsvariablenoder stochastischen Prozessen, zu einer mathematischen Beschreibung, d.h. Model-lierung, jenes Phanomens in Frage kommt. Allerdings ist oft der genaue Wert ge-wisser Parameter, die innerhalb der Klasse von moglichen Modellen das am bestengeeignete charakterisieren, unklar.

Beispiel 4.1. Eine Reihe gleichartiger Produktionsstucke, die unabhangig vonein-ander mit einer Wahrscheinlichkeit p ∈ (0, 1) defekt sind, wird solange gepruft,bis zu einem Zeitpunkt n ∈ N das erste fehlerhafte Produktionsstuck beobachtetwird 4.3. Ausgehend von dem beobachteten Zeitpunkt n ist die Fehlerwahrschein-lichkeit p zu bestimmen, d.h. zu schatzen.

Aufgrund der Analogie zum ∞-fachen, unabhangigen Munzwurf mit Erfolgs-wahrscheinlichkeit p ∈ (0, 1) 4.4 ist die Annahme, daß die zufallige Große n durcheine geometrisch mit Parameter p verteilte Zufallsvariable modelliert werden kann,naheliegend.

Das ursprungliche Problem kann nun folgendermaßen umformuliert werden:Eine geometrisch mit Parameter p ∈ (0, 1) verteilte Zufallsvariable X ist zu beob-achten. Basierend auf dieser Beobachtung 4.5 ist anschließend p zu schatzen.

Die Statistik stellt”vernunftige“ Methoden zur Losung solcher Schatzprobleme

zur Verfugung, z.B. dasMaximum-Likelihood-Prinzip 4.6 oder die Methode der Kon-

fidenzbereiche 4.7. Diese und andere Methoden der Statistik werden in einem spezi-ellen Arbeitsumfeld, einem statistischen Modell benutzt.

4.1. Statistische Modelle

Wenn ein Statistiker mathematische Schlusse aus vorliegenden Daten 4.8 zieht,arbeitet er ublicherweise im Rahmen eines statistischen Modells 4.9. Ein derartigesstatistisches Modell ist ein Tripel (X,G, (Pλ)λ∈Λ), wobei (X,G) ein meßbarer Raumund (Pλ)λ∈Λ eine Familie von Wahrscheinlichkeitsmaßen auf (X,G) ist. Fur Λ ⊆ Rd,d = 1, 2, . . . , liegt ein parametrisches Modell vor 4.10. In dieser Vorlesung wirdspeziell mit zwei Standardmodellen gearbeitet, d.h. mit

4.1Dieses Kapitel ist ein Abstecher in die mathematische Statistik. Als Vorbereitung konnendie Abschnitte 1.1.4 und 1.1.5 betrachtet werden.

4.2Es konnte ein technischer Vorgang, ein Phanomen in der Natur oder auch in derWirtschafts- oder Arbeitswelt sein.

4.3Es sei angenommen, daß zu jedem Zeitpunkt genau ein Produktionsstuck untersucht wird.4.4Vgl. Beispiel 3.3.4.5Insbesondere werden keine weiteren Informationen eingeholt.4.6Vgl. Beispiel 1.9 und Abschnitt 4.2.4.7Vgl. Beispiel 1.10 und Abschnitt 4.3.4.8Diese Daten konnen beispielsweise Meßwerte oder Umfrageergebnisse sein.4.9Ein einfaches statistisches Modell wurde in Abschnitt 1.1.4 vorgestellt.4.10Fur d = 1 ergeben sich eindimensionale oder einparametrige Modelle.

75

Page 76: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

76

• diskreten Modellen, wenn X diskret und G = Pot(X) ist, bzw. mit• kontinuierlichen Modellen, wenn X eine Borelsche Teilmenge eines Rn undG = B(X) ist und alle Wahrscheinlichkeitsmaße Pλ, λ ∈ Λ, eine Dichtebzgl. des Lebesguemaßes auf X besitzen.

Entscheidungsverfahren eines Statistikers, der mit einem statistischen Modell(X,G, (Pλ)λ∈Λ) arbeitet, werden durch Statistiken beschrieben. Hierbei wird alsStatistik jede meßbare Funktion S : (X,G) → (Σ, S) mit einem geeigneten meßbarenRaum (Σ, S) bezeichnet.

Der Aufbau von wahrscheinlichkeitstheoretischen und statistischen Modellen,weiterhin deren Interpretation und dann die Arbeit mit ihnen kann nun folgender-maßen zusammengefaßt werden:

Wahrscheinlichkeitstheoretische Modelle. Als ein”Zufallsmechanismus im Hinter-

grund“ dient ein Wahrscheinlichkeitsraum (Ω,F,P) 4.11. Durch Zufallsvaria-blen X auf (Ω,F,P) werden zufallige, gemaß PX verteilte Beobachtungswer-te modelliert. Bei der Untersuchung eines solchen wahrscheinlichkeitstheo-retischen Modells versucht ein Wahrscheinlichkeitstheoretiker Eigenschaftenverschiedener gegebener Zufallsvariablen und Zusammenhange zwischen die-sen zu ermitteln.

Statistische Modelle. Eine Menge X beschreibt die moglichen Beobachtungswerte,bzw. Ausgange eines

”Experiments“ und eine σ-Algebra G in X die Menge der

Ereignisse, die mit diesen Beobachtungswerten verbunden sind 4.12. I. allg.gibt es viele mogliche Wahrscheinlichkeitsmaße Pλ, λ ∈ Λ, auf (X,G), diezunachst zur Beschreibung der Verteilung der Beobachtungswerte in Fragekommen 4.13. Auf Beobachtungsdaten basierende Schlusse, z.B. Schatzungenfur den

”wahren“ Parameter λw ∈ Λ, werden durch Statistiken auf (X,G) re-

prasentiert. Beim Entwurf seiner Statistiken, d.h. seiner Entscheidungssche-mata, nutzt ein Statistiker aus, daß

”unter verschiedenen Pλ’s die moglichen

Beobachtungswerte unterschiedlich haufig“ 4.14 auftreten 4.15.

4.2. Maximum-Likelihood-Schatzer

Sei zunachst (X,G, (Pλ)λ∈Λ) ein diskretes statistisches Modell. Als Schatzer λfur den

”wahren“ Parameter λw ∈ Λ ist das nach einer Beobachtung

”plausibelste“

λ eine sinnvolle Wahl. Insbesondere wird fur x ∈ X ein λ ∈ Λ als Maximum-

Likelihood-Schatzer (zum Beobachtungswert x) bezeichnet, wenn

(4.1) Pλ[x] = supλ∈Λ

Pλ[x]

gilt 4.16. Die in (4.1) zu maximierende Funktion Λ ∋ λ → Pλ[x] =: Lx(λ) wirdLikelihood-Funktion (zum Beobachtungswert x) genannt.

4.11Vgl. Abschnitt 3.5 zur Wahl von (Ω,F,P). Im Prinzip konnte (Ω,F,P) so groß sein, daßhiermit

”aller Zufall dieser Welt“ reprasentiert wird.

4.12Auf den Beobachtungswerten, bzw. den zugehorigen Ereignissen sollte ein Statistiker seineEntscheidungen, d.h., seine Schatzungen, Vorhersagen, . . . aufbauen.

4.13Durch logische Uberlegungen mit wahrscheinlichkeitstheoretischen Methoden kann evtl.gefolgert werden, daß die Pλ, λ ∈ Λ, zu einer speziellen Klasse von Wahrscheinlichkeitsmaßen,z.B. Normalverteilungen, geometrischen Verteilungen, . . . gehoren.

4.14D.h. mit unterschiedlichen Wahrscheinlichkeiten.4.15Beim Maximum-Likelihood-Schatzer, vgl. Abschnitt 4.2, wird z.B. das

”wahre“ λw durch

ein λ geschatzt, das sich unter allen λ ∈ Λ dadurch auszeichnet, daß unter dem zugehorigenWahrscheinlichkeitsmaß P

λder vorliegende Beobachtungswert

”am wahrscheinlichsten“ ist.

4.16λ zeichnet sich dadurch aus, daß unter Pλ

der Beobachtungswert x maximale Wahr-

scheinlichkeit hat.

18. April 2016

Page 77: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

77

Beispiel 4.2. Die Anzahl der Anfragen an einer Telefonhotline innerhalb einesTages besitze eine Poissonverteilung P (λ) mit einem Parameter λ > 0 4.17. Aus derAnzahl k der eingegangenen Anrufe ist λ zu schatzen. Hierbei empfiehlt es sich, mitdem statistischen Modell (N0,Pot(N0), (P (λ))λ>0) zu arbeiten.

Es sei k > 0 angenommen 4.18. Die zu maximierende Likelihood-Funktion 4.19

ist (0,∞) ∋ λ → λk exp(−λ)/k! = Lk(λ). Offensichtlich wird Lk in λ genau dannmaximal, wenn die Funktion (0,∞) ∋ λ→ logLk(λ) = k logλ− λ− log k! =: ℓk(λ)dort maximal wird. Da 4.20

ℓ′k(λ) =k

λ− 1 = 0 ⇐⇒ λ = k,

ℓ′′k(λ) = − k

λ2< 0, λ > 0,

und

limλց0

ℓk(λ) = limλր∞

ℓk(λ) = −∞,

ist λ = k ein globales Maximum der Likelihood-Funktion Lk, d.h., λ = k ist derMaximum-Likelihood-Schatzer fur λ.

Wie in Beispiel 4.2 ist es zur Bestimmung eines Maximum-Likelihood-Schatzershaufig zweckmaßig, anstelle der Likelihood-Funktion Lx( . ) mit der Log-Likelihood-Funktion ℓx( . ) = logLx( . ) (zum Beobachtungswert x) zu arbeiten 4.21. Fur allex ∈ X werden beide Funktionen fur die gleichen Parameter maximal.

Sei nun (X,G, (Pλ)λ∈Λ) ein kontinuierliches statistisches Modell 4.22. Somit istX ∈ B(Rn) fur ein n = 1, 2, . . . . Außerdem besitzt Pλ fur alle λ ∈ Λ eine Dichteρλ bzgl. des Lebesguemaßes auf X 4.23. In diesem Fall ist ein Maximum-Likelihood-

Schatzer λ zum Beobachtungswert x ∈ X als Losung von

(4.2) ρλ(x) = supλ∈Λ

ρλ(x)

definiert. Analog zum diskreten Fall bezeichnet man nun fur x ∈ X die Funktion Λ ∋λ→ ρλ(x) =: Lx(λ) als Likelihood-Funktion (zum Beobachtungswert x). Weiterhinist ℓx( . ) = logLx( . ) die Log-Likelihood-Funktion (zum Beobachtungswert x).

Beispiel 4.3. Die Zufallsvariablen X1, . . . , Xn seien unabhangig und exponentiellmit Parameter λ > 0 verteilt 4.24. Ausgehend von einer Beobachtung (x1, . . . , xn) ∈[0,∞)n dieser Zufallsvariablen ist λ zu schatzen.

Als statistisches Modell kann man (X,G, (Pλ)λ>0) wahlen, wobei X = [0,∞)n,G = B([0,∞)n) und Pλ das Wahrscheinlichkeitsmaß auf ([0,∞)n,B([0,∞)n)) mit

4.17Aufgrund von Uberlegungen wie sie in Abschnitt 2.7.1 vorgestellt werden ist diese Annah-me gerechtfertigt, falls angenommen werden kann, daß die Telefonanrufe unabhangig voneinandersind und gleichmaßig uber den Tag verteilt eingehen.

4.18Aus wirtschaftlichen Grunden wird eine Telefonhotline, bei der es moglich ist, daßwahrend eines ganzen Tages niemand anruft, nicht existieren.

4.19Zum Beobachtungswert k.4.20Eine ahnliche Argumentation ist in Beispiel 1.9, vgl. insbesondere Fußnote 1.73, bei der

Bestimmung eines anderen Maximum-Likelihood-Schatzers zu finden.4.21In vielen Fallen ist Lx( . ) ein Produkt relativ komplizierter Funktionen, wahrend ℓx( . )

eine Summe einfacherer Terme ist.4.22Vgl. Abschnitt 4.1. Bisher wurden in diesem Abschnitt 4.2 nur diskrete statistische Mo-

delle betrachtet.4.23D.h., Pλ[A] =

∫A dx ρλ(x), A ∈ B(Rn), A ⊆ X.

4.24Die Zufallsvariablen X1, . . . ,Xn konnten bei einer Modellierung unabhangiger Wartezei-ten auftauchen, vgl. Abschnitt 2.6 und insbesondere Fußnote 2.123, bzw. Beispiel 8.3.

18. April 2016

Page 78: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

78

der Dichte [0,∞)n ∋ (y1, . . . , yn) →∏n

k=1(λ exp(−λyk)) = λn exp(−λ(y1+· · ·+yn))ist 4.25.

Die Likelihood-Funktion zum Beobachtungswert (x1, . . . , xn) ∈ [0,∞)n ist da-her (0,∞) ∋ λ → λn exp(−λ(x1 + · · · + xn)). Fur die Log-Likelihood-Funktion(0,∞) ∋ λ→ n logλ− λ(x1 + · · ·+ xn) = ℓx1,...,xn

(λ) gilt nun 4.26:

ℓ′x1,...,xn(λ) =

n

λ− (x1 + · · ·+ xn) = 0 ⇐⇒ λ =

n

x1 + · · ·+ xn,

ℓ′′x1,...,xn(λ) = − n

λ2< 0, λ ∈ (0,∞),

limλց0

ℓx1,...,xn(λ) = lim

λ→∞ℓx1,...,xn

(λ) = −∞.

Somit ist λ = n/(x1 + · · ·+ xn) der gesuchte Maximum-Likelihood-Schatzer fur λ.

Beispiel 4.4 (Regressionsgerade). Es sei angenommen, daß der Ausgabewert yeiner Meßapparatur linear abhangig von der Eingabe x und zusatzlich durch einenadditiven Rauschterm gestort ist 4.27. Um das System quantitativ genau zu cha-rakterisieren 4.28, wird fur n Eingaben x1, . . . , xn, von denen zumindest zwei ver-schieden sein sollen 4.29, der zugehorige Ausgabewert y1, . . . , yn gemessen. Wennder jeweilige Wert des Rauschens durch z1, . . . , zn beschrieben wird, ist somit 4.30

(4.3) yk = α+ βxk + zk, k = 1, . . . , n.

Anschließend sind die Systemparameter α, β ∈ R zu schatzen 4.31.Im folgenden sei angenommen, daß fur ein festes σ2 > 0 die Rauschterme zk,

k = 1, . . . , n, Realisierungen 4.32 von unabhangigen, N(0, σ2)-verteilten Zufallsva-riablen Zk, k = 1, . . . , n, sind 4.33 4.34. In diesem Fall sind die Ausgabewerte yk, k =1, . . . , n, Realisierungen der Zufallsvariablen 4.35 Yk = α+ βxk + Zk, k = 1, . . . , n.Insbesondere besitzt fur k = 1, . . . , n die Zufallsvariable Yk bzgl. des Lebesgue-maßes auf R die Dichte 4.36 fk : R → [0,∞) mit fk(y) = (2πσ2)−1/2 exp(−(y −

4.25Nach Abschnitt 3.2.2 ist die Dichte der gemeinsamen Verteilung von unabhangigen Zu-fallsvariablen mit einer Dichte bzgl. des Lebesguemaßes das Produkt der jeweiligen Dichten.

4.26Da exponentiell verteilte Zufallsvariablen f.s. strikt positiv sind, kann x1 + · · ·+ xn > 0angenommen werden.

4.27Unter Rauschen versteht man eine zufallige Große Z, die symmetrisch um 0 verteilt istund somit keinen systematischen Anteil mehr enthalt. Mathematisch praziser charakterisierenkann man Z als eine Zufallsvariable mit Erwartungswert E[Z] = 0. Eine kurze Beschreibung desErwartungswerts einer Zufallsvariable findet sich in Beispiel 1.5. Detailliert wird dieser Begriff inden Abschnitten 6.1 bis 6.3 eingefuhrt.

4.28D.h. zur Schatzung der Koeffizienten, die die lineare Abhangigkeit bestimmen. Damit sindα und β in (4.3) gemeint.

4.29Durch diese Forderung wird letztendlich sichergestellt, daß (4.7) eine eindeutige Losung

(α, β) hat. Hierzu beachte man insbesondere auch Fußnote 4.43.4.30In (4.3) konnte xk beispielsweise auch die Menge des auf einer landwirtschaftlich genutz-

ten Flache Ak verteilten Dungers und yk der Ernteertrag sein. zk kann eine Schwankung des Ern-teertrags reprasentieren, der auf unvorhersehbare Witterungs- oder Bodeneinflusse zuruckzufuhrenist. Damit die Ergebnisse vergleichbar sind, sollten die Großen |Ak|, k = 1, . . . , n, der verschiedenenFlachen alle gleich groß sein.

4.31Nur wenn die Rauschterme z1, . . . , zn verschwinden und die angenommene Linearitat desSystems genau der Realitat entspricht, konnen α und β exakt berechnet werden.

4.32Vgl. Fußnote 1.64.4.33Es stellt sich heraus, vgl. (4.6), daß der genaue Wert von σ2 die Schatzung von α und β

nicht beeinflußt. Daher wird hier auch nicht versucht, ein unbekanntes σ2 zu schatzen.4.34Die Annahme, daß das Rauschen normalverteilt ist, kann in vielen Anwendungen mit dem

Zentralen Grenzwertsatz, vgl. Abschnitt 9.3, begrundet werden.4.35α, β und xk, k = 1, . . . , n, sind nicht zufallig. Allerdings sind α und β unbekannt.4.36Zur Bestimmung der Dichte von Yk = α + βxk + Zk kann zuruckgegriffen werden auf

(3.35), wobei a = 1, b = α+ βxk und X = Zk zu wahlen ist.

18. April 2016

Page 79: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

79

α − βxk)2/2σ2), y ∈ R, und somit die Verteilung N(α + βxk, σ

2). Aus der Un-abhangigkeit der Zk, k = 1, . . . , n, folgt die Unabhangigkeit der ZufallsvariablenYk, k = 1, . . . , n. Daher besitzt deren gemeinsame Verteilung die Dichte 4.37

fα,β(y) = fα,β(y1, . . . , yn) =

n∏

k=1

fk(yk)(4.4)

=n∏

k=1

1√2πσ2

exp

(− (yk − α− βxk)

2

2σ2

)

=1

(2πσ2)n/2exp

(− 1

2σ2

n∑

k=1

(yk−α−βxk)2), y=(y1, . . . , yn)∈Rn,

bzgl. des Lebesguemaßes auf Rn. fα,β ist die Dichte der n-dimensionalen Normal-verteilung 4.38 N(µα,β ,σ

2) mit dem Erwartungswert µα,β = (α+βx1, . . . , α+βxn)und der Kovarianzmatrix σ

2 = (σ2δk,l)k,l=1,...,n.

Somit kann als Basis der sich anschließenden Uberlegungen das kontinuierlichestatistische Modell (Rn,B(Rn), (N(µα,β ,σ

2))α,β∈R) betrachtet werden.Aus (4.4) ergibt sich zum Beobachtungswert y = (y1, . . . , yn) ∈ Rn die Log-

Likelihood-Funktion 4.39

(4.5) ℓy(α, β) = − 1

2σ2

n∑

k=1

(yk − α− βxk)2 − n

2log(2πσ2), α, β ∈ R.

Zur Bestimmung eines Maximum-Likelihood-Schatzers 4.40 (α, β) fur (α, β) ist alsKonsequenz aus (4.5) das lineare Gleichungssystem

σ2 ∂

∂αℓy(α, β) =

n∑

k=1

(yk − α− βxk) = 0,(4.6)

σ2 ∂

∂βℓy(α, β) =

n∑

k=1

xk(yk − α− βxk) = 0

zu losen. Wenn fur v, w ∈ Rn die Bezeichnungen 4.41 M(v) = (1/n)∑n

k=1 vk undM(v, w) = (1/n)

∑nk=1 vkwk eingefuhrt werden, fuhrt (4.6) zu 4.42

M(y)− α− βM(x) = 0,(4.7)

M(x, y)− αM(x) − βM(x, x) = 0.

4.37Vgl. Beispiel 3.8.4.38Die Notation N(ν,A) fur ν ∈ Rn und eine symmetrische, positiv-semidefinite n×n-Matrix

A wird in Fußnote 3.117 erlautert.4.39Da ℓy(α, β) = log fα,β(y), α, β ∈ R, y = (y1, . . . , yn) ∈ Rn.4.40Es ist zu beachten, daß der zu schatzende Parameter (α, β) in diesem Beispiel 4.4 in R2

variiert. Daher wird in (4.6) mit partiellen Ableitungen gearbeitet.4.41M(v) ist der Mittelwert der Komponenten v1, . . . , vn von v.4.42Wenn die beiden jeweils rechten Gleichungen in (4.6) durch n dividiert und anschließend

die Summationen ausgefuhrt werden, folgt (4.7).

18. April 2016

Page 80: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

80

Da 4.43 M(x, x) −M(x)2 > 0 hat (4.7) eine eindeutige Losung (α, β) mit 4.44

(4.8) α =M(x, x)M(y)−M(x, y)M(x)

M(x, x)−M(x)2, β =

M(x, y)−M(x)M(y)

M(x, x)−M(x)2.

Weil der Graph der in (4.5) angegebenen quadratischen Log-Likelihood-Funktion ℓyein

”nach unten geoffnetes“ Paraboloid ist, zeigen die zu (4.8) fuhrenden Uberlegun-

gen, daß an der Stelle (α, β) ein eindeutig bestimmtes Maximum von ℓy vorliegt.

Somit ist (α, β) in der Tat ein Maximum-Likelihood-Schatzer fur (α, β).

Die Gerade R ∋ x → y = α + βx nennt man Regressionsgerade 4.45. β wirdauch als empirischer Regressionskoeffizient bezeichnet. Dieser Koeffizient gibt an,ob und wie stark die Ausgabewerte y

”typischerweise“ ansteigen oder abnehmen,

wenn die Eingabewerte x erhoht werden 4.46.

In dem nachsten Beispiel wird sich der Maximum-Likelihood-Schatzer als un-befriedigend herausstellen. Allerdings bieten sich sinnvolle Alternativen an.

Beispiel 4.5 (Taxiproblem). In einer Stadt gebe es N Taxis mit den vom Straßen-rand aus lesbaren Nummern 1, . . . , N . Ein Passant stehe eine gewisse Zeit lang aneiner viel befahrenen Straße und notiere sich die Nummern x1, . . . , xk der vorbei-fahrenden Taxis. Es sei angenommen, daß 4.47 x1 < · · · < xk und daß der Passantein mehrmals vorbeifahrendes Taxi nur einmal zahlt. Unter der Annahme, daß imBeobachtungszeitraum alle Taxis in Betrieb und gleichmaßig in der ganzen Stadteingesetzt sind, ist die Anzahl N aller Taxis der Stadt zu schatzen.

4.43Man kann zeigen, daß

(∗) M(x, x)−M(x)2 =1

n

n∑

k=1

x2k −(

1

n

n∑

k=1

xk

)2

=1

n

n∑

k=1

(xk −M(x))2.

Wenn mindestens zwei der xi, i = 1, . . . , n, verschieden sind, was in diesem Beispiel 4.4 vorausge-setzt wird, ist (xk −M(x))2 > 0 fur zumindest ein k = 1, . . . , n. Somit ist M(x, x)−M(x)2 > 0.

Aufgrund von (∗) kann M(x, x) − M(x)2 als empirische Varianz der Sequenz x1, . . . , xnder Eingabedaten betrachtet werden. Die entsprechende Varianz Var(X) = E[(X − E[X])2] =E[X2]− E[X]2 einer Zufallsvariable X wird in (6.20) eingefuhrt.

4.44(4.8) ergibt sich z.B. durch Anwendung der Cramerschen Regel. Alternativ kann einfachdurch Einsetzen verifiziert werden, daß durch (4.8) die Losung von (4.7) gegeben ist.

4.45Diese Regressionsgerade ergibt sich offensichtlich auch, wenn mit der Methode der klein-

sten Quadrate die”Meßpunkte“ (xk, yk), k = 1, . . . , n, durch eine Gerade approximiert werden.

In diesem Fall ist (α, β) ∈ R2 so zu bestimmen, daß Q(α, β) =∑n

k=1(yk − α − βxk)2 minimiert

wird. Die quadratische Funktion Q besitzt ein eindeutig bestimmtes Minimum, das aufgrund von−Q(α, β)/(2σ2) = ℓy(α, β) + n log(2πσ2)/2, α, β ∈ R, ebenfalls als die eindeutige Losung (4.8)

von (4.6) bestimmt ist.4.46Da der Nenner M(x, x) −M(x)2 > 0 ist, vgl. Fußnote 4.43, wird das Vorzeichen von β

durch den Zahler M(x, y) −M(x)M(y) bestimmt. Weil

M(x, y) −M(x)M(y) =1

n

n∑

k=1

xkyk −(

1

n

n∑

k=1

xk

)(1

n

n∑

l=1

yl

)(∗)

=1

n

n∑

k=1

(xk −M(x))(yk −M(y)),

besitzen die Fluktuationen xk −M(x) der Eingabe und die Fluktuationen yk −M(y) der Aus-gabe um den jeweiligen Mittelwert M(x), bzw. M(y)

”typischerweise“ genau dann das gleiche

Vorzeichen, wenn β > 0 ist.Aufgrund von (∗) kann man M(x, y) −M(x)M(y) auch als empirische Kovarianz der Da-

tensequenzen x1, . . . , xn und y1, . . . , yn bezeichnen. Die entsprechende Kovarianz Cov(X,Y) =E[(X−E[X])(Y −E[Y ])] = E[XY ]−E[X]E[Y ] von zwei Zufallsvariablen X und Y wird in (6.23)eingefuhrt.

4.47Die Nummern der vorbeifahrenden Taxis werden in aufsteigender Reihenfolge notiert.

18. April 2016

Page 81: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

81

Als statistisches Modell kann 4.48 (Xk,Gk, (Pk;N )N∈N, N≥k) mit

Xk = Menge der k-elementigen Teilmengen von N 4.49,

Gk = Pot(Xk),

Pk;N = Gleichverteilung auf der Menge der k-elementigen

Teilmengen von 1, . . . , N, N ∈ N, N ≥ k 4.50,

gewahlt werden. Dieser Ansatz fuhrt zur Likelihood-Funktion

L(k;x1,...,xk)(N) = Pk;N [(x1, . . . , xk)] =

4.51(Nk

)−1, falls xk ≤ N,

4.52 0, falls xk > N,

zur Beobachtung von k Taxis mit den Nummern x1 < x2 < · · · < xk. Da fur jedes

xk die Funktion xk, xk + 1, . . . ∋ N →(Nk

)−1monoton fallt, ist 4.53

S1 = xk

der Maximum-Likelihood-Schatzer fur die Gesamtzahl N der Taxis.Der Maximum-Likelihood-Schatzer S1 ist in der vorliegenden Situation unbe-

friedigend, da offensichtlich immer S1 ≤ N gilt, d.h., die wahre Anzahl aller Taxiswird systematisch unterschatzt. Mit heuristischen Argumenten konnen jedoch zweiweitere, evtl. 4.54 plausiblere Schatzer vorgeschlagen werden.

• Aus”Symmetriegrunden“ sollte 4.55 x1 − 1 ≈ N − xk gelten. Als Schatzer

fur N ergibt sich dann:

S2 = xk + x1 − 1.

• Es ware auch sinnvoll, den Ansatz 4.56

N − xk ≈ 1

k

k∑

r=1

(xr − xr−1 − 1) =1

k(xk − k),

zu wahlen. Diese Uberlegung fuhrt nun zu 4.57

S3 = xk +xk − k

k

als Schatzer fur N 4.58.

4.48Die Anzahl k der beobachteten Taxis wird nicht als eine Beobachtungsgroße, die zu denstatistischen Schlußfolgerungen herangezogen wird, betrachtet. Nach dem Ende der Beobachtun-gen steht k fest und wird dann vor dem eigentlichen Beginn der statistischen Uberlegungen als eine

bekannte deterministische, d.h. nicht als zufallig oder unbekannt zu behandelnde Zahl festgehalten.4.49Beachte, daß Xk abzahlbar ist.4.50Hier geht die Annahme ein, daß alle Taxis gleichmaßig im Stadtgebiet im Einsatz sind.4.51In der Menge 1, . . . , N existieren

(Nk

)Teilmengen mit k Elementen. Alle diese Teilmen-

gen sind gleichwahrscheinlich.4.52Offensichtlich kann die Anzahl N aller Taxis nicht kleiner als die großte beobachtete

Nummer xk sein.4.53Der Maximum-Likelihood-Schatzer fur die Gesamtzahl aller Taxis ist somit die großte

der beobachteten Nummern.4.54Dies ist naturlich Ansichtssache.4.55Die Lucke bis zur kleinsten beobachteten Nummer x1, bzw. die Lucke nach der großten

beobachteten Nummer xk sollten in etwa gleich sein. Diese Vermutung sollte zumindest”im Mittel

bei vielen Beobachtungsreihen“ gelten.4.56In der Summe ist x0 = 0 zu setzen. Die Große der Lucke nach der großten beobachteten

Nummer xk wird nun durch die”mittlere Große aller anderen Lucken“ geschatzt. Auch diese

Vermutung sollte”im Mittel bei vielen Beobachtungsreihen“ gelten.

4.57In der Praxis kann S3 durch die am nachsten an xk + (xk − k)/k liegende ganze Zahl S′3

ersetzt werden.4.58Die drei Schatzer S1, S2 und S3 fur die Gesamtzahl N der Taxis besitzen unterschiedliche

Eigenschaften, vgl. [10], Abschnitte 4.2 - 4.4. Zunachst kann nachgewiesen werden, daß S2 und

18. April 2016

Page 82: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

82

4.3. Konfidenzbereiche

Ein Schatzwert λ eines Parameters λ gibt nur einen ersten Anhaltspunkt fur den

”wahren“ Wert λw . Eine Prazisierung ergibt sich mit der Angabe eines moglichst

kleinen Bereichs Λ ⊆ Λ, innerhalb dessen λw mit einer”hinreichend großen Sicher-

heit“ erwartet werden kann 4.59.Sei (X,G, (Pλ)λ∈Λ) ein statistisches Modell und α ∈ (0, 1). Eine Abbildung

X ∋ x→ C(x) ⊆ Λ heißt Konfidenzbereich zum Irrtumsniveau α, wenn 4.60

(4.9) supλ∈Λ

Pλ[x ∈ X : C(x) 6∋ λ] ≤ α.

Die Bedingung (4.9) bedeutet, daß unabhangig vom real vorliegenden Wert vonλ die unter Pλ bestimmte Wahrscheinlichkeit fur das Ereignis, daß die Menge 4.61

C( . ) jenes λ nicht enthalt 4.62, hochstens gleich α ist. Wenn (4.9) zutrifft, kannman sagen:

”Mit einer Sicherheit 4.63 von mindestens (1−α) ·100% liegt (der wahre

Parameter) λw in C( . )“.

Beispiel 4.6. Falls C(x) = Λ, x ∈ X, folgt x ∈ X : C(x) 6∋ λ = ∅, d.h.,(4.9) gilt fur alle α ∈ (0, 1). Zu einem Erkenntnisgewinn fuhrt diese Wahl einesKonfidenzbereichs allerdings nicht. Man sollte daher C( . ) immer

”moglichst klein“

wahlen 4.64.

S3 erwartungstreue Schatzer sind, d.h., fur i = 2, 3 gilt:

(∗) Ek;N [Si] :=∞∑

l=k

l ·Pk;N [Si = l] = N, N ∈ N, N ≥ k.

Andererseits ist S1 nicht erwartungstreu, d.h., S1 erfullt (∗) nicht.”Im Mittel“ wird daher durch

die Schatzer S2 und S3 der wahre Wert von N gefunden. Hingegen wird durch S1 ”im Mittel“ ein

falscher Wert geschatzt.Beim Vergleich von S2 und S3 zeigt sich, daß der mittlere quadratische Fehler fur S3 kleiner

als fur S2 ist, d.h.,

Ek;N

[(S3 −N)2

]=

∞∑

l=k

(l −N)2 ·Pk;N [S3 = l] < Ek;N

[(S2 −N)2

], N ∈ N, N ≥ k.

Der Schatzer S3 schwankt daher”im quadratischen Mittel“ weniger als S2 um den wahren Wert

von N .Zusammenfassend ist also der Schatzer S3 gegenuber den beiden anderen Schatzern zu be-

vorzugen.Erwartungstreue und die Große des mittleren quadratischen Fehlers sind spezielle Kriterien,

mit denen die Qualitaten verschiedener Schatzer verglichen werden konnen. Auf diese Begriffewird in den Abschnitten 6.6 und 6.6.1 eingegangen werden.

4.59Da die Angabe von Λ mit einem”Sicherheitsniveau“ verbunden wird, liegt eine vertrau-

enswurdige Aussage vor. Die englische Bezeichnung fur Vertrauen ist confidence.4.60Die Meßbarkeit von x ∈ X : C(x) 6∋ λ, d.h. die Zugehorigkeit zu G sei stillschweigend

vorausgesetzt.4.61Der Bereich C(x) hangt vom Beobachtungswert x ab, ist also zufallig.4.62D.h., daß ein Irrtum geschieht.4.63Die Verwendung von

”Wahrscheinlichkeit“ anstelle von

”Sicherheit“ ware irrefuhrend, da

λ nicht zufallig, sondern fest, aber unbekannt ist.4.64Mit

”moglichst klein“ konnen unterschiedliche Bedeutungen verbunden sein, je nachdem

welche Prioritaten bei der Suche nach dem wahren λw gesetzt werden. Man konnte einerseitsan einer

”objektiven“ Bestimmung von λw interessiert sein. Andererseits sind z.B. Situationen

vorstellbar, in denen ein Uberschatzen, bzw. ein Unterschatzen von λw weitestgehend vermiedenwerden sollte. Auf diese Problematik wird in Beispiel 4.7 eingegangen

18. April 2016

Page 83: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

83

Beispiel 4.7. Eine exponentiell mit einem zu schatzenden Parameter λ > 0 ver-teilte Zufallsvariable 4.65 X werde beobachtet. Anschließend sei zu α ∈ (0, 1) einKonfidenzbereich zum Irrtumsniveau α zu bestimmen 4.66.

Als statistisches Modell kann ((0,∞),B((0,∞)), (Pλ)λ>0) gewahlt werden, wo-bei Pλ die Exponentialverteilung zum Parameter λ ist.

Beim Entwurf eines Konfidenzbereichs soll zunachst gefordert werden, daßgroße Parameter λ nicht ubersehen werden sollten 4.67. Somit sollte ein Konfidenz-

intervall der Gestalt X = (0,∞) ∋ x → [k(x),∞) = C(x) mit einer geeignetenFunktion k : (0,∞) → (0,∞) bestimmt werden.

Sei qα(λ) das α-Quantil von Pλ, d.h.4.68,

qα(λ) = infy ∈ (0,∞) : Pλ[[0, y]] ≥ α

(4.10)

= − 1

λlog(1− α), α ∈ (0, 1), λ ∈ (0,∞).

Fur festes α ∈ (0, 1) ist die Funktion qα : (0,∞) → (0,∞) stetig und streng monotonfallend und hat somit eine stetige und streng monoton fallende Umkehrfunktionκα : (0,∞) → (0,∞) mit

κα(q) = infλ ∈ (0,∞) : qα(λ) ≤ q

(4.11)

= − 1

qlog(1− α), α ∈ (0, 1), q ∈ (0,∞).

Zu einer Beobachtung 4.69 x ∈ (0,∞) und dem Irrtumsniveau α ∈ (0, 1) sei nunCα(x) = [κα(x),∞). Aus (4.10) und (4.11) folgt

λ ∈ Cα(x) ⇐⇒ λ ≥ κα(x) ⇐⇒ qα(λ) ≤ x, α∈(0, 1), λ∈(0,∞),

bzw.

λ 6∈ Cα(x) ⇐⇒ λ < κα(x) ⇐⇒ qα(λ) > x, α∈(0, 1), λ∈(0,∞).(4.12)

Daher gilt

Pλ[x ∈ (0,∞) : Cα(x) 6∋ λ] = 4.70 Pλ[x ∈ (0,∞) : x < qα(λ)]= 4.71 Pλ[x ∈ (0,∞) : x ≤ qα(λ)]= 4.72 α, α ∈ (0, 1), λ ∈ (0,∞),

d.h., fur α ∈ (0, 1) ist durch [0,∞) ∋ x → Cα(x) = [κα(x),∞) ein Konfidenzinter-vall zum Irrtumsniveau α gegeben.

Wenn der Parameter λ zuverlassig sowohl nach oben als auch nach unten abge-grenzt werden soll, ist es naheliegend, Konfidenzintervalle der Gestalt X = (0,∞) ∋x → [k(x), k(x)] = C′(x) mit geeigneten Funktionen k, k : (0,∞) → (0,∞) zu su-chen. Als Konfidenzintervall zum Irrtumsniveau α kann in diesem Fall beispielsweise

C′α(x) = [κα/2(x), κ1−(α/2)(x)], x ∈ (0,∞),

4.65Vgl. Abschnitt 2.6. X konnte beispielsweise eine Wartezeit modellieren. Der mathema-tische Hintergrund solcher Anwendungen, d.h. die Gedachtnislosigkeit der Exponentialverteilung,wird in Beispiel 8.3 erklart.

4.66Die Bestimmung eines Maximum-Likelihood-Schatzers fur λ wird in Beispiel 4.3 disku-tiert.

4.67Insbesondere sollte, falls ein großes λ zutrifft, dieses auch im Konfidenzbereich enthalten

sein. Kleine λ’s durfen mit einer Fehlerquote von hochstens α · 100% unerkannt bleiben.4.68Vgl. Beispiele 3.17 und 3.18. Im vorliegenden Fall ist fur alle α ∈ (0, 1) und alle λ > 0

das α-Quantil qα(λ) von Pλ eindeutig bestimmt.4.69x ist als beobachtete Realisierung der Zufallsvariable X zu betrachten.4.70Vgl. (4.12).4.71Da Pλ eine Dichte bzgl. des Lebesguemaßes hat.4.72Da qα(λ) ein α-Quantil von Pλ ist und weil Pλ eine Dichte bzgl. des Lebesguemaßes hat.

18. April 2016

Page 84: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

84

gewahlt werden 4.73.Da die Funktionen qα und κα streng monoton sind, konnen die in diesem Bei-

spiel bestimmten Konfidenzintervalle Cα( . ), bzw. C′α( . ) nicht durch kleinere Kon-

fidenzbereiche 4.74 in (0,∞) ersetzt werden, d.h., diese Konfidenzbereiche konnenals optimal bezeichnet werden.

Im nachsten Beispiel 4.8 wird gezeigt, wie auf eine zwar nicht optimale, aller-dings einfache Weise Konfidenzintervalle bestimmt werden konnen.

Beispiel 4.8. Ein zu einem Erfolg oder zu einem Mißerfolg fuhrendes Experimentwird unter gleichbleibenden Bedingungen N mal unabhangig wiederholt 4.75. Aus-gehend von der Anzahl der beobachteten Erfolge ist ein Konfidenzbereich fur dieErfolgswahrscheinlichkeit p ∈ [0, 1] zu bestimmen.

Sei Z die Anzahl der Erfolge in den N Experimenten. Z ist binomialverteiltmit den Parametern N und p 4.76. Man kann daher mit dem statistischen Modell(X,Pot(X), (Pp)p∈[0,1]), wobei X = 0, 1, . . . , N und Pp = B(N, p), p ∈ [0, 1],arbeiten. In dieser Situation ist Z die durch Z(x) = x, x ∈ X, gegebene Statistik.

Ausgangspunkt der folgenden Uberlegungen ist die sich als Konsequenz derCebysev’schen Ungleichung 4.77 ergebende Abschatzung

(4.13) Pp

[∣∣∣∣Z

N− p

∣∣∣∣ ≥ ǫ

]≤ 4.78 1

ǫ2Np(1− p) ≤ 4.79 1

4Nǫ2, ǫ > 0, p ∈ [0, 1].

Setzt man

C(x) =

[x

N−√

1

4Nα,x

N+

√1

4Nα

]∩ 4.80 [0, 1], x ∈ X,

so folgt

Pp[x ∈ X : C(x) 6∋ p]

= Pp

[x ∈ X : p >

x

N+

√1

4Nαoder p <

x

N−√

1

4Nα

]

4.73Weil die Funktionen qα, κα : (0,∞) → (0,∞), α ∈ (0, 1), stetig und streng monotonfallend sind und weil qα(κα(x)) = x, x ∈ (0,∞), α ∈ (0, 1), gilt:

[x ∈ (0,∞) : [κα/2(x), κ1−(α/2)(x)] 6∋ λ

]

= Pλ

[x ∈ (0,∞) : κα/2(x) > λ oder κ1−(α/2)(x) < λ

]

= Pλ

[x ∈ (0,∞) : x < qα/2(λ) oder x > q1−(α/2)(λ)

]

= Pλ[(0, qα/2(λ))]︸ ︷︷ ︸= α/2

+ Pλ[(q1−(α/2)(λ),∞)]︸ ︷︷ ︸= 1−Pλ[(0, q1−(α/2)(λ)]]︸ ︷︷ ︸

= 1− (α/2)

= α, λ > 0.

4.74Seien D( . ) und D′( . ) Konfidenzbereiche zum Irrtumsniveau α. Wenn D(x) $ D′(x)fur alle x ∈ (0,∞) ist, kann man sagen, daß D( . ) kleiner als D′( . ) ist.

4.75M.a.W., man betrachtet den N-fachen, unabhangigen Munzwurf mit einer Erfolgswahr-scheinlichkeit p ∈ [0, 1].

4.76Vgl. Abschnitt 1.1.2, insbesondere (1.3c).4.77Vgl. (1.8) und Satz 6.18. Man beachte, daß Ep[Z/N ] = p, vgl. (1.6).4.78Vgl. (1.9).4.79Da q(1 − q) ≤ 1/4, q ∈ [0, 1]. In den nun folgenden Uberlegungen wird sich als hilfreich

herausstellen, daß die rechte Seite von (4.13) von p unabhangig ist.4.80Es sollte C(x) ⊆ [0, 1] sein.

18. April 2016

Page 85: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

85

= Pp

[x ∈ X :

∣∣∣∣x

N− p

∣∣∣∣ >√

1

4Nα

]

= Pp

[∣∣∣∣Z

N− p

∣∣∣∣ >√

1

4Nα

]≤ 4.81 α, p ∈ [0, 1],

d.h., 0, 1, . . . , N = X ∋ x → C(x) ist ein Konfidenzintervall zum Irrtumsni-veau α 4.82 4.83.

4.81Zum Nachweis dieser Ungleichung setze ǫ = 1/√4Nα in (4.13).

4.82Zum Beobachtungswert x ist x/N der Maximum-Likelihood-Schatzer fur p, vgl. Bei-spiel 1.9. Im vorliegenden Fall ist daher C(x) symmetrisch bzgl. des Maximum-Likelihood-Schatzers.

4.83In Beispiel 4.7 wird sehr detailliert auf die spezielle Struktur des zugrundeliegenden sta-tistischen Modells, insbesondere auf die Eigenschaften der Exponentialverteilung eingegangen.Hingegen wird in Beispiel 4.8 im Rahmen einer speziellen Anwendung eine allgemeine, auf derCebysev’schen Ungleichung basierende Methode zur Bestimmung von Konfidenzintervallen vor-gestellt. Eine andere allgemeine Methode, die auf dem Zentralen Grenzwertsatz beruht, wird inAbschnitt 9.5 anhand von zwei Beispielen erlautert.

18. April 2016

Page 86: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik
Page 87: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

KAPITEL 5

Laplacesche Wahrscheinlichkeitsraume und

Kombinatorik

Sei (Ω,F,P) ein Laplacescher Wahrscheinlichkeitsraum 5.1, d.h.,

|Ω| <∞, F = Pot(Ω), P[ω] = 1

|Ω| , ω ∈ Ω.

Zur genauen Bestimmung von 5.2

(5.1) P[A] =|A||Ω| , A ∈ F,

sind durch kombinatorische Uberlegungen Abzahlmethoden zu entwickeln.

Beispiel 5.1. 5.3 Es sei angenommen, daß vier faire Wurfel unabhangig vonein-ander geworfen werden. Zur Modellierung dieses Geschehens kann mit dem Wahr-scheinlichkeitsraum (Ω,F,P), wobei Ω = 1, . . . , 64 5.4, F = Pot(Ω) und P dieGleichverteilung auf (Ω,F) ist, gearbeitet werden.

Zu beantworten sei zunachst die Frage nach der Wahrscheinlichkeit p1, daß allevier Augenzahlen verschieden sind. Aufgrund von (5.1) ist

p1 =|ω ∈ Ω : ωi 6= ωj, falls i 6= j|

|Ω|

=Anzahl der Wurfsequenzen mit vier verschiedenen Augenzahlen

Anzahl aller Wurfsequenzen

= 5.5 6 · 5 · 4 · 364

=5

18.

Die Wurfel seien nun durchnummeriert 5.6. Bei der Klarung der Frage nach derWahrscheinlichkeit p2, daß die geworfenen Augenzahlen streng monoton steigendsind 5.7, fuhrt (5.1) zu

p2 =|ω ∈ Ω : ω1 < ω2 < ω3 < ω4|

|Ω|5.1Vgl. Abschnitt 2.2.5.2Fur Terme wie auf der rechten Seite von (5.1) muß die Anzahl der Elemente in Ω, bzw. in

A bestimmt werden.5.3Auf die Fragestellungen dieses Beispiels wird unter leicht veranderten Blickwinkeln auch

in den folgenden Beispielen 5.2, 5.3 und 5.7 eingegangen.5.4Ω = 1, . . . , 64 = (ω1, . . . , ω4) : ω1, . . . , ω4 = 1, 2, . . . , 6. Fur i = 1, . . . , 4 beschreibt ωi

die Augenzahl des i-ten Wurfels.5.5Der Zahler ergibt sich folgendermaßen: Fur den ersten Wurf gibt es 6 Moglichkeiten, danach

verbleiben fur den zweiten Wurf noch 5 Moglichkeiten. Fur den dritten und den vierten Wurf gibtes schließlich noch 4, bzw. 3 Moglichkeiten.

5.6Bei der Verwendung des Stichprobenraums Ω = 1, . . . , 64 ist durch die Reihenfolge dervier

”Koordinatenrichtungen“ naturlich auch eine Reihenfolge der Wurfel gegeben. Insbesondere

war bei der Losung der ersten Frage, vgl. Fußnote 5.5, auch implizit angenommen worden, daßdie Wurfel nummeriert sind.

5.7D.h., daß ω1 < ω2 < ω3 < ω4.

87

Page 88: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

88

= 5.8 Anzahl der 4-elementigen Teilmengen von 1, . . . , 6|Ω|

= 5.9

(6

4

)

64=

1

64· 6!

4! · 2! =5

432.

Die Losungen der Abzahlprobleme in diesen und vielen anderen Beispielen derelementaren Wahrscheinlichkeitstheorie 5.10 konnen haufig mit Hilfe der im folgen-den Abschnitt 5.1 eingefuhrten sog. Urnenmodelle bestimmt werden.

5.1. Urnenmodelle

Einige Klassen von Abzahlproblemen konnen gelost werden durch die Bestim-mung der Anzahl der Moglichkeiten, aus einer Urne, die N unterscheidbare Kugelnenthalt, n Kugeln zu ziehen. Hierbei entsprechen die unterschiedlichen Klassen derAbzahlprobleme verschiedenen Ziehungsstrategien. Es gibt:

• zwei Auswahlverfahren zum Ziehen der Kugeln:- gezogene Kugeln werden nach ihrer Ziehung zuruckgelegt,- gezogene Kugeln werden nach ihrer Ziehung nicht zuruckgelegt.

• zwei Anordnungsverfahren fur die gezogenen Kugeln:- der Reihenfolge der gezogenen Kugeln wird Beachtung geschenkt 5.11,- der Reihenfolge der gezogenen Kugeln wird keine Beachtung ge-schenkt 5.12.

Damit ergeben sich vier verschiedene Ziehungsstrategien oder Urnenmodelle:

(U1) Ziehung mit Zurucklegen und mit Berucksichtigung der Reihenfolge dergezogenen Kugeln,

(U2) Ziehung ohne Zurucklegen und mit Berucksichtigung der Reihenfolge dergezogenen Kugeln,

(U3) Ziehung mit Zurucklegen und ohne Berucksichtigung der Reihenfolge dergezogenen Kugeln,

(U4) Ziehung ohne Zurucklegen und ohne Berucksichtigung der Reihenfolge dergezogenen Kugeln.

Fur k = 1, 2, 3, 4 sei Wk(N,n) die Menge der fur (Uk) moglichen Ziehungsresulta-te 5.13. Wahrend W1(N,n) und W3(N,n) fur alle N,n ∈ N definiert sind, muß furW2(N,n) und W4(N,n) die Einschrankung n ≤ N berucksichtigt werden 5.14.

5.8Die Augenzahl des ersten Wurfs wird identifiziert mit dem kleinsten Element einer 4-elementigen Teilmenge von 1, . . . , 6, die Augenzahl des zweiten Wurfs mit dem zweitkleinstenElement . . . .

5.9Details zur Berechnung der Anzahl r-elementiger Teilmengen einer N-elementigen Menge

mit Hilfe des Binomialkoeffizienten(Nr

)folgen in Abschnitt 5.1.2. Insbesondere wird in Beispiel 5.3

ein weiteres Mal auf die Bestimmung von p2 eingegangen.5.10Ein solches Beispiel ware die Frage nach der Wahrscheinlichkeit, daß in einer Gruppe von

100 Personen zwei am gleichen Tag Geburtstag haben, vgl. Beispiel 5.5.5.11Beispielsweise wird die Ziehung der Kugeln 1, 4, 2, 7, . . . (in dieser Reihenfolge) von der

Ziehung der Kugeln 1, 2, 7, 4, . . . (in dieser Reihenfolge) unterschieden.5.12Beispielsweise wird die Ziehungssequenz 1, 4, 2, 7, . . . (in dieser Reihenfolge) mit der

Ziehungssequenz 1, 2, 7, 4, . . . (in dieser Reihenfolge) identifiziert.5.13In Abschnitt 5.1.2 wird |Wk(N, n)|, k = 1, 2, 3, 4, N, n ∈ N, d.h., die Anzahl der jeweils

moglichen, unterschiedlichen Ziehungsresultate berechnet.5.14Offensichtlich konnen mit den Ziehungsstrategien (U2) und (U4) hochstens N Kugeln der

Urne entnommen werden.

18. April 2016

Page 89: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

89

5.1.1. Darstellung der Mengen Wk(N,n), k = 1, . . . , 4. Die Elementevon Wk(N,n), k = 1 . . . , 4, besitzen eine Darstellung w = (w1, . . . , wn), wobeiwl ∈ 1, . . . , N 5.15. Allerdings sind fur die verschiedenen Urnenmodelle 5.16 evtl.nicht alle w’s moglich 5.17, bzw. sind unterschiedliche w’s miteinander zu identifi-zieren 5.18. Insbesondere ergeben sich die folgenden Darstellungen:

• W1(N,n) =(w1, . . . , wn) : wl ∈ 1, . . . , N, l = 1, . . . , n

5.19.

• W2(N,n) =(w1, . . . , wn) ∈ W1(N,n) : wi 6= wj fur i 6= j

5.20.

• W3(N,n) =(w1, . . . , wn) ∈ W1(N,n) : 1≤w1≤w2≤ · · · ≤wn≤N

. Da

die Reihenfolge der gezogenen Kugeln keine Rolle spielt, konnen o.E.d.A.die

”Ziehungszeitpunkte“ 5.21 so umgeordnet werden, daß die wl’smonoton

ansteigend sind.• W4(N,n) =

(w1, . . . , wn) ∈ W1(N,n) : 1 ≤ w1 < w2 < . . . < wn ≤ N

.

Nach einer Umordnung der”Ziehungszeitpunkte“ sind die wl’s streng mo-

noton ansteigend 5.22.

5.1.2. Berechnung von |Wk(N,n)|, k = 1, . . . , 4. 5.23

Zu |W1(N,n)|: Es gibt• N Moglichkeiten fur die Wahl der 1. Kugel,• N Moglichkeiten fur die Wahl der 2. Kugel 5.24,• . . .• N Moglichkeiten fur die Wahl der n. Kugel.

Somit ist

(5.2) |W1(N,n)| = Nn, N, n ∈ N.

Zu |W2(N,n)|: Es gibt• N Moglichkeiten fur die Wahl der 1. Kugel,• N − 1 Moglichkeiten fur die Wahl der 2. Kugel 5.25,• . . .• N − (n− 1) Moglichkeiten fur die Wahl der n. Kugel 5.26.

Somit ist

(5.3) |W2(N,n)| = N(N − 1) · · · (N − (n− 1)) =N !

(N − n)!, N, n ∈ N, n ≤ N.

Beispiel 5.2 (Ruckblick auf Beispiel 5.1). Die Wurfe des Wurfels konnenmodelliert

werden als Ziehungen aus einer Urne mit 6 Kugeln, wobei nach jeder Ziehung diegezogene Kugel wieder zuruckgelegt wird. Damit folgt

p1 =|W2(6, 4)| 5.27

|W1(6, 4)| 5.28 =6!

2!· 1

64=

5

18.

5.15wl gibt die Nummer der im l-ten Zeitpunkt gezogenen Kugel an. Offensichtlich kann inden hier vorgestellten Uberlegungen angenommen werden, daß die Kugeln in aufeinanderfolgendenZeitpunkten gezogen werden.

5.16Damit sind die in Abschnitt 5.1 unter (U1) - (U4) aufgefuhrten Ziehungsvarianten gemeint.5.17Beispielsweise, wenn die Kugeln nicht mehr zuruckgelegt werden.5.18Beispielsweise, wenn es auf die Reihenfolge der gezogenen Kugeln nicht ankommt.5.19Fur k 6= l kann wk = wl sein, da die Kugeln zuruckgelegt werden.5.20Man beachte, daß die Kugeln nicht zuruckgelegt werden, und daher alle wl’s verschieden

sind.5.21D.h. die Koordinaten von w = (w1, . . . , wn).5.22Da die Kugeln nicht zuruckgelegt werden, ist Gleichkeit zwischen zwei wl’s ausgeschlossen.5.23Nach der Bestimmung von |Wk(N, n)|, k = 1, . . . , 4, sind systematische Losungen fur

Abzahlprobleme, wie sie beispielsweise in Beispiel 5.1 angesprochen wurden, moglich.5.24Man beachte, daß die 1. Kugel wieder zuruckgelegt wird.5.25Nach der Entnahme der 1. Kugel verbleiben noch N − 1 Kugeln in der Urne.5.26Nach dem Ziehen von n− 1 Kugeln sind noch N − (n− 1) Kugeln in der Urne.

18. April 2016

Page 90: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

90

Zu |W4(N,n)| 5.29 : Jedes w = (w1, . . . , wn) ∈ W4(N,n) reprasentiert alle w′ =(w′

1, . . . , w′n) ∈ W2(N,n), deren Komponenten w′

1, . . . , w′n sich durch eine

Permutation, d.h. Umordnung aus den Komponenten w1, . . . , wn von w er-geben 5.30. Fur alle w ∈ W4(N,n) gibt es n! derartige Permutationen 5.31 5.32.Andererseits ergibt sich jedes w′ ∈ W2(N,n) aus genau einem w ∈ W4(N,n)durch eine Permutation 5.33.

Folglich zerfalltW2(N,n) in disjunkte Klassen mit jeweils n! Elementen.Jede Klasse entspricht genau einem Element in W4(N,n). Daher ist

(5.4) |W4(N,n)| =|W2(N,n)|

n!= 5.34 N !

(N−n)! ·1

n!=:

(N

n

), N, n∈N, n≤N.

Beispiel 5.3 (Weiterer Ruckblick auf Beispiel 5.1 5.35). Eine streng monoton an-steigende Folge von Augenzahlen bei 4 Wurfen eines Wurfels entspricht genau einerin aufsteigender Reihenfolge angeordneten, 4-elementigen Teilmenge von 1, . . . , 6.Daher ist

p2 =|W4(6, 4)| 5.36

|W1(6, 4)| 5.37 =

(6

4

)· 1

64=

5

432.

Zu |W3(N,n)|: Wenn die in Abschnitt 5.1.1 angegebenen Darstellungen der Men-gen W3(. . . ) und W4(. . . ) benutzt werden, wird deutlich, daß die Abbildung

W3(N,n) ∋ (w1, w2, . . . , wn)

τ(N,n)→ (w1, w2 + 1, . . . , wn + n− 1) ∈ W4(N + n− 1, n)

5.27Eine Wurfsequenz mit verschiedenen Augenzahlen entspricht einer Ziehungssequenz mitverschiedenen, d.h. nach ihrer Ziehung nicht zuruckgelegten Kugeln, wobei in beiden Fallen dieReihenfolge beachtet wird.

5.28Jede Wurfsequenz entspricht genau einer Ziehungssequenz.5.29Die etwas schwierigere Berechnung von |W3(N, n)| wird zuruckgestellt.5.30In W2(N, n) und W4(N,n) werden Ziehungen ohne Zurucklegen betrachtet. In W4(N, n)

wird allerdings die Reihenfolge nicht berucksichtigt, d.h., unterschiedliche Ziehungssequenzen ausW2(N, n) konnen in W4(N, n) zusammenfallen.

5.31w1 kann an n Stellen in w′ eingeordnet werden. Anschließend kann w2 noch an n − 1Positionen gebracht werden. . . .

5.32Jede Permutation entspricht einer Moglichkeit, aus n Objekten (Kugeln) ohne Zuruck-

legen n Objekte (Kugeln) mit Berucksichtigung der Reihenfolge auszuwahlen. Folglich ist

Anzahl der Permutationen = |W2(n, n)| =n!

0!= n!,

vgl. (5.3).5.33Wenn die in Abschnitt 5.1.1 angegebenen Darstellungen der Wk(N, n), k = 1, . . . , 4,

benutzt werden, entsteht jenes w ∈ W4(N, n) durch Anordnung von w′1, . . . , w

′n in aufsteigender

Reihenfolge.5.34Vgl. (5.3).5.35Vgl. auch Beispiel 5.2.5.36|W4(6, 4)| ist die Anzahl aller 4-elementigen Teilmengen von 1, . . . , 6, d.h. aller Wurf-

sequenzen der Lange 4 mit streng monoton ansteigenden Augenzahlen.5.37|W1(6, 4)| ist die Anzahl aller Wurfsequenzen der Lange 4.

18. April 2016

Page 91: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

91

bijektiv ist 5.38. Diese Beobachtung fuhrt zu

(5.5) |W3(N,n)| = |W4(N + n− 1, n)| = 5.39

(N + n− 1

n

), N, n ∈ N.

5.2. Anwendungen von Urnenmodellen

Vor allem in Beispielen der elementaren Wahrscheinlichkeitstheorie, wenn mitLaplaceschen Wahrscheinlichkeitsraumen gearbeitet und mit Hilfe von (5.1) Wahr-scheinlichkeiten berechnet werden, finden die verschiedenen Urnenmodelle Anwen-dungen.

Beispiel 5.4 (Ein Problem zum Skatspiel 5.40). Beim Skatspiel kann es fur denSpieler, der

”das Spiel macht“ ein großer Vorteil sein, wenn zwei Buben im

”Skat“

sind. Es ist die Frage nach der Wahrscheinlichkeit p3 dieses Ereignisses zu beant-worten 5.41.

Bei der Berechnung von p3 ist zu beachten, daß

• der Skat sich durch Auswahl von 2 aus 32 Karten ergibt und daß es so-mit |W4(32, 2)| Moglichkeiten fur seine Zusammensetzung gibt. Da alleMoglichkeiten die gleiche Wahrscheinlichkeit besitzen, kann mit einem La-placeschen Wahrscheinlichkeitsraum mit |W4(32, 2)| Elementen gearbeitetwerden.

• Da 4 Buben im Spiel enthalten sind, gibt es weiterhin |W4(4, 2)| Moglich-keiten, einen Skat mit zwei Buben zusammenzustellen.

Folglich ist

p3 =|W4(4, 2)||W4(32, 2)|

=

(4

2

)

(32

2

) =3

248≈ 0, 012.

Beispiel 5.5 (Zusammenfallen zweier Geburtstage). Es ist die Frage nach derWahrscheinlichkeit p4,M , daß in einer zufallig zusammengestellten Gruppe von MPersonen mindestens zwei am gleichen Tag des Jahres Geburtstag haben, zu beant-worten 5.42.

Der Fall M > 365 ist trivial. Dann ist p4,M = 1. Fur M ≤ 365 gilt:

p4,M = 1−P[alle M Personen haben an verschiedenen Tagen Geburtstag]

= 5.43 1− Anzahl der Moglichkeiten fur M verschiedene Geburtstage 5.44

Anzahl aller Moglichkeiten fur die Geburtstage von M Personen 5.45

5.38Wenn wl ≤ wl+1 fur ein Element w ∈ W3(N, n), so gilt wl+l−1 < wl+l ≤ wl+1+l. Durchdie Abbildung τ(N, n) wird

”Luft“ in die Sequenz (w1, . . . , wn) ”

hineingeblasen“. Insbesonderewird eine monoton ansteigende Folge mit Werten in 1, . . . , N in eine streng monoton ansteigendeFolge mit Werten in 1, . . . , N + n− 1 abgebildet. Die Umkehrabbildung von τ(N, n) ist durch

W4(N + n− 1, n) ∋ (w′1, w

′2, . . . , w

′n)

τ(N,n)−1

→ (w′1, w

′2 − 1, . . . , w′

n − n+ 1) ∈ W3(N, n)

gegeben.5.39Vgl. (5.4).5.40Es sei daran erinnert, daß 32 Karten (4 Asse, 4 Konige, . . . , 4 Buben,. . . , 4 Siebener)

im Spiel sind. Diese werden gut gemischt. 3 Spieler erhalten dann jeweils 10 Karten. 2 Kartenverbleiben im

”Skat“ und werden spater demjenigen Spieler, der

”das Spiel macht“ zugeteilt.

5.41p3 ist unter der Voraussetzung, daß die Spieler die ihnen jeweils zugeteilten Karten nochnicht kennen, zu bestimmen.

5.42Es sei angenommen, daß fur einen Geburtstag jeder Tag des Jahres gleichwahrscheinlichist, d.h., ein Phanomen wie die Haufung von Geburtstagen im November im Rheinland als Folgedes Karnevals sei nicht berucksichtigt. Außerdem seien Schaltjahre vernachlassigt.

18. April 2016

Page 92: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

92

= 1− |W2(365,M)||W1(365,M)|

= 5.46 1− 365!

365M · (365−M)!

= 1− 365

365· 365− 1

365· 365− 2

365· · · 365−M + 1

365︸ ︷︷ ︸= 1 ·

(1− 1

365

)·(1− 2

365

)· · ·(1− M − 1

365

).

Da0 < 1− x ≤ exp(−x), x ∈ [0, 1),

ergibt sich

p4,M ≥ 1−M−1∏

k=1

exp(− k

365

)

= 1− exp

(− 1

365

M−1∑

k=1

k

)= 5.47 1− exp

(−M(M − 1)

730

).

Speziell fur M = 100 ist somit p4,100 ≥ 0.9999987 5.48.

Beispiel 5.6 (Gewinnchancen beim Zahlenlotto). Beim Zahlenlotto”6 aus 49“

werden aus 49 nummerierten Kugeln mit gleicher Wahrscheinlichkeit 6 Kugeln aus-gewahlt, d.h. gezogen. Fur r = 1, . . . , 6, ist die Wahrscheinlichkeit p5,r, daß ein Tipmit 6 Zahlen genau r der gezogenen Zahlen, d.h. r

”Richtige“ enthalt, zu berech-

nen 5.49.Ein Tip mit genau r

”Richtigen“ enthalt auch 6 − r falsch getippte Zahlen.

Daher gilt:

p5,r = (Anzahl aller Ziehungsmoglichkeiten)−1

×(Anzahl aller Moglichkeiten, r der 6 getippten Zahlen zu ziehen)

5.43Es wird nun so getan, als wurden die M Personen in einer festen Reihenfolge nach IhremGeburtstag gefragt. Diese Reihenfolge wird im folgenden berucksichtigt. Da es nun insbesondere|W1(365,M)| Moglichkeiten gibt, die Geburtstage der M Personen festzulegen, wird letztendlichin einem Laplaceschen Wahrscheinlichkeitsraum mit |W1(365, M)| Elementen gearbeitet.

Wenn man sich auf den Standpunkt stellt, daß die Reihenfolge der Personen keine Rolle spielt,konnte man versucht sein, mit einem Wahrscheinlichkeitsraum mit |W3(365, M)| Elementen zu ar-beiten. Allerdings haben dann die 1-elementigen Ereignisse unterschiedliche Wahrscheinlichkeiten,d.h., die Arbeit mit einem Laplaceschen Wahrscheinlichkeitsraum ware nun nicht moglich.

Beispielsweise haben fur M = 2 die Ereignisse E1 = (w1, w1) und E2 = (w1, w2) mitw1 < w2 die Wahrscheinlichkeiten P[E1] = 365−2, bzw. P[E2] = 2 · 365−2. Es ist zu beachten,daß E1 eintritt, wenn beide Personen am Tag w1 Geburtstag haben und daß E2 eintritt, wennPerson 1 am Tag w1 und Person 2 am Tag w2 oder wenn Person 1 am Tag w2 und Person 2 amTag w1 Geburtstag haben.

Auf die in dieser Fußnote 5.43 angesprochene Problematik, d.h. die Verwendung einer a priorinicht gegebenen Reihenfolge, wird im Rahmen einer Diskussion von Beispiel 5.1 ausfuhrlicher inBeispiel 5.7 eingegangen.

5.44Dies ist die Anzahl der Moglichkeiten, unter Berucksichtigung der Reihenfolge aus einerMenge von 365 Objekten (Tagen) M verschiedene auszuwahlen.

5.45Dies ist die Anzahl der Moglichkeiten, unter Berucksichtigung der Reihenfolge M maljeweils eines (einen) von 365 Objekten (Tagen) auszuwahlen.

5.46Vgl. (5.2) und (5.3).5.47Da

∑Ll=1 l = L(L + 1)/2.

5.48Selbst fur kleinere M ist p4,M nicht vernachlassigbar. Beispielsweise ist p4,50 ≥ 0.96513,

p4,20 ≥ 0.4058, bzw. p4,10 ≥ 0.11599.5.49Da es insgesamt |W4(49, 6)| gleichwahrscheinliche Moglichkeiten gibt, aus 49 Kugeln

6 auszuwahlen, kann mit einem Laplaceschen Wahrscheinlichkeitsraum mit |W4(49, 6)| Elementengearbeitet werden.

18. April 2016

Page 93: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

93

×(Anzahl aller Moglichkeiten, 6−r der 43 nicht getippten Zahlen zu ziehen)

=|W4(6, r)| · |W4(43, 6− r)|

|W4(49, 6)|=

(6

r

)·(

43

6− r

)

(49

6

) .

Insbesondere ist

p5,3 =

(6

3

)·(43

3

)

(49

6

) ≈ 1, 77 · 10−2,

p5,5 =

(6

5

)·(43

1

)

(49

6

) ≈ 1, 845 · 10−5,

p5,6 =

(6

6

)·(43

0

)

(49

6

) =1(49

6

) ≈ 7, 15 · 10−8.

Das nachste Beispiel demonstriert insbesondere, daß auch bei elementaren Fra-gen, die ublicherweise auf Abzahlprobleme reduziert und mit kombinatorischen Me-thoden behandelt werden, Sorgfalt geboten ist, und daß eine leichtfertige Argumen-tation schnell zu falschen Resultaten fuhrt.

Beispiel 5.7 ((∗) Noch ein Ruckblick auf Beispiel 5.1). Bei der Untersuchungdes unabhangigen Wurfs von 4 Wurfeln in Beispiel 5.1, bzw. in Beispiel 5.2 ergabsich 5.50

(5.6) p1 = P1

[alle Augenzahlen sind verschieden

]=

|W2(6, 4)| 5.51

|W1(6, 4)| 5.52 =5

18.

Bei den Berechnungen in (5.6) wird in dem Wahrscheinlichkeitsraum (W1(6, 4),Pot(W1(6, 4)),P1) gearbeitet, wobei P1 die Gleichverteilung auf W1(6, 4) ist 5.53.Durch die Verwendung von W1(. . . ) wird stillschweigend fur die Wurfe eine Rei-

henfolge festgelegt, die zunachst bei der ursprunglichen Formulierung des Problemseigentlich nicht vorgesehen ist.

Es ist daher naheliegend, auf die Festlegung der Reihenfolge der Wurfe zuverzichten und die Menge der moglichen Wurfkombinationen durch den Stichpro-benraum Ω =W3(6, 4)

5.54 zu beschreiben. Wie die folgenden Uberlegungen zeigen,kann dieser Stichprobenraum zur Bestimmung von p1 in der Tat zwar verwendet,dann allerdings nicht mehr mit der Struktur eines Laplaceschen Wahrscheinlich-

keitsraums versehen werden 5.55.

5.50Bei der Argumentation in Beispiel 5.2 wurde der Wurf eines Wurfels mit dem Zieheneiner Kugel aus einer Urne mit 6 unterscheidbaren Kugeln identifiziert.

5.51Anzahl der Wurfsequenzen mit 4 verschiedenen Augenzahlen.5.52Anzahl aller Wurfsequenzen.5.53Damit ist (W1(6, 4),Pot(W1(6, 4)),P1) ein Laplacescher Wahrscheinlichkeitsraum.5.54W3(6, 4) ist die Menge der moglichen Resultate bei 4 Ziehungen mit Zurucklegen aus

einer Urne mit 6 Kugeln (4 Wurfe eines Wurfels) ohne Berucksichtigung der Reihenfolge, vgl.Abschnitt 5.1.

5.55Die einzelnen Elemente ω ∈ Ω = W3(6, 4) sind dann nicht gleichwahrscheinlich.

18. April 2016

Page 94: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

94

Wenn zunachst auf Ω = W3(6, 4) die Gleichverteilung P3 betrachtet werdenwurde, ergabe sich die (5.6) widersprechende Beziehung 5.56

(5.7) p1 =|W4(6, 4)| 5.57

|W3(6, 4)|= 5.58

(6

4

)

(9

4

) =5

42.

Zur Korrektur von (5.7) kann folgendermaßen vorgegangen werden.

(a) Es sei angenommen, daß irgendeine Moglichkeit einer Unterscheidung dervier Wurfel besteht 5.59.

(b) Die(64

)paarweise verschiedenen Zustande ((1, 2, 3, 4)), ((1, 2, 3, 5)), ((1, 2,

3, 6)), . . . in Ω = W3(6, 4)5.60, die vier Wurfe mit unterschiedlichen Au-

genzahlen beschreiben, sind Makrozustande 5.61, die jeweils 4! verschiede-ne Mikrozustande ausW1(6, 4)

5.62 zusammenfassen. Diese Mikrozustandewerden nur dann unterscheidbar, wenn die in (a) genannten feinen Unter-schiede zwischen den Wurfeln sichtbar werden 5.63.

Beispielsweise faßt der Makrozustand ((1, 2, 3, 5)) solche Mikrozustan-de wie (1, 2, 3, 5), (1, 2, 5, 3), (1, 5, 2, 3), . . . zusammen, die im mit derGleichverteilung P1 versehenen Raum W1(6, 4) jeweils die Wahrschein-lichkeit 6−4 besitzen 5.64.

(c) Einem Makrozustand wie ((1, 2, 3, 5)) muß damit in Ω = W3(6, 4) dieWahrscheinlichkeit 5.65 P2[((1, 2, 3, 5))] = 4! · 6−4 = 1/54 zugewiesenwerden 5.66.

(d) Alternativ kann nun p1 gemaß

p1 = 5.67 P2[((w1, . . . , w4))∈W3(6, 4) : 1≤w1<w2<w3<w4≤6](5.8)

= 5.68∑

((w1,...,w4))∈W3(6,4),1≤w1<w2<w3<w4≤6

P2[((ω1, . . . , ω4))]

=

(6

4

)· 4! · 6−4 =

6 · 5 · 4 · 364

=5

18

5.56Es ist leicht einzusehen, daß die Annahme der Gleichverteilung auf W3(6, 4) nichtvernunftig ist. Beispielsweise ist es offensichtlich

”schwieriger“, d.h.

”unwahrscheinlicher“, vier

mal eine 1 zu werfen als je zwei mal eine 1, bzw. eine 2 zu erhalten. Fur den zweiten Fall ist dieWahrscheinlichkeit großer, da es mehr Moglichkeiten gibt, das beschriebene Resultat zu erzielen.Ein ahnliches Argument wird in Fußnote 5.43 vorgebracht.

5.57W4(6, 4) ist die Teilmenge jener Elemente von W3(6, 4), die eine Wurfsequenz mit 4verschiedenen Augenzahlen darstellen.

5.58Vgl. (5.4) und (5.5).5.59Beispielsweise bestehen die Wurfel vermutlich aus unterschiedlich vielen Atomen.5.60Die Notation ω = ((w1, w2, w3, w4)) fur Elemente in Ω = W3(6, 4) soll daraufhinweisen,

daß die Reihenfolge der Wurfe nicht berucksichtigt zu werden braucht, d.h., daß o.E.d.A. 1 ≤w1 ≤ w2 ≤ w3 ≤ w4 ≤ 6 angenommen werden kann, vgl. Abschnitt 5.1.1.

5.61In den Makrozustanden ist keine Reihenfolge der Wurfel ausgezeichnet.5.62In den Mikrozustanden ist eine Reihenfolge der Wurfel ausgezeichnet. Die Menge aller

Mikrozustande wird durch W1(6, 4) reprasentiert.5.63Makro- und Mikrozustande sind bildliche Begriffsbildungen zur Erleichterung der mathe-

matischen Argumentation.5.64Offensichtlich sind alle Mikrozustande gleichwahrscheinlich.5.65Die Wahrscheinlichkeit eines Makrozustandes ist die Summe der Wahrscheinlichkeiten

der durch ihn zusammengefaßten, sich gegenseitig ausschließenden Mikrozustande.5.66Das Wahrscheinlichkeitsmaß P2 unterscheidet sich von der Gleichverteilung P3 auf

(W3(6, 4),Pot(W3(6, 4))). Z.B. gilt P3[ω] = |W3(6, 4)|−1 =(94

)−1= 1/126, ω ∈ W3(6, 4).

18. April 2016

Page 95: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

95

berechnet werden, d.h., (5.6) wird bestatigt.

Solche ω ∈W3(6, 4), uber die in (5.8) nicht summiert wird, besitzen i. allg. von4! · 6−4 verschiedene Wahrscheinlichkeiten unter P2. Beispielsweise gilt:

P2[((1, 1, 1, 1))] = 5.69 6−4 = 1/1296,

P2[((1, 2, 2, 4))] = 5.70 4 · 3 · 6−4 = 1/108.

Die Uberlegungen dieses Beispiels verdeutlichen wieder einmal, daß in konkre-ten Anwendungen immer unterschiedliche Wahrscheinlichkeitsraume benutzt wer-den konnen 5.71. Die Kunst besteht dann darin, einen fur das jeweilige mathemati-sche Vorhaben optimal geeigneten Wahrscheinlichkeitsraum herauszufinden 5.72.

5.3. Eine Alternative zu den Urnenmodellen

Die Urnenmodelle (U1) - (U4)5.73 reprasentieren mathematische Modelle zur

Losung gewisser Abzahlprobleme. Diese Losungen konnen auch mit Hilfe der indiesem Abschnitt 5.3 vorgestellten und zu den Urnenmodellen aquivalenten Vertei-

lungsmodelle gewonnen werden.Gegeben seien N unterscheidbare Zellen, auf welche n Murmeln 5.74 verteilt

werden. Hierbei konnen die Zellen und die Murmeln folgende unterschiedliche phy-sikalische Eigenschaften besitzen:

• Die Zellen erlauben nur Einfach-, bzw. auch Mehrfachbesetzungen.• Die Murmeln sind unterscheidbar, bzw. nicht unterscheidbar.

Entsprechend den vier Urnenmodellen gibt es nun vier Verteilungsvarianten:

(V1) Fur unterscheidbare Murmeln ist eine Mehrfachbelegung der Zellen er-

laubt.(V2) Fur unterscheidbare Murmeln ist eine Mehrfachbelegung der Zellen nicht

erlaubt.(V3) Fur nicht unterscheidbare Murmeln ist eine Mehrfachbelegung der Zellen

erlaubt.(V4) Fur nicht unterscheidbare Murmeln ist eine Mehrfachbelegung der Zellen

nicht erlaubt.

Fur k = 1, . . . , 4 entspricht die Menge Wk(N,n) der moglichen Verteilungs-resultate unter (Vk) genau der Menge Wk(N,n) der moglichen Ziehungsresultateunter (Uk). Dazu muß

5.67Es ist die Wahrscheinlichkeit der Menge der(64

)unterschiedlichen Elemente ω von

W3(6, 4), deren Komponenten paarweise verschieden sind und die damit durch W4(6, 4) beschrie-ben werden konnen, zu bestimmen.

5.68Als Folge der Additivitat von P2. Im Gegensatz zu den zu (5.7) fuhrenden Uberlegungenhaben aufgrund von (a) - (c) die ω’s, uber die summiert wird, nicht mehr die Wahrscheinlichkeit|Ω3(6, 4)|−1 sondern 4! · 6−4.

5.69Dem Makrozustand ((1, 1, 1, 1)) entspricht nur der eine Mikrozustand (1, 1, 1, 1) inW1(6, 4), der die Wahrscheinlichkeit 6−4 besitzt.

5.70Dem Makrozustand ((1, 2, 2, 4)) entsprechen 4 · 3 verschiedene Mikrozustande (1, 2, 2, 4),(1, 2, 4, 2), (1, 4, 2, 2), . . . . Diese werden durch Wahl eines von 4 · 3 moglichen geordnetenWurfelpaaren fur die Augenzahlen 1 und 4 bestimmt. Die zwei restlichen Wurfel zeigen dannautomatisch 2.

5.71Diese Beobachtung konnte auch in Beispiel 3.25 gemacht werden.5.72Zur Bestimmung von p1 ist offensichtlich die in Beispiel 5.1 oder Beispiel 5.2 vorgestell-

te Argumentation leichter nachvollziehbar und daher besser geeignet als die zu (5.8) fuhrendenUberlegungen (a) - (d) dieses Beispiels.

5.73Vgl. Abschnitt 5.15.74Der Name

”Kugeln“ wird hier nicht gewahlt, weil die nun benutzten Murmeln eine andere

mathematische Bedeutung als die Kugeln in den Urnenmodellen haben.

18. April 2016

Page 96: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

96

• jede der N Kugeln in den Urnenmodellen mit einer der N Zellen und• jede der n Ziehungen in den Urnenmodellen mit der Einordnung einer dern Murmeln identifiziert werden 5.75.

Beispielsweise entspricht nun

• das Ziehen der r-ten Kugel bei der k-ten Ziehung dem Einlegen der k-tenMurmel in die r-te Zelle,

• das k-fache Ziehen einer bestimmten Kugel dem Einlegen von k Murmelnin die der Kugel zugeordnete Zelle,

• das Nichtberucksichtigen der Reihenfolge der gezogenen Kugeln der Ver-wendung ununterscheidbarer Murmeln,

• . . .

Beispiel 5.8. Das Zahlenlotto 5.76 6 aus 49 laßt sich auch darstellen als die Ver-teilung von 6 ununterscheidbaren Murmeln auf 49 Zellen, wobei eine Mehrfachbe-legung der Zellen verboten ist.

5.4. Multinomialverteilung und hypergeometrische Verteilung

Die in diesem Abschnitt 5.4 vorgestellten Wahrscheinlichkeitsmaße sind aufgewissen endlichen Teilmengen von Zn, n ∈ N, konzentriert. In ihren klassischenAnwendungen 5.77 dienen sie der Modellierung von Ziehungen aus einer Urne, dieGruppen von Kugeln verschiedener Farben enthalt. Je nachdem, ob man gezogeneKugeln wieder zurucklegt oder nicht, beschreibt die Multinomialverteilung, bzw. diehypergeometrische Verteilung die Verteilung der moglichen Ziehungsresultate 5.78.

Die Multinomialverteilung Mn(N, q1, . . . , qn) ist durch Parameter n,N ∈ Nund q1, . . . , qn ∈ [0, 1] mit

∑nk=1 qk = 1 gekennzeichnet. Mn(N, q1, . . . , qn) ist ein

diskretes Wahrscheinlichkeitsmaß 5.79 auf

(5.9) Ωn,N =

ω=(ω1, . . . , ωn) : ωk∈0, 1, ..., N, k=1, . . . , n;

n∑

k=1

ωk=N

mit 5.80

(5.10) Mn(N, q1, . . . , qn)[ω] =N !

ω1! · · ·ωn!qω11 · · · qωn

n , ω ∈ Ωn,N .

Die Großen

(5.11)

(N

l1, . . . , ln

):=

N !

l1! · · · ln!, l1, . . . , ln=0, 1, . . . , N,

n∑

k=1

lk=N, n,N ∈N,

werden als Multinomialkoeffizienten bezeichnet.

5.75Insbesondere haben die Murmeln in den Verteilungsmodellen die Bedeutung der Zie-hungszeitpunkte in den Urnenmodellen.

5.76Vgl. Beispiel 5.6.5.77Auf diese

”klassischen“ Anwendungen wird in den Beispielen 5.10 und 5.12 eingegangen.

5.78Ein”Ziehungsresultat“ gibt fur alle Farben die jeweilige Anzahl gezogener Kugeln an.

Auf die Reihenfolge, in der die Kugeln mit den verschiedenen Farben gezogen werden, wird nichteingegangen.

5.79Vgl. Abschnitt 2.2.5.80Da

N !

ω1! · · ·ωn!qω11 · · · qωn

n ≥ 0, ω ∈ Ωn,N ,

und weil ∑

ω∈Ωn,N

N !

ω1! · · ·ωn!qω11 · · · qωn

n = (q1 + · · ·+ qn)N = 1,

ist durch (5.9) und (5.10) in der Tat ein Wahrscheinlichkeitsmaß definiert.

18. April 2016

Page 97: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

97

Beispiel 5.9. Sei n = 2, q1 = q und q2 = 1− q fur ein q ∈ [0, 1]. Dann ist 5.81

M2(N, q1, q2)[(k,N−k)] = N !

k!(N−k)!qk1q

N−k2

=

(N

k

)qk(1−q)N−k = B(N, q)[k], k=0, 1, . . . , N.

Daher entspricht die Multinomialverteilung M2(N, q, 1− q) der BinomialverteilungB(N, q) 5.82. I. allg. ist die Multinomialverteilung eine Verallgemeinerung der Bi-nomialverteilung.

Beispiel 5.10. Gegeben sei eine Urne mit Kugeln der Farben 1, . . . , n. Fur k =1, . . . , n sei qk der Anteil der Kugeln der Farbe k. Aus der Urne wird N mal eineKugel gezogen und anschließend wieder zuruckgelegt 5.83. Es gilt

P[lk Kugeln der Farbe k, k = 1, . . . , n, werden gezogen] 5.84

=

(n∏

k=1

qlkk

︸ ︷︷ ︸= (∗1)

) (N

l1

)

︸ ︷︷ ︸= (∗2)

(N − l1l2

)

︸ ︷︷ ︸= (∗3)

· · ·(N − l1 − · · · − ln−2

ln−1

)

︸ ︷︷ ︸. . .

︸ ︷︷ ︸= (∗)

,

wobei

• (∗1) die Wahrscheinlichkeit, in einer fest vorgegebenen Reihenfolge furk = 1, . . . , n jeweils lk Kugeln der Farbe k zu ziehen 5.85,

• (∗2) die Anzahl der Moglichkeiten, l1 Zeitpunkte fur das Ziehen einerKugel der Farbe 1 aus der Menge allerN Ziehungszeitpunkte auszuwahlen,

• (∗3) die Anzahl der Moglichkeiten, l2 Zeitpunkte fur das Ziehen einerKugel der Farbe 2 aus der Menge der verbliebenen N − l1 Ziehungszeit-punkte 5.86 auszuwahlen, . . . , ist 5.87.

Da

(∗) = N !

l1!(N − l1)!· (N − l1)!

l2!(N − l1 − l2)!· · · (N − l1 − · · · − ln−2)!

ln−1!(N − (l1 + · · ·+ ln−1)︸ ︷︷ ︸= ln

)!

=N !

l1! · · · ln!,

ist

P[lk Kugeln der Farbe k, k = 1, . . . , n, werden gezogen]

= Mn(N, q1, . . . , qn)[(l1, . . . , ln)], l1, . . . , ln = 0, 1, . . . , N,n∑

k=1

lk = N,

5.81Offensichtlich ist Ω2,N = (k,N − k) : k = 0, 1, . . . , N, N ∈ N.5.82Sicherlich ware die Folgerung M2(N, q, 1 − q) = B(N, q) falsch, da M2(N, q, 1 − q) auf

einer Teilmenge von Z2 und B(N, q) auf einer Teilmenge von Z konzentriert ist.5.83Fur die hier behandelte Fragestellung ist die Zahl der Kugeln in der Urne irrelevant.

Die Struktur des Urneninhalts wird durch die Anteile q1, . . . , qn beschrieben. Fur k = 1, . . . nentspricht qk der Wahrscheinlichkeit, beim einmaligen Ziehen einer Kugel die Farbe k zu erhalten.

5.84Die Reihenfolge, in der die Kugeln gezogen werden, spielt keine Rolle.5.85P[Farbe der 1. Kugel = α, Farbe der 2. Kugel = β, . . . ] = qαqβ · · · .5.86Fur das Ziehen einer Kugel der Farbe 1 waren schon vorher l1 Zeitpunkte gewahlt worden.5.87Bei der Bestimmung der Anzahl der Moglichkeiten fur die Wahl der Zeitpunkte zum

Ziehen von Kugeln der verschiedenen Farben 1, 2, . . . , n wird iterativ das Urnenmodell (U4) an-gewandt. Insbesondere wird (5.4) benutzt.

18. April 2016

Page 98: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

98

d.h., die”Farbverteilung“ der gezogenen Kugeln ist durch die Multinomialverteilung

Mn(N, q1, . . . , qn) gegeben.

Die hypergeometrische Verteilung Hn,M (N,m1, . . . ,mn) mit den Parametern n,M,N ∈ N, m1, . . . ,mn ∈ 1, . . . ,M mit n,N ≤ M und

∑nk=1mk = M ist ein

Wahrscheinlichkeitsmaß auf 5.88

Ωm1,...,mn

n,N =

ω = (ω1, . . . , ωn) :(5.12)

ωk ∈ 0, 1, . . . ,mk, k = 1, . . . , n;

n∑

k=1

ωk = N

,

mit

Hn,M (N,m1, . . . ,mn)[(ω1, . . . , ωn)](5.13)

=

(m1

ω1

)(m2

ω2

). . .

(mn

ωn

)

(M

N

) , ω ∈ Ωm1,...,mn

n,N .

Beispiel 5.11. Beim Zahlenlotto”6 aus 49“ ist

P[r Richtige] = 5.89

(6

r

)(43

6− r

)

(49

6

)

= 5.90 H2,49(6, 6, 43)[(r, 6− r)], r = 0, 1, . . . , 6.

Beispiel 5.12. Eine naheliegende Modifikation von Beispiel 5.10 ergibt sich nachder Forderung, die gezogenen Kugeln nicht wieder zuruckzulegen 5.91.

Gegeben sei daher eine Urne mit M Kugeln der Farben 1, . . . , n. Fur k =1, . . . , n sei mk die Anzahl der Kugeln der Farbe k 5.92. Aus der Urne wird N maleine Kugel gezogen und anschließend nicht wieder zuruckgelegt. Es gilt 5.93

P[lk Kugeln der Farbe k, k = 1, . . . , n, werden gezogen] 5.94

5.88Wenn die Stichprobenraume Ωn,N , vgl. (5.9), und Ωm1,...,mnn,N der Multinomialvertei-

lung Mn(N, q1, . . . , qn), bzw. der hypergeometrischen Verteilung Hn,M (N,m1, . . . ,mn) vergli-chen werden, fallt auf, daß ω = (ω1, . . . , ωn) ∈ Ωn,N durch ωk ∈ 0, 1, ..., N, k = 1, . . . , n, aber

ω ∈ Ωm1,...,mnn,N durch ωk ∈ 0, 1, . . . ,mk, k = 1, . . . , n, eingeschrankt werden.

5.89Vgl. Beispiel 5.6.5.90Vgl. (5.12) und (5.13).5.91Anders als in Beispiel 5.10 ist es nun unerlaßlich, fur die verschiedenen Farben die Anzahl

der Kugeln in der Urne mit dieser Farbe festzulegen.5.92Offensichtlich muß M =

∑nk=1mk gelten.

5.93Wenn die Kugeln nach dem Ziehen zuruckgelegt werden wurden, konnte

P[lk Kugeln der Farbe k, k = 1, . . . , n, werden gezogen]

= Mn

(N,

m1

M, . . . ,

mn

M

)[(l1, . . . , ln)],

l1, . . . , ln ∈ 0, 1, . . . , N,n∑

k=1

lk = N,

aus Beispiel 5.10 geschlossen werden. Es ist hierbei zu beachten, daß fur alle k = 1, . . . , n durchqk = mk/M der Anteil der Kugeln der Farbe k gegeben ist.

18. April 2016

Page 99: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

99

= 5.95

(m1

l1

)(m2

l2

). . .

(mn

ln

)

(M

N

)

= Hn,M (N,m1, . . . ,mn)[(l1, . . . , ln)],

lk ∈ 0, 1, . . . ,mk, k = 1, . . . , n,

n∑

k=1

lk = N.

Beispiel 5.13 (Multinomialapproximation der hypergeometrischen Verteilung).5.96 Wenn von jeder Farbe, verglichen mit der Anzahl der Ziehungen

”sehr viele“

Kugeln in der Urne sind, spielt es keine wesentliche Rolle, ob nach ihrem Ziehen dieKugeln wieder zuruckgelegt werden oder nicht 5.97. Daher wird in diesem Grenzfalldie hypergeometrische Verteilung durch die Multinomialverteilung approximiert.

Sei n,N ∈ N. Fur α ∈ N sei außerdem 5.98

N ≤Mα ∈ N

und

mα1 , . . . ,m

αn ∈ 1, . . . ,Mα mit

n∑

k=1

mαk =Mα.

Es gelte

limα→∞

Mα = ∞

und

limα→∞

mαk = ∞, k = 1, . . . , n,

wobei 5.99

limα→∞

mαk

Mα= qk, k = 1, . . . , n.

Dann folgt

limα→∞

Hn,Mα(N,mα1 , . . . ,m

αn)[(l1, . . . , ln)]

= Mn(N, q1, . . . , qn)[(l1, . . . , ln)], l1, . . . , ln∈0, 1, . . . , N,n∑

k=1

lk=N.

5.94Wie in Beispiel 5.10 spielt die Reihenfolge, in der die Kugeln gezogen werden, keine Rolle.5.95= (Anzahl der Moglichkeiten, aus einer Menge von M Kugeln N zu entnehmen)−1 ×

(Anzahl der Moglichkeiten, aus einer Menge von m1 Kugeln der Farbe 1 genau l1 zu entnehmen)×· · · .

5.96Vgl. [5], Satz (2.14).5.97Beispielsweise ist es eine vernachlassigbare Anderung, wenn in einer Urne mit ursprunglich

106 Kugeln nach dem Ziehen einer Kugel nicht mehr 105 von 106 Kugeln sondern nur noch 105−1von 106 − 1 Kugeln eine gegebene Farbe f besitzen. Da 105/106 ≈ (105 − 1)/(106 −1) andert sichdie Wahrscheinlichkeit, bei einer weiteren Ziehung eine Kugel mit der Farbe f zu ziehen, nichtmerklich.

5.98Man betrachtet eine Folge (Uα)α∈N von Urnen, die asymptotisch bei α → ∞ fur jedeFarbe eine unbeschrankt wachsende Anzahl von Kugeln enthalten.

5.99Bei α → ∞”stabilisiert“ sich fur alle Farben k = 1, . . . , n der Anteil der Kugeln der

Farbe k bei qk.

18. April 2016

Page 100: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik
Page 101: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

KAPITEL 6

Erwartungswert und Varianz

Beim ublichen Arbeiten mit zufalligen Meßwerten oder sonstigen, durch reelleZahlen beschriebenen Beobachtungen werden

”Mittelwerte“ zur Beschreibung

”ty-

pischer Beobachtungswerte“ verwendet. Dem”Mittelwert“ entspricht in der Wahr-

scheinlichkeitstheorie der Erwartungswert. Die Genauigkeit der Approximation ei-nes zufalligen Werts durch seinen Mittelwert kann durch seine

”mittlere quadrierte

Abweichung“ 6.1 von diesem Mittelwert charakterisiert werden. Diese Große ent-spricht der Varianz 6.2.

In den folgenden Abschnitten 6.1 - 6.5 sei (Ω,F,P) ein gegebener Wahrschein-lichkeitsraum, auf dem alle Zufallsvariablen, mit denen gearbeitet wird, definiertsind. Diese Zufallsvariablen seien reellwertig 6.3.

6.1. Erwartungswert fur diskrete Zufallsvariablen

Sei X eine diskrete Zufallsvariable, d.h., ihr Wertebereich X(Ω) = X(ω) :ω ∈ Ω sei eine hochstens abzahlbare Teilmenge von R 6.4. Dann besitzt X einen

(endlichen) Erwartungswert, wenn 6.5

(6.1)∑

x∈X(Ω)

|x| P[X = x] <∞.

Wenn (6.1) gilt, nennt man X auch integrabel. Man definiert nun den Erwartungs-

wert von X durch

(6.2) E[X ] := 6.6∑

x∈X(Ω)

x P[X = x] = 6.7∑

x∈X(Ω)

x PX [x].

Der Erwartungswert E[X ] ist damit eine gewichtete Summe uber den WertebereichX(Ω) von X , wobei die moglichen Werte von X mit den Wahrscheinlichkeiten, mitdenen sie angenommen werden, gewichtet werden 6.8.

6.1Man betrachtet quadrierte Abweichungen, damit nicht beispielsweise große negative undgroße positive Abweichungen nach ihrer Mittelung ein geringe Ungenauigkeit bei der Approxima-tion durch den Mittelwert vortauschen.

6.2Erwartungswert und Varianz einer reellwertigen Zufallsvariable X wurden erstmals in denBeispielen 1.5 und 1.6 vorgestellt.

6.3D.h., ihr Wertebereich ist (R,B(R)).6.4In diesem Abschnitt 6.1 wird der Erwartungswert nur fur diskrete Zufallsvariablen defi-

niert. Zur Erweiterung auf beliebige (R,B(R))-wertige Zufallsvariablen vgl. Abschnitt 6.3.6.5In (6.1) muß P[X = x] wohldefiniert sein, d.h., X = x ∈ F, x ∈ X(Ω). Diese Eigenschaft

folgt aus x = [x, x] ∈ B(R), x ∈ R, vgl. Abschnitt 2.4.3, und aus der Meßbarkeit von X :(Ω,F) → (R,B(R)), vgl. (3.1).

6.6Wenn (6.1) gilt, konvergiert diese Reihe absolut, d.h., E[X] ist wohldefiniert.6.7Die Verteilung PX einer Zufallsvariable X wird in Abschnitt 3.1 beschrieben.6.8Offensichtlich hangt der Erwartungswert E[X] nur von der Verteilung PX ab. Der Wahr-

scheinlichkeitsraum (Ω,F,P), auf dem die Zufallsvariable X definiert ist, tritt, wie insbesonderedie zweite Summe in (6.2) andeutet, nur indirekt in Erscheinung. Allgemeinere Uberlegungen inAbschnitt 3.5 zur Bedeutung von Wahrscheinlichkeitsraumen, auf denen zur Modellbildung be-nutzte Zufallsvariablen X definiert sind, und zur Verteilung PX jener Zufallsvariablen werdensomit hier bestatigt.

101

Page 102: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

102

Bemerkungen 6.1. (i) Fur A ∈ F ist

(6.3) E[IA] 6.9 = 1 ·P[IA = 1] + 0 ·P[IA = 0] = 6.10 P[A].

(ii) Wenn 6.11 X ≥ 0, f.s., so ist die rechte Seite von (6.2) immer eindeutigdefiniert 6.12, d.h., fur positive, diskrete Zufallsvariablen X kann immer durch (6.2)der Erwartungswert E[X ] definiert werden. Allerdings kann in einem solchen FallE[X ] = ∞ sein 6.13.

(iii) Da∑

x∈X(Ω)

|x| P[X = x] = 6.14∑

y∈|X|(Ω)

y (P[X = −y] +P[X = y])(6.4)

= 6.15∑

y∈|X|(Ω)

y P[X ∈ −y, y]︸ ︷︷ ︸= P[|X | = y]

= 6.16 E[|X |],ist eine Zufallsvariable X genau dann integrabel 6.17, wenn E[|X |] <∞ ist.

Beispiel 6.2. Die Zufallsvariable X habe eine Poissonverteilung mit Parameterλ > 0. Dann folgt 6.18:

E[X ] = 6.19∞∑

k=0

k P[X = k] =∞∑

k=0

k · λk

k!exp(−λ)

= λ exp(−λ)∞∑

k=1

λk−1

(k − 1)!︸ ︷︷ ︸

=

∞∑

n=0

λn

n!= exp(λ)

= λ.

6.2. Eigenschaften der Abbildung X → E[X ]

6.20 Seien X , Y , X1, X2, . . . , Y1, Y2, . . . diskrete, integrable, reellwertige Zufalls-variablen.

6.9IA ist die Indikatorfunktion von A, vgl. Fußnote 3.121.6.10Man beachte, daß IA = 1 = A.6.11Vgl. Abschnitt 3.2.5, insbesondere Fußnote 3.155.6.12Hochstens abzahlbare Summen positiver Zahlen sind immer wohldefiniert.6.13Eine positive, diskrete Zufallsvariable X mit E[X] = ∞ kann beispielsweise mit den in

Abschnitt 3.1.1 vorgestellten Methoden konstruiert werden. Insbesondere sei X eine N-wertigeZufallsvariable mit der Verteilung PX = µ = (µn)n∈N, wobei µn = cn−2, n ∈ N, fur c =(∑∞

k=1 k−2)−1

. In diesem Fall ist E[X] =∑∞

n=1 nµn = c∑∞

n=1 n−1 = ∞.

6.14|X|(Ω) ist der Wertebereich der Zufallsvariable |X|.6.15Fur y ∈ |X|(Ω) mit y 6= 0 ist offensichtlich |X| = y = X ∈ −y, y = X =

−y .∪ X = y.6.16Vgl. die Definition des Erwartungswerts in (6.2). Diese Definition wird hier auf die Zu-

fallsvariable |X| angewandt. Da |X| positiv ist, ist E[|X|] immer wohldefiniert, vgl. (ii).6.17D.h., es gilt (6.1).6.18Da X ≥ 0, f.s., ist E[X] wohldefiniert, vgl. Bemerkung 6.1(ii).6.19Vgl. (6.2).6.20Die Abbildung X → E[X] ist auf einer Teilmenge A der Menge aller reellwertigen Zufalls-

variablen auf dem Wahrscheinlichkeitsraum (Ω,F,P) definiert. A enthalt zumindest die diskreten,integrablen und die diskreten, positiven Zufallsvariablen, vgl. Abschnitt 6.1 und dort insbesondereBemerkung 6.1(ii). Weitere Zufallsvariablen in A werden in Abschnitt 6.3 vorgestellt.

18. April 2016

Page 103: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

103

Monotonie des Erwartungswerts. Ist X ≤ Y , f.s. 6.21, so folgt:

(6.5) E[X ] ≤ 6.22 E[Y ].

Linearitat des Erwartungswerts. Die Zufallsvariablen 6.23 X+Y , bzw. cX mit c ∈ Rsind integrabel. Es gilt:

E[cX ] = 6.24 cE[X ],(6.6a)

E[X + Y ] = 6.25 E[X ] + E[Y ].(6.6b)

6.21D.h., P[ω ∈ Ω : X(ω) ≤ Y (ω)] = 1.6.22Es gilt:

E[X] =∑

x∈X(Ω)

xP[X = x]︸ ︷︷ ︸

= P[X = x, Y ∈ Y (Ω)] = P

[ •⋃y∈Y (Ω)

X = x, Y = y]

=∑

x∈X(Ω)

y∈Y (Ω)

x P[X = x, Y = y]︸ ︷︷ ︸

= 0, wenn x > y,

≥ 0, wenn x ≤ y,(da X ≤ Y , f.s.)

(σ-Additivitat von P)(∗)

≤∑

x∈X(Ω)

y∈Y (Ω)

y P[X = x, Y = y]

= E[Y ].

Im letzten Schritt wird hier die zu (∗) fuhrende Argumentation in umgekehrter Reihenfolge wie-derholt. Da die Zufallsvariablen X und Y integrabel sind, konvergieren alle Reihen absolut, d.h.,es ist gerechtfertigt, hierbei die Summationsreihenfolge zu vertauschen.

6.23Die Zufallsvariable X + Y ist durch (X + Y )(ω) = X(ω) + Y (ω), ω ∈ Ω, definiert.6.24O.E.d.A. sei c 6= 0. Da

z∈(cX)(Ω)

|z| P[cX = z] =∑

x∈X(Ω)

|cx| P[cX = cx]︸ ︷︷ ︸= P[X = x]

(man setze z = cx)(∗1)

= |c|∑

x∈X(Ω)

|x| P[X = x],

folgt die Integrabilitat von cX aus der Integrabilitat von X. Jetzt ist es gerechtfertigt, in (∗1) dieBetragsstriche wegzulassen und damit (6.6a) nachzuweisen.

6.25Die Zufallsvariable X + Y ist diskret, da (X + Y )(Ω) ⊆ X(Ω) + Y (Ω) = z ∈ R : z =x+ y, x ∈ X(Ω), y ∈ Y (Ω). Weiterhin ist

E[|X + Y |] =∑

z∈(X+Y )(Ω)

|z| P[X + Y = z] (vgl. (6.4))

=∑

z∈(X+Y )(Ω)

x∈X(Ω),y∈Y (Ω)x+y=z

|x+ y| P[X = x, Y = y]

(da X + Y = z =

•⋃x∈X(Ω),y∈Y (Ω),x+y=zX = x, Y = y

)

≤∑

x∈X(Ω),y∈Y (Ω)

(|x|+ |y|) P[X = x, Y = y](∗2)

=∑

x∈X(Ω),y∈Y (Ω)

|x| P[X=x, Y =y]

︸ ︷︷ ︸. . .

+∑

x∈X(Ω),y∈Y (Ω)

|y| P[X = x, Y = y]

︸ ︷︷ ︸=

y∈Y (Ω)

|y|∑

x∈X(Ω)

P[X = x, Y = y]

︸ ︷︷ ︸= P[X∈X(Ω), Y =y] = P[Y =y]

=∑

x∈X(Ω)

|x| P[X = x] +∑

y∈Y (Ω)

|y| P[Y = y] <∞ (da X und Y integrabel sind),

18. April 2016

Page 104: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

104

σ-Additivitat des Erwartungswerts, bzw. Satz von der monotonen Konvergenz. SeiXk ≥ 0, f.s., k ∈ N, und sei 6.26 X =

∑∞k=1Xk, f.s. In diesem Fall ist 6.27

(6.7) E[X ] =

∞∑

k=1

E[Xk].

Wenn Yk ր Y , f.s., d.h., Y1 ≤ Y2 ≤ . . . , f.s., und 6.28 limk→∞ Yk = Y , f.s.,so folgt 6.29

(6.8) limk→∞

E[Yk] = E[Y ].

Die beiden Beziehungen (6.7) und (6.8) gehoren zu jener Klasse mathemati-scher Resultate, die die Vertauschbarkeit von Limiten, unendlichen Summenund Integralen beschreiben.

Produktregel fur unabhangige Zufallsvariablen. Die Zufallsvariablen X und Y seienunabhangig 6.30. Dann ist X · Y integrabel 6.31 mit

(6.9) E[X · Y ] = 6.32 E[X ] · E[Y ].

d.h., die Zufallsvariable X + Y ist integrabel.

In den obigen Berechnungen ist es nun zulassig, alle Betragsstriche wegzulassen. Dann giltuberall Gleichheit, insbesondere auch in (∗2). Damit ist (6.6b) nachgewiesen.

6.26Diese Annahmen bedeuten, daß es ein Ω1 ∈ F mit P[Ω1] = 1 gibt, so daß Xk(ω) ≥ 0,k ∈ N, und

∑∞n=1Xn(ω) = X(ω) fur alle ω ∈ Ω1.

6.27Vgl. [5], Satz (4.7)(c).6.28Die fast-sichere Konvergenz wird in Abschnitt 6.8(b) genau beschrieben.6.29Zum Beweis von (6.8) mit Hilfe von (6.7) definiere man X1 := Y1 und Xn := Yn −Yn−1,

n = 2, 3, . . . . Bei den nun folgenden Argumenten spielt es keine Rolle, daß Y1 = X1 nicht unbedingtf.s. nichtnegativ ist. Da Xk ≥ 0, f.s., k = 2, 3, . . . , und Yn =

∑nk=1Xk, f.s., n ∈ N, gilt zunachst

(∗) Y = limn→∞

n∑

k=1

Xk =∞∑

k=1

Xk, f.s.

Mit

E[Y ] =∞∑

k=1

E[Xk] (vgl. (∗) und (6.7))

= limn→∞

n∑

k=1

E[Xk] (da E[Xk] ≥ 0, k = 2, 3, . . . )

= limn→∞

E[Yn] (wegen (6.6b) und da Yn =∑n

k=1Xk)

ist dann (6.8) bewiesen.6.30Vgl. (3.8).6.31Die Integrabilitat von X und Y war vorausgesetzt worden. Falls X und Y nicht un-

abhangig sind, braucht ubrigens X · Y nicht integrabel zu sein. Wenn beispielsweise X integrabelmit E[X2] = ∞ ist, so ist X · Y mit Y = X nicht integrabel.

6.32Zunachst ist es offensichtlich, daß mit X und Y auch XY eine diskrete Zufallsvariableist. Da

E[|XY |] =∑

z∈(XY )(Ω)

|z| P[XY = z] =∑

z∈(XY )(Ω)

|z|∑

x∈X(Ω),y∈Y (Ω)xy=z

P[X = x, Y = y]

(da XY = z =•⋃x∈X(Ω),y∈Y (Ω),xy=zX = x, Y = y)

=∑

x∈X(Ω),y∈Y (Ω)

|xy|P[X = x, Y = y]︸ ︷︷ ︸= P[X = x]P[Y = y] (X, Y unabhangig)

=

(∑

x∈X(Ω)

|x| P[X = x]

)(∑

y∈Y (Ω)

|y| P[Y = y]

)

= E[|X|] ·E[|Y |] (vgl. (6.4)),

18. April 2016

Page 105: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

105

Normierung des Erwartungswerts. Die Zufallsvariable X mit X = 1, f.s., ist inte-grabel mit

(6.10) E[X ] = 6.33 1.

6.3. Erwartungswert fur allgemeine, reellwertige Zufallsvariablen

Zur Berechnung von E[X ] wird eine allgemeine, nicht notwendigerweise diskre-te, reellwertige Zufallsvariable X

”hinreichend fein diskretisiert“ und anschließend

die Asymptotik fur die Erwartungswerte der Diskretisierungen untersucht.Zu m ∈ N sei eine diskrete Zufallsvariable X(m) : (Ω,F,P) → (R,B(R))

gemaß 6.34

(6.11) X(m)(ω) =1

m⌊mX(ω)⌋, ω ∈ Ω,

definiert. X(m) ist die großte diskrete Zufallsvariable, die Werte k/m, k ∈ Z, an-nimmt und kleiner oder hochstens gleich X ist.

Satz 6.3. (a) Bei n→ ∞ konvergiert X(n) gegen die Zufallsvariable X. Insbeson-

dere ist

(6.12) X(n) ≤ X ≤ X(n) +1

n, n ∈ N.

(b) Wenn X(n0) fur ein n0 ∈ N integrabel 6.35 ist, so sind alle Zufallsvariablen

X(n), n ∈ N, integrabel. In diesem Fall ist E[X(n)], n ∈ N, eine Cauchy-Folge 6.36.

Satz 6.3 legt nahe, die Zufallsvariable X als integrabel zu bezeichnen, wenn furein n0 ∈ N ihre diskrete Approximation X(n0) integrabel ist. In diesem Fall kann

(6.13) E[X ] := limn→∞

E[X(n)]

definiert werden.

Beweis (von Satz 6.3). (a) Die Abschatzungen (6.12) folgen aus

nX(n)(ω) =6.37 ⌊nX(ω)⌋ ≤ nX(ω)

≤ ⌊nX(ω)⌋+ 1 = 6.37 nX(n)(ω) + 1, ω ∈ Ω,

nach Division durch n.(b) Es sei nun angenommen, daß X(n0) integrabel ist, d.h., daß E[|X(n0)|] <

∞ 6.38. Aus (6.12) folgt fur alle n ∈ N weiterhin

X(n) ≤ X ≤ X(n0) +1

n0≤ |X(n0)|+

1

n0,(6.14)

−X(n) ≤ −X +1

n≤ −X(n0) +

1

n≤ |X(n0)|+

1

n,

folgt die Integrabilitat von XY aus der Integrabilitat von X und Y . (6.9) ergibt sich nun, wennin diesen Berechnungen auf die Betragsstriche verzichtet wird.

6.33Man beachte, daßE[|X|] = E[X] = 1 ·P[X = 1]

︸ ︷︷ ︸= P[Ω] = 1

= 1.

6.34Fur z ∈ R ist ⌊z⌋ = supn ∈ Z : n ≤ z. ⌊z⌋ ist die großte ganze Zahl, die kleiner oderhochstens gleich z ist.

6.35Vgl. (6.1) und (6.4) zur Definition und Charakterisierung der Integrabilitat einer diskretenZufallsvariable.

6.36Damit existiert limn→∞ E[X(n)].6.37Vgl. (6.11).6.38Vgl. Bemerkung 6.1(iii).

18. April 2016

Page 106: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

106

d.h.,

|X(n)| ≤ |X(n0)|+max 1

n,1

n0

, n ∈ N.

Wegen der Monotonie des Erwartungswerts fur diskrete Zufallsvariablen 6.39 istsomit

E[|X(n)|] ≤ E[|X(n0)|] + 1, n ∈ N.

Daher sind alle Zufallsvariablen X(n), n ∈ N, integrabel 6.40.

Wenn n0 in (6.14) durch m ∈ N ersetzt wird, ergibt sich 6.41

E[X(n)] ≤ E[X(m)] +1

m,

−E[X(n)] ≤ −E[X(m)] +1

n, n,m ∈ N,

woraus

|E[X(n)]−E[X(m)]| ≤ max 1

n,1

m

, n,m ∈ N,

folgt. Somit ist gezeigt, daß E[X(n)], n ∈ N, eine Cauchy-Folge ist.

Bemerkungen 6.4. (i) Die in Abschnitt 6.2 zunachst nur fur diskrete Zufallsvaria-blen vorgestellten Eigenschaften des Erwartungswerts gelten auch fur allgemeine,integrable Zufallsvariablen mit Werten in (R,B(R)) 6.42.

(ii) Den durch (6.5), (6.6) und (6.8) reprasentierten Eigenschaften 6.43 des Er-wartungswerts, d.h., der reellwertigen Abbildung Y → E[Y ] auf dem Raum der re-ellwertigen, integrablen Zufallsvariablen auf demWahrscheinlichkeitsraum (Ω,F,P)entsprechen vollig analoge Eigenschaften des Integrals auf Rd, d.h., der reellwertigenAbbildung f →

∫Rd dx f(x) auf dem Raum der integrablen, reellwertigen Funktio-

nen auf Rd 6.44. Insbesondere definiert die Zuordnung Y → E[Y ] ein abstraktes

Integral 6.45. Wenn in der Stochastik in komplexen Situationen Erwartungswertezu bearbeiten sind, wird somit die allgemeine Integrationstheorie oder Maßtheorie

benotigt.(iii) Um die in (ii) genannte Integraleigenschaft des Erwartungswerts zu beto-

nen, schreibt man fur den Erwartungswert E[X ] einer (R,B(R))-wertigen Zufalls-variablen X auf einem Wahrscheinlichkeitsraum (Ω,F,P) auch

(6.15) E[X ] =

Ω

X(ω) P(dω) =

Ω

X dP.

6.39Vgl. (6.5). Hier wird außerdem noch max1/n, 1/n0 ≤ 1, die Linearitat des Erwartungs-werts, vgl. (6.6), und die Normierung des Erwartungswerts, vgl. (6.10), berucksichtigt.

6.40Vgl. Bemerkung 6.1(iii).6.41Insbesondere mussen hier noch die Monotonie, die Linearitat und die Normierung des

Erwartungswerts fur diskrete Zufallsvariablen, vgl. (6.5), (6.6) und (6.10), benutzt werden.6.42Zum Beweis vgl. [5], Satz (4.11).6.43Damit sind die Monotonie, die Linearitat und die Gultigkeit des Satzes von der monoto-

nen Konvergenz gemeint.6.44Die durch (6.9) beschriebene Faktorisierungseigenschaft des Erwartungswerts eines

Produkts unabhangiger Zufallsvariablen entspricht der Beziehung∫Rd

∫Rd dx dy f(x)g(y) =∫

Rd dx f(x) ·∫Rd dy g(y).

Die Normierungseigenschaft (6.10) spiegelt die Tatsache wider, daß das zugrundeliegendeMaß P, bzgl. dessen bei der Bestimmung des Erwartungswerts auf (Ω,F)

”integriert“ wird, vgl.

(6.15), ein Wahrscheinlichkeitsmaß ist.6.45Ein abstraktes Integral ist eine monotone, lineare Abbildung auf einem Stoneschen Vek-

torverband, fur die eine geeignete Variante des Satzes von der monotonen Konvergenz gilt, vgl.[2], §39.

18. April 2016

Page 107: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

107

Beispiel 6.5 (Erwartungswert fur eine reellwertige Zufallsvariable mit Dichte). DieVerteilung PX einer reellwertigen Zufallsvariable X habe eine Dichte f bzgl. desLebesguemaßes 6.46, d.h.,

(6.16) PX [A] = P[X ∈ A] =

A

dx f(x), A ∈ B(R).

Es sei vorausgesetzt, daß X integrabel ist. Dies ist genau dann der Fall, wenn 6.47

(6.17)

∫ ∞

−∞dx |x|f(x) <∞.

Nun folgt

E[X ] = 6.48 limn→∞

E[X(n)]

= 6.49 limn→∞

∞∑

k=−∞

k

nP

[X(n) =

k

n

]

︸ ︷︷ ︸= PX

[[k/n, (k + 1)/n)

]

= 6.50 limn→∞

∞∑

k=−∞

k

n

∫ (k+1)/n

k/n

dx f(x)

= 6.51 limn→∞

∞∑

k=−∞

∫ (k+1)/n

k/n

dx1

n⌊xn⌋f(x) = lim

n→∞

∫ ∞

−∞dx

1

n⌊xn⌋f(x).

Da 6.52 supx∈R |x− ⌊xn⌋/n| ≤ 1/n, n ∈ N, ergibt sich∣∣∣∣∫ ∞

−∞dx

1

n⌊xn⌋f(x)−

∫ ∞

−∞dx xf(x)

∣∣∣∣

≤∫ ∞

−∞dx∣∣∣ 1n⌊xn⌋ − x

∣∣∣f(x) ≤ 1

n

∫ ∞

−∞dx f(x) =

1

n, n ∈ N,

6.46Vgl. Abschnitt 2.6.6.47Nach (6.1) und Satz 6.3 ist zu prufen, ob

∞ >∞∑

k=−∞

∣∣∣k

n0

∣∣∣ P[X(n0) =

k

n0

](∗)

=∞∑

k=−∞

|k|n0

P

[X ∈

[k

n0,k + 1

n0

)]=

∞∑

k=−∞

|k|n0

∫ (k+1)/n0

k/n0

dx f(x)

=∞∑

k=−∞

∫ (k+1)/n0

k/n0

dx|⌊xn0⌋|n0

f(x) (da k=⌊xn0⌋ fur x∈ [k/n0, (k+1)/n0))

=

∫ ∞

−∞dx

|⌊xn0⌋|n0

f(x)

fur ein n0 ∈ N. Da

|x| − 1

n≤ |⌊xn⌋|

n≤ |x|+ 1

n, x ∈ R, n ∈ N,

gilt (∗) genau dann, wenn (6.17) zutrifft.6.48Vgl. (6.13). Die Folge X(k), k ∈ N, diskreter Approximationen fur die Zufallsvariable X

wird in (6.11) beschrieben.6.49Hier wird die Definition des Erwartungswerts fur diskrete Zufallsvariablen benutzt, vgl.

(6.2). Außerdem findet die Tatsache Verwendung, daß X(n) die Werte k/n, k ∈ Z, jeweils an-

nimmt, wenn X ∈ [k/n, (k + 1)/n), d.h. mit der Wahrscheinlichkeit P[X ∈ [k/n, (k + 1)/n)] =PX [[k/n, (k + 1)/n)].

6.50Vgl. (6.16).6.51Beachte, daß k = ⌊xn⌋, falls x ∈ [k/n, (k + 1)/n).6.52Vgl. die zu (6.12) fuhrenden Uberlegungen.

18. April 2016

Page 108: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

108

und damit

E[X ] =

∫ ∞

−∞dx xf(x).

Beispiel 6.6. Fur eine Rd-wertige ZufallsvariableX mit Dichte f und eine meßbareFunktion H : (Rd,B(Rd)) → (R,B(R)) ist die Zufallsvariable H(X) integrabel,wenn ∫

Rd

dx |H(x)|f(x) <∞.

In diesem Fall ist

E[H(X)] =

Rd

dx H(x)f(x).

Fur eine beliebige 6.53 positive Zufallsvariable kann man die Definition E[X ] :=∞ einfuhren, wenn E[X(n0)] = ∞ 6.54 fur ein n0 ∈ N 6.55.

Eine beliebige reellwertige Zufallsvariable X hat die Zerlegung X = X+ −X−,wobei X+ = maxX, 0 und X− = max−X, 0 6.56. Der Erwartungswert E[X ] istnun auf eine eindeutige Weise durch 6.57

(6.18) E[X ] = E[X+]−E[X−]

definierbar 6.58, wenn nicht

(6.19) E[X+] = E[X−] = ∞.

Wenn (6.19) zutrifft, existiert der Erwartungswert von X nicht 6.59.Eine Zufallsvariable X besitzt genau dann einen endlichen Erwartungswert

E[X ], wenn E[X+] +E[X−] = E[|X |] <∞, d.h., wenn X integrabel ist 6.60.

6.4. Varianz und verwandte Begriffe

Neben dem Erwartungswert gibt es weitere Kenngroßen, die reellwertigen Zu-fallsvariablen, bzw. einer endlichen Menge X1, . . . , Xn solcher Zufallsvariablen zuderen Charakterisierung zugeordnet werden konnen 6.61.

Wenn fur eine reellwertige Zufallsvariable X und ein r ∈ N die ZufallsvariableXr einen Erwartungswert besitzt 6.62, so bezeichnet man E[Xr] als das r-te Moment

von X . Wenn |X |r integrabel 6.63 ist, d.h., wenn E[|X |r] < ∞ ist, gilt E[Xr] ∈(−∞,∞), d.h., X besitzt eine endliches r-tes Moment.

6.53D.h. nicht notwendigerweise diskrete Zufallsvariable.6.54In diesem Fall sollte also

∑x∈X(n0)(Ω) x P[X(n0) = x] = ∞ sein, vgl. Bemerkung 6.1(ii).

Diese Summe ist wohldefiniert, weil X(n)(Ω) ⊂ [0,∞), n ∈ N.6.55Nach Satz 6.3(b) ist dann E[X(n)] =

∑x∈X(n)(Ω) x P[X(n) = x] = ∞ fur alle n ∈ N.

6.56X+ und X−, die als Positiv-, bzw. Negativteil von X bezeichnet werden konnen, sindpositive Zufallsvariablen.

6.57Bei der Definition (6.18) wird die allgemeine Gultigkeit der Linearitat des Erwartungs-

werts, vgl. (6.6) und Bemerkung 6.4(i), zugrundegelegt.6.58Die Werte ∞ oder −∞ fur E[X] sind nun moglich.6.59In Beispiel 6.11 wird (6.19) nachgewiesen fur eine Zufallsvariable X mit einer Cauchy-

Verteilung, d.h. mit einer Dichte f(x) = a/(π(a2 + x2)), x ∈ R, fur ein a > 0, vgl. Abschnitt 2.6.6.60Angeregt durch Satz 6.3 wurde eine Zufallsvariable X als integrabel bezeichnet, wenn

eine diskrete Approximation X(n0) integrabel ist, d.h., wenn E[|X(n0)|] < ∞ fur ein n0 ∈ N. Nun

impliziert (6.12), daß |X(n0)| − 1/n0 ≤ |X| ≤ |X(n0)|+ 1/n0, d.h., es gilt E[|X(n0)|] < ∞, genau

dann, wenn E[|X|] <∞.6.61Eine eindeutige Charakterisierung von X1, . . . ,Xn ist mit diesen Kenngroßen nicht

moglich. Allerdings konnen sie uber gewisse Eigenschaften jener Zufallsvariablen informieren.6.62Die Existenz des Erwartungswerts einer beliebigen reellwertigen Zufallsvariable wird am

Ende von Abschnitt 6.3 diskutiert.6.63Die Integrabilitat einer Zufallsvariable wird insbesondere am Anfang von Abschnitt 6.1,

unmittelbar nach Satz 6.3, bzw. am Ende von Abschnitt 6.3 erlautert.

18. April 2016

Page 109: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

109

Bemerkungen 6.7. (i) Wenn eine Zufallsvariable X fur ein r ∈ N ein endlichesr-tes Moment besitzt, so besitzt X auch fur alle s ∈ N mit s ≤ r ein endliches s-tesMoment 6.64.

(ii) Fur einen Wahrscheinlichkeitsraum (Ω,F,P) und p ∈ [1,∞) ist Lp(Ω,F,P)die Menge der reellwertigen Zufallsvariablen mit E[|X |p] <∞. Hierbei werden zweiZufallsvariablen X und X ′ mit X = X ′, f.s., als identisch betrachtet. Ausgestattetmit der Norm ‖X‖p := E[|X |p]1/p bildet Lp(Ω,F,P) einen Banachraum 6.65.

Der Raum 6.66 L2(Ω,F,P) ist sogar ein Hilbertraum, wenn durch 〈X,Y 〉 :=E[XY ], X,Y ∈ L2(Ω,F,P) ein Skalarprodukt definiert wird 6.67.

Fur X ∈ L2(Ω,F,P) bezeichnet

(6.20) Var(X) := E[(X −E[X ])2] = 6.68 E[X2]−E[X ]2

dieVarianz von X . Offensichtlich ist Var(X) ≥ 0, X ∈ L2(Ω,F,P). Daher folgt aus(6.20) die Cauchysche Ungleichung

(6.21) E[X ]2 ≤ E[X2], X ∈ L2(Ω,F,P).

Weiterhin ist Var(X) = 0, genau dann, wenn X = E[X ], f.s., d.h., wenn X deter-

ministisch ist.

(6.22) σX :=√Var(X)

heißt Standardabweichung oder Streuung von X . Sowohl Var(X) als auch σX cha-rakterisieren die

”Große der Abweichungen“ der Zufallsvariablen X von ihrem

Erwartungswert E[X ] 6.69. Im Gegensatz zu Var(X) ist σX von der “gleichenGroßenordnung“ wie X −E[X ]. Allerdings ist Var(X) in mathematischen Berech-nungen leichter als σX zu bearbeiten.

Fur X,Y ∈ L2(Ω,F,P) bezeichnet

(6.23) Cov(X,Y ) := E[(X −E[X ])(Y −E[Y ])] = 6.70 E[XY ]−E[X ]E[Y ]

6.64Es gilt |X|s ≤ 1 + |X|r , 1 ≤ s ≤ r < ∞, d.h., die Monotonie des Erwartungswerts, vgl.(6.5), die Linearitat des Erwartungswerts, vgl. (6.6), und die Normierung des Erwartungswerts,vgl. (6.10), ergeben

E[|X|s] ≤ 1 + E[|X|r] < ∞, 1 ≤ s ≤ r <∞.

6.65Ein Banachraum ist ein vollstandiger, normierter Vektorraum.6.66Eine Zufallsvariable X ∈ L2(Ω,F,P) wird auch quadratintegrabel genannt.6.67Allgemein ist ein Hilbertraum H ein Banachraum, dessen Norm ‖.‖ durch ‖x‖ =

√〈x, x〉,

x ∈ H, mit einem Skalarprodukt 〈., .〉 gegeben ist.6.68Diese Gleichheit folgt aus

E[(X −E[X])2] = E[X2 − 2XE[X] + E[X]2]

= E[X2]− 2E[X]E[X] +E[X]2 (vgl. (6.6) und (6.10))

= E[X2]−E[X]2.

6.69Der Erwartungswert E[X] beschreibt einen”typischen“ Wert von X.

18. April 2016

Page 110: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

110

die Kovarianz von X und Y . Falls die Zufallsvariablen X,Y ∈ L2(Ω,F,P) nicht-deterministisch sind 6.71, so ist

(6.24) ρX,Y :=Cov(X,Y )

σX · σYderen Korrelation.

Zufallsvariablen X,Y ∈ L2(Ω,F,P) mit Cov(X,Y ) = ρX,Y = 0 werden unkor-

reliert genannt. Andererseits sind X und Y positiv korreliert, wenn 6.72 ρX,Y > 0,d.h., wenn

”typischerweise“ X und Y gleichzeitig großer, bzw. kleiner als ihre Er-

wartungswerte E[X ] und E[Y ] sind. Negative Korrelation ρX,Y < 0 bedeutet, daß

”typischerweise“ X genau dann großer als E[X ] ist, wenn Y kleiner als E[Y ] ist 6.73.

In (6.24) werden durch die Division durch σX und σY die Abweichungen X −E[X ], bzw. Y−E[Y ] der ZufallsvariablenX und Y von ihrem jeweiligen Erwartungs-wert normiert 6.74. Als Folge ist ρX,Y ”

unabhangig“ 6.75 von den Großenordnungenvon X −E[X ] und Y − E[Y ] und damit gut zu einer quantitativen Charakterisie-rung der Abhangigkeiten zwischen diesen Fluktuationen von X und Y geeignet 6.76.Andererseits ist in mathematischen Berechnungen mit Cov(X,Y ) wesentlich besserzu arbeiten.

Um”Zusammenhange“ in einer endlichen Menge X1, . . . , Xn reellwertiger Zu-

fallsvariablen darzustellen, konnen die Kovarianzen fur Paare dieser Zufallsvariablenzu einer Kovarianzmatrix

Cov(X1, . . . , Xn) :=(Cov(Xk, Xl)

)k,l=1,...,n

zusammengefaßt werden 6.77.

Beispiel 6.8 (Unkorreliertheit und Unabhangigkeit). Unkorreliertheit, bzw. Un-abhangigkeit haben in anwendungsorientierten Uberlegungen eine ahnliche Bedeu-tung. Als mathematische Begriffe betrachtet, sind sie jedoch sehr unterschiedlich.

Seien zunachst X und Y zwei unabhangige, reellwertige Zufallsvariablen mitE[X2], E[Y 2] < ∞. Dann ist ρX,Y = 0, d.h., X und Y sind unkorreliert 6.78.Wie das folgende Beispiel zeigt, folgt umgekehrt aus der Unkorreliertheit nicht dieUnabhangigkeit.

6.70Diese Gleichheit folgt aus

E[(X −E[X])(Y − E[Y ])] = E[XY −XE[Y ]−E[X]Y + E[X]E[Y ]]

= E[XY ]− 2E[X]E[Y ] + E[X]E[Y ] (vgl. (6.6) und (6.10))

= E[XY ]−E[X]E[Y ].

6.71D.h., falls σX > 0 und σY > 0.6.72Fur nicht-deterministische Zufallsvariablen X,Y ∈ L2(Ω,F,P) folgt aus (6.24) und der

Positivitat von σX und σY , daß ρX,Y > 0 genau dann, wenn Cov(X, Y ) > 0.6.73Die hier beschriebene Interpretation der Korrelation zweier Zufallsvariablen wird in Bei-

spiel 6.9 verdeutlicht werden.6.74Beispielsweise ist (X−E[X])/σX ∼ 1, gleichgultig ob

”typischerweise“ (X−E[X]) ∼ 1010

oder (X − E[X]) ∼ 10−10.6.75

”Unabhangigkeit“ ist hier in einem umgangssprachlichen und nicht mathematisch rigo-

rosen Sinn gemeint.6.76Mit ρX,Y konnen Zusammenhange zwischen X und Y verdeutlicht werden, auch wenn die

Werte jener Zufallsvariablen vollig unterschiedliche Großenordnungen besitzen, vgl. Fußnote 6.74.6.77Fur endlich viele gemeinsam normalverteilte, reellwertige Zufallsvariablen ist deren Kova-

rianzmatrix ein die gemeinsame Verteilung, eine mehrdimensionale Normalverteilung kennzeich-nender Parameter, vgl. (3.15) und Fußnote 3.117.

6.78Nach der Produktregel fur unabhangige, integrable Zufallsvariablen, vgl. (6.9), istE[XY ] = E[X]E[Y ]. Somit ist Cov(X, Y ) = E[XY ]− E[X]E[Y ] = 0, vgl. (6.23).

18. April 2016

Page 111: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

111

Sei Ω = 1, 2, 3, F = Pot(Ω) und P die Gleichverteilung auf (Ω,F). Diereellwertigen Zufallsvariablen X und Y auf (Ω,F,P) seien durch

X(1) = 1, X(2) = 0, X(3) = −1,

Y (1) = 0, Y (2) = 1, Y (3) = 0,

gegeben. Diese Zufallsvariablen sind unkorreliert, da

E[XY ] = 0 = E[X ] = E[X ] ·E[Y ],

aber nicht unabhangig, denn

P[X = 1, Y = 1] = 0 6= 1

9= P[X = 1] ·P[Y = 1].

Beispiel 6.9 (Korrelationen in einem Populationsmodell). 6.79 Ein Modell furdie zeitliche Entwicklung einer Population pflanzenfressender Tiere in einem ab-geschlossenen Areal 6.80 ist zu entwerfen 6.81. Als Modell sei ein stochastischer Pro-zeß X = (Xn)n∈N0 mit Xn = (Pn, Nn, Vn, νn), n ∈ N0, zu bestimmen, wobei Pn

die Populationsgroße, Nn das Nahrungsangebot, Vn der Nahrungsverbrauch undνn(≈ Nn/Pn) das durchschnittliche Nahrungsangebot zur Zeit n ∈ N0 ist.

Auf eine konkrete Beschreibung eines geeigneten Prozesses X soll hier nichteingegangen werden. Allerdings sollen Eigenschaften festgehalten werden, die ein

”vernunftiges“, die Realitat widerspiegelndes Modell evtl. besitzen konnte. Insbe-sondere sollen einige Korrelationen zwischen den einzelnen Zufallsvariablen Pn, Nn,Vn, νn, n ∈ N0, diskutiert werden.

1. Fall. Fur spezielle Populationen kann beispielsweise erwartet werden, daß 6.82

• ρPn,Nn= 0 6.83 (Alternative: ρPn,Nn+1 < 0 6.84),

• ρPn,Vn> 0 6.85,

• ρPn,νn < 0 6.86,• ρNn,νn ≥ 0 6.87, . . .

Wenn in einem vorgeschlagenen Modell eine dieser Beziehungen verletzt ist,konnte dies ein Grund sein, jenes Modell zu uberdenken und evtl. zu modi-fizieren.

2. Fall. In anderen Situationen konnte die Populationsgroße z.B. aufgrund exter-ner Einflusse 6.88 standig auf einem relativ niedrigen Niveau bleiben. Dannsollten die zeitlichen Entwicklungen der Tierpopulation und des Nahrungsan-gebots unabhangig werden und somit Korrelationen wie ρPn,Nk

oder ρPn,νk

6.79In diesem Beispiel soll erlautert werden, wie heuristische Uberlegungen Eigenschaftenvon Korrelationen zwischen zufalligen beobachtbaren Großen x1, . . . , xn in einem realen Umfeldaufdecken konnen. Zur Uberprufung eines mathematischen Modells ware es dann notwendig, dieseEigenschaften fur jene Zufallsvariablen X1, . . . , Xn, die x1, . . . , xn modellieren, zu verifizieren.

6.80Z.B. eine Insel.6.81Es sollen hier nur einige Gedankengange vorgestellt werden, die bei der Entwicklung und

der Uberprufung eines Modells brauchbar sein konnen, vgl. Fußnote 6.79.6.82Diese Beziehungen sollten zumindest dann gelten, wenn sich ein gewisses

”Gleichgewicht“

in dem betrachteten System eingestellt hat, also fur große Zeiten n.6.83Die Anzahl der Tiere hat keinen Einfluß auf das Wachstum der Pflanzen.6.84Ein negativer Einfluß einer großen Tierpopulation auf das zukunftige Nahrungsangebot

kann dann eintreten, wenn die Tiere die Wurzeln der Pflanzen zerstoren oder die jungen Triebewegfressen.

6.85Viele Tiere fressen viel.6.86In einer großeren Population steht den einzelnen Tieren ein kleinerer Anteil des gesamten

Nahrungsangebots zur Verfugung.6.87Wenn insgesamt ein großeres Nahrungsangebot zur Verfugung steht, fallt fur jedes ein-

zelne Tier mehr ab.6.88Beispielsweise als Resultat der Verfolgung durch Raubtiere oder durch Stress, bzw.

erhohte Anfalligkeit gegenuber Krankheiten bei großeren Populationsdichten.

18. April 2016

Page 112: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

112

fur alle n, k ∈ N0 verschwinden. Es konnte nun ausreichen, ein Modell furdie Dynamik von (Pn)n∈N0 allein zu entwerfen 6.89.

6.4.1. Rechenregeln fur Varianz und Kovarianz. X,Y,X1, . . . , Xn : (Ω,F,P) → (R,B(R)) seien Zufallsvariablen in L2(Ω,F,P) 6.90.

(a) Fur a, b, c, d ∈ R gilt

(6.25) Cov(aX + b, cY + d) = ac Cov(X,Y ).

Insbesondere ist 6.91

(6.26) Var(aX + b) = a2 Var(X).

Varianz und Kovarianz sind daher invariant unter der Addition von Konstanten 6.92.

Beweis. Offensichtlich ist

Cov(aX + b, cY + d) = E[(aX + b−E[aX + b])(cY + d−E[cY + d])

]

= 6.93 E[(aX −E[aX ])(cY −E[cY ])

]

= 6.94 ac E[(X −E[X ])(Y −E[Y ])

]

= ac Cov(X,Y ).

(b) Es gilt

(6.27) Var(X1 + · · ·+Xn) =n∑

k=1

Var(Xk) +∑

k,l=1,...,nk 6=l

Cov(Xk, Xl).

Insbesondere addieren sich fur unkorrelierte Zufallsvariablen X1, . . . , Xn ihre Vari-anzen, d.h.,

(6.28) Var(X1 + · · ·+Xn) =

n∑

k=1

Var(Xk), falls Cov(Xk, Xl) = 0, k 6= l.

Beweis. Einfache Uberlegungen zeigen, daß

Var(X1 + · · ·+Xn) = E[(X1 + · · ·+Xn − E[X1 + · · ·+Xn]︸ ︷︷ ︸

= E[X1] + · · ·+E[Xn]

)2]

= E

[n∑

k,l=1

(Xk −E[Xk])(Xl −E[Xl])

]

= 6.95n∑

k,l=1

E[(Xk −E[Xk])(Xl −E[Xl])

]︸ ︷︷ ︸

= Cov(Xk, Xl)

6.89In einer derartigen Situation kann die das Nahrungsangebot bestimmende Umwelt alszeitlich konstant betrachtet werden. Somit kann angenommen werden, daß die zeitliche Entwick-lung von (Pn)n∈N0

nicht durch”außere Krafte“ beeinflußt ist, d.h. einer autonomen Dynamik

unterliegt.6.90Vgl. Bemerkung 6.7(ii).6.91Man beachte, daß Var(Z) = Cov(Z, Z), Z ∈ L2(Ω,F,P).6.92Da Varianz und Kovarianz die Fluktuationen von Zufallsvariablen um ihren Erwartungs-

wert beschreiben, ist dieses Verhalten auch zu erwarten.6.93Wegen der Linearitat des Erwartungswerts, vgl. (6.6), und der Normierung des Erwar-

tungswerts, vgl. (6.10).6.94Wegen der Linearitat des Erwartungswerts, vgl. (6.6).

18. April 2016

Page 113: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

113

=

n∑

k=1

Var(Xk) +∑

k,l=1,...,nk 6=l

Cov(Xk, Xl).

(c) Als Verallgemeinerung der Cauchyschen Ungleichung 6.96 gilt

(6.29) Cov(X,Y )2 ≤ Var(X) Var(Y ).

Beweis. Mit X = X −E[X ] und Y = Y −E[Y ] ergibt sich

Cov(X,Y )2 = 6.97 Cov(X, Y )2 = 6.98 E[XY ]2 = 6.99 〈X, Y 〉2

≤ 6.100 ‖X‖22‖Y ‖22 = E[X2]E[Y 2] = Var(X) Var(Y ).

(d) Als Anwendung von (6.29) folgt 6.101

(6.30) |ρX,Y | =|Cov(X,Y )|√

Var(X)√Var(Y )

≤ 1,

d.h., fur alle Zufallsvariablen X , Y mit E[X2],E[Y 2] <∞ ist ρX,Y ∈ [−1, 1].

6.5. Beispiele zum Erwartungswert und zur Varianz

Beispiel 6.10 (Exponentialverteilung). Sei X eine exponentiell verteilte Zufalls-variable 6.102, d.h., fur ein λ > 0 besitze PX die Dichte

f(x) = I[0,∞)(x)λ exp(−λx), x ∈ R.

Dann gilt 6.103:

E[X ] = 6.104 λ

∫ ∞

0

dx x exp(−λx)

6.95Aufgrund der Linearitat des Erwartungswerts, vgl. (6.6).6.96Vgl. (6.21).6.97Wegen (6.25).6.98Da E[X] = E[Y ] = 0.6.99Hier wird mit dem Skalarprodukt 〈., .〉 in L2(Ω,F,P) gearbeitet, vgl. Bemerkung 6.7(ii).6.100‖.‖2 bezeichnet die Norm in dem Hilbertraum L2(Ω,F,P). Hier findet die Cauchy-

Schwarzsche Ungleichung, d.h.,

|〈U, V 〉| ≤ ‖U‖2‖V ‖2, U, V ∈ L2(Ω,F,P),

Verwendung. Diese folgt aus

0 ≤∥∥∥∥∥U√

‖V ‖2‖U‖2

± V

√‖U‖2‖V ‖2

∥∥∥∥∥

2

2

=

⟨U

√‖V ‖2‖U‖2

± V

√‖U‖2‖V ‖2

, U

√‖V ‖2‖U‖2

± V

√‖U‖2‖V ‖2

= ‖U‖22‖V ‖2‖U‖2

+ ‖V ‖22‖U‖2‖V ‖2

± 2〈U, V 〉

= 2‖U‖2‖V ‖2 ± 2〈U, V 〉.

6.101Die Korrelation ρX,Y zweier Zufallsvariablen X,Y ∈ L2(Ω,F,P) ist in (6.24) definiert.6.102Vgl. Abschnitt 2.6. Solche Zufallsvariablen konnen z.B. zur Modellierung des Zeitpunktes

eines ersten Telefonanrufs verwendet werden.6.103Als positive Zufallsvariable besitzt X auf jeden Fall einen Erwartungswert, der zunachst

allerdings gleich ∞ sein konnte, vgl. die Erlauterungen am Ende von Abschnitt 6.3.

18. April 2016

Page 114: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

114

= 6.105 −y exp(−λy)∣∣∣∣∞

y=0︸ ︷︷ ︸= 0

+

∫ ∞

0

dx exp(−λx)︸ ︷︷ ︸

= 1/λ

=1

λ,

E[X2] = 6.106 λ

∫ ∞

0

dx x2 exp(−λx)

= 6.107 −y2 exp(−λy)∣∣∣∣∞

y=0︸ ︷︷ ︸= 0

+2

∫ ∞

0

dx x exp(−λx)︸ ︷︷ ︸= E[X ]/λ = 1/λ2

=2

λ2.

Folglich ist

Var(X) = E[X2]−E[X ]2 =1

λ2.

Beispiel 6.11 (Cauchy-Verteilung 6.108). Die Verteilung PX einer ZufallsvariableX besitze fur ein a > 0 die Dichte

f(x) =a

π(a2 + x2), x ∈ R.

Nun ist 6.109

E[X+] =6.110

∫ ∞

0

dx xf(x) =a

π

∫ ∞

0

dxx

a2 + x2= ∞

und ebenso E[X−] = ∞. Folglich besitzt X keinen Erwartungswert 6.111.Zur Beschreibung eines

”typischen, mittleren Werts“ bietet sich fur Cauchy-

verteilte Zufallsvariablen der Median 6.112 m = 0 an.

Beispiel 6.12 (Normalverteilung 6.113). Die Verteilung PX der Zufallsvariable Xbesitze die Dichte

f(x) =1√2πσ2

exp(− (x− µ)2

2σ2

), x ∈ R,

wobei µ ∈ R und σ2 > 0.

6.104Vgl. Beispiel 6.5.6.105Mit Hilfe partieller Integration.6.106Nach Beispiel 6.6. Im hier betrachteten Fall wird H(x) = x2 benutzt.6.107Mit Hilfe partieller Integration.6.108Vgl. Abschnitt 2.6.6.109X+ = maxX, 0, bzw. X− = max−X, 0, ist der Positivteil, bzw. der Negativteil einer

Zufallsvariablen X. Da X+ und X− nichtnegative Zufallsvariablen sind, sind E[X+] und E[X−]wohldefiniert, vgl. die Erlauterungen am Ende von Abschnitt 6.3.

6.110Hier wird Beispiel 6.6 mit H(x) = x+ = maxx, 0, x ∈ R angewandt.6.111Man beachte, daß X2 als nichtnegative Zufallsvariable sehr wohl einen Erwartungswert

besitzt. Allerdings ist E[X2] = ∞.6.112Vgl. Abschnitt 3.3.4. Im vorliegenden Fall ist der Median m eindeutig durch

∫ m

−∞dx f(x) =

∫ ∞

mdx f(x) =

1

2.

bestimmt. Wegen der Symmetrie von f gilt m = 0.6.113Vgl. Abschnitt 2.6.

18. April 2016

Page 115: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

115

Existenz endlicher Momente. Fur alle r ≥ 1 gilt:

|x|rf(x) ≤ C|x|r exp(− x2

2σ2

)exp(xµσ2

)

︸ ︷︷ ︸

≤ 6.114 C1 exp( 1

σ2

(x24

+ µ2))

≤ C2 |x|r exp(− x2

8σ2

)

︸ ︷︷ ︸≤ C3, gleichmaßig in x ∈ R

exp(− x2

8σ2

)

≤ C4 exp(− x2

8σ2

), x ∈ R,

wobei C, C1, . . . nur von r, µ und σ2 abhangige, positive Konstanten sind. Da∫∞−∞ dx exp(−βx2) <∞ fur alle β > 0, ist |X |r fur alle r ≥ 1 integrabel 6.115.Insbesondere besitzt eine normalverteilte Zufallsvariable X fur alle r ∈ N einendliches r-tes Moment.

Erwartungswert der Normalverteilung.

E[X ] =

∫ ∞

−∞dx xf(x)(6.31)

=1√2πσ2

∫ ∞

−∞dx (x− µ) exp

(− (x− µ)2

2σ2

)

︸ ︷︷ ︸= 6.116 0

+ µ1√2πσ2

∫ ∞

−∞dx exp

(− (x− µ)2

2σ2

)

︸ ︷︷ ︸= 6.117 1

= µ.

Varianz der Normalverteilung.

Var(X) = E[(X −E[X ])2

](6.32)

= 6.118 1√2πσ2

∫ ∞

−∞dx (x− µ)2 exp

(− (x− µ)2

2σ2

)

= 6.119 σ2

√2π

∫ ∞

−∞dz z2 exp

(−z

2

2

)

= 6.120 − σ2

√2π

y exp(−y

2

2

)∣∣∣∣∞

y=−∞︸ ︷︷ ︸= 0

+σ2 1√2π

∫ ∞

−∞dz exp

(−z

2

2

)

︸ ︷︷ ︸= 6.121 1

6.114Beachte die Abschatzung

|ab| ≤ 1

2

(a2α

+ αb2), a, b ∈ R, α > 0,

die aus der Beziehung

0 ≤( |a|√

α−√

α|b|)2

=a2

α+ αb2 − 2|ab|, a, b ∈ R, α > 0,

folgt. Hier wird a = x, b = µ und α = 2 benutzt.6.115Als Konsequenz aus Beispiel 6.6 folgt die Integrabilitat der Zufallsvariable |X|r aus∫∞

−∞ dx |x|rf(x) <∞.6.116Da der Integrand antisymmetrisch bzgl. µ ist.6.117Hier wird eine Wahrscheinlichkeitsdichte uber den ganzen Raum R integriert.

18. April 2016

Page 116: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

116

= σ2.

Die Parameter µ und σ2 der Normalverteilung sind jetzt als Erwartungswert,bzw. Varianz identifiziert worden.

Weiterhin ist nun das zweite Moment der Normalverteilung durch 6.122

E[X2] = Var(X) +E[X ]2 = σ2 + µ2

gegeben.

6.6. Erwartungstreue Schatzer

Sei (X,G, (Pλ)λ∈Λ) ein statistisches Modell 6.123, wobei Λ ⊆ R 6.124. Sei außer-dem T : (X,G) → (R,B(R)) eine Statistik 6.125, die zur Schatzung von λ dient 6.126.

(6.33) Eλ[T ]6.127 − λ = 6.128

X

Pλ(dx) T (x)− λ =: bλ(T ), λ ∈ Λ,

wird als Bias 6.129 des Schatzers T bezeichnet. T heißt erwartungstreu, wenn bλ(T ) =0, λ ∈ Λ 6.130.

Beispiel 6.13. Fur N ∈ N 6.131 sei X = 0, 1, . . . , N und G = Pot(X). Furq ∈ [0, 1] sei außerdem Pq die Binomialverteilung B(N, q) mit Parametern N undq 6.132. T : X → [0, 1] mit T (x) = x/N , x ∈ X, ist der Maximum-Likelihood-Schatzerfur q 6.133. Da

Eq[T ] =

N∑

l=0

l

N

(N

l

)ql(1− q)N−l = 6.134 q, q ∈ [0, 1],

ist T erwartungstreu.

6.118Wegen (6.31) und Beispiel 6.6. Hier wird H mit H(x) = (x− µ)2 benutzt.6.119Mit der Substitution z = (x− µ)/

√σ2.

6.120Mit partieller Integration

∫ b

af ′g = fg

∣∣∣b

a−∫ b

afg′.

Hier wird f(x) = − exp(−x2/2) und g(x) = x benutzt.6.121Hier wird eine Wahrscheinlichkeitsdichte uber den ganzen Raum integriert.6.122Vgl. (6.20).6.123Vgl. Abschnitt 4.1.6.124Insbesondere liegt ein eindimensionales parametrisches statistisches Modell vor.6.125Vgl. Abschnitt 4.1.6.126T konnte z.B. ein Maximum-Likelihood-Schatzer, vgl. Abschnitt 4.2, sein.6.127Fur λ ∈ Λ bezeichnet Eλ[T ] den Erwartungswert von T , falls auf (X, G) das Wahrschein-

lichkeitsmaß Pλ zugrundegelegt wird.6.128Diese Notation wird in Bemerkung 6.4(iii) eingefuhrt.6.129Der Bias bλ(T ) ist der mittlere oder auch systematische Fehler des Schatzers T , wenn

Pλ die zugrundeliegende Wahrscheinlichkeitsverteilung ist.6.130Fur einen erwartungstreuen Schatzer T von λ verschwindet fur alle moglichen Parameter

λ der mittlere Fehler.6.131N wird in diesem Beispiel als fest betrachtet.6.132In diesem Beispiel wird daher mit dem statistischen Modell (X, G, (Pq)q∈[0,1]) gearbeitet.6.133Vgl. Beispiel 1.9.6.134Vgl. Beispiel 1.5.

18. April 2016

Page 117: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

117

Beispiel 6.14. Sei X = N und G = Pot(X). FurM ∈ N sei PM die Gleichverteilungauf 1, . . . ,M 6.135. Durch T : X → N mit T (x) = x, x ∈ X, ist der Maximum-Likelihood-Schatzer fur M bestimmt 6.136. Da

EM [T ] =1

M

M∑

l=1

T (l) =1

M

M∑

l=1

l =1

M

M(M + 1)

2=M + 1

2,

ist T nicht erwartungstreu.Verwendet man andererseits T1 : X → N mit T1(x) = 2x−1, x ∈ X, als Schatzer

fur M 6.137, so beobachtet man

EM [T1] =1

M

M∑

l=1

T1(l) =1

M

M∑

l=1

(2l− 1) =2

M

M(M + 1)

2− 1 =M.

T1 ist daher ein erwartungstreuer Schatzer fur M .

Beispiel 6.15. Nicht fur alle Schatzprobleme existiert ein erwartungstreuer Schat-zer. Gegeben sei beispielsweise das statistische Modell (X,G, (Pq)q∈[0,1]), wobei

6.138

X = 0, 1, . . . , N, G = Pot(X) und Pq die Binomialverteilung B(N, q) mit Parame-tern N und q ist. Dann ist fur jeden Schatzer 6.139 T : X → R der Erwartungswert

Eq[T ] =∑N

l=0 T (l)(Nl

)ql(1 − q)N−l ein Polynom in q ∈ [0, 1]. Da andererseits die

Standardabweichung 6.140 σq =√Nq(1− q) von Pq kein Polynom in q ∈ [0, 1] ist,

existiert fur sie kein erwartungstreuer Schatzer 6.141.

Beispiel 6.16 (Erwartungstreue Schatzung von Erwartungswert und Varianz voni.i.d. Zufallsvariablen). Eine zufallige reelle Große G werde N mal unabhangig ge-messen 6.142. Zu einer quantitativen Beurteilung von G ist es naheliegend, zunachstden

”Mittelwert“ und die

”Große der Schwankungen“ der Messungen von G zu

schatzen 6.143.

6.135Da 1, . . . ,M ⊆ X kann PM als ein Wahrscheinlichkeitsmaß auf (X, G) betrachtet wer-den. Dementsprechend wird in diesem Beispiel mit dem statistischen Modell (X,G, (PM )M∈N)gearbeitet.

6.136Wenn PM als ein Wahrscheinlichkeitsmaß auf X betrachtet wird, ist

PM [y] =1/M, falls y = 1, . . . ,M,

0, falls y =M + 1,M + 2, . . . .

Die Likelihood-Funktion zum Beobachtungswert x ist daher

Lx(M) = PM [x] =0, falls M = 1, . . . , x− 1,

1/M, falls M = x, x+ 1, . . . .

Somit ist der Maximum-Likelihood-Schatzer M fur M zu gegebenem Beobachtungswert x durch

M = x gegeben.6.137Dieser Schatzer ergibt sich aus der Vermutung, daß im Fall der Beobachtung von x

die”Lucke“ x− 1 zum kleinsten Element 1 ahnlich groß ist, wie die

”Lucke“ M − x zum großten

ElementM , d.h., daß x−1 ≈M−x. Damit ergibt sich M = 2x−1 als Schatzer. Beim Taxiproblem,vgl. Beispiel 4.5, wird ubrigens mit einer ahnlichen Argumentation ebenfalls eine Alternative S2

zum Maximum-Likelihood-Schatzer S1 bestimmt.6.138N ∈ N sei fest.6.139D.h., fur jede Statistik.6.140Vgl. Beispiel 1.6 und (6.22).6.141In diesem Beispiel wird nicht direkt der Parameter q sondern mit

√Nq(1− q) eine

Funktion dieses Parameters geschatzt. Damit liegt eine Verallgemeinerung der bisher behandeltenSchatzprobleme vor.

6.142In einer konkreten Anwendung konnte G die Lebensdauer eines speziellen Gebrauchs-gegenstandes, z.B. eines Autoreifens oder einer Kinderschaukel, oder die Hitzebestandigkeit einerKeramik sein.

6.143Dieses umgangssprachlich beschriebene Ziel muß jetzt mathematisch formuliert werden.

18. April 2016

Page 118: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

118

In einer mathematisch praziseren Formulierung seien X1, . . . , XN i.i.d. Zufalls-variablen mit Erwartungswert µ und Varianz σ2 6.144. Die Verteilung der Zufalls-variablen X1, . . . , XN sei unbekannt, zu schatzen seien µ und σ2 6.145.

Als Schatzer von µ und σ2 seien 6.146

(6.34) µ :=1

N

N∑

k=1

Xk und σ2 :=1

N − 1

N∑

k=1

(Xk − µ)2

definiert. Da 6.147

Eµ,σ2 [µ] = 6.148 1

N

N∑

k=1

Eµ,σ2 [Xk] =1

N

N∑

k=1

µ = µ

und

Eµ,σ2 [σ2] = 6.148 1

N−1

N∑

k=1

(Eµ,σ2 [X2

k ]− 2Eµ,σ2 [Xkµ] +Eµ,σ2 [µ2])

=1

N−1

N∑

k=1

(6.149 (σ2 + µ2)− 6.150 2

(σ2

N+ µ2

)+ 6.151

(σ2

N+ µ2

))

=1

N−1

N∑

k=1

(1− 1

N

)σ2 = σ2,

6.144Insbesondere sei angenommen, daß E[X21 ] < ∞.

6.145Als statistisches Modell konnte hier (RN ,B(RN ), (Pλ)λ∈Λ) benutzt werden, wobei Λ dieMenge aller Wahrscheinlichkeitsmaße λ auf (R,B(R)) mit

∫Rλ(dx) |x|2 < ∞ und Pλ die gemein-

same Verteilung von unabhangigen, reellwertigen, identisch verteilten Zufallsvariablen Y1, . . . , YNmitPY1

= λ ist. Zu schatzen ist nicht, wie dies in den meisten bisher behandelten Schatzproblemenublich war, der

”wahre Parameter“ λw und damit ein Wahrscheinlichkeitsmaß auf (R,B(R)). Hin-

gegen sind mit dem”wahren Erwartungswert“ µ = Eλw

=∫Rλw(dx) x, bzw. der

”wahren Varianz“

σ2 = Vλw=∫Rλw(dx) (x−Eλw

)2 zwei spezielle Funktionale von λw zu bestimmen. Eine einfache-re Variante eines solchen verallgemeinerten Schatzproblems wird auch in Beispiel 6.15 diskutiert.Man vergleiche hierzu insbesondere auch Fußnote 6.141.

Um die im vorangehenden Absatz angedeutete komplizierte Formulierung des Schatzproblemsdieses Beispiels zu umgehen, wird einfach das Ziel verfolgt, als Schatzer von µ und σ2 geeig-nete Funktionen T = T (X1, . . . , XN ) (der beobachteten Realisierungen) der ZufallsvariablenX1, . . . ,XN zu bestimmen, bzw. zu untersuchen.

6.146Als empirischer Mittelwert ist µ ein naheliegender Schatzer fur µ. Ebenso ist der Mittel-wert der quadrierten Schwankungen der Zufallsvariablen X1, . . . , XN um den geschatzten Erwar-

tungswert µ ein erster Kandidat als Schatzer fur σ2. Da aber∑N

k=1(Xk−µ) =∑N

k=1Xk−Nµ = 0,sind die Zufallsvariablen X1 − µ, . . . , XN − µ nicht linear unabhangig. Beispielsweise ist X1 − µ

eine Linearkombination von Xk − µ, k = 2, . . . , N . Somit besitzt∑N

k=1(Xk − µ)2 nur N − 1

”Freiheitsgrade“. Dadurch wird die Normierung mit (N − 1)−1 anstelle von N−1 verstandlich.

6.147Die Bezeichnung Eµ,σ2 [. . . ] deutet an, daß hier angenommen wird, daß die (unbekannte)

Verteilung von X1, . . . und XN den Erwartungswert µ und die Varianz σ2 hat. Bezuglich dieserVerteilung wird der Erwartungswert betrachtet.

6.148Wegen der Linearitat des Erwartungswerts, vgl. (6.6).6.149Da σ2 = Varµ,σ2 (Xk) = Eµ,σ2 [X2

k ]− Eµ,σ2 [Xk]2 = Eµ,σ2 [X2

k ]− µ2, k = 1, . . . , N .6.150Da

Eµ,σ2 [Xkµ] =1

N

N∑

l=1

Eµ,σ2 [XkXl] =1

NEµ,σ2 [X2

k ] +1

N

l=1,...,Nl 6=k

Eµ,σ2 [Xk]Eµ,σ2 [Xl]

=1

N(Varµ,σ2 (Xk) + Eµ,σ2 [Xk]

2) +N − 1

Nµ2 =

1

Nσ2 + µ2, k = 1, . . . , N,

wobei die Uberlegung in Fußnote 6.149 und die Unabhangigkeit der Zufallsvariablen X1, . . . ,XN

benutzt werden. Insbesondere findet die Produktregel fur unabhangige Zufallsvariablen, vgl. (6.9),Verwendung.

18. April 2016

Page 119: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

119

sind µ und σ2 erwartungstreue Schatzer 6.152.

6.6.1. Mittlerer quadratischer Fehler eines Schatzers. Ein statistischesModell (X,G, (Pλ)λ∈Λ) mit Λ ⊆ R sei gegeben. Außerdem sei T : (X,G) → (R,B(R))eine Statistik, die zur Schatzung von λ dient. Die Genauigkeit dieses Schatzers kanndurch den mittleren quadratischen Fehler

(6.35) Eλ

[(T − λ)2

]=

X

Pλ(dx) (T (x)− λ)2 =: s2λ(T ), λ ∈ Λ,

ausgedruckt werden. Offensichtlich sollte von zwei sonst”gleichwertigen“ Schatzern

derjenige mit dem kleineren mittleren quadratischen Fehler als der bessere bewertetwerden 6.153. Da

s2λ(T ) = Eλ

[((T −Eλ[T ]) + (Eλ[T ]− λ︸ ︷︷ ︸

= 6.154 bλ(T )

))2]

(6.36)

= Eλ

[(T −Eλ[T ])

2]+ 2bλ(T )Eλ

[T −Eλ[T ]

]︸ ︷︷ ︸

= 6.155 0

+bλ(T )2

= Varλ(T ) + bλ(T )2, λ ∈ Λ,

fallen fur erwartungstreue Schatzer mittlerer quadratischer Fehler und Varianz zu-sammen 6.156.

Beispiel 6.17 (Untere Abschatzung des mittleren quadratischen Fehlers bei er-wartungstreuen Schatzern 6.157). Sei (X,G, (Pλ)λ∈Λ) ein diskretes statistisches Mo-dell 6.158. Weiterhin sei Λ ein Intervall in R und T : X → Λ ein erwartungstreuerSchatzer fur λ, d.h.,

Eλ[T ] =∑

x∈X

T (x)Pλ[x] = λ, λ ∈ Λ.

Zum Beobachtungswert x ∈ X ist die Likelihood-Funktion Lx durch Λ ∋ λ →Pλ[x] = Lx(λ) und weiterhin die Log-Likelihood-Funktion 6.159 ℓx( . )=logLx( . )

6.151Aus Fußnote 6.149 und mit der Unabhangigkeit der Zufallsvariablen X1, . . . ,XN ergibtsich

Eµ,σ2 [µ2] =1

N2

N∑

k,l=1

Eµ,σ2 [XkXl] =1

N2

(N∑

k=1

Eµ,σ2 [X2k ] +

k,l=1,...,Nl 6=k

Eµ,σ2 [Xk]Eµ,σ2 [Xl]

)

=1

N

(σ2 + µ2 + (N − 1)µ2

)=

1

Nσ2 + µ2.

6.152Durch die Uberlegungen in diesem Beispiel werden letztendlich die Definitionen (A.1)und (A.2) von empirischem Mittelwert, bzw. empirischer Varianz reller Daten begrundet.

6.153Eine Anwendung dieser Uberlegungen wird im Rahmen des Taxiproblems in Fußno-te 4.58 vorgestellt.

6.154bλ(T ) ist der Bias des Schatzers T , vgl. (6.33).6.155Aufgrund der Linearitat des Erwartungswerts, vgl. (6.6), und der Normierung des Er-

wartungswerts, vgl. (6.10).6.156Man beachte, daß erwartungstreue Schatzer T durch bλ(T ) = 0, λ ∈ Λ, charakterisiert

sind.6.157In diesem Beispiel soll erlautert werden, wie

”gut“ ein erwartungstreuer Schatzer sein

kann. M.a.W., es soll untersucht werden, wie klein der mittlere quadratische Fehler eines solchenSchatzers werden kann. Eine detailliertere Darstellung findet sich in [10], Abschnitt 4.5.

6.158Vgl. Abschnitt 4.1. Diese einschrankende Annahme wird zur Vereinfachung der Notationgemacht.

6.159Damit ℓx( . ) > −∞ sei Pλ[x] = Lx(λ) > 0, x ∈ X, λ ∈ Λ, angenommen.

18. April 2016

Page 120: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

120

gegeben 6.160. Betrachtet man nun fur festes λ ∈ Λ die Log-Likelihood-Funktionℓ.(λ) und auch deren Ableitung ℓ′.(λ)

6.161 als Funktionen von x ∈ X, so laßt sichmit

I(λ) = Eλ[ℓ′.(λ)

2] =∑

x∈X

ℓ′x(λ)2Pλ[x], λ ∈ Λ,

die Fisher-Information einfuhren. Ist

I(λ) ∈ (0,∞), λ ∈ Λ,

so gilt fur jeden erwartungstreuen Schatzer T von λ die sog. Informationsunglei-

chung

(6.37) Varλ(T ) ≥1

I(λ), λ ∈ Λ.

Die Varianz und damit der mittlere quadratische Fehler eines erwartungstreuenSchatzers 6.162 des Parameters λ kann daher niemals kleiner als das Inverse derFisher-Information sein.

Die Informationsungleichung ist optimal, d.h., es gibt es Falle mit Gleichheit.I. allg. kann daher die Abschatzung (6.37) nicht durch die Angabe einer großerenrechten Seite prazisiert werden.

6.7. Elementare Ungleichungen in der Wahrscheinlichkeitstheorie

Oft werden in wahrscheinlichkeitstheoretischen Uberlegungen keine exaktenWahrscheinlichkeiten oder Erwartungswerte benotigt, sondern nur evtl. relativ ein-fach zu bestimmende Abschatzungen. Aus diesem Grund sind in der Wahrschein-lichkeitstheorie viele verschiedene Ungleichungen abgeleitet worden. Speziell wer-den in diesem Abschnitt mit der Markov-Ungleichung und der daraus folgendenCebysev-Ungleichung zwei einfache, aber nutzliche Ungleichungen eingefuhrt 6.163.

Satz 6.18. (a) Markov-Ungleichung. Sei X eine reellwertige Zufallsvariable und

f : [0,∞) → [0,∞) eine monoton wachsende Funktion mit f(x) > 0 fur x > 0.Dann gilt 6.164:

(6.38) P[|X | ≥ ǫ] ≤ E[f(|X |)]f(ǫ)

, ǫ > 0.

(b) Cebysev-Ungleichung. Fur jede reellwertige Zufallsvariable X gilt:

(6.39) P[|X | ≥ ǫ] ≤ E[X2]

ǫ2, ǫ > 0.

Beweis. Offensichtlich folgt (b) aus (a), wenn f mit f(x) = x2, x ∈ [0,∞),verwendet wird. (a) ergibt sich aus

f(ǫ)P[|X | ≥ ǫ] = 6.165 f(ǫ)E[I|X|≥ǫ]

6.160Beim Bestimmen eines Maximum-Likelihood-Schatzers fur λ betrachtet man L, bzw. ℓzu einem festen x ∈ X als Funktion von λ ∈ Λ, vgl. Abschnitt 4.2.

6.161ℓ′ ist die Ableitung der Funktion ℓ : X × Λ ∋ (x, λ) → ℓx(λ) nach λ. In den hierbeschriebenen Ausfuhrungen werden ℓ und ℓ′ fur festes λ als Funktionen von x ∈ X betrachtetund dann mit ℓ.(λ), bzw. ℓ′.(λ) bezeichnet.

6.162Mit (6.36) wurde verdeutlicht, daß bei erwartungstreuen Schatzern Varianz und mittlerer

quadratischer Fehler ubereinstimmen. Fur einen erwartungstreuen Schatzer T ist bλ(T ) = 0,λ ∈ Λ.

6.163Mit der Cauchyschen Ungleichung war eine weitere Ungleichung in (6.21), bzw. in (6.29)vorgestellt worden.

6.164Da f(|X|) ≥ 0, ist der Erwartungswert auf der rechten Seite von (6.38) immer definiert.Wenn allerdings E[f(|X|)] = ∞, ist diese Ungleichung nutzlos.

18. April 2016

Page 121: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

121

= 6.166 E[ f(ǫ)I|X|≥ǫ︸ ︷︷ ︸≤ 6.167 f(|X |), f.s.

]

≤ 6.168 E[f(|X |)].

Fur eine reellwertige Zufallsvariable X ∈ L2(Ω,F,P) gibt es mit 6.169

(6.40) P[|X −E[X ]| ≥ ǫ] ≤ Var(X)

ǫ2, ǫ > 0,

eine Variante der Cebysev-Ungleichung 6.170.

6.8. Konvergenzbegriffe in der Wahrscheinlichkeitstheorie

In der Wahrscheinlichkeitstheorie werden etliche unterschiedlich”starke“ Kon-

vergenzbegriffe benutzt. In diesem Abschnitt 6.8 werden die wichtigsten beschrie-ben 6.171.

(a) Stochastische Konvergenz 6.172. Seien X und Xn, n ∈ N, reellwertige Zu-fallsvariablen auf einem Wahrscheinlichkeitsraum (Ω,F,P). Die Folge Xn, n ∈ N,konvergiert stochastisch oder in Wahrscheinlichkeit gegen X , wenn

(6.41) limn→∞

P[|Xn −X | > ǫ] = 0, ǫ > 0.

Man schreibt dann auch 6.173 XnP→ X .

(b) Fast-sichere Konvergenz 6.174. Seien X und Xn, n ∈ N, reellwertige Zu-fallsvariablen auf einem Wahrscheinlichkeitsraum (Ω,F,P). Die Folge Xn, n ∈ N,konvergiert fast sicher (f.s.) gegen X , wenn 6.175

(6.42) P[ω ∈ Ω : lim

n→∞Xn(ω) = X(ω)

]= P

[limn→∞

Xn = X]= 1.

Man schreibt dann auch Xn → X , f.s., oder Xnf.s.→ X .

Wie durch die beiden folgenden Resultate belegt wird, ist im Vergleich zumstochastischen der fast-sichere Konvergenzbegriff der starkere 6.176.

6.165Vgl. (6.3).6.166Wegen der Linearitat des Erwartungswerts, vgl. (6.6).6.167Da f eine monoton wachsende, positive Funktion ist.6.168Aufgrund der Monotonie des Erwartungswerts, vgl. (6.5).6.169Zum Beweis ist (6.39) fur die ZufallsvariableX−E[X] anzuwenden und E[(X−E[X])2] =

Var(X), vgl. (6.20), zu beachten.6.170Als wesentliches Hilfsmittel wird die Cebysev-Ungleichung (6.39), bzw. (6.40) beim Be-

weis des schwachen Gesetzes der großen Zahlen, vgl. Beispiel 1.7 und Satz 7.1, und zur Bestimmungeines Konfidenzintervalls, vgl. Beispiel 4.8, angewandt.

6.171Die vorgestellten Konvergenzbegriffe sind genau diejenigen, die im schwachen Gesetz

der großen Zahlen, beim starken Gesetz der großen Zahlen, bzw. im Zentralen Grenzwertsatz

verwendet werden.6.172Dieser Konvergenzbegriff wird z.B. beim schwachen Gesetz der großen Zahlen verwen-

det, vgl. Beispiel 1.7 und Abschnitt 7.1.6.173Diese Notation erinnert an die englische Bezeichnung

”Convergence in Probability“.

6.174Dieser Konvergenzbegriff tritt u.a. beim starken Gesetz der großen Zahlen in Erschei-nung, vgl. Bemerkung 7.2.

6.175Es kann nachgewiesen werden, daß die Menge ω ∈ Ω : limn→∞Xn(ω) = X(ω) meßbarist. Damit ist insbesondere P

[ω ∈ Ω : limn→∞Xn(ω) = X(ω)

]wohldefiniert.

6.176Damit sind die Bezeichnungen schwaches, bzw. starkes Gesetz der großen Zahlen ge-rechtfertigt, vgl. Fußnoten 6.172 und 6.174.

18. April 2016

Page 122: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

122

Beispiel 6.19. Sei (Ω,F,P) = ([0, 1),B([0, 1)), λ), wobei λ das Lebesguemaß auf[0, 1) bezeichnet. Fur k ∈ N mit der eindeutigen Darstellung k = 2n+m, wobei n ∈N0 und m = 0, 1, . . . , 2n−1, sei Xk(ω) = I[m2−n,(m+1)2−n)(ω), ω ∈ [0, 1). Der Graphdieser Zufallsvariablen ist eine

”Rechtecksfunktion“, die mit wachsendem n immer

”enger“ wird und mit steigendem m von 0 nach

”rechts“ gegen 1 wandert und dann

wieder nach 0 zuruckspringt. Die Folge Xk, k ∈ N, konvergiert stochastisch 6.177

aber nicht f.s. 6.178 gegen 0, d.h. gegen die Zufallsvariable X mit X ≡ 0.

Satz 6.20. 6.179 Eine f.s. gegen eine Zufallsvariable X konvergente Folge von Zu-

fallsvariablen Xn, n ∈ N, konvergiert auch stochastisch gegen X. Umgekehrt exi-

stiert zu einer stochastisch gegen eine Zufallsvariable X konvergierenden Folge Xn,

n ∈ N, von Zufallsvariablen eine Teilfolge Xnr, r ∈ N, die f.s. gegen X konver-

giert 6.180.

(c) Konvergenz in Verteilung 6.181. Die in (a) und (b) vorgestellten Konvergenz-begriffe beziehen sich auf Zufallsvariablen Xn, n ∈ N, die alle auf dem gleichenWahrscheinlichkeitsraum (Ω,F,P) definiert sind. Wenn die Zufallsvariablen Xn,n ∈ N, verschiedene Wahrscheinlichkeitsraume als Definitionsbereiche besitzen, istdas Konzept der Konvergenz in Verteilung nutzlich.

Fur n ∈ N sei Xn eine reellwertige Zufallsvariable auf einem Wahrscheinlich-keitsraum (Ωn,Fn,Pn). Die Folge Xn, n ∈ N, konvergiert in Verteilung gegen eineZufallsvariable X , wenn 6.182 6.183

(6.43) limn→∞

E[h(Xn)] = E[h(X)], h ∈ Cb(R).

Man schreibt dann auch 6.184 Xnd→ X .

Zur Verifizierung der Konvergenz in Verteilung kann in vielen Fallen der fol-gende Satz 6.21 verwendet werden. In jenem Resultat werden insbesondere auchcharakteristische Funktionen benutzt, wobei fur eine reellwertige Zufallsvariable Yderen charakteristische Funktion ψY : R → C durch 6.185 6.186

(6.44) ψY (z) = E[exp(izY )], z ∈ R,

6.177λ[ω ∈ Ω : |Xk(ω)−X(ω)| > ǫ] = λ[ω ∈ [0, 1) : |Xk(ω)| = 1] = 2−n, falls k = 2n+mmit m = 0, 1, . . . , 2n − 1 und ǫ ∈ (0, 1).

6.178Zu jedem festen ω ∈ [0, 1) gibt es beliebig große k, so daß Xk(ω) = 1, namlich k =2n + ⌊ω2n⌋, n ∈ N. Ebenso ist Xk(ω) = 0 fur beliebig große k. Die Existenz von limk→∞Xk bzgl.der fast-sicheren Konvergenz ist daher ausgeschlossen.

6.179Vgl. [9], Lemma 4.2.6.180Fur die in Beispiel 6.19 diskutierte Folge Xn, n ∈ N von Zufallsvariablen, erhalt man

mit nr = 2r , r ∈ N, eine f.s. gegen X ≡ 0 konvergente Teilfolge Xnr = I[0,2−r), r ∈ N.6.181Dieser Konvergenzbegriff findet z.B. beim Zentralen Grenzwertsatz Verwendung, vgl.

Beispiel 1.8 und Abschnitt 9.3.6.182Mit Cb(R) wird der Raum der stetigen, beschrankten, reellwertigen Funktionen auf R

bezeichnet. Fur eine nicht-stetige Funktion h braucht (6.43) nicht zu gelten.6.183Um anzudeuten, daß E[h(Xn)] einen Erwartungswert bzgl. des Wahrscheinlichkeitsmaßes

Pn auf dem meßbaren Raum (Ωn,Fn) bezeichnet, konnte auch die Notation En[h(Xn)] verwendetwerden.

6.184Diese Notation erinnert an”Convergence in Distribution“.

6.185Offensichtlich ist exp(izY ) = cos(zY ) + i sin(zY ) eine beschrankte, C-wertige Zufalls-variable. Fur eine beliebige integrable, C-wertige Zufallsvariable Z = Z1 + iZ2 mit dem RealteilZ1 und dem Imaginarteil Z2 definiert man unter Verwendung der Linearitat des ErwartungswertsE[Z] := E[Z1] + iE[Z2].

6.186Wenn die Verteilung PY der Zufallsvariable Y eine Dichte f bzgl. des Lebesguemaßesbesitzt, so folgt aus Beispiel 6.6 die Darstellung

ψY (z) =

R

dx exp(izx)f(x), z ∈ R,

von ψY . Die charakteristische Funktion der Zufallsvariable Y entspricht somit der Fouriertrans-

formierten der Dichte ihrer Verteilung.

18. April 2016

Page 123: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

123

definiert ist 6.187.

Satz 6.21. 6.188 Fur reellwertige Zufallsvariablen X, Xn, n ∈ N, sind die folgenden

Aussagen aquivalent:

(1) Xnd→ X.

(2) limn→∞ FXn(y) = FX(y), y ∈ R, FX stetig in y 6.189.

(3) limn→∞ ψXn(y) = ψX(y), y ∈ R.

Das nachste Resultat verdeutlicht den Zusammenhang zwischen stochastischer

Konvergenz und Konvergenz in Verteilung.

Satz 6.22. 6.190. Eine stochastisch gegen eine Zufallsvariable X konvergente Folge

von Zufallsvariablen Xn, n ∈ N, konvergiert auch in Verteilung gegen X.

Satz 6.20 und Satz 6.22 lassen sich zusammenfassen in

(6.45) Xnf.s.→ X =⇒ Xn

P→ X =⇒ Xnd→ X.

6.187In Abschnitt 9.3 werden charakteristische Funktionen als wesentliches Hilfsmittel beimBeweis des Zentralen Grenzwertsatzes in Erscheinung treten. Insbesondere wird die Aquivalenzzwischen (1) und (3) in Satz 6.21 verwendet werden.

6.188Vgl. [9], Theorem 4.25, und [6], Section 5.9, Theorem (5).6.189FY ist die Verteilungsfunktion der Zufallsvariable Y , vgl. Abschnitt 3.3. Die hier be-

schriebene Konvergenz muß nur in den Stetigkeitspunkten von FX gelten.6.190Vgl. [9], Lemma 4.7.

18. April 2016

Page 124: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik
Page 125: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

KAPITEL 7

Gesetz der großen Zahlen

Ein Hauptthema der Wahrscheinlichkeitstheorie ist die zusammenfassende Be-

schreibung einer großen Menge von Zufallsvariablen 7.1. In diesem Zusammenhangwird in diesem Kapitel mit einem schwachen Gesetz der großen Zahlen ein erstesResultat vorgestellt 7.2.

7.1. Ein schwaches Gesetz der großen Zahlen

Unter dem Begriff”schwaches Gesetz der großen Zahlen“ kann man eine ganze

Klasse von Resultaten zusammenfassen. In diesen Resultaten wird fur eine Fol-ge Xn, n ∈ N, von Zufallsvariablen die Asymptotik der empirischen Mittelwerte

(1/N)∑N

k=1Xk bzgl. der stochastischen Konvergenz 7.3 bei N → ∞ untersucht.Daher sollte das nun vorgestellte Resultat nur als eine Variante des schwachen Ge-setzes der großen Zahlen verstanden werden 7.4.

Satz 7.1. 7.5 Seien X1, X2, . . . reellwertige, paarweise unkorrelierte 7.6 Zufalls-

variablen auf einem Wahrscheinlichkeitsraum (Ω,F,P) mit E[X2k ] < ∞, k ∈ N.

Sei 7.7

(7.1) v := supn∈N

Var(Xn) <∞.

Dann gilt 7.8:

(7.2) P

[∣∣∣∣∣1

N

N∑

k=1

(Xk −E[Xk]

)∣∣∣∣∣ ≥ ǫ

]≤ v

Nǫ2N→∞→ 0, ǫ > 0.

Wenn E[Xk] = µ, k ∈ N, fur ein µ ∈ R, so folgt insbesondere 7.9:

(7.3) P

[∣∣∣∣∣1

N

N∑

k=1

Xk − µ

∣∣∣∣∣ ≥ ǫ

]≤ v

Nǫ2N→∞→ 0, ǫ > 0.

7.1Das Ziel ist die Komprimierung von Informationen und damit auch die Herausarbeitungder wesentlichen Details.

7.2Vgl. Satz 7.1. Weitere Beitrage sind z.B. das starke Gesetz der großen Zahlen, vgl. (7.4),und der Zentrale Grenzwertsatz, vgl. Satz 9.3.

7.3Vgl. Abschnitt 6.8(a).7.4Schon in Beispiel 1.7 wurde fur i.i.d., 0, 1-wertige Zufallsvariablen, d.h., in einem Spezi-

alfall, das schwache Gesetz der großen Zahlen hergeleitet. Die dort angedeutete, auf der Cebysev-Ungleichung, vgl. Satz 6.18 und (6.40), basierende Methode eines Beweises ist auch in allgemei-neren Fallen wie dem nun folgenden Satz 7.1 anwendbar.

7.5Vgl. [5], Satz (5.6).7.6Vgl. Abschnitt 6.4. Es wird gefordert, daß Cov(Xk, Xl) = 0 fur k, l ∈ N mit k 6= l.7.7Da E[X2

k ] < ∞, k ∈ N, ist Var(Xk) < ∞, k ∈ N. In (7.1) wird zusatzlich gefordert, daß

die Varianzen der Zufallsvariablen Xk, k ∈ N, gleichmaßig beschrankt sind.7.8(7.2) besagt, daß die Zufallsvariablen (1/N)

∑Nk=1(Xk − E[Xk]) bei N → ∞ stochastisch

gegen 0 konvergieren.7.9(7.3) besagt, daß die Zufallsvariablen (1/N)

∑Nk=1Xk bei N → ∞ stochastisch gegen µ

konvergieren.

125

Page 126: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

126

Beweis. Sei ZN = (1/N)∑N

k=1(Xk − E[Xk]), N ∈ N. Offenbar ist 7.10 ZN ∈L2(Ω,F,P), N ∈ N, mit 7.11 E[ZN ] = 0, N ∈ N, und

E[Z2N ] = Var(ZN ) = 7.12 1

N2Var

( N∑

k=1

Xk

)

= 7.13 1

N2

N∑

k=1

Var(Xk) ≤ 7.14 v

N.

(7.2) folgt nun durch eine Anwendung der Cebysev-Ungleichung (6.39) auf die Zu-fallsvariablen ZN , N ∈ N.

Bemerkung 7.2. Unter den Voraussetzungen von Satz 7.1 gilt sogar das starke

Gesetz der großen Zahlen, d.h., 7.15

(7.4) limN→∞

1

N

N∑

k=1

(Xk −E[Xk]

)= 0, f.s.

7.2. Anwendungen des schwachen Gesetzes der großen Zahlen

In diesem Abschnitt werden zwei Anwendungen des Gesetzes der großen Zahlenbeschrieben. Es wird mit der Berechnung des Integrals einer meßbaren Funktion einProblem der Numerik und mit der Approximation einer stetigen Funktion durchPolynome ein Problem der Analysis mit Methoden der Wahrscheinlichkeitstheorie,genauer dem schwachen Gesetz der großen Zahlen, gelost. Beide Probleme habenprimar nichts mit Stochastik zu tun, d.h., der

”Zufall“ wird als ein mathematisches

Hilfsmittel benutzt.

7.2.1. Monte-Carlo-Integration. Fur eine meßbare Funktion 7.16 h : ([0, 1],B([0, 1])) → ([−c, c],B([−c, c])), wobei c ∈ (0,∞) eine Konstante ist, soll 7.17

∫ 1

0 dx h(x) berechnet werden.Hierzu seien Xk, k ∈ N, unabhangige, auf [0, 1] gleichverteilte Zufallsvariablen.

In diesem Fall sind die Zufallsvariablen h(Xk), k ∈ N, unabhangig und identischverteilt 7.18 mit 7.19

E[h(X1)] =7.20

∫ 1

0

dx h(x) := µh,(7.5)

Var(h(X1)) = E[(h(X1)− µh)2] = E[h(X1)

2]− µ2h

= 7.20

∫ 1

0

dx h(x)2 −(∫ 1

0

dx h(x)

)2

≤ c2.

7.10Weil E[X2k ] < ∞, k ∈ N.

7.11Aufgrund von (6.6) und (6.10).7.12Wegen (6.26).7.13Wegen (6.28). Man beachte, daß die Zufallsvariablen Xk , k ∈ N, unkorreliert sind.7.14Aufgrund der Annahme (7.1).7.15Vgl. [5], Satz (5.15). Die fast-sichere Konvergenz wird in Abschnitt 6.8(b) erlautert. Da

die fast-sichere Konvergenz”starker“ als die stochastische Konvergenz ist, folgt (7.4) nicht aus

Satz 7.1.7.16Die Meßbarkeit einer Funktion wird in (3.1) definiert.7.17∫ 1

0 dx h(x) ist als Lebesgue-Integral aufzufassen, vgl. Fußnote 2.118. Die Annahme, daßh beschrankt ist, konnte abgeschwacht werden. Ebenso konnte auch mit einem allgemeineren In-tegrationsbereich gearbeitet werden. Daruberhinaus ist mit der hier vorgestellten Vorgehensweiseauch die approximative Berechnung von speziellen Reihen moglich.

7.18I. allg. ist die Verteilung der Zufallsvariablen h(Xk), k ∈ N, naturlich keine Gleichver-teilung.

7.19Da die Zufallsvariablen h(Xk), k ∈ N, identisch verteilt sind, reicht es, E[h(X1)] undVar(h(X1)) zu untersuchen.

18. April 2016

Page 127: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

127

Somit sind fur die Zufallsvariablen h(Xk), k ∈ N, die Voraussetzungen von Satz 7.1erfullt und es folgt 7.21:

(7.6) P

[∣∣∣∣∣1

N

N∑

k=1

h(Xk)−∫ 1

0

dx h(x)

∣∣∣∣∣ ≥ ǫ

]≤ c2

Nǫ2N→∞→ 0, ǫ > 0.

Die zu (7.6) fuhrenden Uberlegungen konnen in einem Verfahren zur numeri-

schen Bestimmung des Integrals∫ 1

0dx h(x) mit Hilfe von Simulationen zusammen-

gefaßt werden. Dieses Verfahren wird als Monte-Carlo-Integration 7.22 bezeichnet.

(1) Bestimmung einer Folge x1, x2, . . . ”unabhangiger, in [0, 1] gleichverteil-

ter“ Pseudozufallszahlen 7.23.(2) Approximation von

∫ 1

0dx h(x) durch (1/N)

∑Nk=1 h(xk) mit einem

”hin-

reichend großen“ N ∈ N 7.24.

Bemerkungen 7.3 (zur Qualitat der Monte-Carlo-Integration). (i) Das Monte-Carlo-Verfahren ist besser als es (7.6) erkennen laßt. Da unter den Voraussetzungenvon Satz 7.1 auch das starke Gesetz der großen Zahlen gilt 7.25, ergibt sich sogar

(7.7) limN→∞

1

N

N∑

k=1

h(Xk) =

∫ 1

0

dx h(x), f.s.

(ii) Die Konvergenzgeschwindigkeit kann mit Hilfe des Zentralen Grenzwertsat-

zes bestimmt werden 7.26. Es gilt:

(7.8)1

N

N∑

k=1

h(Xk)−∫ 1

0

dx h(x) = O(N−1/2), N → ∞.

(iii) Das Monte-Carlo-Verfahren zur Integration ist sinnvoll, wenn h keine Re-gularitatseigenschaften besitzt und wenn Wert auf einfache Programmierbarkeitgelegt wird. Fur regulare (d.h., stetige, differenzierbare, . . . ) Integranden h stellt

die Numerik wesentlich bessere Methoden zur Bestimmung von∫ 1

0 dx h(x) bereit.Insbesondere sind dann hohere Konvergenzgeschwindigkeiten als in (7.8) erreich-bar 7.27.

7.2.2. (∗) Bernstein-Polynome und Approximationssatz von Weier-

straß. 7.28 Eine stetige Funktion f : [0, 1] → R ist durch Polynome gleichmaßig in

7.20Vgl. Beispiel 6.6. Es ist zu beachten, daß die Gleichverteilung auf [0, 1] die Dichte f = I[0,1]besitzt.

7.21(7.6) ist eine Konsequenz von (7.3).7.22Dieser Name verweist auf Monte Carlo mit seinem Casino. Dort werden am Roulette-

Tisch insbesondere auch Zufallszahlen erzeugt.7.23Vgl. Fußnote 3.51.7.24Zur Wahl von N in einer konkreten Anwendung muß die Konvergenzgeschwindigkeit

der Monte-Carlo-Integration bestimmt werden. Fur eine vorgegebene Approximationsgenauigkeitkann dann N festgelegt werden. Vgl. hierzu (7.8).

7.25Vgl. Bemerkung 7.2.7.26Vgl. Beispiel 9.7. In jenem Beispiel werden mit Hilfe des Zentralen Grenzwertsatzes Kon-

fidenzintervalle fur die Monte-Carlo-Integration bestimmt.7.27Die Theorie hinter diesen Methoden aus der Numerik ist allerdings ebenso wie der Pro-

grammieraufwand zu ihrer Implementierung i. allg. wesentlich aufwendiger.7.28Der Weierstraß’sche Approximationssatz sichert zu jeder stetigen Funktion f : [0, 1] → R

und jeder vorgegebenen Approximationsgenauigkeit ǫ > 0 die Existenz eines Polynoms fP,ǫ, sodaß

supx∈[0,1]

|f(x)− fP,ǫ(x)| ≤ ǫ.

18. April 2016

Page 128: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

128

[0, 1] zu approximieren 7.29. Hierzu werden Methoden der Wahrscheinlichkeitstheo-rie und insbesondere das schwache Gesetz der großen Zahlen angewandt.

7.2.2.1. Ein wahrscheinlichkeitstheoretischer Rahmen. 7.30 Sei Ω = 0, 1N 7.31

und sei außerdem Xn, n ∈ N, mit

Xn(ω) = ωn, ω = (ωk)k∈N ∈ Ω, n ∈ N,

die Familie der Projektionen von Ω auf die einzelnen Komponenten 0, 1.Die ubliche σ-Algebra F in Ω wird durch die Funktionen Xn, n ∈ N, erzeugt.

Dies bedeutet, daß F die kleinste σ-Algebra ist, die die Mengen 7.32

F∗ =

ω ∈ Ω : Xk1(ω) = ηk1 , . . . , Xkn

(ω) = ηkn :

k1, . . . , kn∈N, 1≤k1<. . .<kn, ηk1 , . . . , ηkn∈0, 1, n∈N

enthalt. Insbesondere sind die Projektionen Xn, n ∈ N, meßbare, 0, 1-wertigeFunktionen auf (Ω,F).

Auf dem meßbaren Raum (Ω,F) ist fur jedes p ∈ [0, 1] ein Wahrscheinlichkeits-maß Pp definiert, so daß der Wahrscheinlichkeitsraum (Ω,F,Pp) den ∞-fachen,unabhangigen Wurf einer Munze mit

”Erfolgswahrscheinlichkeit“ p beschreibt 7.33.

Die Funktionen Xn, n ∈ N, auf Ω sind von p unabhangig. Werden sie hingegen alsZufallsvariablen auf den Wahrscheinlichkeitsraumen (Ω,F,Pp), p ∈ [0, 1], betrach-tet, so hangt ihre Verteilung naturlich von p ab. Sie modellieren dann jeweils furdie Erfolgswahrscheinlichkeit p die Ergebnisse der einzelnen Wurfe der Munze 7.34.

Im folgenden sei ein bzgl. des Wahrscheinlichkeitsmaßes Pp definierter Erwar-tungswert mit Ep[ . ] bezeichnet.

7.2.2.2. Anmerkungen zur Funktion f und Einfuhrung der Bernstein-Polynome.

Wenn der Wahrscheinlichkeitsraum (Ω,F,Pp) zugrundegelegt wird, besitzt die Zu-

fallsvariable∑N

n=1Xn die Binomialverteilung B(N, p) 7.35. Insbesondere ist

Ep

[f

(1

N

N∑

n=1

Xn

)]=

N∑

k=0

f( kN

)(Nk

)pk(1− p)N−k(7.9)

= : fN(p), p ∈ [0, 1], N ∈ N.

Die Funktionen [0, 1] ∋ p → fN(p), N ∈ N, sind Polynome. Man bezeichnet sie alsBernstein-Polynome 7.36.

7.29Da diese Polynome explizit angegeben werden, wird im folgenden sogar eine konstruktive

Version des Weierstraß’schen Satzes behandelt.7.30Zunachst werden fur die spatere Arbeit in diesem Abschnitt 7.2.2 Wahrscheinlich-

keitsraume (Ω,F,Pp), p ∈ [0, 1], und Zufallsvariablen Xn, n ∈ N, vorgestellt. Die Wahrschein-lichkeitsraume wurden bereits in Abschnitt 2.4.2 betrachtet, um den ∞-fachen, unabhangigenMunzwurf zu beschreiben. Die Zufallsvariablen wurden hierzu passend in Beispiel 3.3 eingefuhrt,um die Ergebnisse der einzelnen Wurfe der Munze zu modellieren.

7.310, 1N = (ωk)k∈N : ωk ∈ 0, 1, k ∈ N ist die Menge der 0, 1-wertigen Folgen.7.32F∗ und das in (2.15) eingefuhrte Mengensystem F∗ sind identisch.7.33Die Wahrscheinlichkeitsmaße Pp, p ∈ [0, 1], werden in Abschnitt 2.4.2 eingefuhrt. Sie sind

durch ihre Einschrankung auf Ereignisse in F∗ = F∗, vgl. (2.16), eindeutig charakterisert.7.34Vgl. Beispiel 3.3.7.35Vgl. Abschnitt 1.1.2, insbesondere (1.3c). Die dort bestimmte Verteilung der Anzahl

defekter Produktionsstucke ist gleich der Verteilung der Anzahl der Erfolge in der hier betrachtetenSituation.

7.36Die Definition (7.9) von fN laßt schon jetzt fur jedes feste p ∈ [0, 1] die Konvergenz vonfN (p) gegen f(p) bei N → ∞ vermuten:

• (1/N)∑N

n=1XnN→∞−−−−→ Ep[X1] = p aufgrund des Gesetzes der großen Zahlen (bzgl.

(Ω,F,Pp)) und daher

• fN (p) = Ep[f((1/N)∑N

n=1Xn)]N→∞∼ Ep[f(p)] = f(p).

Im folgenden werden diese formalen Argumente prazisiert.

18. April 2016

Page 129: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

129

Auf dem kompakten Intervall [0, 1] ist die stetige Funktion f sogar gleichmaßig

stetig, d.h., zu ǫ > 0 gibt ein δ > 0, so daß

(7.10) |f(x)− f(y)| ≤ ǫ, falls |x− y| ≤ δ.

Daher gilt: 7.37 7.38

∣∣∣∣f(

1

N

N∑

n=1

Xn

)− f(p)

∣∣∣∣ ≤ ǫ + 2‖f‖∞I|(1/N)∑

Nn=1 Xn−p|≥δ.(7.11)

7.2.2.3. Anwendung des schwachen Gesetzes der großen Zahlen. Nun kann diegleichmaßige Konvergenz der Polynome fN gegen die Funktion f bei N → ∞, d.h.,

(7.12) limN→∞

supp∈[0,1]

|fN (p)− f(p)| = 0

nachgewiesen werden. Hierzu ergibt sich zunachst

|fN (p)− f(p)| = 7.39

∣∣∣∣Ep

[f

(1

N

N∑

n=1

Xn

)]− f(p)

∣∣∣∣(7.13)

=

∣∣∣∣Ep

[f

(1

N

N∑

n=1

Xn

)− f(p)

]∣∣∣∣

≤ 7.40 Ep

[∣∣∣∣f(

1

N

N∑

n=1

Xn

)− f(p)

∣∣∣∣]

≤ 7.41 ǫ+ 2‖f‖∞ Ep

[I|(1/N)

∑Nn=1 Xn−p|≥δ

]

︸ ︷︷ ︸

= Pp

[∣∣∣∣1

N

N∑

n=1

Xn − p

∣∣∣∣ ≥ δ

]

≤ 7.42 ǫ+ 2‖f‖∞ Varp(X1)︸ ︷︷ ︸= p(1− p) ≤ 1/4

1

Nδ2

≤ ǫ+‖f‖∞2Nδ2

, p ∈ [0, 1].

7.37‖f‖∞ = sup|f(x)| : x ∈ [0, 1].7.38Die Beziehung (7.11) ist eine abgekurzte Version von

∣∣∣∣f(

1

N

N∑

n=1

Xn(ω)

)− f(p)

∣∣∣∣ ≤ ǫ+ 2‖f‖∞Iω′∈Ω:|(1/N)∑

Nn=1 Xn(ω′)−p|≥δ(ω), ω ∈ Ω.

Fur jedes ω ∈ Ω ist entweder |(1/N)∑N

n=1Xn(ω) − p| < δ oder |(1/N)∑N

n=1Xn(ω) − p| ≥ δ.

Aufgrund von (7.10) gilt im ersten Fall |f((1/N)∑N

n=1Xn(ω)) − f(p)| ≤ ǫ, wahrend im zweiten

Fall |f((1/N)∑N

n=1Xn(ω)) − f(p)| ≤ 2‖f‖∞ ist.

18. April 2016

Page 130: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

130

Zu einer vorgegebenen Approximationsgenauigkeit η > 0 in (7.12) ist nun zuerst

• ǫ = η/2 zu definieren, dann zu diesem ǫ ein• δ > 0 so zu bestimmen, daß (7.10) gilt, und letztendlich ein• N ≥ ‖f‖∞/(ηδ2) zu wahlen.

Dann fuhrt (7.13) zu|fN (p)− f(p)| ≤ η, p ∈ [0, 1].

Damit ist der Approximationssatz von Weierstraß bewiesen.

7.39Wegen (7.9).7.40Fur eine Zufallsvariable Z in L1(Ω,F,P), d.h. mit E[|Z|] < ∞, gilt:

(∗) |E[Z]| ≤ E[|Z|].Beweis. Da Z ≤ |Z| und −Z ≤ |Z|, folgen aus der Monotonie und der Linearitat des

Erwartungswerts, vgl. (6.5), (6.6) und die Bemerkung 6.4(i), die Beziehungen E[Z] ≤ E[|Z|] und−E[Z] = E[−Z] ≤ E[|Z|]. Damit ist (∗) bewiesen.

Bemerkung. Wie die Cauchysche Ungleichung (6.21) ist (∗) ein Spezialfall der Jensenschen

Ungleichung, die besagt, daßϕ(E[X]) ≤ E[ϕ(X)],

falls ϕ : R → R konvex und X eine reellwertige, integrable Zufallsvariable mit E[|ϕ(X)|] <∞ ist,vgl. [3], Appendix A.5, (5.1).

7.41Wegen (7.11) und der Monotonie, der Linearitat und der Normierung des Erwartungs-werts, vgl. (6.5), (6.6) und (6.10).

7.42Wegen des schwachen Gesetzes der großen Zahlen, vgl. (7.3). Beachte, daß auf dem Wahr-scheinlichkeitsraum (Ω,F,Pp) die Zufallsvariablen Xn, n ∈ N, unabhangig und identisch verteilt

mit Ep[X1] = p und Varp(X1) = p(1− p) sind.

18. April 2016

Page 131: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

KAPITEL 8

Bedingte Wahrscheinlichkeiten

I. allg. muß die Wahrscheinlichkeit eines Ereignisses A neu bewertet werden,wenn bekannt wird, daß ein anderes Ereignis B eingetreten ist. Dies ist insbesonderedann der Fall, wenn eine Abhangigkeit zwischen A und B besteht 8.1.

Man bezeichnet mit P[A|B] die Wahrscheinlichkeit fur A unter der Bedingung,daß B eingetreten ist 8.2.

Beispiel 8.1. Fur k = 1, . . . , N beschreibe die 0, 1-wertige ZufallsvariableXk dasErgebnis des k-ten Wurfs einer fairen Munze, wobei die einzelnen Wurfe unabhangigsind. Sei 8.3 A = X1 + · · ·+XN = N und 8.4 B = X1 = 0.

Es gilt 8.5 P[A] = 2−N , aber 8.6 P[A|B] = 0. Es wird somit deutlich, daß i. allg.P[A] und P[A|B] verschieden sind.

Beispiel 8.2. 8.7 Den Uberlegungen in Abschnitt 2.1 folgend wird zur Modellierungdes 2-maligen, unabhangenWurfs eines fairenWurfels mit demWahrscheinlichkeits-raum (Ω,F,P), wobei Ω = 1, . . . , 62, F = Pot(Ω) und P die Gleichverteilung auf(Ω,F) ist, gearbeitet. (Ω,F,P) ist ein Laplacescher Wahrscheinlichkeitsraum, d.h.,

(8.1) P[C] =|C||Ω| =

|C|36, C ∈ F.

Sei A = ω = (ω1, ω2) ∈ Ω : ω1+ω2 = 6 und B = ω ∈ Ω : ω1 = 3. In diesemBeispiel soll speziell P[A|B] und allgemeiner P[C|B], C ∈ F, bestimmt werden.

Wenn der 1. Wurf durchgefuhrt worden ist und 3 ergeben hat, d.h., wenn B ein-getreten ist, mussen, wenn die dann gewonnene Information nicht ignoriert werdensoll, die Wahrscheinlichkeiten der Ereignisse in F neu bestimmt werden. Es ergibtsich ein Wahrscheinlichkeitsmaß PB = P[ . |B] auf dem meßbaren Raum (Ω,F) 8.8.Intuitiv wird beispielsweise erwartet, daß

(i) PB [ω ∈ Ω : ω1 6= 3] = PB [Ω \B] = 0 8.9,(ii) PB [ω ∈ Ω : ω1 = 3] = PB [B] = 1 8.10 und(iii) PB [ω ∈ Ω : ω2 = k] = 1/6, k = 1, . . . , 6 8.11.

Als Prazisierung von (i) - (iii) kann

PB [ω ∈ Ω : ω1 = l, ω2 = k] = PB[(l, k)](8.2)

8.1D.h., wenn A und B nicht stochastisch unabhangig sind, vgl. Abschnitt 3.2.3.8.2Ein erstes Problem ist die Bestimmung von P[A|B], d.h. die Angabe einer

”Formel“.

8.3A ,”es wird N mal

”Zahl“ geworfen“.

8.4B ,”beim ersten Wurf wird

”Kopf“ geworfen“.

8.5Vgl. (2.3a).8.6Wenn X1 = 0, kann niemals X1 + · · ·+XN = N sein.8.7Mit diesem Beispiel soll die allgemeine Formel (8.4) zur Berechnung bedingter Wahrschein-

lichkeiten motiviert werden.8.8Man betrachtet hier die bedingten Wahrscheinlichkeiten P[C|B] simultan fur alle C ∈ F.8.9Die bedingte Wahrscheinlichkeit, daß B nicht eintritt unter der Bedingung, daß B einge-

treten ist, sollte 0 sein.8.10PB ist daher auf B konzentriert.8.11Da die beiden Wurfe unabhangig sind.

131

Page 132: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

132

=

0, falls l 6= 3,

1/6, falls l = 3,k = 1, . . . , 6,

festgehalten werden.Aus (8.2) folgt zunachst

P[A|B] = PB[A] = PB

[ ⋃

k,l=1,...,6; l+k=6

ω ∈ Ω : ω1 = l, ω2 = k]

=∑

k,l=1,...,6l+k=6

PB[ω ∈ Ω : ω1 = l, ω2 = k]

= PB[ω ∈ Ω : ω1 = 3 = ω2] =1

6

(6= 5

36= 8.12 P[A]

).

Weiterhin bedeutet (8.2), daß die

• ω ∈ B 8.13 unter PB gleichwahrscheinlich sind, und die• ω 6∈ B 8.14 unter PB die Wahrscheinlichkeit 0 besitzen.

Somit gilt

P[C|B] = PB[C] =8.15 |C ∩B|

|B| =|C ∩B|/|Ω||B|/|Ω|(8.3)

= 8.16 P[C ∩B]

P[B], C ∈ F,

fur die bedingte Wahrscheinlichkeit von C ∈ F unter der Bedingung B 8.17.

8.1. Bestimmung bedingter Wahrscheinlichkeiten

8.18 Sei (Ω,F,P) ein Wahrscheinlichkeitsraum. Allgemein ist fur ein B ∈ F mitP[B] > 0 8.19 die unter B bedingte Wahrscheinlichkeit P[ . |B] ein Wahrscheinlich-keitsmaß auf dem meßbaren Raum (Ω,F) 8.20. Fur dieses WahrscheinlichkeitsmaßP[ . |B] sind außerdem folgende Eigenschaften zu erwarten:

(i) P[B|B] = 1 8.21.

8.12Vgl. (8.1). Es ist zu beachten, daß |A| = 5.8.13Ein ω ∈ B zeichnet sich durch ω1 = 3 aus.8.14Ein ω 6∈ B zeichnet sich durch ω1 6= 3 aus.8.15Nur die ω ∈ B besitzen unter PB eine positive Wahrscheinlichkeit. Diese ist 1/|B|, da

unter PB alle solchen ω’s gleichwahrscheinlich sind. Man beachte hier auch, daß genau |C ∩ B|Elemente von C auch in B enthalten sind.

8.16Vgl. (8.1).8.17Im nachsten Abschnitt 8.1 wird demonstriert, daß die Darstellung (8.3) der bedingten

Wahrscheinlichkeit allgemeingultig ist.8.18In diesem Abschnitt werden die Uberlegungen aus Beispiel 8.2 in einem allgemeinen

Rahmen wiederholt. Insbesondere wird die Allgemeingultigkeit von (8.3) nachgewiesen.8.19Die Notwendigkeit dieser Bedingung ergibt sich aus der letztendlich P[ . |B] charakte-

risierenden Beziehung (8.4). Daruberhinaus scheint die Bestimmung von unter einem Ereignis Bbedingten Wahrscheinlichkeiten nicht notwendig zu sein, falls B mit Wahrscheinlichkeit 1 nichteintritt.

8.20Insbesondere erfullt P[ . |B] die Beziehungen (2.2).8.21Wenn B eingetreten ist, ist B ein sicheres Ereignis.

18. April 2016

Page 133: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

133

(ii) Es gibt eine Konstante cB > 0, so daß P[A|B] = cBP[A], falls A ∈ F,A ⊆ B 8.22 8.23.

Aus (i) und (ii) fur A = B folgt 1 = P[B|B] = cBP[B], d.h., cB = 1/P[B].Damit ergibt sich

P[A|B] = 8.24 P[A ∩B|B] +P[A ∩ (Ω \B)|B]︸ ︷︷ ︸= 8.25 0

(8.4)

= cBP[A ∩B]

=P[A ∩B]

P[B], A ∈ F.

Diese Uberlegungen zeigen, daß fur B ∈ F mit P[B] > 0 durch (i) und (ii)ein eindeutiges Wahrscheinlichkeitsmaß P[ . |B] auf (Ω,F) bestimmt wird. DiesesWahrscheinlichkeitsmaß genugt der Beziehung (8.4). Es wird die unter B bedingte

Wahrscheinlichkeit genannt 8.26.

Beispiel 8.3 (Gedachtnislose Wartezeiten). Gewisse regelmaßig wiederkehrendeEreignisse konnen jederzeit eintreten, unabhangig davon, welche Zeitspanne seit ih-rem letzten Auftreten schon verstrichen ist 8.27. Somit ist die verbleibende WartezeitT bis zum nachsten Eintreten eines derartigen Ereignisses gedachtnislos.

Diese Gedachtnislosigkeit bedeutet, daß

P[T > t+ s|T > t] = P[T > s], 0 < s, t <∞,

und folglich

P[T > t+ s] = 8.28 P[T > t]P[T > t+ s|T > t]

= P[T > t]P[T > s], 0 < s, t <∞.

8.22Mit dem Beobachten, daß B eingetreten ist, sind keine weiteren Erkenntnisse uber tiefer-gehende Details, d.h. Ereignisse A ⊆ B, verbunden. Fur A,A′ ∈ F mit A,A′ ⊆ B sollte folglichdas Verhaltnis der Wahrscheinlichkeiten vor und nach dem Gewinn des Wissens um das Eintretenvon B gleich sein, d.h.,

P[A]

P[A′]=

P[A|B]

P[A′|B], A,A′ ∈ F, A,A′ ⊆ B, P[A′] > 0.

Diese Relation ist gleichbedeutend mit (ii), wobei cB = P[A′|B]/P[A′] fur ein beliebiges, festgewahltes A′ ⊆ B mit P[A′] > 0.

8.23Im Rahmen von Beispiel 8.2 sind die dortigen vor (8.3) aufgefuhrten Eigenschaftenaquivalent zu (i) und (ii).

8.24Wegen der Additivitat des Wahrscheinlichkeitsmaßes P[ . |B] und weil A = (A ∩ B).∪

(A ∩ (Ω \B)).8.25Wegen (i) ist die gesamte

”Masse“ des Wahrscheinlichkeitsmaßes P[ . |B] auf B konzen-

triert, d.h., P[C|B] = 0, falls C ⊆ Ω \B.8.26Gelegentlich wird auch einfach (8.4) als Definition der unter B bedingten Wahrschein-

lichkeit P[ . |B] benutzt.8.27Beispiele waren Telefonanrufe, Zerfalle in einem radioaktiven Praparat, Meteoritenein-

schlage, . . .

18. April 2016

Page 134: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

134

Daher ist die durch w(t) = P[T > t], t > 0, definierte Funktion w : (0,∞) → [0, 1]eine rechtsstetige 8.29 und monoton fallende 8.30 Losung der Funktionalgleichung

(8.5) w(t+ s) = w(t)w(s), 0 < s, t <∞.

w hat daher notwendigerweise die Darstellung 8.31

(8.6) w(t) = exp(−λt), t > 0,

fur ein λ > 0. Als Konsequenz hat die Verteilungsfunktion FT von T die Gestalt

FT (t) = P[T ≤ t] = 1−P[T > t] = 1− exp(−λt), t > 0,

d.h., T ist exponentiell verteilt mit Parameter λ 8.32.

8.28Vgl. (8.4). Man beachte, daß T > t+ s ⊆ T > t und damit

P[T > t + s|T > t] =P[T > t+ s ∩ T > t]

P[T > t]=

P[T > t+ s]

P[T > t].

8.29Da

w(t) = P[T > t] = 1−P[T ≤ t] = 1− FT (t), t > 0,

mit der Verteilungsfunktion FT von T , ist die Rechtsstetigkeit von w eine Konsequenz der Rechts-stetigkeit beliebiger Verteilungsfunktionen, vgl. Abschnitt 3.3.1(iv).

8.30Aus der Monotonie von P, vgl. (2.12), folgt w(t1) = P[T > t1] ≥ P[T > t2] = w(t2),0 < t1 ≤ t2 < ∞.

8.31Fur eine Losung w von (8.5) fuhrt zunachst eine Iteration zu

(∗1) w(p/q) = w(1/q) · · ·w(1/q)︸ ︷︷ ︸

p mal

= w(1/q)p, p, q ∈ N.

Insbesondere ist

w(1) = w(q/q) = w(1/q)q , q ∈ N,

d.h.,

(∗2) w(1/q) = w(1)1/q , q ∈ N.

Aus (∗1) ergibt sich ebenso

(∗3) w(p) = w(1)p, p ∈ N.

Ist w(1) = 0, bzw. w(1) = 1, so kann aus (∗2), bzw. (∗3), und der Monotonie von w gefolgertwerden, daß

w(s) = 0, s > 0, bzw. w(s) = 1, s > 0.

Wenn w(s) = P[T > s] = 0, s > 0, ergibt sich aus der Rechtsstetigkeit der VerteilungsfunktionFT von T , vgl. Abschnitt 3.3.1(iv), weiterhin

(∗4) P[T = 0] = P[T ≤ 0] = FT (0) = limsց0

FT (s) = limsց0

(1−P[T > s]) = 1.

Andererseits, wenn w(s) = P[T > s] = 1, s > 0, wird aufgrund der σ-Subadditivitat von P, vgl.(2.13), deutlich, daß

P[T = ∞] = 1−P[T <∞] = 1−P

[ ∞⋃

n=1

T ≤ n]

(∗5)

≥ 1−∞∑

n=1

P[T ≤ n] = 1−∞∑

n=1

(1−P[T > n]) = 1.

In real interessierenden Anwendungen trifft (∗4), bzw. (∗5), nicht zu. Somit ist w(1) ∈ (0, 1),d.h. λ := − logw(1) ∈ (0,∞). Nun folgt

w(p/q) = w(1)p/q = exp(−λ)p/q = exp(−λp/q), p, q ∈ N,

aus (∗1) und (∗2). Somit ist (8.6) fur t ∈ Q∩(0,∞) nachgewiesen. Die Gultigkeit dieser Beziehungfur alle t > 0 ist dann eine Konsequenz der Rechtsstetigkeit von w.

8.32Man beachte, daß FT in (0,∞) stetig differenzierbar mit F ′T (t) = λ exp(−λt), t > 0, ist,

und berucksichtige Abschnitt 3.3.1(vi).

18. April 2016

Page 135: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

135

8.1.1. Rechenregeln fur bedingte Wahrscheinlichkeiten. Beim konkre-ten Arbeiten mit bedingten Wahrscheinlichkeiten kann haufig auf die im folgendenSatz zusammengefaßten Rechenregeln zuruckgegriffen werden 8.33.

Satz 8.4. Sei (Ω,F,P) ein Wahrscheinlichkeitsraum und Ω =•⋃i∈IBi eine hochs-

tens abzahlbare Zerlegung von Ω in disjunkte Ereignisse Bi ∈ F mit P[Bi] > 0,i ∈ I. Dann gilt die Fallunterscheidungsformel, d.h. 8.34,

(8.7) P[A] =∑

i∈I

P[Bi]P[A|Bi], A ∈ F,

und die Formel von Bayes (1763), d.h.,

P[Bk|A] = 8.35 P[Bk]P[A|Bk]

P[A](8.8)

=P[Bk]P[A|Bk]∑i∈I P[Bi]P[A|Bi]

, k ∈ I, A ∈ F, P[A] > 0.

Beweis. (8.7) folgt aus∑

i∈I

P[Bi] P[A|Bi]︸ ︷︷ ︸= 8.36 P[A ∩Bi]

P[Bi]

=∑

i∈I

P[A ∩Bi]

= 8.37 P

[ •⋃i∈I

(A ∩Bi)︸ ︷︷ ︸

= A ∩( •⋃

i∈IBi

)

]= 8.38 P[A].

Die erste Beziehung in (8.8) ist eine Konsequenz aus

P[Bk|A] = 8.39 P[Bk ∩ A]P[A]

=P[Bk ∩ A]P[Bk]︸ ︷︷ ︸

= 8.39 P[A|Bk]

·P[Bk]

P[A].

Die zweite Identitat in (8.8) ergibt sich nun mit (8.7).

Beispiel 8.5 (Verwendung eines medizinischen Diagnoseverfahrens). 8.40 Eine spe-zielle Krankheit trete bei 4% der Bevolkerung auf. Ein auf diese Krankheit zuge-schnittenes Diagnoseverfahren ergebe bei 90% (20%) der Erkrankten (Gesunden)ein positives Ergebnis.

8.33In Beispiel 8.5 werden diese Regeln benutzt werden, um aus gegebenen bedingten Wahr-scheinlichkeiten andere zunachst unbekannte, nutzliche Informationen liefernde bedingte Wahr-scheinlichkeiten zu berechnen.

8.34Man beachte, daß immer wenn das Ereignis A geschieht, auch genau ein Bi eintretenmuß. Daher ergibt sich P[A] durch Summation uber alle i ∈ I der Wahrscheinlichkeiten P[Bi]fur das Eintreten von Bi jeweils multipliziert mit der Wahrscheinlichkeit P[A|Bi] fur A unter derBedingung, daß Bi schon eingetreten ist. M.a.W., da

”jeder Weg nach A durch genau ein Bi fuhrt,

ist P[A] die Summe∑

i∈I P[Bi]P[A|Bi] der Wahrscheinlichkeiten fur die verschiedenen moglichen

Wege“.8.35Hier wird ein Zusammenhang zwischen P[Bk |A] und P[A|Bk] dargelegt.8.36Vgl. (8.4).8.37Da die Ereignisse Bi, i ∈ I, und daher auch A ∩ Bi, i ∈ I, disjunkt sind und aufgrund

der σ-Additivitat von P.

8.38Da•⋃i∈IBi = Ω.

8.39Vgl. (8.4).8.40Das hier vorgestellte Beispiel ist eine etwas ausfuhrlichere Version von Beispiel (3.4) in [5].

18. April 2016

Page 136: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

136

Wichtige Fragen zu diesem Verfahren sind beispielsweise:

• Was ist die Bedeutung eines positiven (negativen) Befundes fur einen Pa-tienten? 8.41

• Was kann das Diagnoseverfahren in der Praxis leisten?

Zu einer wissenschaftlich fundierten Beantwortung dieser Fragen werden dievorliegenden Kenntnisse zunachst in ein mathematisches, d.h. wahrscheinlichkeits-theoretisches Modell ubersetzt. Anschließend werden die Fragen im Rahmen diesesModells beantwortet.

Wenn bei der Modellbildung”Einfachheit“ 8.42 angestrebt wird, bietet es sich

an, ein Laplacesches Modell mit der Gesamtbevolkerung als Stichprobenraum Ω zuverwenden. In diesem Rahmen werden Personen ω ∈ Ω gemaß der Gleichverteilungauf Ω ausgewahlt und getestet 8.43.

In Ω konnen die Ereignisse 8.44

Tk = 8.45 ω ∈ Ω : ω krank,Tg = 8.46 ω ∈ Ω : ω gesund und

T+ = 8.47 ω ∈ Ω : ω mit positivem Befundbeschrieben werden. Aufgrund der vorliegenden Informationen sind hierzu zunachstdie folgenden bedingten, bzw. unbedingten Wahrscheinlichkeiten bekannt:

P[Tk] = 0.04, P[Tg] = 0.96,

P[T+|Tk] = 0.9, P[T+|Tg] = 0.2.

Als Konsequenzen konnen daruberhinaus folgende Schlusse gezogen werden 8.48:

P[Tk|T+] 8.49 = 8.50 P[Tk]P[T+|Tk]P[Tk]P[T+|Tk] +P[Tg]P[T+|Tg]

(8.9)

=0.04 · 0.9

0.04 · 0.9 + 0.96 · 0.2≈ 0.158,

8.41Ein Arzt will wissen, was er einem Patienten bei einem positiven, bzw. einem negati-ven Befund mitteilen soll. Einerseits sollte er diesen Patienten beim Vorliegen einer Erkrankungaufklaren, aber andererseits sollte er ihn auch nicht unnotig verunsichern.

8.42Bei der mathematischen Modellierung realer Vorgange sollte man immer zuerst versu-chen, mit moglichst elementaren Modellen zu arbeiten. Dadurch bleiben alle mathematischenUberlegungen und Berechnungen

”ubersichtlicher“ und einfacher zu uberprufen. Insbesondere

wird es dann auch leichter, einem”Anwender“ die Ergebnisse der Modellierung zu vermitteln.

Erst wenn ein elementares Modell nicht mehr mit der Realitat in Einklang gebracht werden kann,sollten komplexere Modelle in Betracht gezogen werden.

8.43Diese Modellannahme ist dann vernunftig, wenn die zu testenden Patienten”zufallig“

aus der Gesamtbevolkerung gewahlt werden. Eine solche Situation kann vorliegen, wenn die zuuntersuchende Krankheit vor ihrem endgultigen Ausbruch keine Symptome zeigt, auch keine Risi-kogruppen existieren und wenn nur Patienten getestet werden, die z.B. aufgrund von Angsten eineDiagnose wunschen. Falls beispielsweise nur Patienten mit ersten Symptomen einer Krankheit ge-testet werden, sollte das einfache Laplacesche Modell evtl. modifiziert werden. Moglicherweise sinddann zusatzliche Studien notwendig, um weitere Daten wie z.B. die Haufigkeit einer Erkrankung,bzw. eines positiven Befundes fur die Bevolkerungsgruppe der Personen mit ersten Symptomenzu bestimmen.

8.44Man beachte, daß wie ublich Ereignisse mit Teilmengen des Stichprobenraums identifiziertwerden.

8.45Tk ist das Ereignis, daß eine zufallig ausgewahlte Person krank ist.8.46Tg ist das Ereignis, daß eine zufallig ausgewahlte Person gesund ist.8.47T+ ist das Ereignis, daß sich fur eine zufallig ausgewahlte Person ein positiver Befund

ergibt.8.48Die nun berechneten bedingten Wahrscheinlichkeiten ergeben sich durch Anwendung der

Formel von Bayes, vgl. (8.8).

18. April 2016

Page 137: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

137

P[Tk|Ω \ T+] 8.51 =P[Tk]P[Ω \ T+|Tk]

P[Tk]P[Ω \ T+|Tk] +P[Tg]P[Ω \ T+|Tg]

=0.04 · 0.1

0.04 · 0.1 + 0.96 · 0.8≈ 0.0052.

Bei der Untersuchung beliebiger, zufallig ausgewahlter Patienten bedeutet dies,daß

• ein positiver Befund nur mit geringer Wahrscheinlichkeit 0.158 auf eineErkrankung hindeutet 8.52, wahrend

• bei einem negativen Befund mit hoher Wahrscheinlichkeit 0.9948 = 1 −0.0052 eine Erkrankung ausgeschlossen werden kann.

Folglich eignet sich das vorliegende Diagnoseverfahren, um

• bei einem negativen Befund eine Erkrankung auszuschließen, wahrend• bei einem positiven Befund eine weitere Beobachtung des Patienten zuempfehlen ist.

8.49Dies ist die Wahrscheinlichkeit fur das Vorliegen einer Erkrankung, falls sich ein positiverBefund ergeben hat.

8.50Setze hierzu B1 = Tk , B2 = Tg und A = T+ in (8.8).8.51Dies ist die Wahrscheinlichkeit fur eine Erkrankung, falls ein negativer Befund vorliegt.8.52Die Ursache fur diese vielleicht uberraschende Eigenschaft des Diagnoseverfahrens ist die

Tatsache, daß ein relativ hoher Anteil der Bevolkerung gesund ist und daß bei diesen Gesundenmit einer nicht vernachlassigbaren Wahrscheinlichkeit 0.2 sich ein positiver Befund ergibt. Einpositiver Befund hat somit bei diesem Diagnoseverfahrens nur eine geringe Aussagekraft.

18. April 2016

Page 138: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

138

8.2. Markovketten

Ein stochastischer Prozeß 8.53 X = (Xt)0≤t<∞ wird Markovprozeß genannt,wenn in jedem Zeitpunkt s ≥ 0 die zukunftige Entwicklung, d.h., Xu, u > s, beigegebenem gegenwartigen Zustand Xs nicht von der Vergangenheit Xu, u < s,abhangt. Die elementarsten Beispiele fur solche Prozesse sind Markovketten, d.h.Markovprozesse in diskreter Zeit mit Werten in einem diskreten, d.h., hochstensabzahlbaren Raum.

Ein stochastischer Prozeß 8.54 X = (Xn)n∈N0 in diskreter Zeit 8.55 mit Wertenin einem hochstens abzahlbaren Zustandsraum 8.56 S heißt Markovkette, falls 8.57

P[Xn+k = s′︸ ︷︷ ︸Zukunft

|X0 = s0, . . . , Xn−1 = sn−1︸ ︷︷ ︸Vergangenheit

, Xn = sn︸ ︷︷ ︸Gegenwart

](8.10)

= P[Xn+k = s′|Xn = sn

], n∈N0, k∈N, s0, . . . , sn−1, sn, s

′∈S.Zur Charakterisierung der zukunftigen Entwicklung einer Markovkette reicht al-so die Kenntnis des gegenwartigen Zustandes aus. Die zusatzliche Kenntnis derzeitlichen Entwicklung in der Vergangenheit bringt in diesem Fall keinen Informa-tionsgewinn.

Die Großen 8.58

(8.11) Pn(s1, s2) = P[Xn+1 = s2|Xn = s1

], s1, s2 ∈ S, n ∈ N0,

heißen (1-Schritt-)Ubergangswahrscheinlichkeiten. Sie werden zu den (1-Schritt-)Ubergangsmatrizen Pn = (Pn(s, s

′))s,s′∈S, n ∈ N0, zusammengefaßt. Eine Markov-

kette besitzt stationare Ubergangswahrscheinlichkeiten, falls Pn = P unabhangigvon n ist 8.59.

Im folgenden werden nur Markovketten mit stationaren Ubergangswahrschein-lichkeiten betrachtet werden.

Beispiel 8.6. Zum Parameter p ∈ (0, 1) seien Yn, n ∈ N, unabhangige, Bernoulli-verteilte Zufallsvariablen in −1, 1, d.h. mit P[Yn = 1] = 1−P[Yn = −1] = p, n ∈N. Der Bernoulli-Prozeß 8.60 Y = (Yn)n∈N (mit Parameter p) ist eine Markovkettemit Werten in S = −1, 1. Es gilt P (a, 1) = p, P (a,−1) = 1− p, a ∈ S 8.61.

8.53Vgl. Abschnitt 3.4.8.54Die Zufallsvariablen Xn, n ∈ N0, seien auf einem Wahrscheinlichkeitsraum (Ω,F,P)

definiert.8.55Als Menge aller Zeitpunkte kommt oft auch N oder Z vor.8.56Als abzahlbare Menge wird S naturlich mit der σ-Algebra Pot(S) versehen.8.57Stillschweigend sei daruber hinweggesehen, daß aufgrund von (8.4) die linke Seite von

(8.10) nur wohldefiniert ist, wenn P[X0 = s0, . . . ,Xn−1 = sn−1,Xn = sn] > 0. In diesem Fall istauch die rechte Seite von (8.10) wohldefiniert und stimmt mit der linken Seite uberein, wenn X

eine Markovkette ist.8.58Pn(s1, s2) gibt die bedingte Wahrscheinlichkeit an, mit der sich der Prozeß X zum Zeit-

punkt n + 1 im Zustand s2 befindet, falls er im vorangegangenen Zeitpunkt n die Position s1eingenommen hat. M.a.W., Pn(s1, s2) ist die

”Wahrscheinlichkeit, mit der X zum Zeitpunkt n

von s1 nach s2 springt“.8.59In diesem Fall besitzt die Markovkette X eine zeitlich homogene Dynamik. Man beachte,

daß eine Markovkette mit stationaren Ubergangswahrscheinlichkeiten kein stationarer stochasti-

scher Prozeß, vgl. Abschnitt 3.4.1, zu sein braucht. Fur die in Beispiel 3.21 und dem folgendenBeispiel 8.7 beschriebene Irrfahrt in Z wird dies in Beispiel 3.23 demonstriert.

8.60Vgl. Beispiel 3.20.8.61Offensichtlich sind, wenn die anschauliche Beschreibung von Markovprozessen am Anfang

dieses Abschnitts 8.2 zugrundegelegt wird, auch die in Fußnote 3.236 erwahnten verallgemeinertenBernoulli-Prozesse markovsch. In diesen Fallen braucht weder die Menge der Zeitpunkte noch derZustandsraum diskret zu sein.

18. April 2016

Page 139: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

139

Beispiel 8.7. Die Irrfahrt 8.62 X = (Xn)n∈N0 , wobei X0 = 0 und Xn = Xn−1 +Yn =

∑nk=1 Yk, n ∈ N, fur die Zufallsvariablen Yn, n ∈ N, aus Beispiel 8.6, ist eine

Markovkette mit Werten in S = Z. Es gilt 8.63

P (k, l) =

p, falls k ∈ S, l = k + 1,

1− p, falls k ∈ S, l = k − 1,

0, sonst.

Beispiel 8.8 (Verallgemeinerte Irrfahrt). Sei ζn, n ∈ N, eine Folge von unabhangi-gen, identisch verteilten Zufallsvariablen mit Werten in Z, wobei P[ζ1 = k] = ak,k ∈ Z.

Weiterhin sei X = (Xn)n∈N0 durch

X0 = 0,

Xk = Xk−1 + ζk =

k∑

l=1

ζl, k = 1, 2, . . . ,

definiert. X ist offensichtlich eine Verallgemeinerung der in Beispiel 8.7 beschrie-benen Irrfahrt 8.64. Insbesondere ist X eine Markovkette mit dem Zustandsraum Zund der Ubergangsmatrix 8.65

P =

. . .. . .

. . . . . . . . . . . . . . . .. . . a0 a1 a2 . . . . . . .. . . a−1 a0 a1 a2 . . .. . . . . . . . . a−1 a0 a1 . . .. . . . . . . . . . . . . . . a−1 a0 . . .

. . . . . . . . . . . . . . . . . . . .. . .

. . .

.

Die Verteilung PX einer Markovkette 8.66 X = (Xn)n∈N0 ist durch ihre Uber-gangsmatrix und ihre Anfangsverteilung PX0 eindeutig bestimmt. Es gilt

P[X0 = s0, X1 = s1, . . . , Xn−1 = sn−1, Xn = sn

](8.12)

= PX0 [s0]P (s0, s1) · · ·P (sn−1, sn), s0, s1, . . . , sn∈S, n∈N0.

Diese Beziehung ergibt sich aus 8.67

P[X0 = s0, X1 = s1, . . . , Xn−1 = sn−1, Xn = sn

]

= P[X0 = s0, . . . , Xn−1 = sn−1

]P[Xn = sn|X0 = s0, . . . , Xn−1 = sn−1

]

8.62Vgl. Beispiel 3.21.8.63Die Irrfahrt springt in ihrem Zustandsraum Z in jedem Zeitpunkt jeweils mit Wahrschein-

lichkeit p um 1 nach rechts, bzw. mit Wahrscheinlichkeit 1 − p um 1 nach links. Andere Sprungesind nicht moglich.

8.64Wie bei der Irrfahrt ergibt sich in jedem Zeitpunkt n ∈ N0 der zukunftige Zustand Xn+1

aus dem gegenwartigen Zustand Xn durch Addieren eines Zuwachses ζn+1, wobei diese Zuwachseζn, n ∈ N, unabhangige, identisch verteilte Zufallsvariablen sind.

8.65Da P (k, k + l) = P[Xn+1 = k + l|Xn = k] = P[ζn+1 = l] = P[Xn+1 = k + 1 + l|Xn =k+ 1] = P (k+1, k+ l+ 1), n ∈ N0, k, l ∈ Z, entsteht die (k+1)-te Zeile in der Matrix P aus derk-ten Zeile durch eine

”Verschiebung um 1 nach rechts“.

8.66Mit der Verteilung PX einer Markovkette oder allgemeiner der Verteilung eines stochasti-

schen Prozesses X = (Xn)n∈N0ist die gemeinsame Verteilung der Zufallsvariablen Xn : n ∈ N0,

vgl. (3.7), gemeint. Fur ein festes n ∈ N0 beschreiben die Großen auf der linken Seite von (8.12) diegemeinsame Verteilung von X0, X1, . . . ,Xn. Diese gemeinsamen Verteilungen werden als endlich-dimensionale Verteilungen von X bezeichnet. Sie bestimmen eindeutig die Verteilung PX desstochastischen Prozesses X.

8.67Hier wird insbesondere mehrmals die bedingte Wahrscheinlichkeiten charakterisierendeRelation (8.4) und die Markoveigenschaft (8.10) benutzt.

18. April 2016

Page 140: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

140

= P[X0=s0, . . . , Xn−2=sn−2

]P[Xn−1=sn−1|X0=s0, . . . , Xn−2=sn−2

]

P[Xn = sn|Xn−1 = sn−1

]

= . . .

= P[X0 = s0]P[X1 = s1|X0 = s0

]· · ·P (sn−1, sn)

= PX0 [s0]P (s0, s1) · · ·P (sn−1, sn), s0, s1, . . . , sn ∈ S, n ∈ N0.

Als Verallgemeinerung der (1-Schritt-)Ubergangswahrscheinlichkeiten werdendie n-Schritt-Ubergangswahrscheinlichkeiten durch 8.68

(8.13) Pn(s1, s2) = P[Xn+m = s2|Xm = s1], m, n ∈ N0, s1, s2 ∈ S,

definiert. Fur n = 0 setzt man hierbei 8.69 P 0(s1, s2) = δs1,s2 , s1, s2 ∈ S. Die

n-Schritt-Ubergangswahrscheinlichkeiten genugen der Chapman-Kolmogorov-Glei-

chung, d.h., 8.70

(8.14) P k+l(s1, s2) =∑

s∈S

P k(s1, s)Pl(s, s2), k, l ∈ N0, s1, s2 ∈ S.

Bemerkungen 8.9. (i) Die Ubergangsmatrix P = (P (s, s′))s,s′∈S einer S-wertigenMarkovkette X = (Xn)n∈N0 ist eine stochastische Matrix, d.h., es gilt 8.71

(a) P (s, s′) ≥ 0, s, s′ ∈ S,(b)

∑s′∈S P (s, s

′) = 1, s ∈ S 8.72.

(ii) Fur n ∈ N ist die Matrix Pn der n-Schritt-Ubergangswahrscheinlichkeitendas n-fache Matrixprodukt der 1-Schritt-Ubergangsmatrix P 8.73.

(iii) Das zeitliche Verhalten einer S-wertigen Markovkette X = (Xn)n∈N0 wirddurch die algebraischen Eigenschaften ihrer Ubergangsmatrix P = (P (s, s′))s,s′∈S

bestimmt. Sei beispielsweise µ = (µs)s∈S ein linker Eigenvektor von P mit Eigen-wert 1, d.h. mit

(8.15)∑

s′∈S

µs′P (s′, s) = µs, s ∈ S,

8.68Da hier nur Markovketten mit stationaren Ubergangswahrscheinlichkeiten betrachtet wer-den, ist die rechte Seite von (8.13) von m unabhangig.

8.69δ.,. bezeichnet das Kronecker-Symbol, d.h.,

δs,s′ =

1, falls s = s′,

0, sonst.

8.70Der Ubergang von s1 nach s2 in k+ l Schritten fuhrt durch einen Zwischenzustand s ∈ Snach k Schritten. Wegen (8.4) und der Markoveigenschaft (8.10) hat fur allem ∈ N0 bedingt unter

Xm = s1 der Weg s1k Schritte−−−−−−−→ s

l Schritte−−−−−−→ s2 fur ein festes s die Wahrscheinlichkeit

P[Xm+k+l = s2, Xm+k = s|Xm = s1]

= P[Xm+k+l = s2|Xm+k = s,Xm = s1] ·P[Xm+k = s|Xm = s1]

= P[Xm+k = s|Xm = s1] ·P[Xm+k+l = s2|Xm+k = s]

= P k(s1, s)Pl(s, s2).

Die Ubergange durch verschiedene Zwischenzustande s entsprechen disjunkten Ereignissen, d.h.,ihre jeweiligen bedingten Wahrscheinlichkeiten addieren sich zur bedingten Gesamtwahrschein-lichkeit P k+l(s1, s2).

8.71Die Komponenten von P sind nichtnegativ und ihre Zeilen addieren sich zu 1.8.72Weil

∑s′∈S P (s, s′) =

∑s′∈S P[Xn+1 = s′|Xn = s] = P[Xn+1 ∈ S|Xn = s] = 1 fur alle

s ∈ S und n ∈ N0.8.73Dies folgt durch vollstandige Induktion aus (8.14). Offensichtlich zeigt (8.14), daß die

Matrix P k+l das Produkt der Matrizen P k und P l ist.

18. April 2016

Page 141: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

141

wobei außerdem 8.74

(8.16) µs ≥ 0, s ∈ S, und∑

s∈S

µs = 1

gelte. Dann beschreibt µ eine invariante Verteilung vonX, d.h., PX0 [s] = P[X0 =s] = µs, s ∈ S, impliziert 8.75

(8.17) PXn[s] = P[Xn = s] = µs, s ∈ S, n ∈ N0.

8.3. Modellbildung mit Markovketten

Anhand von drei Beispielen wird gezeigt, wie sich Markovketten bei der Bildungeinfacher Modelle fur zufallige, sich zeitlich entwickelnde Phanomene anwendenlassen.

Beispiel 8.10 (Ehrenfestsches Modell fur die Diffusion durch eine Membran).Es seien zwei durch eine durchlassigeMembran getrennte Behalter gegeben.Diese enthalten zusammen 2N Teilchen(Molekule), die zwischen den Boxen hinund her wechseln konnen.

1B B2

Zur Modellierung der Dynamik der Teilchenzahlen fur B1 und B2 kann alsZustandsraum 8.76 S = −N,−N+1, . . . , 0, 1, . . . , N−1, N gewahlt werden. k ∈ Sbeschreibt die Situation, in der N + k Teilchen in B1 enthalten sind 8.77.

Eine einfache Dynamik kann folgendermaßen definiert werden: In jedem Zeit-punkt wird aus der Menge aller Teilchen gemaß der Gleichverteilung ein Teil-chen zufallig ausgewahlt. Dieses Teilchen wird in den jeweils anderen Behalter ge-bracht 8.78. Durch diese Beschreibung wird eine Markovkette X = (Xn)n∈N0 fur dieAnzahl der Teilchen in B1 charakterisiert. Deren Ubergangswahrscheinlichkeitensind:

P[Xn+1 = j|Xn = i] =

N + i

2N, falls i = −N + 1, . . . , N, j = i− 1 8.79,

N − i

2N, falls i = −N, . . . , N − 1, j = i+ 1 8.80,

0, sonst.

8.74µ entspricht damit einem Wahrscheinlichkeitsmaß auf S.8.75(8.17) folgt zunachst fur n = 1 aus

PX1[s] = P[X1 = s] = P[X0 ∈ S,X1 = s] =

s′∈S

P[X0 = s′,X1 = s]

=∑

s′∈S

PX0[s′]P (s′, s) =

s′∈S

µs′P (s′, s) = µs, s ∈ S,

wobei u.a. (8.12) Verwendung findet. Durch Iteration dieser Argumente ergibt sich (8.17) schließ-lich fur alle weiteren n = 2, 3, . . . .

8.76Da die Gesamtzahl 2N aller Teilchen fest ist, genugt es, die zeitliche Entwicklung der(Anzahl der Teilchen in B1) - N zu beschreiben.

8.77In diesem Fall ist die Anzahl der Teilchen in B2 gleich 2N − (N + k) = N − k.8.78Die raumliche Bewegung innerhalb der Behalter wird nicht modelliert.8.79Ein Teilchen wird von B1 nach B2 gebracht.8.80Ein Teilchen wird von B2 nach B1 gebracht.

18. April 2016

Page 142: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

142

Fragen 8.81. Stellt sich fur große Zeiten ein Gleichgewicht ein? Was ist uber-haupt ein

”Gleichgewicht“? 8.82 Konvergiert die Verteilung PXn

von Xn bei n →∞ gegen eine Grenzverteilung? Ist diese Grenzverteilung invariant 8.83 unter derDynamik? Gibt es weitere invariante Verteilungen? Gibt es einen Zeitpunkt, in demsich alle Teilchen in dem Behalter B1 befinden 8.84 ?

Beispiel 8.11 (Ein Warteschlangenmodell). Es sei angenommen, daß an einemServicepunkt (Postschalter, Internetserver, Telefon-Hotline, . . . )

- pro Zeiteinheit ein Kunde bedient werden kann und daß weiterhin- standig neue Kunden ankommen, wobei ζn die Anzahl der neuen Kundenim Zeitintervall (n, n+ 1] sei. ζn, n ∈ N0, seien i.i.d. Zufallsvariablen mitWerten in N0

8.85.

Sei nun Xn die Große der Warteschlange zum Zeitpunkt n, n ∈ N0. Offensicht-lich gilt 8.86 8.87:

(8.18) Xn+1 = (Xn − 1)+ + ζn, n ∈ N0.

Diese Beziehung verdeutlicht, daß X = (Xn)n∈N0 eine Markovkette mit dem Zu-standsraum S = N0 ist.

Falls P[ζ1 = l] = al, l ∈ N0, ergibt sich aus (8.18) fur die Ubergangswahrschein-lichkeiten:

P[Xn+1 = k + l|Xn = k] =

al+1

8.88, falls k = 1, 2, . . . , l ∈ N0 ∪ −1,al, falls k = 0, l ∈ N0.

Fragen. Unter welchen Bedingungen wird die Warteschlange im Verlauf derZeit immer langer? Mit anderen Worten, wann gilt limn→∞Xn = ∞? Gilt dieseKonvergenz f.s. oder nur mit positiver Wahrscheinlichkeit? In welchen Situationenstellt sich ein

”Gleichgewicht“ ein? Gibt es Zeitpunkte, in denen die Warteschlange

leer ist?

Beispiel 8.12 (Ein Verzweigungsprozeß). Zur Modellierung der zeitlichen Ent-wicklung einer Population sei angenommen, daß

8.81Fur die Beispiele dieses Abschnitts 8.3 werden jeweils Fragen formuliert, die mit Hilfeder in weiterfuhrenden Veranstaltungen zu entwickelnden allgemeinen Resultate zur Theorie derMarkovketten beantwortet werden konnen.

8.82Offensichtlich kann dies kein fester, deterministischer Zustand sein. Vielmehr muߔGleich-

gewicht“ in einem stochastischen Sinn definiert werden, d.h., zufallige Fluktuationen solltenmoglich sein.

8.83Vgl. Bemerkung 8.9(iii).8.84Offensichtlich ist in einem solchen Zeitpunkt das System weit entfernt von einem

”stabi-

len“ oder”invarianten“ Zustand.

8.85Insbesondere im Bereich der Informationstechnologie gibt es etliche Anwendungen furWarteschlangenmodelle. Das hier vorgestellte Modell beschreibt z.B. eine Warteschlange an einemDrucker, fur den die Druckauftrage alle etwa gleich groß sind. Andere Modelle sind beispielsweisefur solche FTP- oder HTTP-Server notwendig, die nur eine beschrankte Anzahl gleichzeitigerZugriffe zulassen und daruberhinausgehende Anfragen abweisen.

8.86Beachte: Wenn kein Kunde wartet, d.h., wenn Xn = 0, wird auch keiner bedient. Ausdiesem Grund taucht der Beitrag (. . . )+ in (8.18) auf.

8.87(8.18) kann in der Form

Xn+1 −Xn = −I1,2,... (Xn) + ζn, n ∈ N0,

geschrieben werden, d.h., (8.18) ist als eine stochastische Differenzengleichung eine zeitlich dis-kretisierte Version einer stochastischen Differentialgleichung.

8.88Wenn die Lange der Warteschlange k = 1, 2, . . . betragt, wird in der nachsten Zeiteinheitein Kunde bedient. Dieser scheidet anschließend aus der Warteschlange aus. Damit in dem be-trachteten Zeitraum die Lange der Warteschlange um l anwachst, mussen daher l+1 Neukundenhinzukommen.

18. April 2016

Page 143: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

143

3000

2000

0

2500

1500

40

500

1000

80 1000 20 60

Abbildung 8.1. 20 Simulationen eines Verzweigungsprozessesmit b0 = 0.25, b1 = 0.5, b2 = 0.2, b3 = 0.05 und X0 = 1. In 4Fallen uberlebt die Population bis zum Zeitpunkt 100 und scheintexponentiell zu wachsen.

• die Menge der Zeitpunkte diskret ist, daß es• keine Unterschiede zwischen den einzelnen Individuen gibt 8.89, daß• die Individuen voneinander unabhangig sind und daß• die Lebensdauer gleich 1 ist 8.90.

Diese Annahmen werden mathematisch realisiert durch die Voraussetzung, daß zujedem Zeitpunkt n ∈ N0 jedes dann lebende Individuum unabhangig von den an-deren eine zufallige Anzahl von Nachkommen hat und dann stirbt. Die Anzahl derNachkommen eines Individuums habe die Verteilung b = (bk)k∈N0 .

Sei nun Xn die Große der Population zum Zeitpunkt n ∈ N0, und sei 8.91 ζln,n ∈ N0, l ∈ N, eine Familie von i.i.d. Zufallsvariablen mit der Verteilung b, d.h.,P[ζln = m] = bm, n,m ∈ N0, l ∈ N. Der stochastische Prozeß X = (Xn)n∈N0 , dessenDynamik durch die Beziehung 8.92

(8.19) Xn+1 =

Xn∑

l=1

ζln, n ∈ N,

8.89Insbesondere gibt es nur ein Geschlecht.8.90Der auf diesen Modellannahmen basierende, hier vorgestellte einfache Verzweigungspro-

zeß laßt sich zuruckfuhren auf Bemuhungen im 18. und 19. Jahrhundert, das Anwachsen undAussterben von Adelsfamilien zu beschreiben. In einem solchen Zusammenhang entspricht eineZeiteinheit einer Generation.

8.91Fur n ∈ N0 und l ∈ N soll ζln die Große der Nachkommenschaft des l-ten der zur Zeitn lebenden Individuen modellieren. Da die Große Xn der Population zum Zeitpunkt n a priorijeden Wert in N0 annehmen kann, werden die Zufallsvariablen ζln fur alle l ∈ N eingefuhrt.

8.92(8.19) verdeutlicht, daß die Große Xn+1 der Bevolkerung zum Zeitpunkt n+1 die Summeder Großen der Nachkommenschaften ζln, l = 1, . . . ,Xn, der zum Zeitpunkt n lebenden Individuenist. Insbesondere treten die zum Zeitpunkt n lebenden Individuen zum Zeitpunkt n+1 selbst nichtmehr in Erscheinung.

18. April 2016

Page 144: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

144

reprasentiert werden kann, ist eine Markovkette mit Zustandsraum S = N0 undden Ubergangswahrscheinlichkeiten

P[Xn+1 = k|Xn = j] = P[ζ1n + · · ·+ ζjn = k](8.20)

=

8.93∑

l1,...,lj=0,1,...,kl1+···+lj=k

bl1 · · · blj , j ∈ N, n, k ∈ N0,

8.94 δk,0, j = 0, n, k ∈ N0.

Das durch (8.19) oder (8.20) zusammengefaßte Modell wird auch Galton-Wat-

son-Prozeß genannt.Fragen. Unter welchen Bedingungen stirbt die Population f.s. aus, bzw., wann

stirbt sie mit positiver Wahrscheinlichkeit nicht aus? 8.95 Wie sieht unter der Be-dingung, daß die Population nicht ausstirbt, das asymptotische Verhalten von Xn

bei n→ ∞ aus 8.96 ?

8.93Die Wahrscheinlichkeit, daß das 1. Individuum l1 Nachkommen, das 2. Individuum l2Nachkommen, . . . und das j-te Individuum lj Nachkommen hat, ist aufgrund der Unabhangigkeitder Individuen gleich bl1bl2 · · · blj . Die hier betrachteten Ereignisse sind fur unterschiedliche Se-

quenzen l1, l2, . . . , lj disjunkt, so daß sich ihre jeweiligen Einzelwahrscheinlichkeiten addieren.8.94Wenn Xn = 0, so ist die Population zum Zeitpunkt n ausgestorben, d.h., es gilt insbe-

sondere auch 0 = Xn+1 = Xn+2 = . . . .8.95Falls b0 > 0, hat eine vorgegebene Anzahl N von Individuen mit Wahrscheinlichkeit bN0 >

0 keine Nachkommen. In diesem Fall stirbt die Population somit mit positiver Wahrscheinlichkeitaus.

8.96Abbildung 8.1 laßt im Fall des Nichtaussterbens der Population”exponentielles“ Wachs-

tum vermuten.

18. April 2016

Page 145: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

KAPITEL 9

Zentraler Grenzwertsatz

Ein Ziel dieses Kapitels ist die Prazisierung der im Gesetz der großen Zahlenformulierten Konvergenz. Insbesondere wird fur i.i.d., reellwertige, quadratintegra-ble Zufallsvariablen Xn, n ∈ N, gezeigt, daß der mit

√N multiplizierte Abstand

zwischen dem empirischen Mittelwert (1/N)∑N

k=1Xk und dem Grenzwert 9.1 E[X1]asymptotisch bei N → ∞ normalverteilt ist 9.2.

9.1. (∗) Konvergenzgeschwindigkeit beim Gesetz der großen Zahlen

9.3 Sei Xn, n ∈ N, eine Folge unabhangiger, 0, 1-wertiger Zufallsvariablen mitBernoulli-Verteilung zum Parameter 1/2. Damit gilt insbesondere 9.4

(9.1) E[Xn] =1

2, Var(Xn) =

1

4, n ∈ N.

In diesem Fall ist nach dem schwachen Gesetz der großen Zahlen 9.5

limn→∞

P

[∣∣∣∣∣1

N

N∑

n=1

Xn − 1

2

∣∣∣∣∣ ≥ ǫ

]= 0, ǫ > 0.

Eine erste Antwort zur Frage nach der Geschwindigkeit der Konvergenz von (1/N)∑Nn=1Xn gegen 1/2 gibt das folgende Resultat.

Satz 9.1. 9.6 Sei αN , N ∈ N, eine Folge reeller Zahlen mit αN > 0, N ∈ N, undlimN→∞ αN = 0. Dann gilt fur eine Folge Xn, n ∈ N, unabhangiger, 0, 1-wertigerZufallsvariablen mit Bernoulli-Verteilung zum Parameter 1/2:

(9.2) P

[∣∣∣∣∣1

N

N∑

n=1

Xn − 1

2

∣∣∣∣∣ ≤ αN

]N→∞→

1, falls 9.7 αN

√N → ∞,

0, falls αN

√N → 0 9.8.

9.1E[X1] wird im Gesetz der großen Zahlen als Grenzwert von (1/N)∑N

k=1Xk bei N → ∞identifiziert, vgl. Satz 7.1.

9.2Vgl. Satz 9.3. Somit wird nachgewiesen, daß fur i.i.d., reellwertige, quadratintegrable Zu-

fallsvariablen Xn, n ∈ N, die Differenz zwischen dem empirischen Mittelwert (1/N)∑N

k=1Xk und

E[X1] bei N → ∞ wie 1/√N klein wird.

9.3In diesem Abschnitt soll u.a. die Wahl von√N zur Skalierung von (1/N)

∑Nk=1Xk−E[X1]

beim Zentralen Grenzwertsatz motiviert werden.9.4Vgl. Fußnoten 1.50(c) und 1.53(c).9.5Vgl. Satz 7.1.9.6Vgl. [5], Bemerkung (5.18).9.7Hier wird angenommen, daß αN bei N → ∞ langsamer als 1/

√N gegen 0 strebt.

9.8Wegen (9.2) kann P[∣∣(1/N)

∑Nn=1Xn− (1/2)

∣∣ ≤ αN

]nur dann einen nichttrivialen Limes

in (0, 1) bei N → ∞ haben, wenn αN

√N = O(1), d.h., wenn αN = O(1/

√N).

145

Page 146: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

146

Bemerkung 9.2. Als Konsequenz aus (9.2) scheint es zur genaueren Untersuchung

der Fluktuationen von (1/N)∑N

n=1Xn um den Grenzwert 1/2 bei N → ∞ sinnvoll

zu sein, die Asymptotik von√N((1/N)

∑Nn=1Xn − (1/2)

)zu betrachten 9.9.

Beweis. Nach (9.1) und dem schwachen Gesetz der großen Zahlen 9.10 gilt:

P

[∣∣∣∣∣1

N

N∑

n=1

Xn − 1

2

∣∣∣∣∣ > αN

]≤ 1

4α2NN

,

d.h.,

P

[∣∣∣∣∣1

N

N∑

n=1

Xn − 1

2

∣∣∣∣∣ ≤ αN

]≥ 1− 1

4α2NN

N→∞→ 1, falls αN

√N → ∞.

Damit ist der erste Teil von (9.2) bewiesen 9.11.

Weil die Zufallsvariable∑N

n=1Xn binomialverteilt mit den Parametern N und1/2 ist 9.12, folgt:

P

[∣∣∣∣∣1

N

N∑

n=1

Xn − 1

2

∣∣∣∣∣ ≤ αN

]= P

[∣∣∣∣∣N∑

n=1

Xn − N

2

∣∣∣∣∣ ≤ αNN

]

= 9.13∑

k:|k−(N/2)|≤NαN

(N

k

)(12

)N

≤ 9.14 (2NαN + 1)

(N

⌊N/2⌋

)(12

)N

N→∞∼ 9.15 (2NαN + 1)

√2

πN= 2

√2

παN

√N +

√2

πNN→∞→ 0, falls αN

√N → 0.

Damit ist auch der zweite Teil von (9.2) verifiziert.

9.9Aufgrund von (9.2) kann erwartet werden, daß

P

[√N

(1

N

N∑

n=1

Xn − 1

2

)≤ u

]= P

[(1

N

N∑

n=1

Xn − 1

2

)≤ u√

N

]

bei N → ∞ fur alle u ∈ (−∞,∞) einen Grenzwert in (0, 1) besitzt.9.10Vgl. insbesondere (7.3).9.11Offensichtlich gilt, falls 1/2 durch E[X1] ersetzt wird, dieser Teil von (9.2) fur beliebige

i.i.d., reellwertige, quadratintegrable Zufallsvariablen Xn, n ∈ N. Sie brauchen keine Bernoulli-Verteilung zu besitzen.

9.12Vgl. Abschnitt 1.1.2, insbesondere (1.3c).9.13Diese Summe enthalt hochstens 2NαN + 1 Summanden.9.14Weil

(∗)(Nk

)≤( N

⌊N/2⌋), k = 0, 1, . . . , N.

Die Abschatzung (∗) ist eine Konsequenz aus der Symmetrie der Binomialkoeffizienten um N/2,d.h., ( N

(N/2) + α

)=( N

(N/2) − α

), α ∈ R mit (N/2) ± α ∈ N0,

und der Tatsache, daß 0, 1, . . . , ⌊n/2⌋ ∋ k →(nk

)fur alle n ∈ N monoton steigend ist. Diese

Behauptung folgt aus(nk

)( nk+1

) =n!

k!(n− k)!· (k + 1)!(n− k − 1)!

n!=k + 1

n− k≤ 1, k = 0, 1, . . . ,

⌊n2

⌋− 1.

9.15Wegen der Stirling Formel

limn→∞

1

n!

√2πn

(ne

)n= 1.

18. April 2016

Page 147: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

147

9.2. Eigenschaften charakteristischer Funktionen

Charakteristische Funktionen werden in (6.44) eingefuhrt. Insbesondere ist diecharakteristische Funktion ψX einer reellwertigen Zufallsvariable X durch

ψX(z) = E[exp(izX)], z ∈ R,

definiert. Solche Funktionen werden im folgenden Abschnitt 9.3 beim Beweis desZentralen Grenzwertsatzes fur i.i.d., reellwertige, quadratintegrable Zufallsvariablenmit positiver Varianz benotigt. Zunachst werden jedoch in diesem Abschnitt 9.2einige Eigenschaften von charakteristischen Funktionen vorgestellt 9.16.

(i) Seien X und Y unabhangige, reellwertige Zufallsvariablen auf einem Wahr-scheinlichkeitsraum (Ω,F,P). Dann gilt 9.17

(9.3) ψX+Y (z) = ψX(z)ψY (z), z ∈ R.

Beweis. (9.3) folgt aus

ψX+Y (z) = E[exp(iz(X + Y ))] = E[exp(izX) exp(izY )]

= 9.18 E[exp(izX)]E[exp(izY )]

= ψX(z)ψY (z), z ∈ R.

(ii) Sei X eine reellwertige Zufallsvariable mit E[|X |2] < ∞. Dann ist ψX ∈C2

b (R) und es gilt insbesondere

(9.4) ψX(z) = 1 + izE[X ]− z2

2E[X2] + o(|z|2), bei |z| → 0.

Begrundung. Nach einem formalen Vertauschen von Differentiation und Er-wartungswert folgt 9.19

ψ′X(z) = iE[X exp(izX)], ψ′′

X(z) = −E[X2 exp(izX)], z ∈ R,

d.h.,

ψX(0) = 1, ψ′X(0) = iE[X ], ψ′′

X(0) = −E[X2].

(9.4) ist damit die Taylorentwicklung der Ordnung 2 von ψX in 0.

(iii) Sei X eine reellwertige Zufallsvariable. Weiterhin sei Y = aX + b fura, b ∈ R. Dann ist

(9.5) ψY (z) = exp(izb)ψX(az), z ∈ R.

Insbesondere beachte man, daß

( N

⌊N/2⌋)

N gerade=

N !

((N/2)!)2N→∞∼

√2πN(N/e)N

(√

2πN/2(N/(2e))N/2)2=

√2√πN

2N ,

und daß fur ungerade N analoge Uberlegungen durchgefuhrt werden konnen.9.16Eine weitere wesentliche Eigenschaft wird durch Satz 6.21 deutlich. Dieser Satz zeigt,

daß fur reellwertige Zufallsvariablen die Konvergenz in Verteilung mit Hilfe der Konvergenz ihrercharakteristischen Funktionen nachgewiesen werden kann.

9.17(9.3) besagt, daß die charakteristische Funktion einer Summe unabhangiger Zufallsvaria-blen faktorisiert.

9.18Wegen der Unabhangigkeit von X und Y , vgl. (6.9) und Bemerkung 6.4(i). Man beach-te, daß fur jedes feste z ∈ R mit X und Y auch die Zufallsvariablen exp(izX) und exp(izY )unabhangig sind.

9.19Bei einem rigorosen Beweis kann der Satz von der dominierten Konvergenz, vgl. [3],Appendix A.5, Theorem (5.6), herangezogen werden. Insbesondere konnen die Resultate in [3],Appendix A.9, zum Vertauschen von Differentiation und Integration angewandt werden.

18. April 2016

Page 148: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

148

Beweis.

ψY (z) = E[exp(iz(aX + b))] = E[exp(izb) exp(izaX)]

= exp(izb)E[exp(izaX)] = exp(izb)ψX(az), z ∈ R.

(iv) Eine reellwertige Zufallsvariable X sei gemaß der standard Normalvertei-lung N(0, 1) verteilt. Dann gilt 9.20

(9.6) ψX(z) = exp(−z2/2), z ∈ R.

Begrundung. 9.21

ψX(z) = 9.22 1√2π

∫ ∞

−∞dx exp(izx) exp(−x2/2)︸ ︷︷ ︸

= exp(izx− x2/2) = exp((−(x− iz)2 − z2)/2)

= exp(−z2/2) 1√2π

∫ ∞

−∞dx exp(−(x− iz)2/2)

︸ ︷︷ ︸

= 9.23 1√2π

∫ ∞−iz

−∞−iz

dy exp(−y2/2)︸ ︷︷ ︸

= 9.24 1√2π

∫ ∞

−∞dy exp(−y2/2) = 1

.

(v) Durch die charakteristische Funktion ψX ist die Verteilung PX einer reell-wertigen Zufallsvariable X eindeutig bestimmt.

Begrundung. Schreibt man

ψX(z) = E[exp(izX)](9.7)

= 9.25

R

PX(dx) exp(izx), z ∈ R,

so wird deutlich, daß die charakteristische Funktion ψX einer Zufallsvariable Xder Fouriertransformierten ihrer Verteilung PX entspricht. Die Behauptung (v)folgt daher aus der Tatsache, daß ein endliches Maß auf (R,B(R)) durch seineFouriertransformierte eindeutig charakterisiert ist.

9.20Wegen (9.6) haben fur die standard Normalverteilung die Dichte und die charakteristischeFunktion die gleiche Struktur. Aufgrund von (9.5) gilt dies auch fur andere Normalverteilungen.Mit der hyperbolischen Cosinusverteilung wird in [4], Chapter XV, Section 2, ein weiteres Wahr-scheinlichkeitsmaß mit dieser Eigenschaft angegeben. Es besitzt die Dichte R ∋ x→ (π cosh(x))−1

und die charakteristische Funktion R ∋ z → (cosh(πz/2))−1 mit cosh(x) = (exp(x)+ exp(−x))/2,x ∈ R.

9.21Ein mathematisch vollstandiger Beweis von (9.6) findet sich z.B. in [3], Section 2.3,Example 3.3, mit Appendix A.9, Example 9.1.

9.22Diese Darstellung von ψX ergibt sich aus Beispiel 6.6. Vgl. dazu auch Fußnote 6.186.9.23Mit der Variablentransformation y = x− iz. Nach dieser Transformation ist der Integra-

tionsbereich die Gerade ζ = η − iz : η ∈ R in C.9.24Die Unabhangigkeit des Integrals

∫∞−iz−∞−iz dy exp(−y2/2) von z ∈ R kann mit dem

Cauchyschen Integralsatz, vgl. z.B. [1], Chapter 4, Section 1.4, bewiesen werden.9.25Auf der rechten Seite von (9.7) ist der Erwartungswert E[W ] der Zufallsvariable W =

exp(izX) als ein Integral bzgl. des Wahrscheinlichkeitsmaßes PX dargestellt. Diese Darstellungergibt sich aus einer Verallgemeinerung von Beispiel 6.6. Falls PX eine Dichte bzgl. des Lebes-guemaßes besitzt, so ist (9.7) aquivalent zu der in Fußnote 6.186 angegebenen Darstellung vonψX .

18. April 2016

Page 149: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

149

Details zu den obigen Uberlegungen und weitere Eigenschaften charakteristi-scher Funktionen finden sich beispielsweise in [6], Abschnitte 5.7 - 5.9.

9.3. Zentraler Grenzwertsatz fur i.i.d. Zufallsvariablen

Das am Anfang dieses Kapitels 9 angekundigte Resultat wird nun prazisiert.

Satz 9.3. Seien Xn, n ∈ N, unabhangige, identisch verteilte, reellwertige Zu-

fallsvariablen mit E[X1] = µ und Var(X1) = σ2 ∈ (0,∞). Sei weiter ZN =

(1/N)∑N

k=1Xk, N ∈ N. Dann gilt

(9.8) limN→∞

√N

σ2(ZN − µ) = X in Verteilung, wobei PX = N(0, 1).

Beweis. Im folgenden werden insbesondere verschiedene Eigenschaften voncharakteristischen Funktionen 9.26 verwendet.

Sei Yn = (Xn − µ)/σ, n ∈ N. Die Zufallsvariablen Yn, n ∈ N, sind i.i.d. undquadratintegrabel mit E[Y1] = 0 und Var(Y1) = 1. Weiterhin gilt 9.27

(9.9)1√N

N∑

k=1

Yk =

√N

σ2

(1

N

N∑

k=1

(Xk − µ)

)=

√N

σ2(ZN − µ), N ∈ N,

und

ψ(1/√N)

∑Nk=1 Yk

(z) = 9.28 ψ∑Nk=1 Yk

(z/√N)(9.10)

= 9.29N∏

k=1

ψYk(z/

√N)

= 9.30

(1− z2

2N+ o( |z|2N

))N

N→∞∼ 9.31

(1− z2

2N

)N

N→∞→ 9.32 exp(−z2/2), z ∈ R.

Mit (9.9) und (9.10) ist gezeigt, daß die charakteristische Funktion von√N/σ2(ZN

−µ) bei N → ∞ gegen die charakteristische Funktion einer gemaß N(0, 1) verteiltenZufallsvariablen X konvergiert 9.33, d.h., Satz 9.3 ist nun bewiesen 9.34.

9.26Die hier benutzten Eigenschaften von charakteristischen Funktionen werden in Satz 6.21und in Abschnitt 9.2 erlautert.

9.27Zum Beweis von (9.8) muß somit die Asymptotik von (1/√N)∑N

k=1 Yk bei N → ∞untersucht werden.

9.28Hier wird (9.5) mit X =∑N

k=1 Yk, a = 1/√N und b = 0 angewandt.

9.29Vgl. (9.3). Man beachte, daß ebenso wie Xn, n ∈ N, auch die Zufallsvariablen Yn, n ∈ N,unabhangig sind.

9.30Aufgrund von (9.4). Hier ist zu beachten, daß E[Yn] = 0, n ∈ N, und E[Y 2n ] = Var(Yn) =

1, n ∈ N.9.31Man beachte, daß fur festes z ∈ R und ǫ ∈ (0, 1) fur hinreichend großes N ∈ N die

Abschatzungen

1− z2(1 + ǫ)

2N≤ 1− z2

2N+ o( |z|2N

)≤ 1− z2(1− ǫ)

2Ngelten. Wenn außerdem mit

(∗) limN→∞

(1 +

x

N

)N= exp(x), x ∈ R,

eine der moglichen Definitionen der Exponentialfunktion berucksichtigt wird, wird deutlich, daßfur jedes feste z der Term o(|z|2/N) bei N → ∞ vernachlassigt werden kann.

9.32Vgl. (∗) in Fußnote 9.31.9.33Vgl. (9.6) und Abschnitt 9.2(v).9.34Vgl. Satz 6.21.

18. April 2016

Page 150: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

150

Bemerkungen 9.4. (i) Fur eine Folge Xn, n ∈ N, paarweise unabhangiger 9.35,identisch verteilter, reellwertiger Zufallsvariablen braucht der Zentrale Grenzwert-satz, d.h. die Beziehung (9.8), nicht zu gelten 9.36. Andererseits gibt es unzahligeVerallgemeinerungen von Satz 9.3. In jenen Resultaten werden gewisse Zufallsva-riablen ζN , N ∈ N, die darstellbar sind als Summen vieler kleiner Beitrage, diehinreichend wenig voneinander abhangig sind, betrachtet. Unter geeigneten Bedin-gungen konvergieren diese Zufallsvariablen bei N → ∞ in Verteilung gegen einenormalverteilte Zufallsvariable ζ 9.37.

(ii) Der Zentrale Grenzwertsatz ist ein herausragendes Resultat in der Mathe-matik:

• Fur eine Folge Xn, n ∈ N, recht allgemeiner Zufallsvariablen 9.38 wird mitder in (9.8) festgehaltenen Konvergenz gegen eine standard normalver-teilte Zufallvariable die bemerkenswerte Konsequenz nachgewiesen, daßasymptotisch bei N → ∞ zur Beschreibung der Fluktuationen der empi-

rischen Mittelwerte (1/N)∑N

k=1Xk Details der Verteilung vonXn, n ∈ N,keine Rolle mehr spielen.

• Mit einer geeigneten Methode 9.39, kann in uberraschend wenigen, einfa-chen Schritten der Beweis dieses Resultats abgeschlossen werden 9.40.

• Der Zentrale Grenzwertsatz besitzt vielfaltige Anwendungsmoglichkeitenin zahlreichen Bereichen der menschlichen Erfahrung 9.41.

9.35Eine Folge Yn, n ∈ N, von Zufallsvariablen heißt paarweise unabhangig, wenn Yk undYl fur alle k, l ∈ N mit k 6= l (stochastisch) unabhangig sind. Der Begriff der paarweisen Un-

abhangigkeit von Ereignissen wurde in Beispiel 3.9 eingefuhrt.9.36Ein Gegenbeispiel wird in [3], Section 2.4, Example 4.5, angegeben. Es sei daran erinnert,

daß fur paarweise unkorrelierte, d.h., insbesondere fur paarweise unabhangige, identisch verteilte,quadratintegrable Zufallsvariablen das starke und somit auch das schwache Gesetz der großenZahlen gilt, vgl. Bemerkung 7.2.

9.37Vgl. z.B. [3], Section 2.4, Theorem (4.5). In komplexeren Verallgemeinerungen des hiervorgestellten Zentralen Grenzwertsatzes nehmen die Zufallsvariablen ζN , N ∈ N, und ζ Werte inhochdimensionalen Raumen wie z.B. in Funktionenraumen an, vgl. z.B. [3], Section 7.6, Theo-rem (6.6) oder [3], Section 7.7, Theorem (7.8).

9.38Xn, n ∈ N, ist in diesem Abschnitt 9.3 eine beliebige Folge von i.i.d., quadratintegrablenZufallsvariablen mit positiver Varianz. In allgemeineren Varianten des Zentralen Grenzwertsatzeswird diese Annahme betrachtlich abgeschwacht.

9.39Damit ist die Verwendung von charakteristischen Funktionen gemeint.9.40Naturlich gibt es auch viele andere, i. allg. umfangreichere Beweise des Zentralen Grenz-

wertsatzes, vgl. z.B. [10], Abschnitt 12.3, oder den Beweis von Satz (5.28) in [5].9.41Wenn eine zufallige reellwertige Große G die Summe vieler kleiner, wenig voneinander

abhangiger Beitrage ist, konnen ihre Schwankungen um ihren mittleren Wert durch eine normal-verteilte Zufallsvariable modelliert werden. Beispielsweise ist es gerechtfertigt,

– fur viele quantitative Merkmale der Mitglieder einer Bevolkerungsgruppe (Korpergroße,-gewicht, . . . von Mannern, bzw. Frauen einer bestimmten Altersklasse) deren Schwankun-gen,

– fur die Meßwerte von Temperatur, Luftdruck, . . . an einer Wetterstation (in einem nicht zugroßen Zeitraum des Kalenderjahres) deren Fluktuationen oder auch

– fur eine Aktie (in einem Zeitraum ohne Borsencrash, bzw. ohne gravierende wirtschaftlicheProbleme des Unternehmens) deren Kursschwankungen

durch normalverteilte Zufallsvariablen zu modellieren.

18. April 2016

Page 151: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

151

(iii) Die Konvergenz in Verteilung kann auf unterschiedliche Weise formuliertwerden 9.42. Insbesondere besagt (9.8), daß 9.43 9.44

(9.11) limN→∞

P

[√N

σ2(ZN − µ) ≤ a

]=

1√2π

∫ a

−∞dx exp(−x2/2), a ∈ R,

bzw. 9.45

(9.12) P

[√N

σ2(ZN−µ)∈(a, b)

]N→∞∼ 1√

∫ b

a

dx exp(−x2/2), −∞<a<b<∞.

9.4. (∗) Lokale Normalapproximation

9.46 In vielen Fallen gilt eine lokale Variante des Zentralen Grenzwertsatzes.Insbesondere bleibt dann (9.12) auch gultig, wenn die Lange des Intervalls (a, b)

bei N → ∞ wie 1/√N klein wird.

Satz 9.5. 9.47 Seien Xn, n ∈ N, unabhangige, identisch verteilte, reellwertige Zu-

fallsvariablen mit E[X1] = µ, Var(X1) = σ2 ∈ (0,∞) und 9.48 9.49

(9.13) |ψX1(λ)| < 1, falls λ 6= 0.

Sei weiter ZN = (1/N)∑N

k=1Xk, N ∈ N. Dann gilt

limN→∞

√NP

[√N

σ2(ZN − µ) ∈

(x+

α√N, x+

β√N

)](9.14)

=β − α√

2πexp(−x2/2), x ∈ R, −∞ < α < β <∞.

Alternativ kann (9.14) in der an (9.12) erinnernden Form 9.50 9.51

P

[√N

σ2(ZN − µ) ∈

(x+

α√N, x+

β√N

)](9.15)

9.42Vgl. Satz 6.21.9.43Bei der Anwendung von Satz 6.21 beachte man, daß die Verteilungsfunktion R ∋ y →

(2π)−1/2∫ y−∞ dx exp(−x2/2) der standard Normalverteilung in ganz R stetig ist.

9.44Die Formulierung (9.11), bzw. (9.12) des Zentralen Grenzwertsatzes wurde auch schon inBeispiel 1.8 gewahlt.

9.45Wie in Abschnitt 9.4 erlautert wird, gilt (9.12) auch fur Intervalle (a, b) = (aN , bN ), deren

Langen bei N → ∞ wie 1/√N immer kleiner werden.

9.46Das in diesem Abschnitt vorgestellte Resultat wird auch als Lokaler Zentraler Grenz-

wertsatz bezeichnet.9.47Vgl. [3], Section 2.5, Theorem (5.4).9.48ψY mit ψY (λ) = E[exp(iλY )], λ ∈ R, ist die charakteristische Funktion einer reellwer-

tigen Zufallsvariable Y , vgl. (6.44) und insbesondere Abschnitt 9.2. Es sei daran erinnert, daß inAbschnitt 9.3 charakteristische Funktionen das wesentliche Hilfsmittel beim Beweis des ZentralenGrenzwertsatzes waren.

9.49Nach Theorem (5.1) in [3], Section 2.5, besagt die Bedingung (9.13), daß die Zufallsva-riable X1 nicht f.s. konstant ist und auch nicht auf einem Gitter in R konzentriert ist, d.h., es gibtkein b ∈ R und kein h > 0, so daß P[X1 ∈ b+ hk : k ∈ Z] = 1.

9.50(9.14) zeigt, daß der Quotient der beiden Seiten von (9.15) bei N → ∞ gegen 1konvergiert.

9.51Wenn in (9.12) das Intervall (a, b) durch (x + (α/√N), x + (β/

√N)) ersetzt und die

Stetigkeit von R ∋ x→ exp(−x2/2) mit der Konsequenz

1√2π

∫ x+(β/√N)

x+(α/√N)

dy exp(−y2/2) N→∞∼ β − α√N

1√2π

exp(−x2/2)

berucksichtigt wird, ergibt sich (9.15) auf eine formale Weise.

18. April 2016

Page 152: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

152

N→∞∼ β − α√N

1√2π

exp(−x2/2), x ∈ R, −∞ < α < β <∞,

prasentiert werden 9.52.

9.5. Bestimmung von Konfidenzintervallen

In diesem Abschnitt werden Anwendungen des Zentralen Grenzwertsatzes inder Statistik vorgestellt. Insbesondere werden in zwei Beispielen Situationen be-trachtet, wo eine zufallige Große N mal unabhangig gemessen und ein Parameterdurch den empirischen Mittelwert dieser N Messungen geschatzt wird. Aufgrunddes Zentralen Grenzwertsatzes sind die mit

√N reskalierten Fluktuationen jenes

empirischen Mittelwerts fur N → ∞ normalverteilt. Als Konsequenz konnen indiesem Grenzfall Konfidenzintervalle mit Hilfe der standard Normalverteilung be-stimmt werden 9.53 9.54.

Beispiel 9.6 (Konfidenzintervalle fur den Erwartungswert von i.i.d. Zufallsvaria-blen). Eine zufallige reelle Große werde wiederholt unabhangig gemessen. Die Meß-werte seien durch durch i.i.d. Zufallsvariablen X1, X2, . . . mit E[X1] = µ ∈ R undVar(X1) = σ2 ∈ (0,∞) modelliert. σ2 sei bekannt 9.55, wahrend µ durch Angabeeines Konfidenzintervalls zu schatzen sei.

Nach N Messungen ist µN = (1/N)∑N

k=1Xk ein erwartungstreuer Schatzer furµ 9.56. Nun soll fur große N zu α ∈ (0, 1) ein Konfidenzintervall zum Irrtumsniveau

α fur µ 9.57 bestimmt werden.Aus dem Zentralen Grenzwertsatz 9.58 folgt:

P

[√N

σ2(µN − µ) ∈ (a, b)

](9.16)

N→∞∼ 1√2π

∫ b

a

dx exp(−x2/2), −∞ < a < b <∞.

Wahlt man zu α ∈ (0, 1) nun U(α) mit 9.59

(9.17)1√2π

∫ U(α)

−U(α)

dx exp(−x2/2) = 1− α,

9.52Wenn (9.13) nicht gilt und wenn X1 nicht f.s. konstant ist, gibt es ein Gitter Gb,h = b+hk : k ∈ Z ⊂ Rmit b ∈ R und h > 0, so daß P[X1 ∈ Gb,h] = 1, vgl. [3], Section 2.5, Theorem (5.1).Auch in diesem Fall gilt ein (9.14) entsprechendes Resultat, vgl. [3], Section 2.5, Theorem (5.2).Der Fall von i.i.d. Zufallsvariablen Xn, n ∈ N, die eine Bernoulli-Verteilung besitzen, wird auchin [5], Satz (5.19), betrachtet.

9.53Konfidenzbereiche wurden in Beispiel 1.10 erstmals vorgestellt und dann in Abschnitt 4.3detaillierter betrachtet.

9.54Die Uberlegungen in den folgenden Beispielen 9.6 und 9.7 ahneln jenen in Beispiel 4.8.Nun wird allerdings der Zentrale Grenzwertsatz und nicht die Cebysev’sche Ungleichung als Ba-sis benutzt. Als Konsequenz ergeben sich

”kleinere“ Konfidenzintervalle, d.h., die statistischen

Aussagen werden praziser.9.55Dies ist eine in vielen Fallen unrealistische Annahme, die jedoch die Uberlegungen in

diesem Beispiel wesentlich vereinfacht. In Fußnote 9.64 finden sich Hinweise zur Verallgemeinerungdieses Beispiels auf den Fall eines unbekannten Parameters σ2.

9.56Vgl. Beispiel 6.16.9.57Zur Erlauterung vgl. (4.9). Ein statistisches Modell, mit dem in diesem Beispiel 9.6 gear-

beitet werden konnte, wird in Fußnote 6.145 beschrieben. Zur Vereinfachung der Argumentationwird allerdings wie schon in Beispiel 6.16 auch im folgenden ein derart komplexes statistischesModell stillschweigend umgangen.

9.58Vgl. insbesondere (9.12).9.59U(α) kann statistischen Tabellen entnommen, bzw. mit Hilfe von Statistik-Software er-

mittelt werden.

18. April 2016

Page 153: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

153

und definiert dann

(9.18) CN (µN ) =

(µN − U(α)

√σ2

N, µN + U(α)

√σ2

N

), N ∈ N,

so ergibt sich

P[CN (µN ) 6∋ µ] 9.60 = P

[µ≤ µN−U(α)

√σ2

Noder µ≥ µN+U(α)

√σ2

N

](9.19)

= P

[µN − µ 6∈

(−U(α)

√σ2

N,U(α)

√σ2

N

)]

= P

[√N

σ2(µN − µ) 6∈ (−U(α), U(α))

]

N→∞∼ 9.61 1− 1√2π

∫ U(α)

−U(α)

dx exp(−x2/2)

= 9.62 α.

Fur große N ist somit CN (µN ) ein Konfidenzintervall zum Irrtumsniveau α fur µ.Da in jeder Relation in (9.19) zumindest fur N → ∞ Gleichheit gilt, ist CN (µN )sogar ein asymptotisch optimales Konfidenzintervall 9.63 9.64.

Beispiel 9.7 (Konfidenzintervalle fur die Monte-Carlo-Integration). In diesemBeispiel wird die Approximationsgenauigkeit des in Abschnitt 7.2.1 vorgestelltenMonte-Carlo-Verfahrens zur numerischen Integration untersucht 9.65.

Oft ist die Verteilungsfunktion φ(a) = (2π)−1/2∫ a−∞ dx exp(−x2/2), a ∈ R, der standard

Normalverteilung tabelliert, vgl. z.B. [10], Tabelle II. Da

1√2π

∫ U

−Udx exp(−x2/2) = φ(U)− φ(−U)

︸ ︷︷ ︸= 1− φ(U) (Symmetrie von x→ exp(−x2/2))

= 2φ(U) − 1, U > 0,

ist U(α) so zu bestimmen, daß

1− α = 2φ(U(α)) − 1, d.h., φ(U(α)) = 1− α

2,

gilt. Aus [10], Tabelle II, kann nun beispielsweise U(0.05) ≈ 1.96 geschlossen werden.9.60Eigentlich konnte hier eine Notation wie Pµ[ . ] benutzt werden, um anzudeuten, daß µ

als”wahrer“ Parameter zugrunde gelegt wird.9.61Vgl. (9.16).9.62Vgl. (9.17).9.63Insbesondere kann CN (µN ) bei N → ∞ nicht durch einen kleineren Konfidenzbereich

ersetzt werden. Man vergleiche hierzu den letzten Abschnitt in Beispiel 4.7.9.64Fur den Fall von i.i.d., normalverteilten Zufallsvariablen X1, . . . , XN , wobei neben µ =

E[X1] auch σ2 = Var(X1) unbekannt ist, wird in [5], Beispiel (8.4) und Satz (8.5), ein Konfi-denzintervall fur µ angegeben. Hierbei findet insbesondere auch der in Beispiel 6.16 eingefuhrteerwartungstreue Schatzer fur die Varianz eine Anwendung.

Wenn nun fur allgemeinere, i.i.d., quadratintegrable Zufallsvariablen X1, . . . , XN sowohl µ =E[X1] als auch σ2 = Var(X1) unbekannt sind, bleiben jene Uberlegungen in [5] zur Bestimmungeines Konfidenzintervalls fur µ zumindest bei N → ∞ anwendbar. Zur Begrundung kann wie indiesem Beispiel 9.6 der Zentrale Grenzwertsatz herangezogen werden.

Im folgenden Beispiel 9.7 wird außerdem erlautert, wie bei einer bekannten oberen Schrankefur σ2 Konfidenzintervalle fur µ, die i. allg. suboptimal sind, bestimmt werden konnen. Hierbei wirdein Konfidenzbereich als suboptimal bezeichnet, wenn er bei genauerer Kenntnis von σ2 verkleinertwerden konnte.

9.65In Abschnitt 7.2.1 wurde mit Hilfe des schwachen Gesetzes der großen Zahlen nachge-wiesen, daß

(∗) 1

N

N∑

k=1

h(Xk)P→∫ 1

0dx h(x) bei N → ∞,

18. April 2016

Page 154: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

154

Sei h : [0, 1] → R eine meßbare, beschrankte Funktion und Xn, n ∈ N, eineFolge unabhangiger, in [0, 1] gleichverteilter Zufallsvariablen. Die Zufallsvariablenh(Xn), n ∈ N, sind dann i.i.d. mit 9.66

E[h(X1)] =

∫ 1

0

dx h(x) = µh,(9.20)

Var(h(X1)) =

∫ 1

0

dx h(x)2 −(∫ 1

0

dx h(x)

)2

= σ2h ≤ 9.67 ‖h‖2∞.

Genau wie in Beispiel 6.16 kann µh=∫ 1

0 dx h(x) erwartungstreu durch µh,N =

(1/N)∑N

k=1 h(Xk) geschatzt werden. Bei der Bestimmung eines Konfidenzinter-

valls zum Irrtumsniveau α ∈ (0, 1) fur µh konnen allerdings die Uberlegungen ausBeispiel 9.6 nicht direkt angewandt werden, da neben µh auch σ2

h als unbekannt zubetrachten ist 9.68. Andererseits ist fur σ2

h die obere Schranke ‖h‖2∞ bekannt 9.69.Es gilt somit 9.70 9.71:

P

[(µh,N − U(α)

‖h‖∞√N

, µh,N + U(α)‖h‖∞√N

)6∋ µh

](9.21)

= P

[µh ≤ µh,N − U(α)

‖h‖∞√N

oder µh ≥ µh,N + U(α)‖h‖∞√N

]

= P

[µh,N − µh /∈

(−U(α)

‖h‖∞√N

,U(α)‖h‖∞√N

)]

≤ 9.72 P

[µh,N − µh /∈

(−U(α)

√σ2h

N,U(α)

√σ2h

N

)]

= P

[√N

σ2h

(µh,N − µh) /∈ (−U(α), U(α))

]

N→∞∼ 9.73 1− 1√2π

∫ U(α)

−U(α)

dx exp(−x2/2) = 9.74 α.

Fur N → ∞ kann daher

CN (µh,N) =

(µh,N − U(α)

‖h‖∞√N

, µh,N + U(α)‖h‖∞√N

)

als Konfidenzintervall zum Irrtumsniveau α fur µh gewahlt werden 9.75.

falls h : [0, 1] → R eine meßbare, beschrankte Funktion und Xn, n ∈ N, eine Folge unabhangiger,in [0, 1] gleichverteilter Zufallsvariablen ist.

Im folgenden wird insbesondere als Anwendung der Uberlegungen in Beispiel 9.6, d.h. durchAngabe von Konfidenzintervallen, die mit Hilfe des Zentralen Grenzwertsatzes bestimmt werden,die Geschwindigkeit der Konvergenz in (∗) durch C/

√N abgeschatzt.

9.66Vgl. (7.5).9.67‖h‖∞ = supx∈[0,1] |h(x)|.9.68Wenn µh =

∫ 10dx h(x) nicht direkt berechnet werden kann, so kann offensichtlich auch

σ2h =∫ 10 dx h(x)

2 −(∫ 1

0 dx h(x))2

nicht exakt bestimmt werden.9.69Vgl. (9.20). ‖h‖2∞ wird in den Uberlegungen dieses Beispiels als bekannt vorausgesetzt.9.70Fur α ∈ (0, 1) ist U(α) durch (9.17) definiert.9.71In (9.21) bezeichnet P das Wahrscheinlichkeitsmaß auf dem Wahrscheinlichkeitsraum, auf

welchem die Zufallsvariablen Xn, n ∈ N, definiert sind.9.72Da σ2h ≤ ‖h‖2∞, vgl. (9.20), und wegen der Monotonie von P, vgl. (2.12).9.73Aufgrund des Zentralen Grenzwertsatzes fur die Zufallsvariablen h(Xn), n ∈ N, vgl. (9.12)

und (9.20).9.74Wegen (9.17).9.75Dieses Konfidenzintervall ist asymptotisch bei N → ∞ i. allg. großer als notwendig, d.h.

suboptimal, weil in der dritten Zeile von (9.21)”“ nicht auszuschließen ist.

18. April 2016

Page 155: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

155

Bemerkungen 9.8. (i) Die Uberlegungen dieses Beispiels deuten an, daß dasMonte-Carlo-Verfahren zur numerischen Integration eine recht kleine Konvergenz-geschwindigkeit besitzt, da der Approximationsfehler, d.h. die Lange des Konfidenz-intervalls sich wie ‖h‖∞/

√N verhalt. Um den Approximationsfehler zu halbieren,

muß daher der Stichprobenumfang N vervierfacht werden. Im Gegensatz dazu istbei anderen

”klassischen“ numerischen Integrationsverfahren der Approximations-

fehler ≃ ‖h(m)‖∞N−k fur geeignete m = 1, 2, . . . und k ≥ 1 9.76. Solche Verfahrenkonvergieren schnell fur glatte Integranden h, sind aber ungeeignet, wenn h irregularwird.

(ii) Um bessere, d.h., kleinere Konfidenzintervalle zu erhalten, kann auch dieunbekannte Varianz σ2

h geschatzt werden 9.77.

9.76Vgl. z.B. [12], Kapitel 3. Im Zusammenhang mit jenen numerischen Verfahren entsprichtN der Große ∆−1, wobei ∆ die jeweilige Schrittweite ist.

9.77Ein erwartungstreuer Schatzer fur σ2h wurde in Beispiel 6.16 vorgestellt. Hinweise zur

Vorgehensweise bei der Bestimmung von Konfidenzintervallen fur µh bei unbekannter Varianz σ2hfinden sich in Fußnote 9.64.

18. April 2016

Page 156: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik
Page 157: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

Anhang

In diesem Anhang werden einige Erganzungen zu den Kapiteln 1 - 9 zusam-mengestellt.

A.1. Erganzungen zu Kapitel 1

A.1.1. Deskriptive Statistik. In der deskriptiven, beschreibenden oder em-

pirischen Statistik werden gegebene Daten in Tabellen, Graphiken oder Kennzahlenzusammengefaßt. Es wird versucht, die Daten auf eine ubersichtliche Weise aufzu-bereiten, so daß interessante Strukturen und Zusammenhange deutlich werden. DieSuche nach Mechanismen oder allgemeineren Gesetzen, welche in einer konkretenSituation zu den vorliegenden Daten gefuhrt haben, und insbesondere auch dieEntwicklung von Methoden zur Herleitung von mathematisch fundierten, quanti-tativen Folgerungen ist nicht die Aufgabe der deskriptiven, sondern der induktiven,mathematischen oder schließenden Statistik A.1.1, die neben der Wahrscheinlich-keitstheorie das Thema dieser Vorlesung ist.

In empirischen Wissenschaften, wie z.B. den Sozial- oder den Wirtschaftswis-senschaften liegen oft Daten vor, die nicht oder nur auf eine sehr aufwendige Weisedurch ein statistisches Modell A.1.2 beschrieben werden konnen. Dann kommt diebeschreibende Statistik zur Anwendung. Insbesondere auch in der offentlichen Ver-waltung stellt sie wichtige Methoden zum Ordnen und Auswerten großer Daten-mengen zur Verfugung.

Beispiele fur Kennzahlen, die sich zur Charakterisierung einer Folge ξ = (x1,. . . , xN ) reeller Daten anbieten, sind:

Empirischer Mittelwert A.1.3.

(A.1) M(ξ) =1

N

N∑

k=1

xk

Der empirische Mittelwert beschreibt den durchschnittlichen Wert der Folgeξ.

Empirischer Median. Sei A.1.4 x1 ≤ · · · ≤ xN .

Med(ξ) =

(1/2)(XN/2 +X(N/2)+1), falls N gerade ist,

X(N+1)/2, falls N ungerade ist.

A.1.1Mit Methoden der mathematischen Statistik kann man versuchen, die gegebenen Datendurch ein statistisches Modell, vgl. Abschnitte 1.1.4 und 4.1, fur alle in der speziellen vorliegen-den Situation moglichen Daten zu erklaren. Innerhalb dieses Modells konnen anschließend unter

Zuhilfenahme der gegebenen Daten Schlusse gezogen werden, beispielsweise Schatzer oder Konfi-denzintervalle bestimmt werden.

A.1.2Vgl. z.B. Abschnitte 1.1.4 und 4.1.A.1.3Vgl. Fußnote 6.152.A.1.4Gegebenenfalls ist die Folge (x1, . . . , xN ) umzuordnen.

157

Page 158: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

158

Der empirische Median liegt”in der Mitte“ der Daten A.1.5. Im Vergleich zum

Mittelwert hat er den Vorteil, robust, d.h. unempfindlich gegenuber extremabweichenden Daten zu sein.

Empirische Varianz.

(A.2) Var(ξ) = A.1.6 1

N − 1

N∑

k=1

(xk −M(ξ))2

Die empirische Varianz charakterisiert die Schwankungen der Daten ξ umihren empirischen Mittelwert.

Empirische Schiefe.

Schiefe(ξ) =1

Var(ξ)3/21

N

N∑

k=1

(xk −M(ξ))3

Die empirische Schiefe beschreibt, wie unsymmetrisch die Daten ξ bzgl. ihresempirischen Mittelwerts verteilt sind A.1.7 A.1.8.

Beispiel A.1.1. Die Noten der Horer einer Vorlesung liegen zunachst in einerTabelle vor A.1.9. Innerhalb der Gesamtheit aller Horer werden zwei Teilgruppen Aund B speziell untersucht A.1.10.

Die jeweiligen Notenverteilungen konnen in Diagrammen A.1.11 graphisch dar-gestellt werden. Deren Informationsfulle umfaßt auch viele zum Teil irrelevante De-tails. Wesentliche Eigenschaften konnen allerdings durch Kennzahlen ausgedrucktwerden A.1.12.

Mit den Kennzahlen ist es insbesondere moglich, die Unterschiede zwischenden drei Gruppen quantitativ zu beschreiben. Beispielsweise erzielen die Horer inGruppe A sowohl im Vergleich zu allen Horern und noch ausgepragter im Vergleichmit den Horern in Gruppe B

”im Mittel“ merklich schlechtere Noten A.1.13. Die

Gruppe A ist außerdem recht heterogen A.1.14, d.h., die Notenverteilung streut sehrstark um den Mittelwert.

Vergleicht man abschließend genauer die Diagramme fur die verschiedenen No-tenverteilungen, so zeigt sich, daß die Gruppe A einen uberproportional hohenAnteil an Horern mit guten, bzw. auch mit schlechten Noten hat A.1.15. Insgesamtscheint die Gruppe A neben etlichen Horern mit uberdurchschnittlichen Leistungenauch relativ viele untalentierte, bzw. uninteressierte Horer zu enthalten. Die Grup-pe B enthalt geringere Anteile von Horern mit sehr guten, bzw. sehr schlechten

A.1.5Jeweils die Halfte der Daten ist großer, bzw. kleiner als der Median.A.1.6Der Faktor 1/(N − 1) wird anstelle des zunachst evtl. zu erwartenden Faktors 1/N

gewahlt, weil nun, vom Standpunkt der mathematischen Statistik aus betrachtet, zumindest furunabhangige, identisch verteilte Daten durch (A.2) ein erwartungstreuer Schatzer fur die Varianzdefiniert ist, vgl. Beispiel 6.16.

A.1.7Wenn die Daten ξ symmetrisch bzgl. M(ξ) verteilt sind, ist Schiefe(ξ) = 0. Ansonstenwird Schiefe(ξ) mit wachsender Asymmetrie der Daten großer.

A.1.8Offensichtlich ist Schiefe(ξ) = Schiefe(ξα), wobei ξα = (αx1, . . . , αxN ) durch Reskalie-rung mit einem Faktor α > 0 aus ξ entsteht. Diese Skalierungsinvarianz kann als ein Grund furdie Wahl von Var(ξ)−3/2 zur Normierung der Schiefe betrachtet werden.

A.1.9Vgl. Abbildung A.1.1.A.1.10Insgesamt gibt es 138 Horer. Die Gruppe A (B) umfaßt hierbei 35 (41) Horer.A.1.11Vgl. Abbildungen A.1.2 - A.1.4.A.1.12Vgl. Abbildung A.1.5.A.1.13Diese Aussage ergibt sich durch einen Vergleich der Mittelwerte und der Mediane.A.1.14Man vergleiche die Varianzen. Die Notenverteilung der Gruppe A besitzt insbesondere

eine wesentlich großere Varianz als die Notenverteilung der Gruppe B.A.1.15Die Gruppe A enthalt 3 (5) von zusammengenommen 8 (12) Horern mit der Note 1

(5). Im Gegensatz dazu sind 0 (1) solche Horer in der Gruppe B zu finden.

18. April 2016

Page 159: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

159

Name Vorname Matrikelnummer Hauptfächer Punkte Punkte Note Note Vorläufige NoteÜbungen Klausur Übungen Klausur Note

... ... ... Diplom Mathematik 110,5 17,5 1,84 2,98 2,60 2,50

Diplom Mathematik 100,5 19,5 2,26 2,68 2,54 2,50

Diplom 119,5 28,0 1,45 1,44 1,44 1,50

Lehramt Mathematik 78,0 19,0 3,23 2,76 2,91 3,00

Diplom 83,5 24,5 2,99 1,95 2,30 2,50

LA 72,5 16,0 3,46 3,20 3,28 3,50

Diplom Physik 85,5 16,0 2,91 3,20 3,10 3,00

Lehramt 102,0 23,0 2,20 2,17 2,18 2,00

Diplom Mathematik 69,0 12,0 3,61 3,78 4,00 4,00

Diplom Physik 67,5 9,0 3,68 4,22 5,00 5,00

Lehramt Mathematik 114,5 15,5 1,66 3,27 2,73 2,50

72,0 2,0 3,49 5,24 5,00 5,00

Diplom Mathematik 126,5 22,0 1,15 2,32 1,93 2,00

Lehramt 127,5 23,5 1,11 2,10 1,77 2,00

Lehramt Mathematik 121,0 23,0 1,39 2,17 1,91 2,00

LA 113,5 23,5 1,71 2,10 1,97 2,00

... ... ... Computer Linguistik 75,5 3,5 3,34 5,02 5,00 5,00

... ... ... Lehramt 100,0 13,5 2,29 3,56 3,14 3,00

Diplom Mathematik 120,5 17,0 1,41 3,05 2,50 2,50

Diplom 103,0 21,0 2,16 2,46 2,36 2,50

LA 106,0 23,5 2,03 2,10 2,07 2,00

... ... ... Lehramt 90,5 15,0 2,69 3,34 3,13 3,00

Informatik 124,0 23,5 1,26 2,10 1,82 2,00

Lehramt 48,0 17,5 4,51 2,98 3,49 3,50

Lehramt 62,0 19,0 3,91 2,76 3,14 3,00

Diplom Physik 105,0 22,5 2,07 2,24 2,19 2,00

Lehramt Mathematik 111,0 23,5 1,81 2,10 2,00 2,00

Lehramt 128,0 24,5 1,09 1,95 1,66 1,50

LA 111,0 20,5 1,81 2,54 2,30 2,50

Lehramt 77,5 19,0 3,25 2,76 2,92 3,00

Informatik 84,0 2,0 2,97 5,24 5,00 5,00

LA 91,5 23,0 2,65 2,17 2,33 2,50

Diplom Physik 85,0 11,0 2,93 3,93 4,00 4,00

Lehramt Mathematik 97,0 25,0 2,41 1,88 2,06 2,00

Lehramt Mathematik 100,0 21,0 2,29 2,46 2,40 2,50

113,0 19,5 1,73 2,68 2,36 2,50

... ... ... ... ... ... ... ... ... ... ...

Abschluß

Mathe

Mathe

Mathe/Engl

Mathe

Mathe

Mathe/Spanisch

Bachelor

Mathe

Mathe

Mathe/Biologie

Mathe

Master

Mathe

Mathe

Mathe

Mathe/Chemie

Mathe

Bachelor

Mathe/Chemie

BachMast Mathe

Abbildung A.1.1. Notenliste einer Vorlesung. Die personlichenDaten sind geloscht.

1,0 1,5 2,0 2,5 3,0 3,5 4,0 5,0 6,00

5

10

15

20

25

30

35

40

Gesamtnotenverteilung

Noten

Häu

fig

ke

it

Abbildung A.1.2. Notenverteilung aller Horer der Vorlesung.

18. April 2016

Page 160: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

160

1,0 1,5 2,0 2,5 3,0 3,5 4,0 5,0 6,00

1

2

3

4

5

6

7

8

9

10

Notenverteilung Gruppe A

Noten

ufig

ke

it

Abbildung A.1.3. Notenverteilung der Horer der Gruppe A.

1,0 1,5 2,0 2,5 3,0 3,5 4,0 5,0 6,00

2

4

6

8

10

12

14

16

Notenverteilung Gruppe B

Noten

Häu

figke

it

Abbildung A.1.4. Notenverteilung der Horer der Gruppe B.

Noten. Eine Tendenz zu guten Noten ist allerdings deutlich zu erkennen A.1.16. Die

A.1.16Diese Aussage wird auch durch den niedrigen Mittelwert und die geringe Varianz derNotenverteilung der Gruppe B deutlich.

18. April 2016

Page 161: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

161

Mittelwert Median Varianz SchiefeAlle Horer 2,66 2,50 1,09 0,74Gruppe A 2,97 3,00 1,40 0,17Gruppe B 2,52 2,50 0,56 1,27

Abbildung A.1.5. Kennzahlen fur die einzelnen Gruppen von Horern.

Gruppe B scheint viele Horer zu umfassen, denen es gelingt, durch konzentriertesArbeiten ihre Leistung wesentlich zu verbessern.

In den Diagrammen und den Kennzahlen wird die in der ursprunglichen Noten-liste A.1.17 enthaltene Information komprimiert und daher verringert. Ein interes-santes Detail, das nur dieser Gesamtliste entnommen werden kann, ist die Tatsache,daß die beiden leistungsstarksten Horer der Vorlesung der Gruppe A angehoren.

Bei einer abschließenden Bewertung der in diesem Beispiel A.1.1 vorgestelltenDaten und Uberlegungen sollte auch berucksichtigt werden, daß die Klausur, derenErgebnisse ganz wesentlich in die Notengebung einfließen, am Ende des Semesters,d.h. in einem Zeitraum, in dem die Belastung der Horer besonders hoch ist, geschrie-ben wird. Welchen Wert die einzelnen Horer der Scheinnote zugewiesen haben undwelchen Aufwand zu ihrer Vorbereitung sie daher im Vergleich mit dem Aufwandfur andere Prufungen, bzw. ihre Freizeit als angemessen betrachtet haben, geht ausden vorliegenden Daten nicht hervor A.1.18.

A.1.17Vgl. Abbildung A.1.1.A.1.18Der genannte Aufwand zur Vorbereitung der Klausur bestimmt naturlich ganz wesent-

lich die Note.

18. April 2016

Page 162: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

162

A.2. Erganzungen zu Kapitel 2

A.2.1. Beweis des Satzes von Vitali. Zum Beweis von Satz 2.14 sei inΩ = 0, 1N die Aquivalenzrelation

ω ∼ ω′ :⇐⇒ ωn = ω′n, n ≥ n0 fur ein hinreichend großes n0 ∈ N,

eingefuhrt. Nach dem Auswahlaxiom A.2.19 gibt es eine Menge A1 ⊆ Ω, die aus jederAquivalenzklasse bzgl. ∼ genau ein Element enthalt.

Sei nun S = S ⊆ N : |S| < ∞ A.2.20. S ist abzahlbar A.2.21. Fur S =n1, . . . , nk ∈ S sei TS := Tn1 · · · Tnk

A.2.22. Falls ω ∼ ω′, gibt es offensichtlichein S ∈ S, so daß ω = TSω

′. Nun gilt:

Ω =⋃

S∈S

TSA1A.2.23,(A.3)

TSA1 ∩ TS′A1 = ∅, falls S 6= S′ A.2.24.

Falls P ein Wahrscheinlichkeitsmaß auf A.2.25 (Ω,F) ist, das (2.2) und (2.18) erfulltund falls A.2.26 A1 ∈ F, folgt nun

1 = A.2.27 P[Ω] = A.2.28∑

S∈S

P[TSA1] =A.2.29

S∈S

P[A1].

Damit liegt ein Widerspruch vor, denn die Summe auf der rechten Seite ist entwedergleich 0, wenn P[A1] = 0, oder gleich ∞, wenn P[A1] > 0.

Somit kann geschlossen werden, daß A1 /∈ F, falls (0, 1N,F,P) ein Wahr-scheinlichkeitsraum mit einem (2.2) und (2.18) erfullenden WahrscheinlichkeitsmaßP ist. Insbesondere ist die Wahl F = Pot(0, 1N) nicht moglich.

A.2.19Vgl. Fußnote 2.111.A.2.20S ist die Menge der endlichen Teilmengen von N.A.2.21Weil S =

⋃∞m=1S ⊆ N : maxk : k ∈ S = m sich als abzahlbare Vereinigung von

endlichen Mengen darstellen laßt, ist S abzahlbar.A.2.22Die Funktionen Tn : Ω → Ω, n ∈ N, sind in (2.18a) definiert. Fur eine Abbildung

TS , S = n1, . . . , nk ∈ S, und ω ∈ Ω ist TSω jene Folge in 0, 1, die aus der Folge ω durchVertauschen der Werte 0 und 1 in den Folgengliedern mit den Indizes n1, . . . , nk hervorgeht.

A.2.23TSA1 = TSω : ω ∈ A1. Zu jedem ω ∈ Ω gibt es ein ω′ ∈ A1 mit ω ∼ ω′. Insbesondereist ω′ der Reprasentant in A1 jener Aquivalenzklasse, die ω enthalt. Folglich gibt es ein S ∈ S mitω = TSω

′ ∈ TSA1.A.2.24Ware TSA1∩TS′A1 6= ∅ fur S, S′ ∈ S, so gabe es ω, ω′ ∈ A1 mit ω ∼ TSω = TS′ω′ ∼ ω′.

Da A1 keine zwei verschiedenen, aquivalenten Elemente enthalten kann, ware dann ω = ω′ unddamit auch S = S′.

A.2.25Die σ-Algebra F sei hier nicht festgelegt.A.2.26In diesem Fall ist auch TSA1 ∈ F, S ∈ S, vgl. Fußnote 2.108. Insbesondere ist P[TSA1]

fur alle S ∈ S definiert.A.2.27Wegen (2.2a).A.2.28Wegen (2.2b) und (A.3).A.2.29Wegen (2.18).

18. April 2016

Page 163: Einf hrung in die Wahrscheinlichkeitstheorie und die ...Einleitung und Uberblick¨ Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter dem Namen Stochastik

Literaturverzeichnis

[1] L.V. Ahlfors. Complex Analysis, 2nd Edition. McGraw-Hill, 1966.[2] H. Bauer. Wahrscheinlichkeitstheorie und Grundzuge der Maßtheorie, 2. Auflage. De Gruyter,

1974.[3] R. Durrett. Probability: Theory and Examples, 2nd Edition. Duxbury Press, 1995.[4] W. Feller. An Introduction to Probability Theory and its Applications, Volume II, 2nd Edi-

tion. Wiley, 1971.[5] H.-O. Georgii. Stochastik. De Gruyter, 2002.[6] G. Grimmett, D. Stirzaker. Probability and Random Processes, 3rd Edition. Oxford Univer-

sity Press, 2003.[7] C. Hesse. Angewandte Wahrscheinlichkeitstheorie. Vieweg 2003.[8] E. Hewitt, K. Stromberg. Real and Abstract Analysis, Springer Verlag, 1965.[9] O. Kallenberg. Foundations of Modern Probability, 2nd Edition. Springer, 2002.

[10] U. Krengel. Einfuhrung in die Wahrscheinlichkeitstheorie und Statistik, 7. Auflage. ViewegVerlag, 2003.

[11] M. Matsumoto, T. Nishimura. Mersenne twister: a 623-dimensionally equidistributed uniformpseudo-random number generator. ACM Transactions on Modeling and Computer Simulati-on 8 (Special issue on uniform random number generation), 3 - 30, 1998.

[12] J. Stoer. Numerische Mathematik 1, 5. Auflage. Springer, 1989.

163