Einf uhrung Statistik - ethz.ch .ist diese Frage praktisch nicht zu beantworten, aber die Statistik

download Einf uhrung Statistik - ethz.ch .ist diese Frage praktisch nicht zu beantworten, aber die Statistik

of 107

  • date post

    17-Sep-2018
  • Category

    Documents

  • view

    213
  • download

    0

Embed Size (px)

Transcript of Einf uhrung Statistik - ethz.ch .ist diese Frage praktisch nicht zu beantworten, aber die Statistik

  • Einfuhrung StatistikWeiterbildungs-Lehrgang 20152017

    Markus Kalisch, Lukas Meier, Peter Buhlmann, Hansruedi Kunschund Alain Hauser

    April 2015

  • Inhaltsverzeichnis

    1 Einfuhrung (Stahel, Kap. 1) 11.1 Was ist Statistik? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Was ist der Inhalt dieses Kurses? . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.3 Software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.4 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

    2 Modelle fur Zahldaten 52.1 Grundbegriffe der Wahrscheinlichkeitsrechnung (Stahel, Kap. 4.1, 4.2) . . . . . . . 52.2 Diskrete Wahrscheinlichkeitsmodelle . . . . . . . . . . . . . . . . . . . . . . . . . 92.3 Unabhangigkeit von Ereignissen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.4 Bedingte Wahrscheinlichkeiten (Stahel, Kap. 4.7) . . . . . . . . . . . . . . . . . . 11

    2.4.1 Satz der totalen Wahrscheinlichkeit und Satz von Bayes . . . . . . . . . . 132.5 Zufallsvariable (Stahel, Kap. 4.3, 4.4) . . . . . . . . . . . . . . . . . . . . . . . . . . 162.6 Binomialverteilung (Stahel Kap. 5.1) . . . . . . . . . . . . . . . . . . . . . . . . . . 172.7 Kennzahlen einer Verteilung (Stahel Kap. 5.3) . . . . . . . . . . . . . . . . . . . . 19

    2.7.1 Kumulative Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . 202.8 Poissonverteilung (Stahel Kap. 5.2) . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

    2.8.1 Poisson-Approximation der Binomial-Verteilung . . . . . . . . . . . . . . 212.8.2 Summen von Poisson-verteilten Zufallsvariablen . . . . . . . . . . . . . . . 21

    2.9 Software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

    3 Statistik fur Zahldaten 253.1 Drei Grundfragestellungen der Statistik (Stahel Kap. 7.1) . . . . . . . . . . . . . . 253.2 Schatzung, statistischer Test und Vertrauensintervall bei Binomial-Verteilung (Sta-

    hel Kap. 7.2, 8.2, 9.1, 9.2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.2.1 (Punkt-)Schatzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.2.2 Statistischer Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283.2.3 Vertrauensintervall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

    3.3 Software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

    4 Modelle und Statistik fur Messdaten 414.1 Lernziele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.2 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424.3 Deskriptive Statistik (Stahel, Kap. 2 und 3.1, 3.2) . . . . . . . . . . . . . . . . . . . 42

    4.3.1 Kennzahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424.3.2 Grafische Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454.3.3 Analogien zwischen Modellen und Daten . . . . . . . . . . . . . . . . . . . 47

    4.4 Stetige Zufallsvariablen und Wahrscheinlichkeitsverteilungen (Stahel, Kap. 6.1 6.4, 11.2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 484.4.1 (Wahrscheinlichkeits-)Dichte . . . . . . . . . . . . . . . . . . . . . . . . . 494.4.2 Kennzahlen von stetigen Verteilungen . . . . . . . . . . . . . . . . . . . . 49

    iii

  • iv INHALTSVERZEICHNIS

    4.5 Wichtige stetige Verteilungen (Stahel, Kap. 6.2, 6.4, 6.5, 11.2) . . . . . . . . . . . . 504.5.1 Uniforme Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 504.5.2 Exponential-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 514.5.3 Normal-Verteilung (Gauss-Verteilung) . . . . . . . . . . . . . . . . . . . . 524.5.4 Funktionen einer Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . 534.5.5 Uberprufen der Normalverteilungs-Annahme . . . . . . . . . . . . . . . . 56

    4.6 Funktionen von mehreren Zufallsvariablen(Stahel, Kap. 6.8 6.11) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 564.6.1 Unabhangigkeit und i.i.d. Annahme . . . . . . . . . . . . . . . . . . . . . 574.6.2 Kennzahlen und Verteilung von Xn . . . . . . . . . . . . . . . . . . . . . 584.6.3 Verletzung der Unabhangigkeit . . . . . . . . . . . . . . . . . . . . . . . . 62

    4.7 Statistik fur eine Stichprobe (Stahel, Kap. 8.3 8.5, 9.3) . . . . . . . . . . . . . . . 624.7.1 (Punkt-) Schatzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 634.7.2 Tests fur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 634.7.3 Vertrauensintervall fur . . . . . . . . . . . . . . . . . . . . . . . . . . . . 684.7.4 Tests fur bei nicht-normalverteilten Daten . . . . . . . . . . . . . . . . . 69

    4.8 Tests bei zwei Stichproben (Stahel, Kap. 8.8) . . . . . . . . . . . . . . . . . . . . . 704.8.1 Gepaarte Stichprobe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 714.8.2 Ungepaarte Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . 724.8.3 Weitere Zwei-Stichproben-Tests bei ungepaarten Stichproben . . . . . . . 75

    4.9 Versuchsplanung (Stahel, Kap. 14.1 - 14.2) . . . . . . . . . . . . . . . . . . . . . . . 754.10 Software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

    4.10.1 Verschiedenes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 774.10.2 Zwei-Stichproben t-Test fur ungepaarte Stichproben . . . . . . . . . . . . 774.10.3 Zwei-Stichproben t-Test fur gepaarte Stichproben . . . . . . . . . . . . . . 784.10.4 t-Test fur eine Stichprobe . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

    5 Regression 815.1 Lernziele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 815.2 Einfache lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

    5.2.1 Das Modell der einfachen linearen Regression . . . . . . . . . . . . . . . . 835.2.2 Parameterschatzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 845.2.3 Tests und Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . 855.2.4 Das Bestimmtheitsmass R2 . . . . . . . . . . . . . . . . . . . . . . . . . . 875.2.5 Allgemeines Vorgehen bei einfacher linearer Regression . . . . . . . . . . . 885.2.6 Residuenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

    5.3 Multiple lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 925.3.1 Das Modell der multiplen linearen Regression . . . . . . . . . . . . . . . . 925.3.2 Parameterschatzungen und t-Tests . . . . . . . . . . . . . . . . . . . . . . 935.3.3 Der F-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 945.3.4 Das Bestimmtheitsmass R2 . . . . . . . . . . . . . . . . . . . . . . . . . . 945.3.5 Residuenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

    5.4 Software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 955.4.1 Einfache lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . 955.4.2 Multiple Lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . 96

    6 Anhang 1016.1 Normalapproximation des Binomialtests: Zwischenrechnung . . . . . . . . . . . . 101

  • INHALTSVERZEICHNIS v

    Vorbemerkungen

    Dieses Skript basiert weitestgehend auf Vorlagen, die Markus Kalisch, Lukas Meier, PeterBuhlmann und Hansruedi Kunsch fur ihre Vorlesungen fur die Studiengange Biologie, Phar-mazeutische Wissenschaften, Umweltnaturwissenschaften und Bauingenieurwissenschaften ver-wendet haben. Das erklart, weshalb fast alle Beispiele im Skript aus diesen Bereichen stammen.Ich, Alain Hauser, mochte den Autoren an dieser Stelle meinen herzlichen Dank aussprechen,ihre in langen Jahren ausgearbeiteten Unterlagen verwenden zu durfen.

    Die Vorlesung behandelt zuerst die Wahrscheinlichkeitsrechnung und Statistik fur diskrete Va-riablen, welche Werte zum Beispiel in {0, 1}, in N0 = {0, 1, 2, . . .} oder in Z = {. . . ,1, 0, 1, . . .}annehmen.

    Danach werden die erarbeiteten Konzepte auf stetige Variablen ubertragen, mit Wertebereichenzum Beispiel in R oder [0, 1]. Deshalb ist der Aufbau leicht repetitiv, was sich aber in vorigenJahren gut bewahrt hat.

    Schlussendlich wird auf komplexere Modellierung anhand der Regressions-Analyse eingegangen.

    Fur weitere Erlauterungen verweisen wir jeweils auf das folgende Buch:Werner A. Stahel, Statistische Datenanalyse. Eine Einfuhrung fur Naturwissenschaftler. 4. Aufl.(2002), Vieweg, Braunschweig.

    Manchmal erklaren wir die grundlegenden Begriffe auch an Hand von Glucksspielen, obwohlwir wissen, dass Sie nicht speziell an solchen interessiert sind. Es gibt dort einfach wenigerVerstandnis- und Interpretationsprobleme als bei anderen Beispielen. Wir hoffen auf Ihr Verstandnis.

  • vi INHALTSVERZEICHNIS

  • Kapitel 1

    Einfuhrung (Stahel, Kap. 1)

    1.1 Was ist Statistik?

    Statistik ist die Lehre vom Umgang mit quantitativen Daten. Oft verschleiern Zufall oder Un-sicherheiten einen Sachverhalt. Ein Ziel der Statistik ist, in diesen Fallen klare Aussagen zumachen.

    Betrachten wir ein Beispiel. Vor der Fussball Weltmeisterschaft 2010 wurden Panini-Sammelalbenfur 661 verschiedene Aufkleber von Fussballstars und -stadien verkauft. Jedes Bild hat eine Num-mer von 1 bis 661 auf der Ruckseite. Die Aufkleber gab es entweder in einzelnen 5er Packs oderin ganzen Kisten mit hundert 5er Packs zu kaufen. Gemass Panini sind alle Bilder gleich haufigund werden wohl zufallig auf die Tuten verteilt.

    In den letzten Jahren hatten Kollegen von mir den Eindruck, dass man uberraschend wenigedoppelte Bilder hat, wenn man nicht