Woche 5: Deskriptive Statistik - ethz.ch Woche 5: Deskriptive Statistik Patric M uller ETHZ WBL...

download Woche 5: Deskriptive Statistik - ethz.ch Woche 5: Deskriptive Statistik Patric M uller ETHZ WBL 17/19,

of 8

  • date post

    20-Oct-2019
  • Category

    Documents

  • view

    1
  • download

    0

Embed Size (px)

Transcript of Woche 5: Deskriptive Statistik - ethz.ch Woche 5: Deskriptive Statistik Patric M uller ETHZ WBL...

  • Woche 5: Deskriptive Statistik

    Patric Müller

    ETHZ

    WBL 17/19, 22.05.2017

    Wahrscheinlichkeit und Statistik Patric Müller WBL 2017

    Teil VII

    Deskriptive Statistik

    Wahrscheinlichkeit und Statistik 2 / 31 WBL 2017

    Lernziele

    Sie können. . .

    . . . Kenngrössen von Stichproben berechnen, auf Papier und mit R: arithmetisches Mittel, empirische Standardabweichung und Varianz, Median, Quantile

    . . . die empirische Korrelation zweier Grössen mit Hilfe verschiedener Kennzahlen berechnen

    . . . die Unterschide der empirischen Kenngrössen zu den entsprechenden Kennzahlen bei Zufallsvariablen nennen

    . . . Plots zeichnen und lesen, die eine numerische Stichprobe visualisieren: Histogramm, Boxplot, empirische kumulative Verteilungsfunktion, Dichtekurve

    . . . Vor- und Nachteile der obenstehenden Plots benennen.

    Vorlesung basiert auf Kapitel 4.3 des Skripts.

    Wahrscheinlichkeit und Statistik 3 / 31 WBL 2017

    Arbeitsschritte der Datenanalyse

    Modell generieren

    Daten messen

    Daten inspizieren

    statistische Inferenz

    Interpretation

    Wahrscheinlichkeitsrechnung

    deskriptive Statistik

    beurteilende Statistik

    Wahrscheinlichkeit und Statistik 4 / 31 WBL 2017

  • Deskriptive und beurteilende Statistik

    Deskriptive Statistik

    Überblick über Datensätze

    Verteilungen visualisieren

    auffällige Eigenschaften finden

    Verteilungen mit wenigen Kenngrössen beschreiben

    Beurteilende Statistik

    aus Daten Schlüsse ziehen

    Parameter schätzen

    Hypothesen testen

    Wahrscheinlichkeit und Statistik 5 / 31 WBL 2017

    Von Modellen zu Daten

    Bisher probabilistische Modelle betrachtet.

    Rest des Kurses: Analyse von Daten, die von realen System erzeugt wurden.

    Im Folgenden nehmen wir an, x1, x2, . . . , xn seien n Messungen “derselben Grösse”.

    Übliche Annahme: n unabhängige Messungen von gleicher Wahrscheinlichkeitsverteilung.

    Formal:

    Modell: X1,X2, . . . ,Xn i.i.d.∼ FX (·) ,

    Stichprobe: x1, x2, . . . , xn

    i.i.d.: “independent and identically distributed”, unabhängig und identisch verteilt.

    Wahrscheinlichkeit und Statistik 6 / 31 WBL 2017

    Kenngrössen für eine einzelne Stichprobe

    Mittelwert

    empirische Varianz und Standardabweichung

    empirischer Median

    empirische Quantile

    Wahrscheinlichkeit und Statistik 7 / 31 WBL 2017

    Deskriptive Statistik für eine einzelne Stichprobe

    Beispieldatensatz: Aktivitätsniveau von Monoamine-Oxidase (MAO) in 18 Patienten mit einem gewissen Typ Schizophrenie.

    Messwerte x1 bis x18.

    MAO: Enzym, das vermutlich das Verhalten beeinflusst, und dessen Aktivität durch Schizophrenie beeinträchtigt sein kann.

    Eine gute Gewohnheit ist es, die Daten immer zuerst “anzuschauen”, das heisst die Daten zu plotten!

    (Quelle: Potkin et al. (1978))

    5 10

    15 M

    A O

    − A

    kt iv

    itä t

    Wahrscheinlichkeit und Statistik 8 / 31 WBL 2017

  • Mittelwert (arithmetisches Mittel)

    Arithmetisches Mittel:

    x = x1 + . . .+ xn

    n =

    1

    n

    n∑ i=1

    xi

    R-Funktion: mean

    Arithmetisches Mittel ist ein konsistenter Schätzer für den Erwartungswert µ = E(X ):

    X = 1

    n

    n∑ i=1

    Xi → µ wenn n→∞

    Arithmetisches Mittel ist erwartungstreu (engl. “unbiased”):

    E(X ) = µ 5

    10 15

    M A

    O −

    A kt

    iv itä

    t

    x

    Wahrscheinlichkeit und Statistik 9 / 31 WBL 2017

    Empirische Varianz

    Empirische Varianz:

    s2x = 1

    n − 1

    n∑ i=1

    (xi − x)2 (sx :

    empirische Standardabweichung)

    R-Funktionen: var, sd

    Empirische Varianz ist ein konsistenter Schätzer für σ2 = Var(X ):

    s2x → σ2 wenn n→∞

    Empirische Varianz ist erwartungstreu:

    E(s2x ) = σ2

    5 10

    15 M

    A O

    − A

    kt iv

    itä t

    x

    x + sx

    x − sx

    Wahrscheinlichkeit und Statistik 10 / 31 WBL 2017

    Empirischer Median

    Empirischer Median: Wert, der I grösser (oder gleich) ist als die Hälfte

    der Datenpunkte I kleiner (oder gleich) ist als die andere

    Hälfte der Datenpunkte

    Berechnung: Messwerte ordnen x(1) ≤ x(2) ≤ . . . ≤ x(n). Median:

    m =

    { x((n+1)/2), für n ungerade, 1 2 (x(n/2) + x(n/2+1)), sonst

    R-Funktion: median

    5 10

    15 M

    A O

    − A

    kt iv

    itä t

    x m

    Wahrscheinlichkeit und Statistik 11 / 31 WBL 2017

    Mittelwert und Median: Vergleich

    10 20 30 40 50 MAO−Aktivität

    xm

    10 20 30 40 50 MAO−Aktivität

    xm

    10 20 30 40 50 MAO−Aktivität

    xm

    10 20 30 40 50 MAO−Aktivität

    xm

    Median ist robust, Mittelwert nicht!

    Wahrscheinlichkeit und Statistik 12 / 31 WBL 2017

  • Quantile

    Verallgemeinerung des Konzepts des Medians.

    Empirisches α-Quantil: Wert qα, der I grösser (oder gleich) ist als (α · n) Messwerte, und I kleiner (oder gleich) ist als (1− α) · n Messwerte

    Berechnung (Beispiel): I Daten sortieren: x(1) ≤ x(2) ≤ . . . ≤ x(n) I Falls α · (n − 1) eine ganze Zahl ist, ist qα = x(α(n−1)+1); ansonsten

    interpoliert man qα zwischen x(bα(n−1)c+1) und x(dα(n−1)e+1)

    Die Berechnung in der Literatur ist nicht einheitlich!

    R-Funktion: quantile... und weitere 8 (!) verschiedene Algorithmen.

    Wahrscheinlichkeit und Statistik 13 / 31 WBL 2017

    Graphische Darstellungen einer einzelnen Stichprobe

    Boxplot

    Histogramm

    Empirische kumulative Verteilungsfunktion

    später: Q-Q (Quantil-Quantil)-Plot

    Wahrscheinlichkeit und Statistik 14 / 31 WBL 2017

    Boxplot

    5 10

    15 M

    A O

    − A

    kt iv

    itä t

    R-Funktion: boxplot

    Wahrscheinlichkeit und Statistik 15 / 31 WBL 2017

    Boxplot

    Oberes Quartil q0.75

    Unteres Quartil q0.25 Median

    Grösster normaler Messwert

    Kleinster normaler Messwert

    ◦ Ausreisser

    ◦◦ Ausreisser Interquartilsabstand IQR (“interquartile range”) IQR = q0.75 − q0.25

    “Normale Messwerte”: Messwerte, die nicht mehr als 1.5 · IQR von den Quartilen entfernt sind

    Wahrscheinlichkeit und Statistik 16 / 31 WBL 2017

  • Histogramm

    Histogram of x

    MAO−Aktivität

    D en

    si ty

    5 10 15 20

    0. 00

    0. 04

    0. 08

    0. 12

    Bereich der gemessenen Werte wird in Intervalle (ck−1, ck ] unterteilt Bsp.: ck = 4, 6, 8, 10, 12, 14, 16, 18, 20

    Anzahl Messwerte in jedem Intervall zählen: hk := #{i |xi ∈ (ck−1, ck ]} Bsp.: hk = 2, 5, 4, 3, 1, 2, 0, 1

    Über Intervall (ck−1, ck ] Dichte hk

    n(ck − ck−1) einzeichnen (oder

    absolute Häufigkeiten hk)

    Wahrscheinlichkeit und Statistik 17 / 31 WBL 2017

    Histogramm: Wahl der Intervall-Breite

    Wie wählen wir die Intervall-Breite eines Histogramms?

    MAO−Aktivität

    D en

    si ty

    0 5 10 15 20

    0. 00

    0. 04

    0. 08

    4 Intervalle

    MAO−Aktivität

    D en

    si ty

    5 10 15 20

    0. 00

    0. 06

    0. 12

    8 Intervalle

    MAO−Aktivität

    D en

    si ty

    5 10 15

    0. 00

    0. 10

    0. 20

    15 Intervalle

    MAO−Aktivität

    D en

    si ty

    5 10 15

    0. 00

    0. 10

    0. 20

    30 Intervalle

    Herumspielen, oder R automatisch wählen lassen

    Wahrscheinlichkeit und Statistik 18 / 31 WBL 2017

    Histogramm für bimodale Verteilung

    RNA−Expression

    Expressionsniveau

    D en

    si ty

    0 2 4 6 8 10 12 14

    0. 00

    0. 10

    0. 20

    RNA−Expression

    Expressionsniveau

    D en

    si ty

    0 2 4 6 8 10 12

    0. 00

    0. 10

    0. 20

    Achtung: schlecht gewählte Intervall-Breite kann Eigenschaften (hier: Bimodalität) verschleiern!

    Wahrscheinlichkeit und Statistik 19 / 31 WBL 2017

    Nichtparametrische Dichteschätzung

    Nachteile von Histogrammen I Darstellungsqualität stark von Histogrammbreite abhängig I Sprünge der geschätzten Wahrscheinlichkeitsdichte an Intervallgrenzen

    unrealistisch

    Alternative: nichtparametrische Dichteschätzung

    Verbesserungen gegenüber Histogramm: I Datenpunkte nicht in vordefiniertem Intervall zählen, sondern in “sliding

    window” I Punkte in der Mitte des “sliding window” mehr Gewicht geben als

    Punkte am Rand

    Wahrscheinlichkeit und Statistik 20 / 31 WBL 2017

  • Kerndichteschätzer

    Gegeben: Messwerte x1, x2, . . . , xn

    Kerndichteschätzer für Dichte der erzeugenden Verteilung ist

    f̂ (x) = 1

    nh

    n∑ i=1

    K

    ( x − xi

    h

    ) ;

    K heisst Kern und kann eine beliebige, symmetrische Wahrscheinlichkeitsdichte sein. Häufig verwendet:

    I Rechteck-Kern: K ist Dichte der uniformen Verteilung auf [− 12 , 1 2 ]; gibt

    allen Datenpunkten in [x − h, x + h] gleiches Gewicht I Gauss-Kern: K ist Dichte der Stand