Einf uhrung in die Statistik - .Einf uhrung in die Statistik mit Beispielen aus der Biologie Thomas

download Einf uhrung in die Statistik - .Einf uhrung in die Statistik mit Beispielen aus der Biologie Thomas

of 85

  • date post

    20-Jun-2019
  • Category

    Documents

  • view

    220
  • download

    0

Embed Size (px)

Transcript of Einf uhrung in die Statistik - .Einf uhrung in die Statistik mit Beispielen aus der Biologie Thomas

Einfuhrung in die Statistikmit Beispielen aus der Biologie

Thomas Fabbro

The aim of computing is insight, not numbers.

Was ist Statistik?

Die Statistik als Disziplin (statistics) beschaftigt sich mit demSammeln, Organisieren, Analysieren, Interpretieren undPrasentieren von Daten (nach Dodge, Cox und Commenges 2006).

Wieso brauchen wir eigentlich Statistik?

Arten von Variablen

Messbare und Zahlbare Variablen

numeric fur kontinuierlich Variablen, alle Zwischenschrittesind moglich

integer fur Ganze Zahlen

Kategorielle Variablen

factor fur Kategorien (z. B. Fabaceae, Rosaceae,Apiaceae).

logical Eine Variable die nur die Werte TRUE oder FALSEannehmen kann (z. B. mannlich, weiblich).

Diese Einteilung basiert auf der Klasseneinteilung von R.

Beispiele in R

> weight legs kingdom animal

Charakteristika kontinuierlicher Variablen

Lage

Streuung

Form

Haufung (cluster) Werte treten in Klumpen auf.

Kornung (granularity) Nur bestimmte Werte treten auf.

Boxplot

Boxplot

gemessene Werte

0 1 2 3 4 5 6

Boxplot

Drawing the box:Find the median. Then find the median of the datavalues whose ranks are less than or equal to the rank ofthe median. This will be a data value or it will be halfway between two data values.Drawing the whiskers:The maximum length of each whisker is 1.5 times theinterquartile range (IQR). To draw the whisker above the3rd quartile, draw it to the largest data value that is lessthan or equal to the value that is 1.5 IQRs above the 3rdquartile. Any data value larger than that should bemarked as an outlier.

Der Boxplot wurde von Tukey eingefuhrt. Heute gibt es vielverschiedene Formen. Es ist daher gut, wenn man immer angibtwie man den Boxplot konstruiert hat.

Histogramm

Histogramm

gemessene Werte

Dic

hte

0 2 4 6

0.0

0.1

0.2

0.3

0.4

0 1 2 3 4 5 6

Histogramm

Um ein Histogramm zeichnen zu konnten muss man folgende zweiPunkte festlegen:

I Kastchenbreite bzw. die Anzahl der Kastchen (Kastchen:bin)

I Startpunkt

Auch fur dieselben Werte sieht nicht jedes Histogramm gleich aus!

Histogramm

freq

uenc

y

0 2 4 6 8 10 12

0.00

0.05

0.10

0.15

Anzahl Kstchen: 2

freq

uenc

y

0 2 4 6 8 10 12

0.00

0.05

0.10

0.15

Anzahl Kstchen: 4

freq

uenc

y

0 2 4 6 8 10 12

0.00

0.05

0.10

0.15

0.20

Anzahl Kstchen: 8

freq

uenc

y

0 2 4 6 8 10 12

0.00

0.05

0.10

0.15

0.20

0.25

0.30

Anzahl Kstchen: 16

Histogramm

x

Den

sity

0 2 4 6 8 10 12

0.00

0.05

0.10

0.15

0.20

Startpunkt: 0

x

Den

sity

0 2 4 6 8 10 12

0.00

0.05

0.10

0.15

0.20

Startpunkt: 0.6

Den

sity

0 2 4 6 8 10 12

0.00

0.05

0.10

0.15

0.20

Startpunkt: 1.2

Den

sity

2 0 2 4 6 8 10 12

0.00

0.05

0.10

0.15

Startpunkt: 1.8

Empirische Dichte

"gaussian kernel"

gemessene Werte

Dic

hte

0 2 4 6

0.0

0.1

0.2

0.3

0.4

0 1 2 3 4 5 6

Wahrscheinlichkeitsverteilung

x =

1

n

n

i=1

xi

Kenngrossen fur kontinuierliche Variablen

Lage Mittelwert, Median, Modus

Streuung Spannweite, Quartilsabstand, Varianz

Form Schiefe: z. B. rechtsschief = linkssteil, linksschief =rechtssteilWolbung: steilgipflig, flachgipfligweitere Begriffe: symmetrisch, unimodal, bimodal,multimodal

Wahrscheinlichkeitsverteilung

Wahrscheinlichkeitsverteilung

x

Dic

hte

0.00

0.05

0.10

0.15

0.20

0.25

0 1 2 3 4 5 6 7 8 9

0.1

6.25

0.04

df=32

Wahrscheinlichkeitsdichte

N ( = 0, 2 = 1)

x

Dic

hte

0.1

0.2

0.3

0.4

2 1 0 1 2

0.025

1.96

Quantile-Quantile-Diagramm

Empirische Quantile entstprechen den

geordneten Beobachtungen

The

oret

isch

e Q

uant

ile (

der

Nor

mal

vert

eilu

ng)

1

0

1

0 1 2 3 4 5 6

Empirische Quantile

The

oret

isch

e Q

uant

ile

2

1

0

1

2

0 2 4 6

Empirische Quantile

The

oret

isch

e Q

uant

ile

2

1

0

1

2

0 2 4 6

Empirische Quantile

The

oret

isch

e Q

uant

ile

2

1

0

1

2

0 2 4 6

Empirische Quantile

The

oret

isch

e Q

uant

ile

2

1

0

1

2

0 2 4 6

Empirische Quantile

The

oret

isch

e Q

uant

ile

2

1

0

1

2

0 2 4 6

Empirische Quantile

The

oret

isch

e Q

uant

ile

2

1

0

1

2

0 2 4 6

Empirische Quantile

The

oret

isch

e Q

uant

ile

2

1

0

1

2

0 2 4 6

Empirische Quantile

The

oret

isch

e Q

uant

ile

2

1

0

1

2

0 2 4 6

Empirische Quantile

The

oret

isch

e Q

uant

ile

2

1

0

1

2

0 2 4 6

Verteilungsformen und Q-Q-Diagramme

normal

norm

al q

uant

iles

dens

ity

bimodal

norm

al q

uant

iles

dens

ity

leptokurtic

norm

al q

uant

iles

dens

ity

platykurtic

norm

al q

uant

iles

dens

ity

skewed to the right

norm

al q

uant

iles

dens

ity

skewed to the left

norm

al q

uant

iles

dens

ity

Verteilung

Krpergrsse bei Frauen

Dic

hte

0.00

0.02

0.04

0.06

0.08

150 160 170 180

Verteilung eines Mittelwertes

x von 300Krpergrssen (Frauen)

Dic

hte

0.0

0.2

0.4

0.6

0.8

1.0

162 164 166 168 170 172

Verteilung eines Mittelwertes

x von 30 bzw. 300Krpergrssen bei Frauen

Dic

hte

0.0

0.2

0.4

0.6

0.8

1.0

162 164 166 168 170 172

Verteilung einer Statistik

Mittelwertx = 1n

ni=1 xi

x

Dic

hte

Varianzs2 = 1n1

ni=1(xi x)2

s2

Dic

hte

I Jede Statistik folgt einer eigenen Verteilung

I Die Streuung ist von der Grosse, n, der Stichprobe abhangig

I Die Form der Verteilung ist von der Grosse der Stichprobeunabhangig

Der Zentrale Grenzwertsatz

Mittelwerte aus 50 Messwerten

Dic

hte

0.2

0.4

0.6

0.8

1.0

2 4 6 8 10

Der Zentrale Grenzwertsatz

Die Verteilung des Mittelwertes aus n-Messwerten nahertsich fur wachsende n immer mehr einer Normalverteilungund dies unabhangig von der Verteilung aus welcher dieMesswerte gezogen wurden.

Vertrauensintervall

x (n = 30) Mittlere Krpergrsse

Dic

hte

0.0

0.2

0.4

0.6

0.8

1.0

162 164 166 168 170 172

Vertrauensintervall

Jetzt starten wir wie im richtigen Leben mit einer einzelnenStichprobe:x1 = 166.1, x2 = 178.8, x3 = 169.5, x4 = 165.9, x5 = 172.1, x6 =177.3, x7 = 165.2, x8 = 164.3, x9 = 175.6, x10 = 173.7, x11 =171.8, x12 = 172.2, x13 = 172.6, x14 = 162.6, x15 = 168.6, x16 =172, x17 = 161.3, x18 = 169.7, x19 = 160, x20 = 170.1, x21 =165.1, x22 = 172.9, x23 = 168.1, x24 = 167.5, x25 = 180.1, x26 =172.2, x27 = 157.8, x28 = 177.2, x29 = 167.4, x30 = 174.6

Vertrauensintervall

Zwei Wege:

I Wir konnen eine Annahme Treffen uber dieWahrscheinlichkeitsverteilung aus welcher wir die Stichprobegezogen haben. Dann konnten wir beliebig oft eine Stichprobeder selben Grosse ziehen, den Mittelwert berechnen und so dieVerteilung der Mittelwerte ermitteln.

I Wir konnen den Zentralen Grenzwertsatz anwenden. Dazumussten wir aber die beiden Parameter der Normalverteilungunseres Mittelwertes besser kennen, namentlich denMittelwert und die Varianz.

Vertrauensintervall: Die Lage

Mangels besserer Informationen wahlen wir den Mittelwert unsererStichprobe (x) als Erwartungswert fur die Mittelwerte, x .

Vertrauensintervall: Die Streuung

Der Standardfehler ist die Standardabweichung einer Statistik.Meistens spricht man vom Standard