Einf uhrung in die Statistik - I Nachdiplom in Statistik (Uni Neuch^atel) Momentan I Statistiker an

Click here to load reader

download Einf uhrung in die Statistik - I Nachdiplom in Statistik (Uni Neuch^atel) Momentan I Statistiker an

of 473

  • date post

    19-Oct-2019
  • Category

    Documents

  • view

    0
  • download

    0

Embed Size (px)

Transcript of Einf uhrung in die Statistik - I Nachdiplom in Statistik (Uni Neuch^atel) Momentan I Statistiker an

  • Einführung in die Statistik mit Beispielen aus der Biologie

    Thomas Fabbro

    “The aim of computing is insight, not numbers.”

  • Zu meiner Person

    Ausbildung I Studium der Biologie (Uni Basel) I Masterarbeit in Pflanzenökologie (Uni Basel) I Doktorarbeit in Quantitativer Genetik (Uni

    Fribourg) I Nachdiplom in Statistik (Uni Neuchâtel)

    Momentan I Statistiker an der Clinical Trial Unit (Universitätsspital Basel)

    I Mitglied der Ethikkommission beider Basel (EKBB)

  • Zur Vorlesung

    Struktur Über zwei Semester, eine Stunde Vorlesung, zwei Stunden Übungen am Computer

    Unterlagen Sie erhalten ein Handout mit den wichtigsten Abbildungen und einem Glossar. Machen Sie sich Notizen!

    Prüfung Am Ende der beiden Semester

  • Was mir wichtig ist für die Vorlesung

    Fragen Immer, sobald etwas nicht ganz klar ist.

    Vokabular Es ist wichtig, dass wir ein gemeinsames Vokabular finden und dieses präzise anwenden, daher gibt es ein Glossar.

    Selbstverständlich gilt der zweite Punkt nicht, wenn es um den ersten geht!

  • Was ist Statistik?

    Die Statistik als Disziplin (“statistics”) beschäftigt sich mit dem Sammeln, Organisieren, Analysieren, Interpretieren und Präsentieren von Daten (nach Dodge, Cox und Commenges 2006).

  • Wieso brauchen wir eigentlich Statistik?

  • Wieso brauchen wir eigentlich Statistik?

  • Wieso brauchen wir eigentlich Statistik?

  • Wieso brauchen wir eigentlich Statistik?

  • Wieso brauchen wir eigentlich Statistik?

  • Wieso brauchen wir eigentlich Statistik?

  • Wieso brauchen wir eigentlich Statistik?

  • Wieso brauchen wir eigentlich Statistik?

  • Arten von Variablen

    Messbare und Zählbare Variablen

    numeric für kontinuierlich Variablen, alle Zwischenschritte sind möglich

    integer für Ganze Zahlen

    Kategorielle Variablen

    factor für Kategorien (z. B. “Fabaceae”, “Rosaceae”, “Apiaceae”).

    logical Eine Variable die nur die Werte TRUE oder FALSE annehmen kann (z. B. “männlich”, “weiblich”).

    Diese Einteilung basiert auf der Klasseneinteilung von R.

  • Arten von Variablen

    Messbare und Zählbare Variablen

    numeric für kontinuierlich Variablen, alle Zwischenschritte sind möglich

    integer für Ganze Zahlen

    Kategorielle Variablen

    factor für Kategorien (z. B. “Fabaceae”, “Rosaceae”, “Apiaceae”).

    logical Eine Variable die nur die Werte TRUE oder FALSE annehmen kann (z. B. “männlich”, “weiblich”).

    Diese Einteilung basiert auf der Klasseneinteilung von R.

  • Arten von Variablen

    Messbare und Zählbare Variablen

    numeric für kontinuierlich Variablen, alle Zwischenschritte sind möglich

    integer für Ganze Zahlen

    Kategorielle Variablen

    factor für Kategorien (z. B. “Fabaceae”, “Rosaceae”, “Apiaceae”).

    logical Eine Variable die nur die Werte TRUE oder FALSE annehmen kann (z. B. “männlich”, “weiblich”).

    Diese Einteilung basiert auf der Klasseneinteilung von R.

  • Arten von Variablen

    Messbare und Zählbare Variablen

    numeric für kontinuierlich Variablen, alle Zwischenschritte sind möglich

    integer für Ganze Zahlen

    Kategorielle Variablen

    factor für Kategorien (z. B. “Fabaceae”, “Rosaceae”, “Apiaceae”).

    logical Eine Variable die nur die Werte TRUE oder FALSE annehmen kann (z. B. “männlich”, “weiblich”).

    Diese Einteilung basiert auf der Klasseneinteilung von R.

  • Arten von Variablen

    Messbare und Zählbare Variablen

    numeric für kontinuierlich Variablen, alle Zwischenschritte sind möglich

    integer für Ganze Zahlen

    Kategorielle Variablen

    factor für Kategorien (z. B. “Fabaceae”, “Rosaceae”, “Apiaceae”).

    logical Eine Variable die nur die Werte TRUE oder FALSE annehmen kann (z. B. “männlich”, “weiblich”).

    Diese Einteilung basiert auf der Klasseneinteilung von R.

  • Arten von Variablen

    Messbare und Zählbare Variablen

    numeric für kontinuierlich Variablen, alle Zwischenschritte sind möglich

    integer für Ganze Zahlen

    Kategorielle Variablen

    factor für Kategorien (z. B. “Fabaceae”, “Rosaceae”, “Apiaceae”).

    logical Eine Variable die nur die Werte TRUE oder FALSE annehmen kann (z. B. “männlich”, “weiblich”).

    Diese Einteilung basiert auf der Klasseneinteilung von R.

  • Beispiele in R

    > weight legs kingdom animal

  • Es gibt zwei Arten wie man Variablen beschreiben kann:

    I Kenngrössen

    I graphischen Darstellungen

  • Charakteristika kontinuierlicher Variablen

    Lage

    Streuung

    Form

    Häufung (”cluster”) Werte treten in Klumpen auf.

    Körnung (”granularity”) Nur bestimmte Werte treten auf.

  • Charakteristika kontinuierlicher Variablen

    Lage

    Streuung

    Form

    Häufung (”cluster”) Werte treten in Klumpen auf.

    Körnung (”granularity”) Nur bestimmte Werte treten auf.

  • Charakteristika kontinuierlicher Variablen

    Lage

    Streuung

    Form

    Häufung (”cluster”) Werte treten in Klumpen auf.

    Körnung (”granularity”) Nur bestimmte Werte treten auf.

  • Charakteristika kontinuierlicher Variablen

    Lage

    Streuung

    Form

    Häufung (”cluster”) Werte treten in Klumpen auf.

    Körnung (”granularity”) Nur bestimmte Werte treten auf.

  • Charakteristika kontinuierlicher Variablen

    Lage

    Streuung

    Form

    Häufung (”cluster”) Werte treten in Klumpen auf.

    Körnung (”granularity”) Nur bestimmte Werte treten auf.

  • Charakteristika kontinuierlicher Variablen

    Lage

    Streuung

    Form

    Häufung (”cluster”) Werte treten in Klumpen auf.

    Körnung (”granularity”) Nur bestimmte Werte treten auf.

  • Beispiele

  • Beispiele

    gemessene Werte

  • Beispiele

    gemessene Werte

    0 1 2 3 4 5 6

  • Beispiele

    gemessene Werte

    −1.0 −0.5 0.0 0.5 1.0 1.5 2.0

  • Beispiele

    gemessene Werte

    140 150 160 170 180 190

  • Beispiele

    gemessene Werte

    140 150 160 170 180 190

  • Boxplot

  • Boxplot

    gemessene Werte

    0 1 2 3 4 5 6

  • Boxplot

    Boxplot

    gemessene Werte

    0 1 2 3 4 5 6

  • Boxplot

    Boxplot

    gemessene Werte

    0 1 2 3 4 5 6

  • Boxplot

    Boxplot

    gemessene Werte

    0 1 2 3 4 5 6

  • Boxplot

    Boxplot

    gemessene Werte

    0 1 2 3 4 5 6

  • Boxplot

    Drawing the box: Find the median. Then find the median of the data values whose ranks are less than or equal to the rank of the median. This will be a data value or it will be half way between two data values. Drawing the whiskers: The maximum length of each whisker is 1.5 times the interquartile range (IQR). To draw the whisker above the 3rd quartile, draw it to the largest data value that is less than or equal to the value that is 1.5 IQRs above the 3rd quartile. Any data value larger than that should be marked as an outlier.

    Der Boxplot wurde von Tukey eingeführt. Heute gibt es viel verschiedene Formen. Es ist daher gut, wenn man immer angibt wie man den Boxplot konstruiert hat.

  • Histogramm

  • Histogramm

    gemessene Werte

    0 1 2 3 4 5 6

  • Histogramm

    Histogramm

    gemessene Werte

    A nz

    ah l

    0 2 4 6

    0 1

    2 3

    4

    0 1 2 3 4 5 6

  • Histogramm

    Histogramm

    gemessene Werte

    D ic

    ht e

    0 2 4 6

    0. 0

    0. 1

    0. 2

    0. 3

    0. 4

    0 1 2 3 4 5 6

  • Histogramm

    Um ein Histogramm zeichnen zu könnten muss man folgende zwei Punkte festlegen:

    I Kästchenbreite bzw. die Anzahl der Kästchen (Kästchen: “bin”)

    I Startpunkt

    Auch für dieselben Werte sieht nicht jedes Histogramm gleich aus!

  • Histogramm

    fr eq

    ue nc

    y

    0 2 4 6 8 10 12

    0. 00

    0. 05

    0. 10

    0. 15

    Anzahl Kästchen: 2

    fr eq

    ue nc

    y

    0 2 4 6 8 10 12

    0. 00

    0. 05

    0. 10

    0. 15

    Anzahl Kästchen: 4

    fr eq

    ue nc

    y

    0 2 4 6 8 10 12

    0. 00

    0. 05

    0. 10

    0. 15

    0. 20

    Anzahl Kästchen: 8

    fr eq

    ue nc

    y

    0 2 4 6 8 10 12

    0. 00

    0. 05

    0. 10

    0. 15

    0. 20

    0. 25

    0. 30

    Anzahl Kästchen: 16

  • Histogramm