Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data...

49
Statistische Methoden in der MMST: Deskriptive Statistik VL MMS Wintersemester 2014/15 Professur für Prozessleittechnik L. Urbas; J. Pfeffer

Transcript of Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data...

Page 1: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

Statistische Methoden in der MMST:Deskriptive Statistik

VL MMS Wintersemester 2014/15Professur für Prozessleittechnik

L. Urbas; J. Pfeffer

Page 2: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 2

Ziele und Inhalt

Statistik in der MMST• Anwendungsgebiete

Evaluationen Data Mining

• Werkzeuge

Einführung in die deskriptive Statistik• Typen von Messgrößen / Skalen• Deskriptive Kennwerte• Häufigkeitsverteilungen• Empirische Verteilungsfunktion• Verteilungsarten• Verteilungskennwerte• Korrelation von Merkmalen• Lineare Regression

TU Dresden

Page 3: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

STATISTIK IN DER MMST

Überblick

Page 4: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 4

S5 - Datenanalyse

TU Dresden

[nach Sarris 2005, S.44]

Hypothese

Versuchsaufbau

Versuchsplan

Auswertung(Datenanalyse)

Versuchsdurchführung

Schlussfolgerungen1

6

2

5

4

3

Problem

Antworten

Fragen

Page 5: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 5

Statistik in der MMST

Anwendungsgebiete

• Evaluationen mit empirischen Methoden

• Data Mining

TU Dresden

Page 6: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 6

Evaluation mittels Stichproben

Stichproben-ziehung

BeschreibendeStatistik

Population Stichprobenmitglieder

Inferenz-statistischer

Schluss

TU Dresden

Page 7: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 7

Teilbereiche der Statistik

Statistik

ExplorativeStatistik

SchließendeStatistik

BeschreibendeStatistik

TU Dresden

Page 8: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 8

Werkzeuge

• SPSS Statistics

• STATISTICA

• R

• …

TU Dresden

Page 9: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

EINFÜHRUNG IN DIE DESKRIPTIVE STATISTIK

„Statistiken sind mit Vorsicht zu genießen und mit Verstand einzusetzen.“

Carl Hahn (*1926), 1982-92 Vorstandsvorsitzender Volkswagen AG

Page 10: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 10

Übersicht der Themengebiete

Grundbegriffe

Skalenarten (Typen von Merkmalen)

• Nominal, Ordinal, Kardinal

Datenerhebung

Tabellarische & grafische Analyse

• Häufigkeitsverteilung diskreter Daten

• Empirische Verteilungsfunktion

• Histogramme

Verteilungskennwerte und statistische Maßzahlen

• zentrale Tendenz, Streuung, Schiefe

• Boxplots

Korrelation zweier Merkmale

Lineare Regression

TU Dresden

Page 11: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 11

Grundbegriffe

• Grundgesamtheit

• Merkmale

• Merkmalsträger

• Ausprägungen

• Stichprobenumfang

• Stichprobenwerte

• Urliste

TU Dresden

Page 12: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 12

Typen von Merkmalen (Skalenarten)

Skalenarten

Ordinalskala KardinalskalaNominalskala

AbsolutskalaVerhältnisskalaIntervallskala

TU Dresden

Page 13: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 13

Intervallskala• Nullpunkt & Maßeinheit nicht eindeutig festgelegt

• Beispiele: Temperatur in Celsius, Fahrenheit, Kalenderzeit

Verhältnisskala• Fester Nullpunkt

• Beispiele: Länge, Masse, Dauer, Winkel, Preise, Temp. in Kelvin

Absolutskala • Einheit a priori festgelegt (natürlich gegeben)

• Beispiele: Froschbevölkerung verschiedener Tümpel (F), NP keine Frösche

Anzahl Personen/Hörsaal (P/H),

Weitere Unterteilung der Kardinalskala

TU Dresden

Kardinalskala

AbsolutskalaVerhältnisskalaIntervallskala

Page 14: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 14

Beispiel: Usability Evaluation mit Studenten

Statistische Fragestellung: Wie ist die Altersstruktur und Geschlecht der Versuchsteilnehmer einer Usability Evaluation am 5. Februar eines Jahres

• Grundgesamtheit: Studenten der TU-Dresden• Stichprobenumfang: 25• Merkmalsträger: Student• Merkmale:

Alter Geschlecht

• Ausprägungen: 16, 17, 18, … Jahre m/w

• Stichprobenwerte: 23 Jahre, w 19 Jahre, m 35 Jahre, m

TU Dresden

Page 15: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 15

Arten der Datenerhebung

Primärerhebung

• Befragung

• Beobachtung

• Automatische Erfassung

• Experiment

• …

Auch möglich: Sekundärerhebung

TU Dresden

Page 16: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 16

Urliste100 77 29 73 87 14 9 76 54 34 91 70 56 2 22 62 87 73 87 8 15 43 3 6 79 15 24 100 97 4434 75 6 54 9 26 88 27 98 81 32 41 76 42 59 66 52 8 9 71 76 94 84 69 23 82 44 56 77 5380 61 51 60 86 41 86 40 41 99 41 40 30 26 88 70 69 78 1 5 80 53 82 68 52 32 6 8 73 6990 20 1 88 94 68 29 75 34 58 33 45 25 18 81 95 64 32 7 30 58 6 47 42 19 95 20 19 93 6633 2 98 74 100 29 9 64 49 26 99 64 88 93 100 13 76 84 48 99 66 67 57 7 54 77 76 81 52 5799 21 88 73 1 8 2 63 35 48 81 30 36 1 19 11 10 87 2 43 5 97 18 59 65 20 38 90 21 8041 69 22 30 91 23 74 17 32 74 99 77 100 2 81 1 35 98 58 82 24 91 73 96 94 70 97 70 100 6540 78 37 71 85 10 4 21 11 100 16 30 90 91 98 54 48 95 15 44 99 7 91 13 89 88 12 84 51 4224 94 76 16 44 3 33 49 46 70 73 11 85 84 35 34 11 99 22 73 90 100 30 46 49 24 59 74 31 3958 71 20 22 98 23 4 55 67 35 11 56 67 30 36 49 46 15 5 39 54 43 71 96 10 31 1 27 90 6977 58 33 44 61 43 27 68 7 83 54 69 73 93 2 46 14 85 85 76 59 62 95 24 12 23 50 85 1 795 29 64 18 19 55 62 69 38 88 7 15 65 63 44 72 48 39 59 35 100 45 24 79 80 97 37 10 37 6232 81 38 96 14 39 8 72 57 25 12 53 35 59 61 8 7 77 54 59 19 63 87 17 66 65 49 47 78 362 75 9 40 61 84 53 99 31 13 93 85 40 73 97 49 61 18 99 30 96 80 15 97 45 51 40 14 52 8171 37 78 10 76 32 1 5 28 13 2 14 71 60 65 4 58 37 50 91 32 100 3 19 22 38 10 27 29 3587 8 80 41 78 24 11 51 5 74 86 98 83 64 81 11 63 68 65 29 62 40 64 7 16 15 93 61 17 7395 46 91 8 29 77 42 73 5 6 100 46 14 31 67 45 13 8 23 48 89 11 48 78 65 44 57 67 72 5939 84 6 94 8 47 34 45 49 29 29 21 48 68 54 82 99 9 9 46 6 79 38 70 27 81 83 65 4 4973 70 60 19 94 41 51 25 40 92 85 21 69 61 74 29 37 55 7 33 18 80 74 38 53 68 2 72 41 659 22 88 84 61 24 45 13 93 95 56 48 52 65 28 26 39 60 92 80 84 26 74 100 51 23 64 98 87 5797 43 72 90 40 18 82 18 41 7 46 5 13 46 57 13 91 39 7 87 92 91 93 16 33 68 8 49 99 3368 51 28 28 29 8 93 56 57 12 53 48 39 6 6 54 93 13 90 97 33 97 36 40 31 50 1 25 77 5149 88 1 74 32 40 99 46 96 73 13 70 91 4 47 49 1 3 33 86 87 12 74 61 23 74 59 43 9 3095 1 50 75 11 0 4 37 70 7 40 64 60 1 92 89 58 75 20 38 96 39 11 65 9 77 93 62 64 7865 87 72 31 18 9 66 46 91 52 94 23 77 11 59 9 43 65 58 82 59 76 75 74 71 16 72 7 98 8353 69 79 88 45 46 38 40 95 87 76 9 76 97 27 55 65 81 45 6 75 93 8 18 91 69 85 90 92 4099 87 38 49 33 52 37 66 70 46 25 87 23 49 88 33 8 98 23 39 13 64 47 29 39 14 59 90 89 2395 39 63 67 66 43 13 68 39 100 15 45 49 52 78 54 88 17 87 26 51 23 74 22 27 72 4 58 46 9127 46 31 66 82 54 7 57 66 86 52 93 42 98 56 65 69 60 27 94 41 100 42 24 79 75 2 17 19 9441 55 37 10 74 33 29 8 55 1 23 12 36 70 5 89 72 61 45 84 75 1 31 87 46 22 30 20 31 7688 96 1 47 1 44 35 18 1 70 14 26 16 68 34 17 13 26 68 85 100 46 20 97 67 5 40 6 7 5342 22 31 21 65 60 2 72 32 65 16 69 2 28 89 8 5 98 21 69 87 17 29 800 73 42 34 82 88 7136 49 55 38 11 53 7 7 3 35 44 24 7 88 28 85 60 29 82 36 52 56 34 100 71 20 59 59 59 3157 72 25 20 72 88 95 89 90 97

TU Dresden

Page 17: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 17

Urliste100 77 29 73 87 14 9 76 54 34 91 70 56 2 22 62 87 73 87 8 15 43 3 6 79 15 24 100 97 4434 75 6 54 9 26 88 27 98 81 32 41 76 42 59 66 52 8 9 71 76 94 84 69 23 82 44 56 77 5380 61 51 60 86 41 86 40 41 99 41 40 30 26 88 70 69 78 1 5 80 53 82 68 52 32 6 8 73 6990 20 1 88 94 68 29 75 34 58 33 45 25 18 81 95 64 32 7 30 58 6 47 42 19 95 20 19 93 6633 2 98 74 100 29 9 64 49 26 99 64 88 93 100 13 76 84 48 99 66 67 57 7 54 77 76 81 52 5799 21 88 73 1 8 2 63 35 48 81 30 36 1 19 11 10 87 2 43 5 97 18 59 65 20 38 90 21 8041 69 22 30 91 23 74 17 32 74 99 77 100 2 81 1 35 98 58 82 24 91 73 96 94 70 97 70 100 6540 78 37 71 85 10 4 21 11 100 16 30 90 91 98 54 48 95 15 44 99 7 91 13 89 88 12 84 51 4224 94 76 16 44 3 33 49 46 70 73 11 85 84 35 34 11 99 22 73 90 100 30 46 49 24 59 74 31 3958 71 20 22 98 23 4 55 67 35 11 56 67 30 36 49 46 15 5 39 54 43 71 96 10 31 1 27 90 6977 58 33 44 61 43 27 68 7 83 54 69 73 93 2 46 14 85 85 76 59 62 95 24 12 23 50 85 1 795 29 64 18 19 55 62 69 38 88 7 15 65 63 44 72 48 39 59 35 100 45 24 79 80 97 37 10 37 6232 81 38 96 14 39 8 72 57 25 12 53 35 59 61 8 7 77 54 59 19 63 87 17 66 65 49 47 78 362 75 9 40 61 84 53 99 31 13 93 85 40 73 97 49 61 18 99 30 96 80 15 97 45 51 40 14 52 8171 37 78 10 76 32 1 5 28 13 2 14 71 60 65 4 58 37 50 91 32 100 3 19 22 38 10 27 29 3587 8 80 41 78 24 11 51 5 74 86 98 83 64 81 11 63 68 65 29 62 40 64 7 16 15 93 61 17 7395 46 91 8 29 77 42 73 5 6 100 46 14 31 67 45 13 8 23 48 89 11 48 78 65 44 57 67 72 5939 84 6 94 8 47 34 45 49 29 29 21 48 68 54 82 99 9 9 46 6 79 38 70 27 81 83 65 4 4973 70 60 19 94 41 51 25 40 92 85 21 69 61 74 29 37 55 7 33 18 80 74 38 53 68 2 72 41 659 22 88 84 61 24 45 13 93 95 56 48 52 65 28 26 39 60 92 80 84 26 74 100 51 23 64 98 87 5797 43 72 90 40 18 82 18 41 7 46 5 13 46 57 13 91 39 7 87 92 91 93 16 33 68 8 49 99 3368 51 28 28 29 8 93 56 57 12 53 48 39 6 6 54 93 13 90 97 33 97 36 40 31 50 1 25 77 5149 88 1 74 32 40 99 46 96 73 13 70 91 4 47 49 1 3 33 86 87 12 74 61 23 74 59 43 9 3095 1 50 75 11 0 4 37 70 7 40 64 60 1 92 89 58 75 20 38 96 39 11 65 9 77 93 62 64 7865 87 72 31 18 9 66 46 91 52 94 23 77 11 59 9 43 65 58 82 59 76 75 74 71 16 72 7 98 8353 69 79 88 45 46 38 40 95 87 76 9 76 97 27 55 65 81 45 6 75 93 8 18 91 69 85 90 92 4099 87 38 49 33 52 37 66 70 46 25 87 23 49 88 33 8 98 23 39 13 64 47 29 39 14 59 90 89 2395 39 63 67 66 43 13 68 39 100 15 45 49 52 78 54 88 17 87 26 51 23 74 22 27 72 4 58 46 9127 46 31 66 82 54 7 57 66 86 52 93 42 98 56 65 69 60 27 94 41 100 42 24 79 75 2 17 19 9441 55 37 10 74 33 29 8 55 1 23 12 36 70 5 89 72 61 45 84 75 1 31 87 46 22 30 20 31 7688 96 1 47 1 44 35 18 1 70 14 26 16 68 34 17 13 26 68 85 100 46 20 97 67 5 40 6 7 5342 22 31 21 65 60 2 72 32 65 16 69 2 28 89 8 5 98 21 69 87 17 29 800 73 42 34 82 88 7136 49 55 38 11 53 7 7 3 35 44 24 7 88 28 85 60 29 82 36 52 56 34 100 71 20 59 59 59 3157 72 25 20 72 88 95 89 90 97

TU Dresden

Page 18: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 18

Häufigkeitstabelle

Beispiel:

Von 20 Studenten wurden Reaktionszeiten auf einen Alarm gemessen (hypothetische Daten)

Absolute Häufigkeit: Anzahl der Beobachtungswerte mit einer bestimmten Ausprägung – h(aj)=hj

Relative Häufigkeit:

3 2 1 2 2 1 1 2 2 3 1 4 3 1 2 3 4 2 2 2

n

ahaf

j

j

)()(

TU Dresden

Page 19: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 19

Häufigkeitstabelle

Merkmal a1 a2 a3 a4

Ausprägung 1 2 3 4

hj 5 9 4 2

fj 0,25 0,45 0,2 0,1

n=20

Summe: 1,00

TU Dresden

Page 20: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 20

Empirische Verteilungsfunktion

xa

kjaxaF

ax

xF

k

jjjn

für 1

)1,,1(für

für 0

)(1

1

x <- c(3,2,1,2,2,1,1,2,2,3,1,4,3,1,2,3,4,2,2,2)plot(ecdf(x), main="Empirische Verteilungsfunktion [Reaktionszeit in s]", xlab="x", ylab="F_n")

TU Dresden

Page 21: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 21

Histogramme

hist(x,breaks=c(0.5,1.5,2.5,3.5,4.5)) hist(x,breaks=c(0.5,2.5,4.5),labels=c("schnell","langsam"))

Primär Sekundär

Reaktionszeit Reaktionszeit

TU Dresden

Page 22: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 22

Histogramm

• n=1000

TU Dresden

y=rnorm(1000, mean=0, sd=1)hist(y)

Page 23: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 23

Empirische Verteilungen

• Zweck ist, Grundgesamtheiten bezüglich bestimmter Merkmale auf einfache Weise als Ganzes zu überblicken

• Es wird quantifiziert welche Merkmale wie oft vorkommen -> Histogramm

TU Dresden

Page 24: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 24

Eigenschaften von Verteilungen

Symmetrie• Symmetrisch (Körpergröße)

• Asymmetrisch (Einkommen)

Modalität• Unimodal (Einkommen BRD)

• Bimodal (Einkommen in Stadt mit Armenviertel)

• Multimodal

Breite• Schmalgipflig (Laufzeiten Profis)

• Breitgipflig (Laufzeiten untrainierte Personen)

Schiefe• Linkssteil (rechtsschief): Streckenlänge mit Auto, Bier/PartyTN

• Rechtssteil (linksschief): Wie schätzen Sie die Wahrscheinlichkeit ein, dass Deutschland sich für die WM 2018 qualifiziert?

TU Dresden

Page 25: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 25

VerteilungskennwerteStatistische Maßzahlen

Maße der zentralen Tendenz (Lageparameter)

• Arithmetisches Mittel, empirischer Median, Modalwert

• Zentrum einer Verteilung

Maße der Streuung (Dispersion)

• Varianz, Standardabweichung, Quartilsabstand

• Ausmaß an Unterschiedlichkeit in einer Verteilung

Maße der Schiefe (Formparameter)

• Symmetrie der Verteilung

TU Dresden

Page 26: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 26

Arithmetischer Mittelwert („Durchschnitt“)

• Mindestens kardinalskalierte Messwerte

Eigenschaften

• Summe der Abweichungen der Messwerte vom Mittelwert ist 0

• Summe der quadrierten Abweichungen = min

• Lineare Transformation der Einzelwerte führt zu gleicher Transformation beim arithmetischen Mittel

n

i

ix

nx

1

1

TU Dresden

Page 27: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 27

Typen von Merkmalen (Skalenarten)

Skalenarten

Ordinalskala KardinalskalaNominalskala

AbsolutskalaVerhältnisskalaIntervallskala

TU Dresden

Page 28: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 28

Median („50%-Wert“, „Zentralwert“)

• Mindestens ordinalskalierteMerkmale

• Der Wert xi für den gilt, dass

50% aller Werte größer und 50% kleiner sind.

n ungerade: ((n+1)/2)-ter Wert der Rangliste der Beobachtungswerte

n gerade: arithmetisches Mittel des (n/2)-ten und des (n/2+1)-ten Wertes

Beachte: x* -> der Größe nach geordnet (Rangliste)

ungeraden falls ,

geraden falls ,2

*

2

1

*

12

*

2

n

nn

Med

x

xx

x

TU Dresden

Page 29: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 29

Modus / Modalwert

• Merkmalsausprägung xi, die am

häufigsten gemessen wird

• Wenig aussagekräftig bei multimodalen Verteilungen

• Bereits für nominalskalierte Merkmale sinnvoll

)(maxargmod

xhxixx

kihhxxijj

,,1 allefür mit mod

oder auch

TU Dresden

Page 30: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 30

Zentrale Tendenz und Ausreißer

Beispiel:

Monatliches Budget von 30 Studenten

• 29 mit Finanzbudget zwischen 400-700 €, Mittelwert ~ 550 €

• Ein Student mit 5000 €

Mittelwert über alle: 700 €

TU Dresden

Page 31: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 31

Probleme mit dem arithmetischen Mittelwert bei ordinalskalierten Daten

Wie würden Sie die Fachkompetenz der folgenden Politiker einschätzen?

1=niedrig, 2=eher hoch, 3=hoch, 4=sehr hoch

MW(Politiker A): 2.06, MW(Politiker B): 2.03

Median(PA): 1, Median(PB): 2

Punktzahl: 1 2 3 4

Politiker A 16 3 6 6

Politiker B 2 26 3 0

TU Dresden

Page 32: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 32

Wichtigste Streuungsparameter

Varianz (mittl. quadratische Abweichung)

µ … wahrer Mittelwert der Grundgesamtheit 𝑥 … Stichprobenmittelwert

Standardabweichung

n

i

i

n

i

ixx

nx

n 1

2

1

2)(

1

1)(

1var

vars

TU Dresden

Page 33: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 33

Weitere Streuungsparameter

Spannweite (Range)

• R = xmax-xmin

• Informationsverlust bei Ausreißern

Quartilsabstand (Interquartilbereich)

• Q = Q3-Q1 = x0,75-x0,25

TU Dresden

Page 34: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 34

Box-Whisker-Plots

• Kombination verschiedener Kennwerte

Range

Quartil

Quartilsabstand

TU Dresden

Ja!

Alter

boxplot(Santa,col="green", range=1)

Page 35: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 35

Mehrere Boxplots

Quelle: Bankhofer U., Vogel J. (2008)

Benzinverbrauch von PKWs desselben Typs nach Betriebsdauer

TU Dresden

Page 36: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 36

Korrelation – Beispiel 1

MMST-Fragen lassen sich häufig als Zusammen-hangssaussagen (wenndann, jedesto) formulieren

Nutzung mobiler Geräte

• Wenn ein mobiles Gerät genutzt wird, dann werden weniger Fehler gemacht Merkmal A: Mobiles Gerät vs. kein Mobiles Gerät Merkmal B: Anzahl Fehler

• Wenn ein bestimmtes mobiles Gerät genutzt wird, dann werden deutlich weniger Fehler gemacht Merkmal A: verschiedene mobile Geräte Merkmal B: Anzahl Fehler

TU Dresden

Page 37: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 37

Korrelation– Beispiel 2

Selbstwirksamkeitsüberzeugung korreliert mit Lerngeschwindigkeit

• Je höher die Selbstwirksamkeitsüberzeugung, desto schneller wird gelernt (weniger Fehler)

Merkmal A: Selbstwirksamkeitsüberzeugung

Merkmal B: Lerngeschwindigkeit

In allen Beispielen werden Merkmale in Beziehung gesetzt

TU Dresden

Page 38: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 38

Möglichkeiten zur Analyse des Zusammenhangs

Mittelwertvergleich• Unterscheiden sich Gruppen hinsichtlich der

durchschnittlichen Ausprägung eines Merkmals?

Zusammenhangsanalyse (Korrelationsanalyse)• Gehen hohe/niedrige Werte in einem Merkmal mit

hohen/niedrigen Werten eines anderen Merkmals einher?

Regressionsanalyse• Wie lässt sich ein Merkmal X aus einem korrelierten

Merkmal Y am besten vorhersagen? • Welche Transformation der x-Werte führt zu einer

möglichst präzisen Schätzung der y-Werte?

TU Dresden

Page 39: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 39

Korrelationsrechnung

Gesucht: Maß für Stärke eines linearen Zusammenhangs zwischen zwei Größen

„Wie stark spiegeln sich Veränderungen in einem Merkmal in einem anderen wider?“

Ansätze:• Zur Anschauung: Fechners Korrelationsindex rF

• Kovarianz (zentrales Produktmoment): cov(), sxy

• Korrelationskoeffizient r

TU Dresden

Page 40: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 40

Fechners Korrelationsindex rF

Einfaches und anschauliches Maß• Abweichungsprodukt awp:

• nk = Anzahl der Objekte mit awp >0

• nd = Anzahl der Objekte mit awp <0

Interpretation:• rF=-1 Nur gegengerichtete Objekte

• rF=0 Gleich/gegengerichtet gleich häufig

• rF=1 Nur gleichgerichtete Objekte

Δx

Δy

dk

dk

F

nn

nnr

iiiii

yxyyxxawp

nd

nd nk

nk

TU Dresden

Page 41: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 41

Kovarianz

Berücksichtigt auch Stärke der Abweichung vom Mittelwert pro Objekt:

• COV(x,y)<0 negativer linearer Zusammenhang

• COV(x,y)~0 Kein Zusammenhang

• COV(x,y)>0 positiver linearer Zusammenhang

yxyxn

yyxxn

syxCOV

n

i

iii

n

i

ixy

11

11),(

TU Dresden

Page 42: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 42

Pearsons Korrelationskoeffizient

Normierung durch Produkt der Standardabweichungen

Invariant ggü. Lineartransformation

• r = -1 : perfekt negativ linearer Zusammenhang• r ~ 0 : kein linearer Zusammenhang

(X,Y müssen dennoch nicht unabhängig sein!)

• r =+1 : perfekt positiv linearer Zusammenhang

yxss

yxCOVr

),(

TU Dresden

Page 43: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 43

Scatterplots zu Korrelationskoeffizienten

Quelle: Bankhofer U., Vogel J. (2008)

a) c)b)

TU Dresden

Page 44: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 44

Ungewöhnliche Scatterplots zu Korrelationskoeffizienten

Quelle: Bankhofer U., Vogel J. (2008)

a) c)b)

TU Dresden

Page 45: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 45

Lineare Regression

Quelle: Bankhofer U., Vogel J. (2008)

TU Dresden

Page 46: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 46

Berechnung der Regressionsgeraden

xbay ˆˆ

.ˆˆ

,)var(

),cov(ˆ2

xbya

x

yx

s

sb

x

xy

TU Dresden

Page 47: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 47

Abschließende Hinweise

Ergebnisse der hier berichteten Verfahren haben nur Gültigkeit für die Stichprobe

Beispiel:

Experiment mit 10 Probanden• Merkmal 1: Verschiedene HMIs• Merkmal 2: Effizienz• r=0.3

Falsch: • HMI-Varianten und Effizienz korrelieren zu r =0.3

Richtig: • In dieser Untersuchung mit diesen Probanden

korrelieren die HMI-Varianten und die Effizienz zu r=0.3

TU Dresden

Page 48: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 48

Zusammenfassung

Statistik in der MMST• Anwendungsgebiete: Evaluationen, Data Mining

• Werkzeuge: R, SPSS, Statistica und viele andere

• Abgrenzung der deskriptiven zur induktiven Statistik

Einführung in die deskriptive Statistik• Die Skalenart entscheidet häufig darüber, welches statistische Verfahren überhaupt

sinnvoll anwendbar ist

• Deskriptive Kennwerte geben einen schnellen Überblick über grundlegende Eigenschaften einer Verteilungsfunktion

• Berechnung verschiedener Kennwerte

• Gefahren: Nicht alle Kennwerte sind immer sinnvoll

• Grafische Darstellungen ermöglichen es, Sachverhalte schnell zu erkennen, ohne Zahlen erfassen und Werte miteinander vergleichen zu müssen

• Ab zwei verbundenen Messgrößen kann die Korrelation von Merkmalen betrachtet werden

• Die lineare Regression wird verwendet um ein Merkmal Y aus einem korrelierten Merkmal X vorherzusagen

TU Dresden

Page 49: Deskriptive Statistik - TU Dresden · Statistik in der MMST • Anwendungsgebiete Evaluationen Data Mining • Werkzeuge Einführung in die deskriptive Statistik • Typen von Messgrößen

MMST © Urbas, Pfeffer 2011-2014 Folie Nr. 49

Literatur

Einführung in die Statistik

• [1] Bankhofer U., Vogel J. (2008). Datenanalyse und Statistik. Gabler, Wiesbaden.

• [2] Wirtz, M., Nachtigall, Ch. (2006). Deskriptive Statistik. Juventa, Weinheim.

• [3] Bortz, J., Döring, N. (2006). Forschungsmethoden und Evaluation. Springer, Berlin.

Einführung R

• [4] Dalgaard, P. (2008, 2nd. Ed). Introductory Statistics with R. Springer, Berlin.

http://www.biostat.ku.dk/~pd/ISwR.html.

• [5] Adler, J. (2009). R in a Nutshell. O‘Reilly, Sebastopol (CA).

Weiterführendes Material

• [6] Cohen, J. (1992). A power primer. Psychological Bulletin, 112, 155-159.

• [7] Sarris, V., & Reiß, S. (2005). Kurzer Leitfaden der Experimentalpsychologie. Pearson

Studium.

TU Dresden