Statistik I für Betriebswirte Vorlesung 9...Klassenbildung I Bei Erstellung einer H au...
Transcript of Statistik I für Betriebswirte Vorlesung 9...Klassenbildung I Bei Erstellung einer H au...
Statistik I fur BetriebswirteVorlesung 9
Prof. Dr. Hans-Jorg Starkloff
TU Bergakademie FreibergInstitut fur Stochastik
06. Juni 2016
Prof. Dr. Hans-Jorg Starkloff Statistik I fur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 1
2.2 Eindimensionale Merkmale
2.2.1 Haufigkeitsverteilungen
I Eine Stichprobe vom Umfang n sei erhoben und die Variable X (dasMerkmal X ) sei beobachtet worden.
I Urliste (Rohdaten): Liste, in der die erhobenen Beobachtungswertevon X nacheinander aufgeschrieben werden; Bezeichnung: x1, ..., xn .
I a1, ..., ak : Merkmalsauspragungen, die in der Urliste vorkommen;k ≤ n .
I Absolute Haufigkeit der Auspragung ai : Hi = H(ai ) beschreibt, wieoft die Auspragung ai bei den n Beobachtungen vorkommt.
I Relative Haufigkeit der Auspragung ai : hi = h(ai ) = Hin entspricht
dem Anteil der Auspragung ai bezogen auf die n Beobachtungen.
Prof. Dr. Hans-Jorg Starkloff Statistik I fur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 2
Beispiel 2.4 Prufungsnoten – UrlistePerson Note Person Note Person Note Person Note
1 4 16 3 31 4 46 12 3 17 2 32 1 47 23 3 18 5 33 4 48 44 1 19 3 34 2 49 55 5 20 4 35 3 50 36 4 21 4 36 5 51 57 5 22 5 37 5 52 48 3 23 4 38 4 53 59 1 24 5 39 3 54 2
10 5 25 5 40 4 55 211 5 26 5 51 4 56 312 2 27 3 42 4 57 513 3 28 4 43 3 58 414 5 29 5 44 3 59 415 3 30 4 45 5
Prof. Dr. Hans-Jorg Starkloff Statistik I fur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 3
Fortsetzung Beispiel 2.4Note (ai ) 1 2 3 4 5
abs H. (Hi ) 4 6 14 17 18rel. H. (hi ) 0.068 0.102 0.237 0.288 0.305
Prof. Dr. Hans-Jorg Starkloff Statistik I fur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 4
Klassenbildung
I Bei Erstellung einer Haufigkeitsverteilung ist es oft sinnvoll odersogar notig, die Informationen aus der Urliste zu straffen, falls
I die Anzahl der Merkmalsauspragungen k zu groß ist,I und/oder ein stetiges Merkmal vorliegt.
I Ausweg: Klassenbildung:Benachbarte Merkmalsauspragungen werden zu einer Klasse oderGruppe zusammen gefasst. In der gruppierten Haufigkeitsverteilungerscheinen nur noch die Gruppen mit der Haufigkeit allerAuspragungen in der Gruppe.
I Bei der Klassenbildung ist zu beachten:I Merkmalsauspragungen moglichst gleichmaßig auf die Klassen
verteilen (moglichst gleiche Klassenbreite);I keine Uberschneidungen der Klassen;I Klassen mussen vollstandig sein.
Prof. Dr. Hans-Jorg Starkloff Statistik I fur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 5
Beispiel 2.5 Mieten
Merkmal: Mieten (2013) fur zufallig ausgewahlte Einraumwohnungen inBerlin Mitte in Euro Quelle: Eckstein, Statistik fur Wirtschaftswissenschaftler, 5. Auflage 2016, Springer
Urliste fur n = 45 Wohnungen:
219 275 163 299 268 282 283.1 195.4 327.7272 243 310 324 280 285 329 227 265.6334.1 150 321 322 307 300 238 322.5 332.3385 292.2 360 341 418 340.3 275 286 365402.1 351 408 501.4 509.5 670 926.1 910 1087
Prof. Dr. Hans-Jorg Starkloff Statistik I fur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 6
Haufigkeitstabelle fur gruppierte (klassierte) DatenBeispiel 2.5 Mieten
Häufigkeitstabellen für MieteUntere Obere Relative Kumulative Kum. Rel.
Klasse Grenze Grenze Mittelpunkt Häufigkeit Häufigkeit Häufigkeit Häufigkeitbei oder unterhalb 100 0 0,0000 0 0,0000
1 100 200,0 150,0 3 0,0667 3 0,06672 200 300,0 250,0 17 0,3778 20 0,44443 300 400,0 350,0 16 0,3556 36 0,80004 400 500,0 450,0 3 0,0667 39 0,86675 500 600,0 550,0 2 0,0444 41 0,91116 600 700,0 650,0 1 0,0222 42 0,93337 700 800,0 750,0 0 0,0000 42 0,93338 800 900,0 850,0 0 0,0000 42 0,93339 900 1000,0 950,0 2 0,0444 44 0,977810 1000 1100,0 1050,0 1 0,0222 45 1,0000
oberhalb 1100 0 0,0000 45 1,0000Mittelwert = 362,273 Standardabweichungen = 188,907
Der StatAdvisorHier wird eine Häufigkeitstabelle erzeugt, indem der Wertebereich von Miete in gleichbreite Intervalle aufgeteilt und die Anzahl von Datenwerten in jedem Intervall gezählt wird. Die (absoluten) Häufigkeiten sind die Anzahl von Datenwerten in jedem Intervall, während die relativen Häufigkeiten den Anteil der Daten in jedem Intervall (bezogen auf die Gesamtanzahl) zeigen. Sie können die Einstellungen für die Intervalle ändern, indem Sie die rechte Maustaste drücken und die Ergebnisfenster-Optionen auswählen. Sie können sich die Häufigkeiten in einer Grafik anschauen, wenn Sie das Häufigkeitsdiagramm von der Liste der Grafiken auswählen.
Prof. Dr. Hans-Jorg Starkloff Statistik I fur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 7
Histogramm fur gruppierte Daten
Bemerkung: Regel fur Saulenhohen: Hohe= Besetzungszahl/Breite , beiabweichenden Klassenbreiten wird die Skalierung der senkrechten Achsemeistens weggelassen.
Histogramm Beispiel 2.5 Mieten
Prof. Dr. Hans-Jorg Starkloff Statistik I fur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 8
2.2.2 Statistische Kenngroßen
I Lagemaße(Wo liegt Mehrzahl / Mitte / Schwerpunkt der beobachtetenMerkmalswerte?)
I Streumaße(Uber welchen Bereich erstrecken sich die Beobachtungen, wie starkschwanken sie?)
I Konzentrationsmaße(Wie sind die Merkmalsauspragungen auf die Merkmalstragerverteilt?)
Prof. Dr. Hans-Jorg Starkloff Statistik I fur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 9
Lagemaße
i) Mittelwerte
(fur quantitative Merkmale)
a) Arithmetisches Mittel:
x =1
n
n∑i=1
xi =1
n(x1 + x2 + . . .+ xn) .
I Auf Basis relativer Haufigkeiten:
x =m∑j=1
hjaj = h1a1 + h2a2 + . . .+ hmam
bei m Merkmalsauspragungen aj und relativen Haufigkeiten hj .
I Im Beispiel 2.5 Mieten: x =219 + . . .+ 1087
45= 362.273 .
Prof. Dr. Hans-Jorg Starkloff Statistik I fur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 10
Klassierte (gruppierte) Daten
Die Formel
x =m∑j=1
hjaj = h1a1 + h2a2 + . . .+ hmam
kann auch fur klassierte Daten verwendet werden zur naherungsweisenBerechnung des arithmetischen Mittels mit aj , Klassenmitten.
Z.B. in Beispiel 2.5 gilt
x ≈ 363.333 =
3 · 150 + 17 · 250 + 16 · 350 + 3 · 450 + 2 · 550 + 650 + 2 · 950 + 1050
45.
Prof. Dr. Hans-Jorg Starkloff Statistik I fur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 11
Zusammenfassung von Mittelwerten
I Beispiel 2.6 (Quelle: Bleymuller et al, Statistik fur Wirtschaftswissenschaftler, 14. Auflage)Unternehmen mit Betrieben A und BA: 400 Beschaftige mit Bruttodurchschnittsverdienst 1920.84 eB: 300 Beschaftige mit Bruttodurchschnittsverdienst 2012.17 e⇒ durchschnittlicher Bruttomonatsverdienst samtlicher 700Beschaftigten von A und B zusammen:
x =400 · 1920.84 e+ 300 · 2012.17 e
700= 1959.98 e
I Fur Mittelwerte aus Teilgesamtheiten gilt:Liegt ein Datensatz in r Teilgesamtheiten (sog. Schichten) vor undkennt man die Stichprobenumfange nj sowie die arithmetischenMittel x j pro Schicht, so lasst sich daraus das Gesamtmittel xberechnen als
x =1
n
r∑j=1
nj · x j .
Prof. Dr. Hans-Jorg Starkloff Statistik I fur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 12
b) Geometrisches Mittel
Definition: xG = n√x1 · x2 · . . . · xn
I Voraussetzung: xi > 0, i = 1, 2, . . . , n .
I Berechnung uber Haufigkeiten: xG = ah11 · a
h22 · . . . · a
hmm
bei m Merkmalsauspragungen aj und relativen Haufigkeiten hj .
I Anwendung zum Beispiel bei der Mittelung von Wachstumsfaktoren.
I ZahlenbeispielZeitpunkt 0 1 2
Kapital 100 81 100
Wachstumsfaktor x1 = 0.81 x2 = 1.234
⇒ xG = 1.000aber x = 1.022 (obwohl insgesamt kein Wachstum des Kapitals).
I Es gilt immer xG ≤ x .
Prof. Dr. Hans-Jorg Starkloff Statistik I fur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 13
ii) Empirische Quantile
I Ordnen der Datenreihe x1, x2, . . . , xn ergibt geordnete Datenreihe(geordnete Stichprobe, Variationsreihe)
xmin := x(1) ≤ x(2) ≤ . . . ≤ x(n−1) ≤ x(n) =: xmax .
I Empirisches α-Quantil (0 < α < 1): Zahlenwert xα, so dassα · 100% der Werte in der Variationsreihe links davon liegen:
xα =
x(k) falls nα keine ganze Zahl ist, k ist
dann die auf nα folgende ganze Zahl
12
(x(k) + x(k+1)
)falls nα =: k eine ganze Zahl ist
(fur quantitative Merkmale).
Prof. Dr. Hans-Jorg Starkloff Statistik I fur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 14
Empirischer Median, empirische Quartile
I Empirischer Median: empirisches 0.5-Quantil, (mittlerer Wert dergeordneten Stichprobe)
x = xmed := x0.5 =
x( n+12 ), falls n ungerade;
12
(x( n
2 ) + x( n2
+1)
), falls n gerade.
I Unteres empirisches Quartil (unterer Viertelwert): Vu = x0.25 .
I Oberes empirisches Quartil (oberer Viertelwert): Vo = x0.75 .
I Bemerkung: Der arithmetische Mittelwert x ist empfindlichgegenuber Ausreißern, der Median x weniger.
Prof. Dr. Hans-Jorg Starkloff Statistik I fur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 15
iii) Empirischer Modalwert, Modus
I xmod Wert mit der großten Haufigkeit in der Stichprobe.
I Hangt bei klassierten Daten stark von der gewahltenKlasseneinteilung ab ⇒ Modalklasse.
I Im Allgemeinen gilt x 6= x 6= xmod .
I Auch verwendbar bei qualitativen Merkmalen.
I Zum Beispiel Partei mit den meisten Stimmen bei einer Wahl.
Prof. Dr. Hans-Jorg Starkloff Statistik I fur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 16
Streumaße (fur metrisch skalierte Daten)
I Spannweite: ∆ = xmax − xmin .
I Quartilsabstand (Viertelweite): dQ = Vo − Vu .
I Empirische Varianz (Stichprobenstreuung):
s2 =1
n − 1
n∑i=1
(xi − x)2 =1
n − 1
(n∑
i=1
x2i − nx2
).
I Empirische Standardabweichung: s =√s2 .
I Empirischer Variationskoeffizient: v =s
x· 100% (falls x > 0),
besitzt keine phys. Einheit, er ist fur kleine Werte x nicht sehraussagekraftig.
I Ausreißergrenzen: Au = Vu − 1.5dQ Ao = Vo + 1.5dQ .
(sogenannte innere Zaune; außere Zaune bei ±3dQ).
Prof. Dr. Hans-Jorg Starkloff Statistik I fur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 17
Beispieldaten
I Geordnete Stichprobe: (n = 11)k 1 2 3 4 5 6 7 8 9 10 11
x(k) 1 4 13 14 14 15 17 19 19 21 23
I Median: 11 · 0.5 = 5.5 ⇒ x = x(6) = 15 .
I Unteres Quartil: 11 · 0.25 = 2.75 ⇒ Vu = x(3) = 13 .
I Oberes Quartil: 11 · 0.75 = 8.25 ⇒ Vo = x(9) = 19 .
I Quartilsabstand (Viertelweite): dQ = Vo − Vu = 19− 13 = 6 .
I Ausreißergrenzen:Au = Vu − 1.5dQ = 13− 9 = 4 = x(2) ,Ao = Vo + 1.5dQ = 19 + 9 = 28 > x(11) = 23 .
Prof. Dr. Hans-Jorg Starkloff Statistik I fur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 18
Statgraphics fur Beispieldatensatz
k 1 2 3 4 5 6 7 8 9 10 11
x(k) 1 4 13 14 14 15 17 19 19 21 23
Summenstatistiken für Col_1Anzahl 11Arithm. Mittelwert 14,5455Standardabweichungen 6,75816Variationskoeffizient 46,4624%Minimum 1,0Maximum 23,0Spannweite 22,0Stand. Schiefe -1,39246Stand. Wölbung 0,374684
Der StatAdvisorDiese Tabelle zeigt Summenstatistiken für Col_1. Sie enthält Maßzahlen für die zentrale Lage, die Variabilität und die Gestalt der Verteilung. Von speziellem Interesse sind hier die standardisierte Schiefe und die standardisierte Wölbung, die man verwenden kann, um herauszufinden, ob die Daten normalverteilt sind. Falls die Werte dieser Statistiken außerhalb des Bereiches von –2 bis +2 liegen, bedeutet das eine signifikante Abweichung von der Normalverteilung, wodurch ein statistischer Test (bei dem Normalverteilung unterstellt wird) (z.B.) mit Bezug zur Standardabweichung problematisch ist. In diesem Fall liegt der Wert für die standardisierte Schiefe innerhalb des Bereiches, den man für normalverteilte Daten erwarten würde. Der Wert für die standardisierte Wölbung liegt innerhalb des Bereiches, den man für normalverteilte Daten erwarten würde.
Perzentile für Col_1Perzentile
1,0% 1,05,0% 1,010,0% 4,025,0% 13,050,0% 15,075,0% 19,090,0% 21,095,0% 23,099,0% 23,0
Der StatAdvisorDieses Ergebnisfenster zeigt die Stichproben-Perzentile für Col_1 an. Das Perzentil ist ein Wert, für den ein bestimmter Prozentsatz der Daten kleiner oder gleich dieser Zahl ist. Sie können sich die Perzentile in einer Grafik anschauen, wenn Sie das Quantil-Diagramm von der Liste der Grafiken auswählen.
Box-Whisker-Plot
0 4 8 12 16 20 24
Col_1
Prof. Dr. Hans-Jorg Starkloff Statistik I fur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 19
Box-Plot I
I Aussagekraftige graphische Darstellung der Funfer-Charakteristik,bestehend aus Median x , den empirischen Quartilen (Viertelwerten)Vu,Vo und den Ausreißergrenzen Au,Ao .
I Die untere Begrenzungslinie wird dabei bestimmt durch denkleinsten Wert, der ≥ Au ist, (= xmin falls xmin ≥ Au) wahrend dieobere Begrenzungslinie durch den großten Wert, der ≤ Ao ist,definiert wird (= xmax falls xmax ≤ Ao).
I Ausreißer (Datenwerte außerhalb der Ausreißergrenzen) werdenextra durch Punkte angegeben.
Prof. Dr. Hans-Jorg Starkloff Statistik I fur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 20
Box-Plot II Beispiel 2.5 Mieten
Box-Whisker-Plot
0 200 400 600 800 1000 1200
Miete
Prof. Dr. Hans-Jorg Starkloff Statistik I fur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 21
Box-Plot III Beispiel zum Vergleich
Box-and-Whisker Plot
Fach
Punk
te
1 2 3 4 5 6 70
10
20
30
40
1: Bilanzierung 5: Produktion und Beschaffung 2: Wirtschaftsinformatik 6: Investition und Finanzierung
3: Organisation 7: Anlagenwirtschaft 4: Marketing
Prof. Dr. Hans-Jorg Starkloff Statistik I fur Betriebswirte Vorlesung 9 Version: 13. Juni 2016 22