Einige Grundbegriffe der Statistik -...

11
Einige Grundbegriffe der Statistik Philipp Mitteröcker Statistik (statistics) stammt vom lateinischen„statisticum“ („den Staat betreffend“) und dem italienischen „statista“ („Staatsmann" oder „Politiker“). Basic terms John Graunt (1662) “Observations on the Bills of Mortality” Historical roots Handling of demographic and economic data (“political arithmetic”) 17th century Development of Probability Theory by Pascal, Fermat, and Bernoulli 1794 The method of least squares was described by Carl Friedrich Gauss 19th and early 20th century Francis Galton, Florence Nightingale, Karl Pearson, Ronald A. Fischer

Transcript of Einige Grundbegriffe der Statistik -...

Page 1: Einige Grundbegriffe der Statistik - univie.ac.attheoretical.univie.ac.at/fileadmin/user_upload/dep... · Deskriptive Statistik Zentrale Tendenz (central tendency) Modus (mode), Median

Einige Grundbegriffe der Statistik

Philipp Mitteröcker

Statistik (statistics)

stammt vom lateinischen„statisticum“ („den Staat betreffend“) und dem italienischen „statista“ („Staatsmann" oder „Politiker“).

Basic terms

John Graunt (1662) “Observations on the Bills of Mortality”

Historical roots

Handling of demographic and economic data (“political arithmetic”)

17th century

Development of Probability Theory by Pascal, Fermat, and Bernoulli

1794

The method of least squares was described by Carl Friedrich Gauss

19th and early 20th century

Francis Galton, Florence Nightingale, Karl Pearson, Ronald A. Fischer

Page 2: Einige Grundbegriffe der Statistik - univie.ac.attheoretical.univie.ac.at/fileadmin/user_upload/dep... · Deskriptive Statistik Zentrale Tendenz (central tendency) Modus (mode), Median

Historical roots

Descriptive statistics

Inferential statistics (hypothesis tests, confirmatory a.)

Exploratory analysis, modeling, data mining

Applied statistics

Mathematical statistics

Basic terms

Biometrics, psychometrics, econometrics, morphometrics...

metron = measurement

Basic terms

Page 3: Einige Grundbegriffe der Statistik - univie.ac.attheoretical.univie.ac.at/fileadmin/user_upload/dep... · Deskriptive Statistik Zentrale Tendenz (central tendency) Modus (mode), Median

Data (sing. Datum), Informa3on, Knowledge

Theory, Hypothesis

Basic terms

Measurement The process of assigning a number to an a3ribute (or phenomenon) according to a rule or set of rules.

SampleA collec:on of individual observa:ons selected by a specifc procedure.

Popula3onTotality of individual observa:ons about which inferences are to be made

Univariat statistics

Basic terms

Multivariat statistics

Bivariat statistics

VariableA symbol that stands for a value that may vary.

Präzision (precision)

Genauigkeit (accuracy)

Messungen

Ein Maß dafür, wie nahe die experimentellen Ergebnisse dem eigentlichen Wert kommen.

Maß für die Verlässlichkeit bzw. Reproduzierbarkeit einer Messung (reproducibility).

Differenz zwischen Mittelwert der Messungen und dem Referenz- oder Erwartungswert.

Verzerrung (bias)

Page 4: Einige Grundbegriffe der Statistik - univie.ac.attheoretical.univie.ac.at/fileadmin/user_upload/dep... · Deskriptive Statistik Zentrale Tendenz (central tendency) Modus (mode), Median

Messungen

Messungen

Estimating measurement error by repeated measures

Random error

Systematic error

Messungen

Versehen, Ausreißer (outlier)

Fehler oder wich:ge Messung?

Page 5: Einige Grundbegriffe der Statistik - univie.ac.attheoretical.univie.ac.at/fileadmin/user_upload/dep... · Deskriptive Statistik Zentrale Tendenz (central tendency) Modus (mode), Median

Messungen

Longitudinal versus cross-sectional data

Ordinalskala (ordinal scale)

Nominalskala (nominal scale, categorial data)

Intervallskala (interval scale)

Verhältnisskala (ratio scale)

z.B. Geschlecht, Nationalität

z.B. Noten, Rangfolgen, viele Variablen in der Psychometrie

kein natürlicher Nullpunkt, d.h. Differenzen aber keine Verhältnisse, z.B. Grad Celsius

z.B. Körpergröße, Anzahl der Bücher die ich besitze,Häufigkeiten, Grad Kelvin

Datenskalierung

Kontinuierliche Daten

Diskrete (meristische) Daten

keine „Zwischenwerte“, z.B. natürliche Zahlen, Rangfolgen,Anzahl von Fischen in einem Teich, Skala von 1 – 10

z.B. reelle Zahlen, cm, kg, Grad Celsius …

Datenskalierung

Page 6: Einige Grundbegriffe der Statistik - univie.ac.attheoretical.univie.ac.at/fileadmin/user_upload/dep... · Deskriptive Statistik Zentrale Tendenz (central tendency) Modus (mode), Median

Deskriptive Statistik

Frequency plots

Deskriptive Statistik

Frequency plots

Deskriptive Statistik

Page 7: Einige Grundbegriffe der Statistik - univie.ac.attheoretical.univie.ac.at/fileadmin/user_upload/dep... · Deskriptive Statistik Zentrale Tendenz (central tendency) Modus (mode), Median

Deskriptive Statistik

Scatter plot

Spanneweite (range), Varianz (variance), Standardabweichung (standard

deviation), Quantilen (quantiles)

Coefficient of Variation

Streuung (dispersion, spread)

Deskriptive Statistik

Zentrale Tendenz (central tendency)

Modus (mode), Median (median)

Mittelwert (mean), gewichteter Mittelwert (weighted mean)

arithmetisches, geometrisches, harmonisches Mittel

The problem of multimodal distributions and outliers

Deskriptive Statistik

Page 8: Einige Grundbegriffe der Statistik - univie.ac.attheoretical.univie.ac.at/fileadmin/user_upload/dep... · Deskriptive Statistik Zentrale Tendenz (central tendency) Modus (mode), Median

Ordinalskala (ordinal scale)

Nominalskala (nominal scale, categorial data)

Intervallskala (interval scale)

Verhältnisskala (ratio scale)

mode, frequencies (contingency tables)

median, percentile

mean, standard deviation, correlation, regression, analysis of variance

geometric mean, coefficient of variation, logarithms

Datenskalierung

Deskriptive Statistik

Bivariate statisticsCovariance, Correlation

How to describe a bivariate distribu:on?

r = 0 ... kein linearer Zusammenhang

r = 1 oder -1 ... streng linearer Zusammenhang

1 ... positiver Zusammenhang-1 ... negativ Zusammenhang

-1 < r < 1

Korrelation

Page 9: Einige Grundbegriffe der Statistik - univie.ac.attheoretical.univie.ac.at/fileadmin/user_upload/dep... · Deskriptive Statistik Zentrale Tendenz (central tendency) Modus (mode), Median

Bivariate Verteilung

s12 = 0.647

„Equal frequency ellipses“

Data matrix

Var. 1   Var. 2   Var. 3 Var. 4 ...

Case 1  

Case 2  

Case 3

Case 4

Case 5

...

0. 1 0. 2 0. 3 0. 4 0. 5 0. 6 0. 7 0. 0

0. 1

0. 2

0. 3

0. 4

0. 5

0. 6

0. 7

1 2

3 0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

2

0.10.2

0.30.4

0.50.6

1

0.1

0.2

3

A

A

B

B

Q-space R-space

Statistische Räume

Page 10: Einige Grundbegriffe der Statistik - univie.ac.attheoretical.univie.ac.at/fileadmin/user_upload/dep... · Deskriptive Statistik Zentrale Tendenz (central tendency) Modus (mode), Median

Multivariate Verteilung

Beschreibung einer multivariaten Normalverteilung durch die

Varianz-Kovarianzmatrix

s12 s12 s1n

s21 s22

sn1 sn2

Multivariate Verteilung

Korrelationsmatrix

1 r12 r1n

r21 1

rn1 1

Bivariate Verteilung

0.950 0.647

0.647 0.820

1.535 0

0 0.235

Diagonalisieren einer Kovarianzmatrix

Page 11: Einige Grundbegriffe der Statistik - univie.ac.attheoretical.univie.ac.at/fileadmin/user_upload/dep... · Deskriptive Statistik Zentrale Tendenz (central tendency) Modus (mode), Median

Hauptkomponenten

Hauptkomponentenanalyse

Principal Component Analysis (PCA)

Rotation von Datenräumen

Discriminant function analysis