Einige Grundbegriffe der Statistik -...
Transcript of Einige Grundbegriffe der Statistik -...
Einige Grundbegriffe der Statistik
Philipp Mitteröcker
Statistik (statistics)
stammt vom lateinischen„statisticum“ („den Staat betreffend“) und dem italienischen „statista“ („Staatsmann" oder „Politiker“).
Basic terms
John Graunt (1662) “Observations on the Bills of Mortality”
Historical roots
Handling of demographic and economic data (“political arithmetic”)
17th century
Development of Probability Theory by Pascal, Fermat, and Bernoulli
1794
The method of least squares was described by Carl Friedrich Gauss
19th and early 20th century
Francis Galton, Florence Nightingale, Karl Pearson, Ronald A. Fischer
Historical roots
Descriptive statistics
Inferential statistics (hypothesis tests, confirmatory a.)
Exploratory analysis, modeling, data mining
Applied statistics
Mathematical statistics
Basic terms
Biometrics, psychometrics, econometrics, morphometrics...
metron = measurement
Basic terms
Data (sing. Datum), Informa3on, Knowledge
Theory, Hypothesis
Basic terms
Measurement The process of assigning a number to an a3ribute (or phenomenon) according to a rule or set of rules.
SampleA collec:on of individual observa:ons selected by a specifc procedure.
Popula3onTotality of individual observa:ons about which inferences are to be made
Univariat statistics
Basic terms
Multivariat statistics
Bivariat statistics
VariableA symbol that stands for a value that may vary.
Präzision (precision)
Genauigkeit (accuracy)
Messungen
Ein Maß dafür, wie nahe die experimentellen Ergebnisse dem eigentlichen Wert kommen.
Maß für die Verlässlichkeit bzw. Reproduzierbarkeit einer Messung (reproducibility).
Differenz zwischen Mittelwert der Messungen und dem Referenz- oder Erwartungswert.
Verzerrung (bias)
Messungen
Messungen
Estimating measurement error by repeated measures
Random error
Systematic error
Messungen
Versehen, Ausreißer (outlier)
Fehler oder wich:ge Messung?
Messungen
Longitudinal versus cross-sectional data
Ordinalskala (ordinal scale)
Nominalskala (nominal scale, categorial data)
Intervallskala (interval scale)
Verhältnisskala (ratio scale)
z.B. Geschlecht, Nationalität
z.B. Noten, Rangfolgen, viele Variablen in der Psychometrie
kein natürlicher Nullpunkt, d.h. Differenzen aber keine Verhältnisse, z.B. Grad Celsius
z.B. Körpergröße, Anzahl der Bücher die ich besitze,Häufigkeiten, Grad Kelvin
Datenskalierung
Kontinuierliche Daten
Diskrete (meristische) Daten
keine „Zwischenwerte“, z.B. natürliche Zahlen, Rangfolgen,Anzahl von Fischen in einem Teich, Skala von 1 – 10
z.B. reelle Zahlen, cm, kg, Grad Celsius …
Datenskalierung
Deskriptive Statistik
Frequency plots
Deskriptive Statistik
Frequency plots
Deskriptive Statistik
Deskriptive Statistik
Scatter plot
Spanneweite (range), Varianz (variance), Standardabweichung (standard
deviation), Quantilen (quantiles)
Coefficient of Variation
Streuung (dispersion, spread)
Deskriptive Statistik
Zentrale Tendenz (central tendency)
Modus (mode), Median (median)
Mittelwert (mean), gewichteter Mittelwert (weighted mean)
arithmetisches, geometrisches, harmonisches Mittel
The problem of multimodal distributions and outliers
Deskriptive Statistik
Ordinalskala (ordinal scale)
Nominalskala (nominal scale, categorial data)
Intervallskala (interval scale)
Verhältnisskala (ratio scale)
mode, frequencies (contingency tables)
median, percentile
mean, standard deviation, correlation, regression, analysis of variance
geometric mean, coefficient of variation, logarithms
Datenskalierung
Deskriptive Statistik
Bivariate statisticsCovariance, Correlation
How to describe a bivariate distribu:on?
r = 0 ... kein linearer Zusammenhang
r = 1 oder -1 ... streng linearer Zusammenhang
1 ... positiver Zusammenhang-1 ... negativ Zusammenhang
-1 < r < 1
Korrelation
Bivariate Verteilung
s12 = 0.647
„Equal frequency ellipses“
Data matrix
Var. 1 Var. 2 Var. 3 Var. 4 ...
Case 1
Case 2
Case 3
Case 4
Case 5
...
0. 1 0. 2 0. 3 0. 4 0. 5 0. 6 0. 7 0. 0
0. 1
0. 2
0. 3
0. 4
0. 5
0. 6
0. 7
1 2
3 0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
2
0.10.2
0.30.4
0.50.6
1
0.1
0.2
3
A
A
B
B
Q-space R-space
Statistische Räume
Multivariate Verteilung
Beschreibung einer multivariaten Normalverteilung durch die
Varianz-Kovarianzmatrix
s12 s12 s1n
s21 s22
sn1 sn2
Multivariate Verteilung
Korrelationsmatrix
1 r12 r1n
r21 1
rn1 1
Bivariate Verteilung
0.950 0.647
0.647 0.820
1.535 0
0 0.235
Diagonalisieren einer Kovarianzmatrix
Hauptkomponenten
Hauptkomponentenanalyse
Principal Component Analysis (PCA)
Rotation von Datenräumen
Discriminant function analysis