Biostatistik 101
Carl Herrmann IPMB Uni Heidelberg & DKFZ [email protected]
“Good Data don't need statistics”
Korrelation - Regressionsanalysen
Korrelation
Sind Alter und Blutdruck miteinanderverbunden ?
Keine Annahme, was Ursache und Konsequenz ist !!
Streudiagramme = Scatter Plot
Verhältnis von 2 Variabeln
● Varianz :
● Kovarianz :
negativ
negativ
positiv
positiv
die Kovarianz ist nicht skaleninvariant !
Kovarianz / Korrelation einer Stichprobe
● Kovarianz
● Korrelation (Pearson's Korrelation ρ )
● Eigenschaften Skaleninvarianz
Borniertheit
Beispiele
Beispiele
Korrelation und Steigung
● die Korrelation alleine sagt nichts über die Steigung !
Korrelationen interpretieren
● Korrelation ~ 0 bedeutet nicht, daßes keinen Zusammenhangzwischen den Variabeln gibt !
● Ungekehrt kann eine starkeKorrelation durch wenigeAusreißer beeinflußt werden
● Korrelation bedeutet nichtKausalität…http://tylervigen.com/spurious-correlations
Anscombe Quartet
r = 0.816 in allen 4 Fällen ...
Hypothesen Tests
● H0 : die Korrelation zwischen den Zufallsvariablen X,Y ist null ...
● Standardfehler des Korrelationskoeffizientes
● Test-Statistik : t-Verteilung mit n-2 Freiheitsgraden
t-Verteilung
Beispiel> cor.test(diab[1:30,7],diab[1:30,12])
Pearson's product-moment correlation
data: diab[1:30, 7] and diab[1:30, 12]
t = 2.386, df = 28, p-value = 0.02404
alternative hypothesis: true correlation is not equal
to 0
95 percent confidence interval:
0.05960801 0.67182894
sample estimates:
cor
0.41105
pupper=0.012p2tail=0.024
t=2.386
Konfidenzinterval
● Konfidenzinterval kann nicht direkt für r berechnet werden, da dieStichprobenverteilung nicht Normal ist
● r → z' : z' ist (einigermaßen ) Normalverteilt
● Berechnung des CI auf z' und inverse Transformation z' → r
● Beispielberechnung : r = 0.41 , n = 30
Konfidenzinterval
● 2 Zufallsvariablen X , Y mitKorrelation : ρ = 0.6
● Stichproben x , y vonverschiedenen Größen n
● Verteilung derKorrelationswerte r→ KEINE Normalverteilung
● Fisher's Transformation
~ Normalverteilung mitStandardabweichung
Spearman Korrelation
● Pearson Korrelation kann von einigen Ausreißern stark beeinflußtwerden
● Um diesen Effekt zu beheben wird die Korrelation nach Spearmanberechnet → Ränge
● Werte → Ränge → Korrelation der Ränge
cor = 0.67
Werte Ränge
Ausreißer
cor = -0.11cor =0.67
Regressionsmodelle
Lineare Regression
● Man geht von einer linearenBeziehung zwischen 2Variabeln (X,Y) aus
● für jeden Wert Xi kann manden Wert Yi abschätzen
● b1 = Steigungb0 = Schnittpunkt
Y
Ŷ
Prinzip der kleinsten Quadrate
● die Parameter derRegressionslinie werdenmittels der kleinstenQuadrate („least square“)bestimmt
Residuen
● der geschätzte Wert ist nichtgleich dem reellen Wert
● es gilt
● ei sind die Residuen
Residuen
● der ganze Einfluß von X istdurch „aufgesaugt“ worden
● X hat keinen Einfluß auf dieResiduen ei
Residuen
● die Residuen sollten nicht mit X korrelieren
Mittelwert = 0 haben
normalverteilt sein mitMittelwert 0
● Trifft das nicht zu ist dieBeziehung von X,Ynicht linear→ wichtiger Test !
Wie gut ist das Regressionsmodel?
● Ist das Regressionsmodel besser als das einfache Model Y=Y ?
● Vermutlich genauer, aber dafür komplizierter
→ lohnt sich der Aufwand ?
Varianzzerlegung
● die Varianz von Y kann zerlegtwerden in einzelneKomponenten
Varianz von Ŷ
Varianz der Residuen e
● da corr(Ŷ,e) = 0 gilt :
Total Sum of Squares (SST)
Model Sum of Sq. (SSM)
Residual Sum of Sq. (SSR)
Wie gut ist der Fit ?
● bei einem guten Fit sollte SSR klein sein und SSM einen großenAnteil von SST ausmachen
● R² ist der Anteil der Varianz, die durch das Model erklärt wird
● es gilt
Total Sum of Squares (SST)
Model Sum of Sq. (SSM)
Residual Sum of Sq. (SSR)
corr(X,Y) = 0.6 → ein lineares Regressionsmodel kann 36% der Varianz erklären
Wie gut ist der Fit ?
● erklärte Varianz :
● nicht erklärte Varianz :
Total Sum of Squares (SST)
Model Sum of Sq. (SSM)
Residual Sum of Sq. (SSR)
Wie gut ist der Fit ?
● F-ratio = Verhältnis der Varianzen
● F-Ratio kann mit einem F-Testauf Signifikanz untersucht werden
Total Sum of Squares (SST)
Model Sum of Sq. (SSM)
Residual Sum of Sq. (SSR)
Anzahl der Datenpunkte
Anzahl der betaKoeffizienten =Anzahl Variablen + 1
df = 1
df = n-2
H0: das lineare Modelist nicht signifikant besser als Y = Y
Hypothesentest für Koeffizienten
● wenn b1 = 0 kann Y nicht durch X vorhergesagt werden
● andersrum gilt : wenn b1 signifikant von 0 abweicht, dann bestehteine lineare Beziehung
● Achtung ! ein kleiner b1 Wert kann signifikant von 0 abweichen
ein großer b1 Wert kann mit b1 = 0 kompatibel sein
● Abweichung von 0 kann mit einem t-Test bestimmt werden.H0 : b1=0 Standardabweichung
der Residuen
Hypothesentest für Koeffizienten
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.95159 0.15391 19.177 1.99e-13 ***x 0.10668 0.01309 8.147 1.89e-07 ***
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.926370 0.032410 90.29 <2e-16 ***x 0.104333 0.002757 37.84 <2e-16 ***
→ größerer Einfluß des Störfaktors führtzu größerer Unsicherheit bei Bestimmungder Regressionskoeffizienten
Hypothesentest für Koeffizienten
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.92637 0.03241 90.29 <2e-16 ***x 2.08667 0.05515 37.84 <2e-16 ***
Ungenauere Bestimmung von b1 wenn die X-Wertenäher bei einander liegen
Beispiel einer linearen Regression
> l <- lm(weight ~ height,data=diab)> summary(l)Call:lm(formula = weight ~ height, data = diab)Residuals: Min 1Q Median 3Q Max -82.906 -26.380 -6.731 21.331 152.445 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 6.9422 33.1694 0.209 0.834 height 2.5877 0.5016 5.159 3.94e-07***---Residual standard error: 39.13 on 395 degrees offreedom (6 observations deleted due to missingness)Multiple R-squared: 0.06313, Adjusted R-squared: 0.06076 F-statistic: 26.62 on 1 and 395 DF, p-value:3.938e-07
n = 397
nur 6% der Varianz kann durch das Model erklärt werden
Diagnostic plots
Residuenverteilungist unabhängig vonder Variablen
Residuen sind (ungefähr..)Normalverteilt
Ein Gegenbeispiel ...
> summary(l)Call:lm(formula = y ~ x, data = data.frame(x = x, y = y))Residuals: Min 1Q Median 3Q Max -4.660 -1.721 -0.242 1.506 6.495 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -4.26400 0.19459 -21.91 <2e-16 ***x 5.01129 0.06737 74.38 <2e-16 ***---Residual standard error: 2.181 on 499 degrees of freedomMultiple R-squared: 0.9173, Adjusted R-squared: 0.9171 F-statistic: 5533 on 1 and 499 DF, p-value: < 2.2e-16
Ein Gegenbeispiel ...
Residuenverteilungist keine unabhängige Funktionvon x ...
Residuen sind NICHTnormalverteilt !
Lineare Regression mit Kategorien
A B C D
1 21 18 19 14
2 22 16 19 13
3 19 15 16 12
4 18 13 14 11
Summe 80 62 68 50
Mittelwert 20 15.5 17 12.5
● 4 unterschiedlicheWeizensorten (A,B,C,D) werdengetestet, jeweils auf 4Parzellen
● Gibt es einen signifikantenUnterschied im Ertrag ?
Varianzanalyse (one-way ANOVA)
● Ist die Varianz zwischen denGruppen signifikant größer als dieVarianzen innerhalb dereinzelnen Gruppen ?→ Varianzanalyse (ANOVA)
Xij = Einzelwert
X = Gesamtmittelwert
αi = Faktoreneffekt
eij = RestfehlerGesamtmittelwert X
Varianzanalyse (one-way ANOVA)
● Zerlegung der Varianz(i=Gruppe A,B,C,D; j=Replikat 1,2,3,4)
X = Gesamtmittelwert
Xi = Mittelwert der Gruppe Gesamtmittelwert X
Varianz zwischen denGruppen
Varianz innerhalb der Gruppe
Freiheitsgrade
SS SS F
Faktor 3 117 39 10.17
Restfehler 12 46 3.833
Gesamt 15 163
Freiheitsgrade: 3 : 4 Gruppen – 1 Gesamtmittelwert12 : 16 Datenpunkte – 4 Gruppenmittelwerte15 : 16 Datenpunkte – 1 Gesamtmittelwert
Total Sum of Squares (SST)
Model Sum of Sq. (SSM)
Residual Sum of Sq. (SSR)
Lineare Regression mit binären Daten
● Eine lineare Regression kann auch mit einer binären Variablendurchgeführt werden:
● z.B. Xi = {Frau/Mann}, {Jung/Alt} ...→ Xi wird dann mit den Werten {0/1} kodiert („dummy variable“)
● Beispiel : Gewicht in Abhängigkeitdes GeschlechtsMann → 0 ; Frauen → 1
In diesem Fall ist der F-Test äquivalent zumt-Test
Top Related