Download - Biostatistik 101 - bioinfo.ipmb.uni-heidelberg.debioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/Biostat_2017_Teil7.pdf · Biostatistik 101 Carl Herrmann IPMB Uni Heidelberg

Biostatistik 101

Carl Herrmann IPMB Uni Heidelberg & DKFZ [email protected]

“Good Data don't need statistics”

Korrelation - Regressionsanalysen

Korrelation

Sind Alter und Blutdruck miteinanderverbunden ?

Keine Annahme, was Ursache und Konsequenz ist !!

Streudiagramme = Scatter Plot

Verhältnis von 2 Variabeln

● Varianz :

● Kovarianz :

negativ

negativ

positiv

positiv

die Kovarianz ist nicht skaleninvariant !

Kovarianz / Korrelation einer Stichprobe

● Kovarianz

● Korrelation (Pearson's Korrelation ρ )

● Eigenschaften Skaleninvarianz

Borniertheit

Beispiele

Korrelation und Steigung

● die Korrelation alleine sagt nichts über die Steigung !

Korrelationen interpretieren

● Korrelation ~ 0 bedeutet nicht, daßes keinen Zusammenhangzwischen den Variabeln gibt !

● Ungekehrt kann eine starkeKorrelation durch wenigeAusreißer beeinflußt werden

● Korrelation bedeutet nichtKausalität…http://tylervigen.com/spurious-correlations

Anscombe Quartet

r = 0.816 in allen 4 Fällen ...

Hypothesen Tests

● H0 : die Korrelation zwischen den Zufallsvariablen X,Y ist null ...

● Standardfehler des Korrelationskoeffizientes

● Test-Statistik : t-Verteilung mit n-2 Freiheitsgraden

t-Verteilung

Beispiel> cor.test(diab[1:30,7],diab[1:30,12])

Pearson's product-moment correlation

data: diab[1:30, 7] and diab[1:30, 12]

t = 2.386, df = 28, p-value = 0.02404

alternative hypothesis: true correlation is not equal

to 0

95 percent confidence interval:

0.05960801 0.67182894

sample estimates:

cor

0.41105

pupper=0.012p2tail=0.024

t=2.386

Konfidenzinterval

● Konfidenzinterval kann nicht direkt für r berechnet werden, da dieStichprobenverteilung nicht Normal ist

● r → z' : z' ist (einigermaßen ) Normalverteilt

● Berechnung des CI auf z' und inverse Transformation z' → r

● Beispielberechnung : r = 0.41 , n = 30

Konfidenzinterval

● 2 Zufallsvariablen X , Y mitKorrelation : ρ = 0.6

● Stichproben x , y vonverschiedenen Größen n

● Verteilung derKorrelationswerte r→ KEINE Normalverteilung

● Fisher's Transformation

~ Normalverteilung mitStandardabweichung

Spearman Korrelation

● Pearson Korrelation kann von einigen Ausreißern stark beeinflußtwerden

● Um diesen Effekt zu beheben wird die Korrelation nach Spearmanberechnet → Ränge

● Werte → Ränge → Korrelation der Ränge

cor = 0.67

Werte Ränge

Ausreißer

cor = -0.11cor =0.67

Regressionsmodelle

Lineare Regression

● Man geht von einer linearenBeziehung zwischen 2Variabeln (X,Y) aus

● für jeden Wert Xi kann manden Wert Yi abschätzen

● b1 = Steigungb0 = Schnittpunkt

Y

Ŷ

Prinzip der kleinsten Quadrate

● die Parameter derRegressionslinie werdenmittels der kleinstenQuadrate („least square“)bestimmt

Residuen

● der geschätzte Wert ist nichtgleich dem reellen Wert

● es gilt

● ei sind die Residuen

Residuen

● der ganze Einfluß von X istdurch „aufgesaugt“ worden

● X hat keinen Einfluß auf dieResiduen ei

Residuen

● die Residuen sollten nicht mit X korrelieren

Mittelwert = 0 haben

normalverteilt sein mitMittelwert 0

● Trifft das nicht zu ist dieBeziehung von X,Ynicht linear→ wichtiger Test !

Wie gut ist das Regressionsmodel?

● Ist das Regressionsmodel besser als das einfache Model Y=Y ?

● Vermutlich genauer, aber dafür komplizierter

→ lohnt sich der Aufwand ?

Varianzzerlegung

● die Varianz von Y kann zerlegtwerden in einzelneKomponenten

Varianz von Ŷ

Varianz der Residuen e

● da corr(Ŷ,e) = 0 gilt :

Total Sum of Squares (SST)

Model Sum of Sq. (SSM)

Residual Sum of Sq. (SSR)

Wie gut ist der Fit ?

● bei einem guten Fit sollte SSR klein sein und SSM einen großenAnteil von SST ausmachen

● R² ist der Anteil der Varianz, die durch das Model erklärt wird

● es gilt




corr(X,Y) = 0.6 → ein lineares Regressionsmodel kann 36% der Varianz erklären


● erklärte Varianz :

● nicht erklärte Varianz :





● F-ratio = Verhältnis der Varianzen

● F-Ratio kann mit einem F-Testauf Signifikanz untersucht werden




Anzahl der Datenpunkte

Anzahl der betaKoeffizienten =Anzahl Variablen + 1

df = 1

df = n-2

H0: das lineare Modelist nicht signifikant besser als Y = Y

Hypothesentest für Koeffizienten

● wenn b1 = 0 kann Y nicht durch X vorhergesagt werden

● andersrum gilt : wenn b1 signifikant von 0 abweicht, dann bestehteine lineare Beziehung

● Achtung ! ein kleiner b1 Wert kann signifikant von 0 abweichen

ein großer b1 Wert kann mit b1 = 0 kompatibel sein

● Abweichung von 0 kann mit einem t-Test bestimmt werden.H0 : b1=0 Standardabweichung

der Residuen


Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.95159 0.15391 19.177 1.99e-13 ***x 0.10668 0.01309 8.147 1.89e-07 ***

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.926370 0.032410 90.29 <2e-16 ***x 0.104333 0.002757 37.84 <2e-16 ***

→ größerer Einfluß des Störfaktors führtzu größerer Unsicherheit bei Bestimmungder Regressionskoeffizienten


Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.92637 0.03241 90.29 <2e-16 ***x 2.08667 0.05515 37.84 <2e-16 ***

Ungenauere Bestimmung von b1 wenn die X-Wertenäher bei einander liegen

Beispiel einer linearen Regression

> l <- lm(weight ~ height,data=diab)> summary(l)Call:lm(formula = weight ~ height, data = diab)Residuals: Min 1Q Median 3Q Max -82.906 -26.380 -6.731 21.331 152.445 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 6.9422 33.1694 0.209 0.834 height 2.5877 0.5016 5.159 3.94e-07***---Residual standard error: 39.13 on 395 degrees offreedom (6 observations deleted due to missingness)Multiple R-squared: 0.06313, Adjusted R-squared: 0.06076 F-statistic: 26.62 on 1 and 395 DF, p-value:3.938e-07

n = 397

nur 6% der Varianz kann durch das Model erklärt werden

Diagnostic plots

Residuenverteilungist unabhängig vonder Variablen

Residuen sind (ungefähr..)Normalverteilt

Ein Gegenbeispiel ...

> summary(l)Call:lm(formula = y ~ x, data = data.frame(x = x, y = y))Residuals: Min 1Q Median 3Q Max -4.660 -1.721 -0.242 1.506 6.495 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -4.26400 0.19459 -21.91 <2e-16 ***x 5.01129 0.06737 74.38 <2e-16 ***---Residual standard error: 2.181 on 499 degrees of freedomMultiple R-squared: 0.9173, Adjusted R-squared: 0.9171 F-statistic: 5533 on 1 and 499 DF, p-value: < 2.2e-16

Ein Gegenbeispiel ...

Residuenverteilungist keine unabhängige Funktionvon x ...

Residuen sind NICHTnormalverteilt !

Lineare Regression mit Kategorien

A B C D

1 21 18 19 14

2 22 16 19 13

3 19 15 16 12

4 18 13 14 11

Summe 80 62 68 50

Mittelwert 20 15.5 17 12.5

● 4 unterschiedlicheWeizensorten (A,B,C,D) werdengetestet, jeweils auf 4Parzellen

● Gibt es einen signifikantenUnterschied im Ertrag ?

Varianzanalyse (one-way ANOVA)

● Ist die Varianz zwischen denGruppen signifikant größer als dieVarianzen innerhalb dereinzelnen Gruppen ?→ Varianzanalyse (ANOVA)

Xij = Einzelwert

X = Gesamtmittelwert

αi = Faktoreneffekt

eij = RestfehlerGesamtmittelwert X

Varianzanalyse (one-way ANOVA)

● Zerlegung der Varianz(i=Gruppe A,B,C,D; j=Replikat 1,2,3,4)

X = Gesamtmittelwert

Xi = Mittelwert der Gruppe Gesamtmittelwert X

Varianz zwischen denGruppen

Varianz innerhalb der Gruppe

Freiheitsgrade

SS SS F

Faktor 3 117 39 10.17

Restfehler 12 46 3.833

Gesamt 15 163

Freiheitsgrade: 3 : 4 Gruppen – 1 Gesamtmittelwert12 : 16 Datenpunkte – 4 Gruppenmittelwerte15 : 16 Datenpunkte – 1 Gesamtmittelwert




Lineare Regression mit binären Daten

● Eine lineare Regression kann auch mit einer binären Variablendurchgeführt werden:

● z.B. Xi = {Frau/Mann}, {Jung/Alt} ...→ Xi wird dann mit den Werten {0/1} kodiert („dummy variable“)

● Beispiel : Gewicht in Abhängigkeitdes GeschlechtsMann → 0 ; Frauen → 1

In diesem Fall ist der F-Test äquivalent zumt-Test