La retta di regressione - units.itborelli/magnagraecia/17slides.pdf · 2014-05-22 · la...
Transcript of La retta di regressione - units.itborelli/magnagraecia/17slides.pdf · 2014-05-22 · la...
La retta di regressione
Massimo Borelli
May 22, 2014
Massimo Borelli () La retta di regressione May 22, 2014 1 / 17
Contenuti
1 Motivazioni
2 la retta di regressione
Massimo Borelli () La retta di regressione May 22, 2014 2 / 17
microarray: mRNA → cDNA, labelling
Massimo Borelli () La retta di regressione May 22, 2014 3 / 17
la retta di regressione: dubbi artificiali
5 10 15 20
46
810
x1
y1
5 10 15 20
46
810
x2
y2
5 10 15 20
46
810
x3
y3
5 10 15 20
46
810
x4
y4
Massimo Borelli () La retta di regressione May 22, 2014 4 / 17
la retta di regressione: dubbi reali
Massimo Borelli () La retta di regressione May 22, 2014 5 / 17
la retta di regressione: errori grossolani?
Massimo Borelli () La retta di regressione May 22, 2014 6 / 17
il dataset studenti
anno genere statura peso
1 1987 f 155 532 1987 f 157 503 1989 f 158 484 1987 f 158 495 1988 f 158 58.. .. .. .. ..
16 1989 f 167 5617 1989 m 167 5618 1989 f 167 57.. .. .. .. ..
64 1989 m 191 7565 1989 m 194 79
Massimo Borelli () La retta di regressione May 22, 2014 7 / 17
il dataset studenti: peso vs. statura
la formulazione del problema
Cerchiamo un modello statistico in cui la statura sia un predittore delpeso.Il modello avra due componenti:
1 effetti fissi: i coefficienti della retta
2 effetti casuali: la variabilita dei residui
y = mx + q + ε
Massimo Borelli () La retta di regressione May 22, 2014 8 / 17
il dataset studenti: peso vs. statura
y = mx + q + ε
Esercizio: proviamo farei conti ’ad occhio ecroce’
160 170 180 190
5060
7080
statura
peso
Massimo Borelli () La retta di regressione May 22, 2014 9 / 17
il dataset studenti: peso vs. statura
y = mx + q + ε
> modello = lm(peso ∼ statura)
> summary(modello)
Estimate Std. Error t value Pr(>|t|)(Intercept) -83.89 16.68 -5.03 0.00
statura 0.85 0.10 8.85 0.00
Residual standard error: 6.459 on 63 degrees of freedomMultiple R-squared: 0.5542, Adjusted R-squared: 0.5471F-statistic: 78.31 on 1 and 63 DF, p-value: 1.18e-12
Massimo Borelli () La retta di regressione May 22, 2014 10 / 17
Residual standard error: simulazione
160 170 180 190
5060
7080
xcaso
y
160 170 180 190
5060
7080
statura
peso
xcaso = runif(65, min = 155, max = 194)errorecaso = rnorm(65, mean = 0, sd = 6.459)y = 0.85 * xcaso - 83.89 + errorecasoplot(xcaso, y, ylim = c(48, 86))abline( -83.89, 0.85)
Massimo Borelli () La retta di regressione May 22, 2014 11 / 17
Multiple R-squared e correlazione
> cor(peso, statura)
0.7444353
> 0.7444353 * 0.7444353
0.554184
> cor.test(peso, statura)
t = 8.8495, df = 63, p-value = 1.18e-12
Estimate Std. Error t value Pr(>|t|)(Intercept) -83.89 16.68 -5.03 0.00
statura 0.85 0.10 8.85 0.00
Residual standard error: 6.459 on 63 degrees of freedomMultiple R-squared: 0.5542, Adjusted R-squared: 0.5471F-statistic: 78.31 on 1 and 63 DF, p-value: 1.18e-12
Massimo Borelli () La retta di regressione May 22, 2014 12 / 17
Cosa succede se x non e un predittore di y?
> x = runif(100)
> y = runif(100)
> inutile = lm(y ∼ x)
> summary(inutile)
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
x
y
Estimate Std. Error t value Pr(>|t|)(Intercept) 0.47 0.05 8.79 0.00
x 0.02 0.10 0.18 0.86
Massimo Borelli () La retta di regressione May 22, 2014 13 / 17
Cos’e il modello nullo?
> nullo = lm(y ∼ 1)
> summary(nullo)
> mean(y)
0.4781564
> sd(y)
0.2931972
> t.test( y , mu = 0))
t = 16.31 , df = 99, p = 0.000.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
x
y
Estimate Std. Error t value Pr(>|t|)(Intercept) 0.48 0.03 16.31 0.00
Residual standard error: 0.2932 on 99 degrees of freedom
Massimo Borelli () La retta di regressione May 22, 2014 14 / 17
diagnostica del modello = model checking
i residui sono normali?
i residui hanno media nulla?
i residui hanno un ’drift’?
i residui sono omoschedastici?
ci sono punti isolati o con forza di leva?
Massimo Borelli () La retta di regressione May 22, 2014 15 / 17
diagnostica> plot(modello)
50 60 70 80
-15
-55
15
Fitted values
Residuals
Residuals vs Fitted15
39
32
-2 -1 0 1 2
-2-1
01
23
Theoretical Quantiles
Sta
ndar
dize
d re
sidu
als
Normal Q-Q15
39
32
50 60 70 80
0.0
0.5
1.0
1.5
Fitted values
Standardized residuals Scale-Location
153932
0.00 0.04 0.08 0.12
-20
12
3
Leverage
Sta
ndar
dize
d re
sidu
als
Cook's distance0.5
0.5
Residuals vs Leverage15
619
Massimo Borelli () La retta di regressione May 22, 2014 16 / 17
i p-values marginali non tengono conto della correlazione
> summary(modello)
Estimate Std. Error t value Pr(>|t|)(Intercept) -83.89 16.68 -5.03 0.00
statura 0.85 0.10 8.85 0.00
> library(multcomp)
> aggiustato = glht(modello, linfct = diag(2))
> summary(aggiustato)
Estimate Std. Error t value Pr(>|t|)1 == 0 -83.89056 16.67708 -5.03 4.71e-06 ***2 == 0 0.8539 0.0965 8.85 < 1e-10 ***
Massimo Borelli () La retta di regressione May 22, 2014 17 / 17