u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Faculty of Health Sciences
Variansanalyse (ANOVA)
Ulla B MogensenBiostatistisk Afd., SUND, KU.Mail: [email protected]
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Indhold dag 3
I T-test – kort opsummering
I Ensidet variansanalyseI Modelkontrol
I Tosidet variansanalyseI Additiv modelI InteraktionsmodelI Modelkontrol
2 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
T-test genopfriskning
Kontinuert normalfordelte variable fra en eller to stikprøver.I One-sample t-test: En stikprøve hvor vi kan teste om
middelværdien har en specifik værdi.I Two-sample t-test: To stikprøver hvor vi kan teste om
middelværdierne i de to stikprøver er ens.
Hvis de to stikprøver stammer fra samme individer, f.eks. test afhæmoglobin niveau før og efter epo indtagelse, taler vi om parretdata og test.
3 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
T-test antagelser
Fælles for one-sample og two-sample:I Observationerne indenfor en stikprøve skal være uafhængige.I Responsvariablen skal helst være normalfordelt.
– Normal fordelingen kan evt opnås efter en transformation.– Ellers brug Wilcoxon test.
For two-sample t-test skal der yderligere gælde:I Variansen i de to stikprøver skal være ens.
– Ellers benyt Welch t-testI For brug af parret t-test skal observationerne i de to stikprøver
være parret.
4 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Kategoriske variable med 2 eller flere grupper
I two-sample t-test sammenlignes to grupper fra en faktor variabel,f.eks. sammenlignes fødselsvægt for børn af rygere versusikke-rygere.
Hvis faktoren (den kategoriske variabel) har mere end 2 grupper,f.eks. nuværende rygere, tidligere rygere, ikke-rygere, har vi to ellerflere sammenligninger. Her er parvise t-test ikke godt pgamassesignifikans.
5 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Eksempel I
Festing and Weigler i Handbook of Laboratory Animal Science . . .
. . . betragter resultaterne af et eksperiment med fuldstændigtrandomiseret design hvor mus var randomiseret til en af 4grupper med forskellig doser af et hormon.
Livmodervægten blev målt efter et passende tidsinterval.
6 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Eksempel 1
7 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Eksempel 1
8 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Eksempel 1
9 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Eksempel 1
Konklusioner fra figurerneI Livmodervægten afhænger af dosis.I Variationen af data øges, når dosis øges.
Spørgsmål: Hvorfor kunne disse første konklusioner være forkerte?
10 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Ensidet variansanalyse (one-way anova)
Ensidet (one-way): Der opdeles kun efter en faktor, som kan have2 eller flere grupper (levels).
f.eks. dosis er faktor variabel med 5 grupper
Den j’te observation i gruppe i beskrives ved
Yij = µi + εij , εij ∼ N (0, σ2)
hvor µi er middelværdien i den i’te gruppe og εij er den j’teobservations individuelle afvigelse fra µi .
11 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Eksempel: Hæmoglobinniveau i seglcelleanæmi
Seglcelleanæmi er en gruppe af arvelige sygdomme, som primærtforekommer hos personer med negroide gener. Sygdommene erkarakteriseret ved dominans af hæmoglobin S (Hb S) i de rødeblodlegemer.
Sammenligning af hæmoglobinniveau (g/dl) hos 41 patienter med3 typer af seglcelleanæmi.
Gruppe Typer N Mean (X) SdI Hb SS 16 8.71 0.84II Hb S/β 10 10.63 1.28III Hb SC 15 12.3 0.94
12 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Hypotese
H0 Nulhypotese Niveauet af hæmoglobin afhænger ikkeaf sygdomstypen
H1 Alternativhypotese
Niveauet af hæmoglobin afhænger afsygdomstypen
Det vil sige, vi tester
H0 : µgruppe I = µgruppe II = µgruppe IIImod
H1 : µgruppe I 6= µgruppe II og/eller µgruppe III 6= µgruppe II
og/eller µgruppe I 6= µgruppe III
13 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Varians og kvadratsummer (sum-of-squares)
Definitionen på varians for en stikprøve med n observationer,Y1, . . . ,Yn med gennemsnit Y er
Var = 1n − 1
∑i
(Yi − Y )2
= 1n − 1{(Y1 − Y )2 + · · ·+ (Yn − Y )2}
= 1n − 1︸ ︷︷ ︸
degrees of freedom
{(Y1 − Y )2 + · · ·+ (Yn − Y )2︸ ︷︷ ︸sum of squares
}
14 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Dekomposition af variationen
Afvigelsen fra det totale gennemsnit, (Yij − Y ), kan dekomponeresi to led:
(Yij − Y ) = (Yij − Yi) + (Yi − Y )
Dermed kan variationen,∑
(Yij − Y )2, dekomponeres
SStotal =∑
(Yij − Y )2
= ...teori om lineære normale modeller...=
∑(Yij − Yi)2 +
∑(Yi − Y )2
= SSwithin + SSbetween
SSwithin kaldes også residual variationen.15 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Variansanalyse
Sammenligning af variansen mellem grupper med variansenindenfor grupper.
I Variansen mellem grupperne er den systematiske/biologiskevarians.
I Variansen indenfor gruppen er den tilfældige varians.
16 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
F-test
F-test sammenligner variansen mellem grupper i forhold tilvariansen indenfor grupper.
F = SSbetween/(k − 1)SSwithin/(n − k) ∼ F(k − 1,n − k)
Hvis variationen mellem grupperne er stor relativt til indenforgrupperne bidrager grupperingsfaktoren til en systematisk del afvariationen af responsvariablen.
Et F-test for 2 grupper er ækvivalent med et two-sample t-test.
17 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
ANOVA tabel
Variation Degreesof free-dom
Sumofsquares
MS F P
Mellemgrupper
k − 1 SSb SSb/(k-1) MSb/MSw P(F(k-1,n-k)> F)
Indenforgrupper
n − k SSw SSw/(n-k)
Total n − 1 SStotal
hvor MSb = 1k−1SSbetween og MSw = 1
n−k SSwithin
18 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Eksempel 2: F-test
Model for hæmoglobinniveaus afhængighed af gruppe
> data(haem.data)> model <- lm(haemoglobin ~ gruppe,data=haem.data)> ftest <- aov(model)> summary(ftest)
Df Sum Sq Mean Sq F val Pr(>F)gruppe 2 99.89 49.94 50 <0.0001 ***Residuals 38 37.96 1.00
Konklusion: Niveauet af hæmoglobinniveauet afhænger afsygdomsgruppen.
19 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Eksempel 2: Parameter estimater
Estimaterne fra de forskellige grupper.I R er laveste niveau i en faktor altid referencegruppe.
> model
Call:lm(formula = haemoglobin ~ gruppe, data = haem.data)
Coefficients:(Intercept) gruppeII gruppeIII
8.713 1.917 3.587
Middelværdi estimatet i gruppe I: 8.713.Middelværdi estimatet i gruppe II: 8.713 + 1.917Middelværdi estimatet i gruppe III: 8.713 + 3.58720 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Eksempel 2: Konfidensinterval
Konfidensintervaller for parameterestimaterne fås ved
> confint(model)2.5 % 97.5 %
(Intercept) 8.206678 9.218322gruppeII 1.101886 2.733114gruppeIII 2.860335 4.314665
21 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Eksempel 2: Sammenligning af alle tre grupper
Parvise sammenligninger justeret for multipel testning:
> TukeyHSD(ftest)Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = model)
$gruppediff lwr upr p adj
II-I 1.9175 0.9349148 2.900085 0.0000819III-I 3.5875 2.7114704 4.463530 0.0000000III-II 1.6700 0.6748973 2.665103 0.0006147
22 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Antagelser for ensidet variansanalyse
For at anvende ensidet variansanalyse skal følgende kriterier væreopfyldt:
I De enkelte observationer skal være uafhængige.I Residualerne skal være normalfordelte.I Variansen i grupperne skal være ens (varianshomogenitet).
Husk: Residualerne er variationen indenfor grupperne.
23 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Modelkontrol for ensidet variansanalyse
Tjek af varianshomogenitet:I Residualplot: Plot af residualer mod predikterede værdier.
Tjek at residualerne er normalfordelte:I Histogram af residualerne.
? Er de normalfordelt?. Hvis ikke, prøv evt transformation.I Probability plot af residualerne (QQ-plot)
? Ligger de på den skrå linje.
Hvis data ikke er normalfordelt og en transformation ikke kanhjælpe: Brug Kruskal-Wallis test.
24 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Test af varianshomogenitet: Residualer vs fittede værdier
Varianshomogenitet i hæmoglobinmodel.> names(model)> plot(model$residuals ~ model$fitted.values,
xlab = "Predikteret vaerdi af haemoglobin",ylab = "Residual")
●
●
●●
●●●●●●
●●●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●●●●
●●
●
●●
●●
●●
9.0 9.5 10.0 10.5 11.0 11.5 12.0
−2−1
01
Predikteret vaerdi af haemoglobin
Res
idua
l
25 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Test for normalfordelte residualer: Histogram> hist(model$residuals,freq = FALSE,breaks=seq(-3,3,1),
main = "",xlab = "Residual")> box()> curve(dnorm(x,mean = mean(model$residuals),
sd = sd(model$residuals)),add = TRUE)
Residual
Den
sity
−3 −2 −1 0 1 2 3
0.0
0.1
0.2
0.3
0.4
26 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Test af normalfordelte residualer: Quantile-Quantile plot
> qqnorm(model$residuals,xlab = "Normal quantiles",ylab = "Residual",main = "")
> abline(0, sqrt(var(model$residuals)), lty = "21")
●
●
●●
●●●
●●
●
●●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●●
●●
●
●●
● ●
●●
−2 −1 0 1 2
−2−1
01
Normal quantiles
Res
idua
ls
27 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Kruskal-Wallis testKruskal-Wallis test er en ikke-parametrisk ensidet variansanalysebaseret på rangsummer.
Test af nulhypotesen: Grupperne har samme median.Mod alternativet: Mindst to af grupperne har ikke samme median.
> kruskal.test(haemoglobin ~ gruppe, data=haem.data)
Kruskal-Wallis rank sum test
data: haemoglobin by gruppeKruskal-Wallis chi-squared = 28.4982,
df = 2,p-value = 0.0000006482
28 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Tosidet variansanalyse (two-way anova)
Tosidet variansanalyse anvendes, når der er 2 faktorer, der påvirkeren respons.
Hvis både aldersgruppe og køn påvirker en repons.
Der er overordnet to typer:I Ubalanceret design: Der er forskelligt antal observationer i
(mindst to af) grupperne.I Balanceret design: Alle grupper har samme antal
observationer.
I med replikationer: Der er flere observationer i en faktor.I uden replikationer: Der kun er en observation i en faktor.
29 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Tosidet variansanalyse (two-way anova)
Tosidet variansanalyse anvendes, når der er 2 faktorer, der påvirkeren respons.
Hvis både aldersgruppe og køn påvirker en repons.
Der er overordnet to typer:I Ubalanceret design: Der er forskelligt antal observationer i
(mindst to af) grupperne.I Balanceret design: Alle grupper har samme antal
observationer.I med replikationer: Der er flere observationer i en faktor.I uden replikationer: Der kun er en observation i en faktor.
29 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Additiv model
To faktorer påvirker responsvariablen additivt. Dette er en modelmed struktur...
Den k’te observation som er i gruppe i i faktor 1 og i gruppe j ifaktor 2 beskrives ved
Yijk = µ+ αi + βj + εijk , εijk ∼ N (0, σ2)
Variationen kan igen dekomponeres – nu i 3 led:
SStotal = SSfaktor 1 + SSfaktor 2 + SSresidual
30 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Eksempel IIILængden af graviditet målt i dage blev estimeret ved 5 forskelligeteknikker for 10 kvinder.
> gest.datalmp ve doq us dao
woman.1 275 273 288 273 244woman.2 292 283 284 285 329woman.3 281 274 298 270 252woman.4 284 275 271 272 258woman.5 285 294 307 278 275woman.6 283 279 301 276 279woman.7 290 265 298 291 295woman.8 294 277 295 290 271woman.9 300 304 293 279 271woman.10 284 297 352 292 284
lmp: Sidstemenstruationsperiode
ve: Vaginal eksaminationdoq: Dato for første
livstegn (quickening).us: Ultralydsskanningdao: Diamin oxidase blodprøve
Kvinderne udgør en faktor med 10 grupper/niveauer.31 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Hypotese og F-test
Vi tester nu to hypoteser:1. H0: Der er ingen forskel på kvinderne2. H0: Der er ingen forskel på teknikkerne
Vi udfører derfor to F-test:
F1 = SSkvinder/(k − 1)SSresidual/(n − k −m) ∼ F(k − 1,n − k −m)
F2 = SSteknik/(m − 1)SSresidual/(n − k −m) ∼ F(m − 1,n − k −m)
32 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Eksempel 3: F-testTosidet variansanalyse for balanceret design uden replikationer(hver kvinde udgør en gruppe/niveau).
> names(gestation)> model <- lm(days ~ woman + tech, data=gestation)> ftest <- anova(model)> ftestAnalysis of Variance Table
Response: daysDf Sum Sq Mean Sq F value Pr(>F)
woman 9 4437.6 493.07 2.4312 0.02831 *tech 4 3031.4 757.85 3.7368 0.01211 *Residuals 36 7301.0 202.81
33 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Eksempel 3: Parameter estimater
> summary(model)Coefficients:
Estimate Std. Error t value Pr(>|t|)(Intercept) 261.600 7.536 34.715 < 2e-16 ***woman2 24.000 9.007 2.665 0.011461 *woman3 4.400 9.007 0.489 0.628144woman4 1.400 9.007 0.155 0.877344woman5 17.200 9.007 1.910 0.064169 .woman6 13.000 9.007 1.443 0.157566woman7 17.200 9.007 1.910 0.064169 .woman8 14.800 9.007 1.643 0.109048woman9 18.800 9.007 2.087 0.044000 *woman10 31.200 9.007 3.464 0.001392 **techdoq 22.900 6.369 3.596 0.000963 ***techlmp 11.000 6.369 1.727 0.092707 .techus 4.800 6.369 0.754 0.455943techve 6.300 6.369 0.989 0.329166
Referencegruppe: Kvinde 1 målt med teknik "dao"– hvorfor nu "dao"?34 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Struktur i additiv to-faktor modelFor to faktorer, her f.eks kvinder W med parametrene α inddeltefter teknik T der har parametrene β, har vi følgende tabel:
t1 t2 . . . t5w1 µ µ + β1 . . . µ + β4w2 µ + α1 µ + α1 + β1 . . . µ + α1 + β4w3 µ + α2 µ + α2 + β1 . . . µ + α2 + β4...
...... . . . ...
w9 µ + α8 µ + α8 + β1 . . . µ + α8 + β4
Forskellen mellem søjle t1 og søjle t2: β1.Forskellen mellem søjle t1 og søjle t5: β4.Forskellen mellem søjle t2 og søjle t5: β1 − β4.
Tilsvarende for rækkerne. F.eks:Forskellen mellem række w1 og række w2: α1.Forskellen mellem række w3 og række w9: α2 − α8.
35 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Struktur i additiv to-faktor modelFor to faktorer, her f.eks kvinder W med parametrene α inddeltefter teknik T der har parametrene β, har vi følgende tabel:
t1 t2 . . . t5w1 µ µ + β1 . . . µ + β4w2 µ + α1 µ + α1 + β1 . . . µ + α1 + β4w3 µ + α2 µ + α2 + β1 . . . µ + α2 + β4...
...... . . . ...
w9 µ + α8 µ + α8 + β1 . . . µ + α8 + β4
Forskellen mellem søjle t1 og søjle t2: β1.Forskellen mellem søjle t1 og søjle t5: β4.Forskellen mellem søjle t2 og søjle t5: β1 − β4.
Tilsvarende for rækkerne. F.eks:Forskellen mellem række w1 og række w2: α1.Forskellen mellem række w3 og række w9: α2 − α8.
35 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Struktur i additiv to-faktor modelFor to faktorer, her f.eks kvinder W med parametrene α inddeltefter teknik T der har parametrene β, har vi følgende tabel:
t1 t2 . . . t5w1 µ µ + β1 . . . µ + β4w2 µ + α1 µ + α1 + β1 . . . µ + α1 + β4w3 µ + α2 µ + α2 + β1 . . . µ + α2 + β4...
...... . . . ...
w9 µ + α8 µ + α8 + β1 . . . µ + α8 + β4
Forskellen mellem søjle t1 og søjle t2: β1.Forskellen mellem søjle t1 og søjle t5: β4.Forskellen mellem søjle t2 og søjle t5: β1 − β4.
Tilsvarende for rækkerne. F.eks:Forskellen mellem række w1 og række w2: α1.Forskellen mellem række w3 og række w9: α2 − α8.35 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Balanceret design med replikationer
I et tosidet balanceret design med replikationer er der flereobservationer per celle i krydstabellen mellem to faktorer.
De to faktorer kan her have en interaktion, hvor forskellen irespons mellem grupperne i en faktor ikke er den samme for allegrupper i den anden faktor.– Interaktion kaldes også effektmodifikation.
36 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Interaktion
●
0 1 2 3 4
01
23
45
Ingen interaktion
Faktor 2
Res
pons
e ● ●
●Gruppe1−faktor1
Gruppe2−faktor1
●
0 1 2 3 4
01
23
45
Interaktion
Faktor 2
Res
pons
e ●
●
●
Gruppe1−faktor1
Gruppe2−faktor1
37 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Interaktion
●
0 1 2 3 4
01
23
45
Ingen interaktion
Faktor 2
Res
pons
e ● ●
●Gruppe1−faktor1
Gruppe2−faktor1
●
0 1 2 3 40
12
34
5
Interaktion
Faktor 2
Res
pons
e ●
●
●
Gruppe1−faktor1
Gruppe2−faktor1
37 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Eksempel 412 rotter blev randomiseret på to måder: 6 rotter fik antibiotika og3 ud af 6 rotter i hver antibiotikagruppe fik vitaminer.Respons: Vækst .
> ratgrowthratid antibiotics vitamins growth
1 1 no no 1.302 2 no no 1.193 3 no no 1.084 4 no yes 1.265 5 no yes 1.216 6 no yes 1.197 7 yes no 1.058 8 yes no 1.009 9 yes no 1.0510 10 yes yes 1.5211 11 yes yes 1.5612 12 yes yes 1.5538 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Interaktionsmodel
Tosidet variansanalyse model med interaktion
Yijl = µ+ αi + βj + γij + εijl , εijl ∼ N (0, σ2)
hvor γij er effekten af interaktionen (effektmodifikationen).
Variationen kan igen dekomponeres :
SStotal = SSfaktor 1 + SSfaktor 2 + SSinteraktion + SSresidual↑ ↑ ↑ ↑
df=k-1 df=m-1 df=(k-1)(m-1) df=n-k-m-1
Residualvariationen er i eksemplet forskellen mellem rotterneindenfor hver gruppe af antibiotika og vitamin.39 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Eksempel 4: Fit af interaktionsmodel
Interaktionsmodellen kan fittes på to ækvivalente måder
> model <- lm(growth ~ antibiotics + vitamins+ antibiotics:vitamins, data=ratgrowth)
> ftest <- anova(model)> ftestAnalysis of Variance Table
Response: growthDf Sum Sq Mean Sq F value Pr(>F)
antibiotics 1 0.020833 0.020833 5.6818 0.044292 *vitamins 1 0.218700 0.218700 59.6455 0.00005622 ***antibiotics:vitamins 1 0.172800 0.172800 47.1273 0.000129 ***Residuals 8 0.029333 0.003667
40 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Eksempel 4: Parameter estimater
> summary(model)
Coefficients:Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.19000 0.03496 34.039 0.000000000606 ***antibioticsyes -0.15667 0.04944 -3.169 0.013220 *vitaminsyes 0.03000 0.04944 0.607 0.560818antibioticsyes:vitaminsyes 0.48000 0.06992 6.865 0.000129 ***
Referencegruppen: Rotter uden antibiotika og uden vitaminer.
Rotte antibiotics=no, vitamin=no: 1.19
Rotte antibiotics=yes, vitamin=no: 1.19 + (-0.15667)Rotte antibiotics=no, vitamin=yes: 1.19 + 0.03Rotte antibiotics=yes, vitamin=yes: 1.19 + (-0.15667) + 0.03 +0.48
41 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Eksempel 4: Parameter estimater
> summary(model)
Coefficients:Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.19000 0.03496 34.039 0.000000000606 ***antibioticsyes -0.15667 0.04944 -3.169 0.013220 *vitaminsyes 0.03000 0.04944 0.607 0.560818antibioticsyes:vitaminsyes 0.48000 0.06992 6.865 0.000129 ***
Referencegruppen: Rotter uden antibiotika og uden vitaminer.
Rotte antibiotics=no, vitamin=no: 1.19Rotte antibiotics=yes, vitamin=no: 1.19 + (-0.15667)Rotte antibiotics=no, vitamin=yes: 1.19 + 0.03Rotte antibiotics=yes, vitamin=yes: 1.19 + (-0.15667) + 0.03 +0.4841 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Interaktionsplot
> plotmeans(growth ~ interaction(vitamin,antibiotics),+ connect=list(c(1,3),c(2,4)),+ main="Interaction between vitamin and antibiotics")
●
●
●
●
0.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
Interaction between vitamin and antibiotics
interaction(vita, anti)
grow
th
●
●
●
●
vita.no.anti.no vita.yes.anti.no vita.no.anti.yes vita.yes.anti.yes
n=3 n=3 n=3 n=3
42 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Parameterestimater i interaktionsmodel
I en interaktionsmodel er der ikke en struktur som i den additivemodel uden interaktion.
vitamin no vitamin yesantib. no µ µ + β1antib. yes µ + α1 µ + α1 + β1 + γ
Hvis interaktionsparameteren γ ikke er signifikant, kan vimodficere modellen ved at sætte γ = 0.
Yijl = µ+ αi + βj + γij︸︷︷︸=0
+εijl , εijl ∼ N (0, σ2)
Tilbage er en additiv model.
43 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Modelkontrol for tosidet variansanalyse
Tjek af varianshomogenitet:I Residual plot: Plot af predikterede værdier mod residualerne.I Residual plot: Plot af residualerne mod grupperne.
? Fordeler punkter sig ens om linien. Hvis ikke, prøv evttransformation.
Tjek af normalitet for residualer:I Histogram af residualerne.
? Er de normalfordelt. Hvis ikke, prøv evt transformation.I Probability plot af residualerne (QQ-plot)
? Ligger de på den skrå linie.
44 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Eksempel 4: ModelkontrolModelkontrol kan fås ved at plotte model-objektet i R.
> par(mfrow=c(2,1))> plot(model,which=1:2)
1.1 1.2 1.3 1.4 1.5
−0
.10
0.0
00
.10
Fitted values
Re
sid
ua
ls
●
●
●
●
●●
●
●
●
●
●●
Residuals vs Fitted
1
3
4
●
●
●
●
●
●
●
●
●
●
●●
−1.5 −0.5 0.5 1.5
−2
01
2
Theoretical Quantiles
Sta
nd
ard
ize
d r
esid
ua
ls
Normal Q−Q
1
3
4
45 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Anova metoder – oversigt
I Uafhængige observationerI t-test for to grupper (dag 1)I Ensidet variansanalyse for flere grupper (en faktor)I Tosidet variansanalyse for to grupperings variable (to faktorer)
I Afhængige observationerI Gentagne målinger (repeated measurements)I Mixed effekt modeller
I Ikke-normalfordelte dataI Ikke-parametrisk anova (Kruskal-Wallis test)
I Mix af kategoriske og kontinuerte faktorerI Varianskomponentmodeller (ancova)
I Model sammenligning og model selektion
46 / 47
u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s
Et par afsluttende bemærkninger om anova
I Variationen af data kan dekomponeres i en systematisk og entilfældig del.
I Et F -test for en faktor med 2 grupper er ækvivalent med ettwo-sample t-test.
I Anova er aktuelt for en faktor med 3 eller flere grupper, daparvise sammenligninger via t-test eller Wilxcoxon test fører tilmassesignifikans.
I Anova er et special tilfælde af lineær regression.
47 / 47
Top Related