HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA)minf.vub.ac.be/~rbuyl/cursus/H8.pdf · VARIANTIE ANALYSE...
Transcript of HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA)minf.vub.ac.be/~rbuyl/cursus/H8.pdf · VARIANTIE ANALYSE...
Theorie Statistiek – Les 14 1
HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA)
VARIANTIE ANALYSE (ANOVA)
Theorie Statistiek – Les 14 2
DATA STRUKTUUR
Afhankelijke variabele: Eén kontinue variabele
Onafhankelijke variabele(n):
- één discrete variabele: één gecontroleerde factor
- twee discrete variabelen: twee gecontroleerde factoren
- n discrete variabelen: n gecontroleerde factoren
- n continue variabelen: REGRESSIE ANALYSE
- discrete en continue variabelen:
COVARIANTIE ANALYSE = ANCOVA
VARIANTIE ANALYSE (ANOVA)
Theorie Statistiek – Les 14 3
Voorbeeld : Vergelijking van haemoglobine bij patienten die lijden aan drie ziekten
Diagnose Ziekte A Ziekte B Ziekte C
Metingen 13 13 15 12 9 10 11 10 10 7 6 6 8
Aantal metingen
4 5 4
Gemiddelde 13,25 10,00 6,75
Voor iedere groep zijn er verschillende waarnemingen, dit zijn de replicaties.
Vraag: Is het gemiddeld gehalte aan haemoglobine gelijk voor de drie ziekten ?
VARIANTIE ANALYSE (ANOVA)
Theorie Statistiek – Les 14 4
Men wenst na te gaan of de drie gemiddelden gelijk zijn. Dit komt overeen met de nulhypothese:
H0: µ1 = µ2 = µ3
Hiervoor gebruikt men variantie analyse met één gecontroleerde factor (één discrete variabele), nl. de ziekte
VARIANTIE ANALYSE (ANOVA)
Theorie Statistiek – Les 14 5
Methodologie: De totale variabiliteit wordt gesplitst in twee delen:
1) de variabiliteit van de metingen voor eenzelfde ziekte (INTRA)
2) de variabiliteit tussen ziekten (INTER)
Het effect van de factor (ziekte) wordt getoetst door de twee bronnen van variabiliteit te vergelijken.
VARIANTIE ANALYSE (ANOVA)
Theorie Statistiek – Les 14 6
Een maat voor de totale variabiliteit wordt gegeven door:
~S 2 = 11
2
1nx xi
i
n
−−∑
=( )
= 11n −
KS(totaal)
KS(totaal) = totale kwadratensom
KS(totaal) = ( )x xii
n−∑
=
2
1
= x xnii
i
n 22
1−∑
∑
=
( )
VARIANTIE ANALYSE (ANOVA)
Theorie Statistiek – Les 14 7
In het voorbeeld:
xii
n 2
1=∑ = 132 + 132 + 152 + 122 + 122 + ... = 1394
xii
n
=∑
1 = 13 + 13 + 15 + 12 + 12 + ... = 130
KS(totaal) = 1394 - 130 13013× = 1394 - 1300 = 94
VARIANTIE ANALYSE (ANOVA)
Theorie Statistiek – Les 14 8
KS(totaal) wordt gesplitst in twee delen
- deel 1: KS(factor) komt overeen met INTER variabiliteit
- deel 2: KS(residu) (of fout) komt overeen met INTRA variabiliteit
VARIANTIE ANALYSE (ANOVA)
Theorie Statistiek – Les 14 9
KS(factor) = deel te wijten aan de ziekte
= j
j jn x x=∑ −
1
3 2( )
= ( )( )C
nCn
Cn
x
n
ii1
2
1
22
2
32
3
2
1
13
+ + −∑=
waar:
nj = aantal metingen voor ziekte j
x j = gemiddelde voor ziekte j
Cj = som der metingen voor ziekte j
In het voorbeeld:
KS(ziekte) = ( )534
505
274
13013
2 2 2 2+ + −
= 1384,5 - 1300
= 84,5
VARIANTIE ANALYSE (ANOVA)
Theorie Statistiek – Les 14 10
KS(residu) = deel te wijten aan de variabiliteit binnen elke ziekte
= ( )x xii
j=∑ −
1
13 2
= xii
2
1
13
=∑ - ( )C
nCn
Cn
12
1
22
2
32
3+ +
In het voorbeeld:
KS(residu) = 1394 - 1384,5
= 9,5
VARIANTIE ANALYSE (ANOVA)
Theorie Statistiek – Les 14 11
KS (totaal) = KS (factor) + KS (residu)
94 = 84,5 + 9,5
VARIANTIE ANALYSE (ANOVA)
Theorie Statistiek – Les 14 12
VRIJHEIDSGRADEN
Voor iedere term wordt de variantie geschat door de kwadraatsom te delen door het aantal vrijheidsgraden
Het aantal vrijheidsgraden (VG) geeft aan hoeveel termen van een som kunnen worden veranderd zonder het totaal te veranderen.
Men heeft voor de verschillende termen:
KS(totaal) ➾ VG(totaal) = n - 1
KS(ziekte) ➾ VG(ziekte) = k - 1
KS(residu) ➾ VG(residu) = (n - 1) - (k - 1) = n - k
Het aantal vrijheidsgraden van het residu wordt ook gegeven door:
(n1-1) + (n2-1) + (n3-1) + ....
= n - k
VARIANTIE ANALYSE (ANOVA)
Theorie Statistiek – Les 14 13
VARIANTIE ANALYSE TABEL
In de laatste kolom komen de gemiddelde kwadraatsommen:
GK = KS / VG
Bron van variatie KS VG GK
Ziekte
Residu
Totaal
VARIANTIE ANALYSE (ANOVA)
Theorie Statistiek – Les 14 14
VARIANTIE ANALYSE TABEL
De nulhypothese wordt nagegaan door middel van een F-toets. Hiervoor moeten de volgende voorwaarden worden voldaan:
• Normale verdeling van de residuën
• Gelijke variantie in de verschillende groepen
• Onafhankelijkheid van de waarnemingen
Bron van variatie KS VG GK
Ziekte 84,5 2 42,25
Residu 9,5 10 0,95
Totaal 94,0 12
VARIANTIE ANALYSE (ANOVA)
Theorie Statistiek – Les 14 15
TOETS OP GELIJKHEID VAN GEMIDDELDEN
F = GK (factor) / GK (residu)
= INTER / INTRA
In het voorbeeld:
F = 42,25 / 0,95 = 44,47
Men vergelijkt deze waarde met deze in een tabel voor de Fisher verdeling met 2 en 10 vrijheidsgraden.
Men gebruikt een éénzijdige tabel (de F-verdeling is een positieve verdeling).
De gevonden waarde op het 5% niveau is 4,10.
VARIANTIE ANALYSE (ANOVA)
Theorie Statistiek – Les 14 16
CONCLUSIE
Men verwerpt de nulhypothese omdat de berekende waarde groter is dan de waarde in de tabel, op het 5% niveau (4,10).
De GK (ziekte) is veel groter dan de GK (residu):
p < 0,05 (en zelfs p < 0,005)
Het besluit is dat het gemiddeld haemoglobine niveau verschillend is voor patienten met de drie aandoeningen.
VARIANTIE ANALYSE (ANOVA)
Theorie Statistiek – Les 14 17
OPSPOREN VAN VERSCHILLEN
Indien de globale F-toets een significant verschil tussen de groepen aantoont worden bijkomende toetsen gebruikt om na te gaan tussen welke groepen deze bestaan:
de RANGE toetsen.
Veelgebruikte range toetsen zijn de SNK toets (STUDENT-NEUMANN-KEULS) en de SCHEFFE toets
VARIANTIE ANALYSE (ANOVA)
Theorie Statistiek – Les 14 18
VOORBEELD VAN COMPUTER PROGRAMMA
Met SPSS kan men variantieanalyse modellen gebruiken met de algemene instruktie ANOVA of met de instruktie ONEWAY (voor ANOVA met één gecontroleerde factor)
Deze laatste instruktie geeft voor het voorbeeld de volgende output:
VARIANTIE ANALYSE (ANOVA)
Theorie Statistiek – Les 14 19
WISKUNDIGE MODELLEN
Het doel is de verklaring van een waarneming.
In een model met één gecontroleerde factor hangt de waarneming af van deze factor en van het residu
yij = µ + αj + εij
waar
µ = algemeen gemiddelde
αj = afwijking door niveau j van de factor
εij = afwijking te wijten aan de meting (residu)
VARIANTIE ANALYSE (ANOVA)
Theorie Statistiek – Les 14 20
VARIANTIE ANALYSE MET TWEE GECONTROLEERDE FACTOREN
Veronderstel dat twee discrete factoren een invloed hebben op de meting, bv. ziekte en geslacht.
Een mogelijk wiskundig model is:
yijh = µ + αj + βh + εijh
waar
µ = algemeen gemiddelde
αj = afwijking voor ziekte j
βh = afwijking voor geslacht met code h
εijh = afwijking te wijten aan de meting (residu)
code voor geslacht:
h = 1: man h = 2: vrouw
VARIANTIE ANALYSE (ANOVA)
Theorie Statistiek – Les 14 21
VARIANTIE ANALYSE MET TWEE GECONTROLEERDE FACTOREN EN INTERACTIE
Interactie tussen ziekte en geslacht betekent dat het verschil tussen de ziekten verschillend is bij mannen en vrouwen (voorbeeld: voor mannen een groot verschil en voor vrouwen geen verschil).
Om dit te onderzoeken kan volgend model worden gebruikt:
yijh = µ + αj + βh + γjh + εijh
waar
µ = algemeen gemiddelde
αj = afwijking voor ziekte j
βh = afwijking voor geslacht h
γjh = interactie term
εijh = afwijking te wijten aan de meting (residu)
VARIANTIE ANALYSE (ANOVA)
Theorie Statistiek – Les 14 22
VARIANTIE ANALYSE VOOR HERHAALDE METINGEN
Wanneer verschillende metingen worden uitgevoerd voor elk object (of elke patient) wordt de analyse uitgevoerd met variantie analyse voor herhaalde metingen.
Een bijzonder geval is de
PRE-TEST POST-TEST ANALYSE
Model met twee medicaties (A en B) en twee perioden (vóór en na de behandeling).
Men onderzoekt drie effekten:
1) Interactie tussen behandeling en tijd: Is de evolutie in de tijd dezelfde voor de twee behandelingen?
2) Effect van de tijd: Is er een globale evolutie tijdens de behandeling?
3) Effect van de behandeling: Is er een globaal verschil tussen behandelingen?