ANALIZA VARIJANSE - Почетна · PDF fileANALIZA VARIJANSE Dejana ... Slučajan izbor...
Transcript of ANALIZA VARIJANSE - Почетна · PDF fileANALIZA VARIJANSE Dejana ... Slučajan izbor...
ANALIZA VARIJANSE
Dejana Stanisavljevićjanuar, 2012. godine
ANOVA Parametarska statistička metoda zasnovana na
generalnim linearnim modelima koja ukupanvarijabilitet skupa podataka deli na dve ili višekomponenti Uz svaku komponentu vezan je poseban izvor
variranja – faktor
Koristi se za testiranje hipoteza o razliciaritmetičkih sredina dve ili više populacija
Faktor je svaki uticaj ili stanje koje se naneki način odražava na rezultujuću(ishodnu) varijablu
1. Organizovani faktori – mogu seidentifikovati i kvantitativnodiskriminisati
2. Slučajni (rezidualni, neorganizovani)faktori – mogu se samo opisati
Model fiksiranih efekata (Model I) -uistraživanje su uključeni samo odredjeninivoi faktora
Model slučajnih efekata (Model II) –nivoi su slučajno odabrani
Planiranje eksperimenta
Odredjivanje specifične kombinacijenivoa faktora za svaku eksperimentalnujedinicu Optimalan izbor je potpuno
randomizovani dizajn – svi koraci ueksperimentu su randomizovani, ni jedanfaktor nije kontrolisan
Jednofaktorska ANOVA – različiti nivoijednog faktora
Dvofaktorska ANOVA - delovanje različitihnivoa posebno jednog , posebnog drugog faktorai zajedničko delovanje faktora
Višefaktorska ANOVA
U analizi varijanse postoje tri vrstevarijabli:
1. Faktor (tretman), nezavisna varijabla sadefinisanim brojem gradacija ilikategorija
2. Rezultujuća varijabla3. Pridružene (spoljašnje varijable)
Opšti model analize varijanse
Ukupno variranje (Y) =variranje čiji je izvor u organizovanom delu
eksperimenta (X) +variranje čiji je izvor u neorganizovanom delu
eksperimenta (Z)
ANOVA - pretpostavke1) Slučajan izbor eksperimentalnih jedinica2) Opservacije su nezavisne (randomizacija – slučajno
dodeljivanje nivoa faktora eksperimentalnimjedinicama)
3) Homogenost varijansi (uzorci potiču iz populacija saistim varijansama)
4) Normalna raspodela vrednosti rezultujućeg obeležja usvakoj grupi
F-test je relativno robustan u uslovima narušenih pretpostavki onormalnosti raspodele (veći uzorci, transformacije podataka) ijednakosti varijansi (jednak broj eksperimentalnih jedinica pogrupama).
DVOFAKTORSKA ANOVA Koristi se za analiziranje efekata dva faktora:
svakog faktora pojedinačno i interakcijemedju njima Ispituje se simultani uticaj dva (ili više)
faktora (svaki nivo jednog faktora ukršta sesa svakim nivoom ostalih faktora)
Tri hipoteze: hipoteze o dejstvu svakogfaktora posebno i hipoteza o njihovojinterakciji
Faktor A, Faktor B, interakcija faktora AxB
AxB meri odgovor na faktor A u svimgradacijama faktora B i obrnuto Organizovano (faktorsko) variranje je zbir
delovanja faktora A, B i njihove interakcije Postojanje ili odsustvo efekata pojedinačnih
faktora A i B ne govori ništa o (ne)postojanjuinterakcije Postojanje značajne interakcije govori o
zavisnosti faktora A i B
mogući zaključci
1. nema uticaja ispitivanih faktora2. uticaj samo faktora A3. uticaj samo faktora B4. uticaj i faktora A i faktora B5. A x B interakcija6. A x B interakcija i uticaj faktora A7. A x B interakcija i uticaj faktora B8. A x B interakcija i uticaj faktora A i B
primeri U tabeli je data prosečna redukcija u vremenima
reakcije (milisekunde) ispitanika dve starosnegrupe ( <65 i >65) kod tri doze istog leka
Faktor Astarost
Faktor B doze leka
B1 B2 B3
A1 5 10 20
A2 10 15 25
Za oba nivoa faktora A razlika u prosečnimvrednostima za bilo koja dva nivoa faktora B jeista (5, 10 i 15 milisekundi) Za sve nivoe faktora B razlika u prosečnim
vrednostima za dva nivoa faktora A je ista (5milisekundi) Interakcija nije prisutna, efekti faktora su
aditivni
Grafički prikaz dvofaktorske anove
0
5
10
15
20
25
30
1 2 3
doze
starosne grupe
0
5
10
15
20
25
30
1 2
primeri U tabeli je data prosečna redukcija u vremenima
reakcije (milisekunde) ispitanika dve starosnegrupe ( <65 i >65) kod tri doze istog leka
Faktor Astarost
Faktor B doze leka
B1 B2 B3
A1 5 10 20
A2 10 10 5
Razlika izmedju prosečnih vrednosti za bilo kojadva nivoa faktora B nije ista za oba nivoafaktora A Razlika izmedju prosečnih vrednosti za oba
nivoa faktora A nije ista za sve nivoe faktora B
Prisutna je interakcija izmedju dva faktora,efekti faktora su multiplikativni
0
5
10
15
20
25
1 2 3
Grafički prikaz dvofaktorske anove
0
5
10
15
20
25
1 2
starosne grupe
doze
Opšti oblik modela analize varijanse
Y= X + Z = (A + B +AxB) + Z
Y ukupni varijabilitetA varijabilitet nastao zbog delovanja faktora AB varijabilitet nastao zbog delovanja faktora BAxB varijabilitet nastao zbog interakcije faktora A i BZ varijabilitet koji nije posledica delovanja navedenih
faktora
Tabela analize varijanse
Izvorvariranja
DF disperzije varijanse F
A a-1 CA
SD2=C/DF
SD2A / SD2
Z
B b-1 CB SD2B / SD2
Z
AxB (a-1)(b-1) CAxB SD2AB / SD2
Z
Organizovano ab-1 CX SD2X / SD2
Z
Slučajno ab(n-1) CZ
Ukupno abn-1 CY
Istraživanje kvaliteta života prilikombolničkih hospitalizacija 80 pacijenatadalo je podatke o tipu bolesti koja je bilarazlog hospitalizacije, pripadništvuodredjenoj starosnoj kategoriji i skorukvaliteta života
Tip bolestiStarosna kategorija
20-29 30-39 40-49 50+
neurološki 20 25 24 28
25 30 28 31
22 29 24 26
27 28 25 29
21 30 30 32
pulmološki 30 30 39 40
45 29 42 45
30 31 36 50
35 30 42 45
36 30 40 60
kardiološki 31 32 41 42
30 35 45 50
40 30 40 40
35 40 40 55
30 30 35 45
maligni 20 23 24 29
21 25 25 30
20 28 30 28
20 30 26 27
19 31 23 30
1. Da li se prosečan skor kvaliteta životarazlikuje izmedju pacijenata različitihgodina starosti?
2. Da li je tip bolesti povezan sa prosečnimskorom kvaliteta života?
3. Postoji li interakcija izmedju godina starostii tipa bolesti?
Ho : prosečne vrednosti gradacija faktoraA su iste. Ho : prosečne vrednosti gradacija faktora
B su iste. Ho : prosečne vrednosti interakcije AxB
su iste.
Test statistika je Fišerov varijansnikoličnik
Kada je nulta hipoteza tačna on serasporedjuje po F raspodeli
Nulta hipoteza se odbacuje ako jeizračunata vrednost test statistike jednakaili veća od granične vrednosti raspodele F
Izvorvariranja
DF disperzije varijanse F
A 3 2992.45 997.48 67.95B 3 1201.05 400.35 27.27
AxB 9 608.45 67.61 4.61Organizovano 15 4801.95
Slučajno 64 939.60 14.68Ukupno 79 5741.55
Sva tri varijansna količnika veća su od njima odgovarajućih kritičnihvrednosti pa odbacujemo sve tri nulte hipoteze. Zaključujemo dapostoje značajne razlike prosečnih skorova kvaliteta života izmedjupacijenata sa različitim bolestima. Postoje značajne razlike prosečnihskorova kvaliteta života izmedju pacijenata različitih starosnihkategorija. Različite kombinacije ova dva faktora proizvode različiteefekte u kvalitetu života.
Kruskal-Wallis-ov test
•Jednofaktorska analiza varijanse sa rangovima
•Dizajn: dva ili više nezavisnih uzoraka
•Koristi se kada nisu ispunjeni uslovi za primenuparametarske jednofaktorske analize varijanse
•Eksperimenti u kojima je skala merenja rezultujućevarijable barem ordinalna
•Testira se nulta hipoteza o tome da k nezavisnihuzoraka potiče iz iste populacije
Kruskal-Wallis test – postupak izračunavanja
•U testu se, umesto originalnih podataka, koriste rangovi
• Rangirati opservacije u svi grupama odjednom. Rangiranjemože biti obavljeno od najmanje do najveće vrednosti iliobrnuto
• Sabrati rangove po grupama
• Statistika testa se izračunava po formuli:
)1(3)1(
121
2
NnR
NNH
k
j j
j
N ukupan broj opservacija,n broj opservacija u pojedinačnoj grupi,R j suma rangova pojedinacne grupe,k broj grupa (broj gradacija faktora)
Kada je n>5 i k>3,statistika H približno sledi hi-kvadrat raspodelu saDF= k-1.
Kada je izračunata vrednost statistike H veća odgranične odbacuje se nulta hipoteza.
Primer: za tri grupe životinja koje su bile na različitim režimimaishrane dat je prirast telesne mase:
Gr.1 15 19 17 20 22 18R1 3 7 5 8 10 6 39
Gr.2 23 21 14 13 24 16 33 29R2 11 9 2 1 12 4 19 17 75
Gr.3 28 25 26 27 30R3 16 13 14 15 18 76
Statistika testa iznosi:
7.6)119(35
768
756
39)119(19
12 222
H
Interpretacija rezultata i zaključak:
Medijana prirasta po grupa iznosila je 18.5, 22 i 27
Statistika testa je veća od granične vrednosti, kojaiznosi 5.990.05.
Grupe životinja na različitim režimima ishranerazlikuju se statistički značajno prema prirastu telesnemase (p < 0.05).
Razlika je značajna između prve i treće grupe, ali nijeizmeđu prve i druge, niti između druge i treće.
Fišerov test za poredjenje proporcija izviše nezavisnih uzoraka
Eksperimenti u kojima je rezultujuće obeležjemereno nominalnom skalom merenja
Ishodi mogu biti u obliku apsolutnog brojapojavljivanja ishoda ili u obliku proporcija primenjuje se kada je raspodela ishodnog
obeležja binomna i kada je ispunjen uslov oaproksimaciji binomne raspodele normalnom (pblisko 0.5 i n> 25 ili p blisko 0 ili 1 i np(1-p) bar9)
Pet grupa ispitanika sa istom dijagnozom lečeno je napet različitih načina. Ishod lečenja je petogodišnjepreživljavanje.
ISHODTIPOVI LEČENJA
I II III IV V
Ukupno lečeni n 20 30 40 30 40Umrli m 2 3 8 15 20
I II III IV Vm 20 30 40 30 40 N=∑n=160n 2 3 8 15 20 M=∑m=48p 0.1 0.1 0.2 0.5 0.5 P=0.3H=m2/n 0.2 0.3 1.6 7.5 10 ∑H=19.6
H∑=M2/N=482/160=14.4
Cx=∑H- H∑ = 5.2 Cz=M - ∑H = 28.4
SDx2 = Cx / k-1=1.3
SDz2 = Cz / N-k = 0.183
F= SDx2/ SDz
2=7.104
Izračunata vrednost F statistike veća je odgranične pa odbacujemo nultu hipotezu ojednakosti preživljavanja sa različitimtretmanima.