Pokrocilˇ ´e statistick ´e metody - Masaryk University · - Tukeyova metoda NEVYV´AˇZEN ´E T...
Transcript of Pokrocilˇ ´e statistick ´e metody - Masaryk University · - Tukeyova metoda NEVYV´AˇZEN ´E T...
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Pokrocile statisticke metody
Filip Zlamal
Ustav patologicke fyziologie LF MU
20.–24. 4. 2015
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 1 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Obsah
1 Opakovanı
2 Analyza rozptylu (ANOVA)
3 Testy dobre shody
4 Kontingencnı tabulky
5 Analyza prezitı
6 Shlukova analyza
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 2 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Opakovanı
PRINCIP STATISTICKE INDUKCE
TESTOVANI HYPOTEZ- k overenı predem stanovenych hypotez- H0 : µ1 = µ2 × H1 : µ1 6= µ2
- testovanı ⇒ bud’ H0 zamıtneme, nebo H0 nezamıtneme
H0 nezamıtneme H0 zamıtneme
H0 platı OK chyba I. druhu (α)H0 neplatı chyba II. druhu (β) OK
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 3 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Opakovanı
Postup pri testovanı hypotez
1) Formulace nulove hypotezy H0 a alternativnı hypotezy H1.
2) Volba hladiny vyznamnosti α.
3) Vyber vhodneho testu.
4) Vypocet testove statistiky.
5) Konstrukce intervalu spolehlivosti, kritickeho oboru (obor zamıtnutı H0),prıpadne vypocet p-hodnoty.
6) Rozhodnutı o zamıtnutı nebo nezamıtnutı H0.
ZAVER: Bud’ NEZAMITAME, nebo ZAMITAME H0.
Co NIKDY nerıkame:
(ne)prijımame H0
(ne)prijımame H1 (H1 netestujeme!)
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 4 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Analyza rozptylu (ANOVA)
MotivaceDvouvyberovy t–test
POUZITI: porovnanı strednıch hodnot dvou souboru
PREDPOKLADY: nezavislost, normalita, homoskedasticita (shodarozptylu)
overenı normality: exaktne (Shapiro-Wilk, Kolmogorov-Smirnov), N–Pgrafyoverenı homoskedasticity: F-test
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 5 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Analyza rozptylu (ANOVA)
MotivaceDvouvyberovy t–test - prıklad
Normalita Krabicove grafy
t-test
⇒ zamıtame hypotezu o shode strednıch hodnot na hladine vyznamnostiα = 0, 05
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 6 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Analyza rozptylu (ANOVA)
Analyza rozptylu - rozsırenı t–testu
z angl. ANalysis Of VAriance
POUZITI: porovnava strednı hodnoty vıce vyberu (I )
H0 : µ1 = µ2 = · · · = µI × H1 : alespon dve strednı hodnoty se lisı
PREDPOKLADY: nezavislost, normalita, homoskedasticitaoverenı normality: exaktne (Shapiro-Wilk, Kolmogorov-Smirnov), N–Pgrafyoverenı homoskedasticity: Bartlettuv test, Levenuv test
VYSLEDKY → ANOVA tabulka:Zdroj Soucet Pocet stupnu Strednı soucet F p-hodnota
variability ctvercu volnosti ctvercu
skupiny SA I − 1 SA/(I − 1)SA/(I−1)
Se/(n−I )p
rezidualnı Se n − I Se/(n − I ) – –celkovy ST n − 1 – – –
V prıpade platnosti H0 ma testova statistika F ∼ F (I − 1, n − I ).
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 7 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Analyza rozptylu (ANOVA)
Mnohonasobna porovnanı
Pokud H0 zamıtneme, chceme vedet, mezi kterymi soubory je vyznamnyrozdıl.
VYVAZENE TRIDENI- rozsahy souboru jsou stejne- Tukeyova metoda
NEVYVAZENE TRIDENI- rozsahy souboru jsou ruzne- Scheffeho metoda, modifikace Tukeyovy metody - Tukeyova-Kramerova(Tukey HSD)
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 8 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Analyza rozptylu (ANOVA)
Prıklad15 plodu broskvı, 3 stupne zralosti
Normalita
Homoskedasticita
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 9 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Analyza rozptylu (ANOVA)
Prıklad
ANOVA tabulka
⇒ zamıtame hypotezu o shode strednıch hodnot
⇒ mnohonasobna porovnanı: Tukeyova metoda
Zaver: Byly zjisteny statisticky vyznamne rozdıly mezi skupinaminezralych a prezralych broskvı a mezi skupinami zralych a prezralychbroskvı.
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 10 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Analyza rozptylu (ANOVA)
Vyznam predpokladu
NEZAVISLOST: Velmi dulezity predpoklad, musı byt splnen, jinakbudou vysledky nesmyslne.
NORMALITA: ANOVA nenı prılis citliva na porusenı normality, zvlasteje–li rozsah kazdeho vyberu vetsı nez 20. Pri vetsım porusenı sedoporucuje pouzıt Kruskaluv–Wallisuv test.
HOMOSKEDASTICITA: Mırne porusenı nevadı, pri vetsım porusenı sedoporucuje pouzıt Kruskaluv–Wallisuv test. Test shody rozptylu masmysl provadet az po overenı normality.
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 11 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Analyza rozptylu (ANOVA)
Modifikace ANOVy
One-way ANOVA - jednocestna ANOVA, jednofaktorova ANOVA,analyza rozptylu jednoducheho trıdenı (dosud)
Two-way ANOVA - dvoucestna ANOVA, dvoufaktorova ANOVA,analyza rozptylu dvojneho trıdenı
- bez interakcı- s interakcemi
Three-way ANOVA - . . .
. . .
ANCOVA - Analysis Of Covariance
MANOVA - Multinomial Analysis Of Variance
RMANOVA - Repeated Measures Analysis Of Variance
Kruskaluv-Wallisuv test - neparametricka ANOVA- zalozena na poradı hodnot v celem souboru- testuje se hypoteza o shode medianu- mnohonasobna porovnanı - obdoba Scheffeho a Tukeyovy metody
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 12 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Analyza rozptylu (ANOVA)
Shrnutı
Analyza rozptylu (ANOVA) je statisticky test overujıcı simultannı shodustrednıch hodnot sledovane veliciny mezi nezavislymi soubory, je–li rozdelenıteto veliciny v ramci kazdeho souboru normalnı a majı–li soubory shodnerozptyly.
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 13 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Analyza rozptylu (ANOVA)
ANOVA (jednocestna) v programu Statistica
Po spustenı programu Statistica a nactenı dat postupujeme nasledovne:
Statistics → ANOVA → One-way ANOVA → OK → Variables (vyber
promennych): Dependent variable list (zavisla promenna), Categorical predictor(skupinova promenna) → OK → More results →
→ Assumptions (overenı predpokladu) →
→ normalita → Normal p-p (v casti Distribution of vars within groups) →(vyber skupin) → OK
→ shoda rozptylu → Levene’s test (ANOVA), prıpadne Cochran C, Hartley,Bartlett
→ Summary → All effects/Graphs (ANOVA tabulka)
→ (pokud zamıtneme H0) → Post-hoc → Scheffe, prıpadne Tukey HSD,prıpadne dalsı metody
Poznamka: Zkoumame–li vliv vıce kategorialnıch promennych na hodnotu zavisle promenne,pouzijeme vıcecestnou ANOVu (dvoucestnou, trojcestnou atd.). V programu Statistica jirealizujeme stejne jako je uvedeno vyse s jednou obmenou:
pro ANOVu bez interakcı: Statistics → ANOVA → Main effects ANOVA → . . .
pro ANOVu s interakcemi: Statistics → ANOVA → Factorial ANOVA → . . .
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 14 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Testy dobre shody
Testy dobre shody
k kategoriı (k znaku nominalnı veliciny)
napr. barva ocı, genotyp, politicka prıslusnost, znacka auta
testujeme, jestli rozlozenı namerenych cetnostı v jednotlivych kategoriıchodpovıda nami predpokladanemu (teoretickemu) rozlozenı
namerene cetnosti : n1 n2 . . . nkocek. relativnı cetnosti : p1 p2 . . . pkocek. absolutnı cetnosti : np1 np2 . . . npk
za platnosti H0 ma testova statistika
χ2obs =
k∑
i=1
(ni − npi)2
npi=
k∑
i=1
(pozorovanei − ocekavanei )2
ocekavanei∼ χ2(k − 1)
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 15 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Testy dobre shody
Testy dobre shody - prıklad
Johann Gregor Mendel krızil ciste linie hrachu AA (dominantnı homozygot) aaa (recesivnı homozygot). V 1. generaci dostal heterozygoty Aa, ktere dalekrızil. Zajımala ho barva semen (AA zluta, aa zelena). Z celkem 258heterozygotu zıskal 8023 semen, z nichz bylo 6022 zlutych a 2001 zelenych.Na hladine vyznamnosti 0, 05 otestujte, jestli je fenotypovy stepny pomer 3:1.
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 16 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Testy dobre shody
Testy dobre shody - prıklad
Otestujte na hladine vyznamnosti 0, 05, jestli lze na zaklade zıskanych datocekavat, ze rozlozenı barvy ocı mezi muzi je rovnomerne.
barva ocı modra melırovana hneda zelena
ni 47 27 21 5
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 17 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Testy dobre shody
Testy dobre shody - pouzitı
K testovanı shody zıskaneho rozdelenı s teoretickym.
K testovanı hypotezy o rozdelenı veliciny (napr. Pearsonuv testnormality).
Testovanı hypotezy o nezavislosti nominalnıch velicin (testovanınezavislosti v kontingencnı tabulce).
K overenı, zda je distribuce genotypu v Hardyove-Weinbergove ekvilibriu.
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 18 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Kontingencnı tabulky
Kontingencnı tabulky
Dve nahodne veliciny X , Y nominalnıho typu (X . . . r urovnı, Y . . . surovnı).
n . . . rozsah vyberu
KONTINGENCNI TABULKA - cetnostnı tabulka
X\Y y[1] y[2] . . . y[s] soucet
x[1] n11 n12 . . . n1s n1.x[2] n21 n22 . . . n2s n2....
......
. . ....
...x[r ] nr1 nr2 . . . nrs nr.soucet n
.1 n.2 . . . n
.s n
Testujeme hypotezu
H0: X a Y jsou nezavisle × H1: X a Y jsou zavisle
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 19 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Kontingencnı tabulky
Testovanı nezavislostiPearsonuv χ2 test
asymptoticky test
porovnava zjistene cetnosti s teoretickymi (za platnosti H0)
v prıpade platnosti H0 ma statistika
χ2 =
r∑
i=1
s∑
j=1
(
nij −ni.n.j
n
)2
ni.n.jn
∼ χ2((r − 1)(s − 1))
podmınka dobre aproximace: teor. cetnostini.n.j
n> 5
Crameruv koeficient (Cramerovo V)
V =√
χ2
n(min{r ,s}−1)
Rozmezı V Zavislost
0–0, 1 zanedbatelna0, 1–0, 3 slaba0, 3–0, 7 strednı0, 7–1, 0 silna
- jedna se o obdobu korelacnıho koeficientu pro nominalnı veliciny- nabyva hodnot mezi 0 a 1- urcuje mıru asociace mezi X a Y
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 20 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Kontingencnı tabulky
Kontingencnı tabulky - prıklad
Na hladine vyznamnosti 0,05 otestujte, jestli je typ pouzite diety nezavislyna vystupu.
dieta \ zdrav. vystup rakovina umrtı nezh. nemoc zdravy
AHA 15 24 25 239stredomorska 7 14 8 273
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 21 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Kontingencnı tabulky
Testovanı nezavislostiFisheruv exaktnı test
Pro tabulky 2× 2
Y \X x[1] x[2] soucet
y[1] a b a+ by[2] c d c + d
soucet a+ c b + d n
Pravdepodobnost, ze nahodnym vyberem vznikne tato tabulkas fixovanymi marginalnımi cetnostmi:
P =
(
a+bb
)(
c+dc
)
(
na+c
)
p-hodnota testu nezavislosti = soucet vsech P, ktere”vıce“ odporujı H0
pri fixovanych marginalnıch cetnostech
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 22 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Kontingencnı tabulky
Prıklad 1
Kontingencnı tabulka
Overenı podmınky dobre aproximace: 131.304/758.= 52, 54 > 5 ⇒
Pearsonuv χ2 test
Vysledky:
Zaver: Nezamıtame hypotezu o nezavislosti obezity a genotypu.
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 23 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Kontingencnı tabulky
Prıklad 2
Kontingencnı tabulka
Overenı podmınky dobre aproximace: 8.7/18.= 3, 11 ≯ 5 ⇒ Fisheruv
exaktnı test
Vysledky:
Zaver: Zamıtame hypotezu o nezavislosti pohlavı a diagnozy.
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 24 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Kontingencnı tabulky
Shrnutı
Testovanı nezavislosti v kontingencnıch tabulkach slouzı ke zjistenı mozneasociace mezi nahodnymi velicinami nominalnıho typu. Mıru teto asociace lze
”merit“.
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 25 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Kontingencnı tabulky
Kontingencnı tabulky v programu Statistica
Po spustenı programu Statistica a nactenı dat postupujeme nasledovne:
Statistics → Basic Statistics/Tables → Tables and banners → OK → Specifytables (select variables) (vyber promennych): List1 (1. promenna), List2 (2.
promenna) → OK → OK →
→ (kontingencnı tabulka) → Summary
→ (overenı podmınky dobre aproximace pro pouzitı Pearsonova χ2 testu) →Options → zatrhnout Expected frequencies → Summary
→ (Pearsonuv χ2 test) → Options → zatrhnout Pearson & M-L Chi-square,prıpadne jeste Phi(2×2) & Cramer’s V & C → Advanced → Detailedtwo-way tables
→ (Fisheruv exaktnı test) → Options → zatrhnout Fisher exact, Yates,McNemar (2×2) → Advanced → Detailed two-way tables
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 26 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Analyza prezitı
Vymezenı pojmu
Analyza prezitı je soubor statistickych metod pouzıvanych k popisu aanalyze dat, ktere majı charakter casoveho intervalu.
Puvodne vyvinuta pro epidemiologicke studie - predmetem zajmu byladoba zahajenı lecby pacienta a jeho umrtı.
Je pouzıvana napr. v sociologii, ekonomii, strojırenstvı (jako doba prezitıje napr. cas mezi ztratou zamestnanı a zıskanı noveho, cas od zavedenıstroje do jeho poruchy).
Casovy interval ma jasne stanoveny zacatek (vstupnı udalost) a konec(sledovana udalost).
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 27 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Analyza prezitı
Cenzorovanı
Pri dlouhodobem sledovanı pacientu bychom zıskali skutecnou dobuprezitı kazdeho z nich.
Bohuzel, z technicky, ekonomickych a jinych duvodu je takove sledovanıobtızne, nebo prımo nemozne.
Pozorovanı probıha jen po urcitou dobu (delka studie).
Pro cast pacientu je doba prezitı neznama, a to v dusledku:- behem doby pozorovanı se sledovana udalost u pacienta nevyskytla- pacient je ztracen z pozorovanı (napr. v dusledku migrace)- pacient v dobe pozorovanı zemrel z jine prıciny, nez je sledovana udalost
Proto dale pracujeme jen z castecnou informacı - tomuto jevu se rıkacenzorovanı.
Ve vyse uvedenych prıpadech vıme pouze to, ze doba prezitı pacienta jevetsı nez doba, po nız byl pozorovan ⇒ cenzorovanı zprava(right-censoring).
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 28 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Analyza prezitı
Doba prezitı T
Doba mezi vstupnı a sledovanou udalostı se oznacuje jako doba prezitıT .
- nahodna velicina nabyvajıcı kladnych hodnot ⇒ distribucnı funkceF (t) = P(T ≤ t)
F (t) je pravdepodobnost, ze doba prezitı je mensı nebo rovna t
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 29 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Analyza prezitı
Funkce prezitı S(t)
Vhodnejsı a castejsı k popisu analyzy prezitı je funkce prezitı
S(t) = 1− F (t) = P(T > t)
S(t) je pravdepodobnost, ze pacient prezije cas t, tj. jeho doba prezitı jevetsı nez t (v case t pro nej sledovana udalost nenastane)
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 30 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Analyza prezitı
Rizikova funkce h(t)
Dalsı dulezita charakteristika v analyze prezitı je rizikova funkce.
Jedna se o intenzitu vyskytu sledovane udalosti v case zavislou na delceprezitı (mıra umrtnosti pacientu v case t za predpokladu, ze se titopacienti casu t dozili).
Mezi S(t) a h(t) existuje jednoznacny vztah.
Na rozdıl od S(t) muze byt rizikova funkce:- rostoucı (napr. pro lidskou populaci strası 65 let)- klesajıcı (napr. novorozenecka umrtnost, vetsina onkologickychonemocnenı)
- konstantnı (napr. umrtnost v produktivnım veku, pokrocila chronickaonemocnenı)
- vanickova - kombinuje klesajıcı, konstantnı i rostoucı prubeh (typickapro umrtnost v cele lidske populaci, kdy po narozenı klesa a ve starı roste)
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 31 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Analyza prezitı
Metody analyzy prezitı
1. Metody parametricke- vyzadujı splnenı predpokladu o pravdepodobnostnım rozdelenı doby prezitıT
2. Metody neparametricke- nevyzadujı zvlastnı predpoklady o rozdelenı pravdepodobnosti doby prezitıT
- nejcasteji pouzıvane- mezi nejpouzıvanejsı patrı Kaplanova-Meierova metoda a metoda odhaduprezitı pomocı umrtnostnıch tabulek (life-table)
3. Metody semi-parametricke- nevyzadujı predpoklady o rozdelenı pravdepodobnosti doby prezitı T- pracujı s parametry a regresnımi koeficienty- nejznamejsı Coxuv regresnı model proporcionalnıch rizik
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 32 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Analyza prezitı
Metody analyzy prezitıKaplanova-Meierova metoda
Neparametricky odhad prezitı prostrednictvım dob prezitı ti v prıpadecenzorovanych pozorovanı.n pacientu, u k z nich dojde behem pozorovanı k vyskytu sledovaneudalosti (k z nich behem pozorovanı zemrelo)Casove okamziky: t1 < t2 < · · · < tk
Odhad funkce prezitı: S(tj) =∏k
j=1
(
1−njdj
)
- nj . . . pocet pacientu, kterı jsou jeste nazivu v case tj- dj . . . pocet umrtı v case tj
Grafem je schodovita funkce
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 33 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Analyza prezitı
Metody analyzy prezitıLife-table odhad prezitı
Tato metoda je principialne stejna jako Kaplanova-Meierova metoda.
Rozdıl: definovany casove intervaly pevne dane velikosti.
Odhad funkce prezitı: S(j) =∏j
i=1
(
1−dj
nj−12cj
)
- nj . . . pocet pacientu, kterı jsou jeste nazivu na pocatku j–teho intervalu- dj . . . pocet umrtı behem intervalu j- cj . . . pocet cenzorovanı v intervalu j
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 34 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Analyza prezitı
Metody analyzy prezitıPorovnanı obou metod
Predpoklady:
Kaplanova-Meierova metoda Life-table odhad prezitı
v riziku vsichni pacienti v riziku polovina pacientus cenzorovanym casem s cenzorovanym casem
Vyskytuje–li se ve stejnem casovem okamziku umrtı i cenzorovanı, jenepresne predpokladat, ze vsechna umrtı predchazı vsem cenzorovanım(jak predpoklada Kaplanova-Meierova metoda), proto je vhodnejsıpouzitı metody life-table.
⇒ v prıpade vyskytu umrtı i cenzorovanı ve stejnem caseKaplanova-Meierova metoda pravdepodobnost prezitı oproti life-tablemetode mırne nadhodnocuje
Kaplanuv-Meieruv odhad prezitı je vhodnejsı pouzıt pro klinicke studie(kde jsou k dispozici presne udaje o dobe prezitı pacientu).
Metody umrtnostnıch tabulek je vhodnejsı pouzıt v populacnıchanalyzach (kde je vyskyt umrtı a cenzorovanı ve stejnem case castejsı -velky pocet pacientu, mene presne zaznamenavanı dob prezitı pacientu).
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 35 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Analyza prezitı
Metody analyzy prezitıLog-rank test
Bezny problem v klinickych studiıch je porovnanı dvou a vıce krivekprezitı, napr. pri zkoumanı vlivu noveho leciva na dobu prezitıonkologickych pacientu.
Pro tato srovnanı existuje nekolik statistickych testu:- log-rank test- obecny Wilcoxonuv test- Tarone-Ware test- Peto-Peto test- Fleming-Harrington test
Vsimneme si log-rank testu.
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 36 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Analyza prezitı
Metody analyzy prezitıLog-rank test
Jedna se v podstate o χ2 test.
Log-rank statistika χ2 = (Oi−Ei )2
Var(Oi−Ei ), i = 1, 2
Oi − Ei =∑n
j=1(mij − eij )
- mij . . . pocet pozorovanych jevu v case j v souboru i- eij . . . ocekavany pocet jevu v case j v souboru i
- eij =(
nijn1j+n2j
)
(m1j +m2j )
Var(Oi − Ei ) =∑n
j=1n1j n2j (m1j+m2j )(n1j+n2j−m1j−m2j )
(n1j+n2j )2(n1j+n2j−1)
H0: Neexistuje rozdıl mezi krivkami prezitı × H1: Neplatı H0
V prıpade platnosti H0 ma testova statistika χ2 ∼ χ2(1).
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 37 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Analyza prezitı
Log-rank testPrıklad
Data a krivky prezitı
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 38 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Analyza prezitı
Log-rank testPrıklad
Data a vysledek log-rank testu
Zaver: Zamıtame hypotezu o shode krivek prezitı mezi skupinami A a B.
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 39 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Analyza prezitı
Analyza prezitı v programu Statistica
Po spustenı programu Statistica a nactenı dat postupujeme nasledovne:
Statistics → Advanced Linear/Nonlinear Models → Survival Analysis →
→ (Kaplanova-Meierova metoda) Kaplan & Meier product limit method →OK → Variables (survival times & censoring indicator) (vyber
promennych): Survival times (or dates) (promenna obsahujıcı doby prezitı),Censoring indicator (promenna obsahujıcı informace o cenzorovanı) →OK → doplnit do Code for complete responses hodnotu, kteroukodujeme necenzorovana data, a do Code for censored responseshodnotu, kterou kodujeme cenzorovana data → Survival times vs. cum.proportion surviving, prıpadne dalsı moznosti
→ (life–table metoda) Life tables & Distributions → (vyber promennych stejny
jako u Kaplanovy-Meierovy metody) + moznost zvolit pocet intervaluv casti Compute table based on: Number of intervals → OK → Functionplots → Plot of survival function, prıpadne dalsı moznosti
→ (log–rank test) Comparing two samples → OK → (vyber promennych jakou Kaplanovy-Meierovy metody) + zvolit Grouping variable (skupinovapromenna) → OK→ (vysledek testu) → Two-sample tests → Log-rank test→ (krivky prezitı) → Function plots → Cum. prop. surviving by group
(Kaplan Meier)
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 40 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Shlukova analyza
Cıle a pouzitı
Jedna z vıcerozmernych statistickych metod (analyza hlavnıchkomponent, faktorova analyza, diskriminacnı analyza, korespondencnıanalyza,. . . ).
CIL: roztrıdenı n objektu, z nichz kazdy je popsan p znaky, do pokudmozno stejnorodych skupin (shluku, clusteru)
shlukování
POZADAVEK: aby si objekty uvnitr shluku byly podobne co nejvıce,naopak objekty z ruznych shluku co nejmene
Pouzıva se spıse jako pruzkumova metoda, slouzı jako vodıtko k dalsımuzpracovanı dat (napr. k odhalenı odlehlych objektu).
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 41 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Shlukova analyza
Podobnost objektu
Posuzujeme podle ruznych mer vzdalenosti mezi objekty.
Vzdalenost je vyjadrena pomocı metriky, napr.Eukleidovska vzdalenost
dij =√
∑pk=1(xik − xjk)2
A
B
manhattanska (taxikarska) vzdalenost
dij =∑p
k=1 |xik − xjk |A
B
napr.Objekt Vek (l) Vyska (cm) Vaha (kg)
1 24 159 772 45 171 79
Eukl. vzdal.: d12 =√
(24− 45)2 + (159− 171)2 + (77− 79)2 = 31, 89manh. vzdal.: d12 = |24− 45|+ |159 − 171| + |77− 79| = 35
Vzdalenosti mezi objekty se usporadajı do matice vzdalenostı.
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 42 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Shlukova analyza
Hierarchicke shlukovanı
Nejcasteji pouzıvana je aglomerativnı hierarchicka procedura - postupneslucovanı objektu od nejblizsıch ke stale vzdalenejsım.
Navod:1. Kazdy objekt - samostatny shluk.2. Nalezneme dva shluky, jejichz vzdalenost je minimalnı.3. Ty sloucıme do noveho, vetsıho shluku a prepocıtame matici vzdalenostı.
1. krok 2. krok
4. krok
3. krok
(n-3). krok
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 43 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Shlukova analyza
Hierarchicke shlukovanıVzdalenosti mezi shluky
Metoda nejblizsıho souseda: vzdalenost mezi shluky je dana jakonejmensı vzdalenost mezi jejich objekty
Metoda nejvzdalenejsıho souseda: vzdalenost mezi shluky je dana jakonejvetsı vzdalenost mezi jejich objekty
Metoda prumerne vazby: vzdalenost mezi shluky je prumerem ze vsechvzdalenostı mezi jejich objekty
Odstranenı vlivu merıtka velicin: standardizacı.Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 44 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Shlukova analyza
Dendrogram
Vysledky aglomerativnıho hierarchickeho shlukovanı se zpravidla grafickyvyjadrujı pomocı dendrogramu.
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 45 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Shlukova analyza
Dalsı metody shlukovanı
Shlukovanı metodou nejblizsıch tezist’ (K-Means)- musı byt predem znam pocet shluku- postup zalozen na nejblizsım tezisti - do shluku je zarazen objekt, jehozvzdalenost od teziste je nejmensı
- nezname–li teziste shluku, pak se urcujı iterativnım vypoctem z dat
Shlukovanı metodou optimalnıch stredu (medoidu)- optimalnı stred shluku (medoid) - takovy strednı objekt, pro nejz platı, zeprumerna vzdalenost k ostatnım objektum v tomto shluku je minimalnı
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 46 / 47
Pokrocilestatistickemetody
Filip Zlamal
Opakovanı
Analyzarozptylu(ANOVA)
Testy dobreshody
Kontingencnıtabulky
Analyzaprezitı
Shlukovaanalyza
Shlukova analyza
Shlukova analyza v programu Statistica
Po spustenı programu Statistica a nactenı dat postupujeme nasledovne:
Statistics → Multivariate Exploratory Techniques → Cluster Analysis →Joining (tree clustering) → OK → Variables (vyber promennych) - zvolıme,ktere promenne chceme zahrnout do analyzy → OK → Advanced → v castiCluster zvolıme Cases (rows), v casti Amalgamation (linkage) rule zvolımemetodu pro urcenı vzdalenostı mezi shluky, v casti Distance measure zvolımetyp metriky (vzdalenosti) → OK → Verticle icile plot nebo Horizontalhierarchical tree plot, v prıpadne dalsı moznosti
Poznamka: Standardizaci velicin pred provedenım shlukove analyzy provedeme napr. tak, ze
prımo oznacıme sloupce, ktere chceme standardizovat, a zvolıme Data → Standardize.
Filip Zlamal (Ustav patologicke fyziologie LF MU) Pokrocile statisticke metody 20.–24. 4. 2015 47 / 47