OSNOVE STATISTIČKE OBRADE PODATAKA
description
Transcript of OSNOVE STATISTIČKE OBRADE PODATAKA
OSNOVEOSNOVESTATISTIČKE OBRADE PODATAKASTATISTIČKE OBRADE PODATAKA
Darko HrenCroatian Medical Journal
Medicinski Fakultet u Zagrebu
uzorak populacija
CILJ ISTRAŽIVANJA
Opisati
Objasniti
Predvidjeti
Oruđe:STATISTIKA
Više ili visokoobrazovanje
12%
Nezavršenaosnovna škola
19%
Osnovna škola22%
Srednja škola47%
UZORAKUZORAKKakvo je stanje u populaciji?
Reprezentativan
Nereprezentativan
Nereprezentativan
UZORAKUZORAKVrste uzoraka (načini uzimanja uzoraka)
Slučajni
Stratificirani
Sustavni
Prigodni
Svaki član populacije ima jednaku vjerojatnost biti odabran(izvlačenje brojeva iz šešira, tablice slučajnih brojeva,računalni programi...)
Uzima se svaki n-ti član populacije
Populacija se dijeli na “slojeve” pa se iz njih uzimajuslučajni uzorci
Podatci se uzimaju od ispitanika koje imamo “pri ruci”
UZORAKUZORAK
Veličina uzorkaVarijabilnost mjerene
pojaveŽeljena preciznost
mjerenja
Snaga istraživanja – vjerojatnost pronalaženja razlike koja zaista i postoji u populaciji
Pogreške:alfa – pronašli smo statistički značajnu razliku, a razlike zapravo nemabeta – nismo pronašli razliku, a razlika zapravo postoji
OBLIKOVANJE SKUPINA
Uzorak
Kontrolna Eksperimentalna (1 ili više)
randomizacija
VJEŽBA
Želimo ispitati stavove studenata prema znanosti.Tijekom prvog tjedna upisa, upitnikom od 10 pitanja ispitali smo studente koji su čekali ispred referade.
Slučajni?
Stratificirani?
Sustavni?
LJESTVICE MJERENJANOMINALNA
ORDINALNA
INTERVALNA
OMJERNA
broj stoji umjesto imena (npr. spol – muški=0, žene=1)
brojevi označavaju redoslijed, ali ne znamo KOLIKE su razlike(npr. pokretljivost bolesnika: I nepokretan, II slabo ili ograničenopokretan, III pokretan)
imamo redoslijed i razlike ali brojčani odnosi ne označavaju odnose u mjerenoj pojavi jer nema apsolutne nule
(npr. temperatura – 20ºC nije dvostruko toplije od 10ºC)
brojčani odnosi označavaju odnose u mjerenoj pojavi jerpostoji apsolutna nula(npr. dužina – 20 cm je dvostruko duže od 10 cm)
VJEŽBA
Zbroj bodova na ljestvici stavova prema znanosti(najmanji mogući rezultat je 10, a najveći 50)
Dob
Brojevi na majicama nogometaša
Doza lijeka koji se daje pacijentu (izražena u mg)
Stupanj opeklina ordinalna
nominalna
intervalna
omjerna
omjerna
OBRADA PODATAKA:OBRADA PODATAKA:
Opis
Usporedba
Povezanost
Kakvi su stavovi studenata medicineprema znanosti?
Postoje li razlike u stavovima premaznanosti između studenata različitih godina?
Postoji li povezanost između stavova prema znanostiprosjeka ocjena?
OPIS
Srednje vrijednosti i raspršenja
Raspodjela
Dominantna vrijednost (Mode)-najčešći rezultatat-
Središnja vrijednost (Median)-središnji rezultatat-
Aritmetička sredina (Mean)-prosjek-
Raspon
Poluinterkvartilno raspršenje
Standardna devijacija
SREDNJE VRIJEDNOSTI
Aritmetička sredinaZbroj svih rezultata
Broj rezultata
Ovisi o vrijednosti rezultata, pa je osjetljiva na vrijednosti koje jako odstupaju
Središnja vrijednost Vrijednost koja se nalazi točno u sredini nizarezultata poredanih po veličini
Ne ovisi o vrijednosti rezultata, pa je vrijednosti koje jako odstupaju nemijenjaju, ali ju može promijeniti broj rezultata
Dominantna vrijednost
Ne ovisi ni o vrijednosti ni o broju rezultata
Vrijednost koja se najčešće pojavljuje
SREDNJE VRIJEDNOSTII RASPRŠENJA
1+2+2+2+2+3+3+4+8
1+2+2+3+3+3+4+4+5
9= 3
9= 3
M=C
1 2 3 4 8
1 2 3 4 5
SREDNJE VRIJEDNOSTI
C=2M=3
RASPODJELA PODATAKA
0
5
10
15
20
25
30
35
40
45
1 2 3 4 5
0
5
10
15
20
25
30
35
40
45
1 2 3 4 5
C=4 C=4
VRIJEDNOSTI KOJE SE JAKO RAZLIKUJU
105 110 115 120 125 130 135 140 145 150 155
sfenoidni kut [o]
151
Pažnja! Možda je pogreška, a
možda neistražena
pojava!
NORMALNA RASPODJELANORMALNA RASPODJELA
Testiranje normaliteta raspodjele: Kolmogorov-Smirnov test
DRUGE RASPODJELEDRUGE RASPODJELE
Asimetrična udesno
Asimetrična ulijevo
Stožasta
Spljoštena
Bimodalna
Aritmetička sredina i standardna devijacija
Središnja/dominantna vrijednost i interkvartilno raspršenje/totalni raspon
Parametrijska statistika
Neparametrijska statistika
ZBOG POGREŠKE MJERENJA DOBIVENI REZULTATI
UVIJEK SU SAMO PROCJENA STANJA U POPULACIJI
RASPON POUZDANOSTI(CONFIDENCE INTERVAL)
RASPON U KOJI, UZ ODREĐENU SIGURNOST (95%, 99%),
ZAHVAĆA “PRAVI” REZULTAT U POPULACIJI
Npr. M=20, 95%CI 18-24C=76, 99%CI 69-85
IZBOR ODGOVARAJUĆEG STATISTIČKOG POSTUPKA
VJEŽBAVJEŽBA
1. Kakvi su stavovi studenata medicineprema znanosti?
2. Postoje li razlike u stavovima premaznanosti između studenata različitih godina?
4. Postoji li povezanost između stavova premaznanosti i prosjeka ocjena?
3. Postoje li razlike u stavovima premaznanosti između studenata i studentica?
1. Kakvi su stavovi studenata medicine prema znanosti?
2. Postoje li razlike u stavovima prema znanosti između studenata različitih godina?
3. Postoje li razlike u stavovima prema znanosti izmeđustudenata i studentica?
4. Postoji li povezanost između stavova prema znanostii prosjeka ocijena?
Statistički značajno!!!
TUMAČENJE REZULTATA
p<0.05
p<0.05 – 95% sigurnosti da dobivenarazlika/povezanost nije posljedica slučaja
p<0.01 – 99% sigurnosti da dobivenarazlika/povezanost nije posljedica slučaja
PRIKAZ p-vrijednosti – tri decimalna mjestaNpr. p=0.024
p=0.007p<0.001
ŠTO ZNAČI “STATISTIČKI ZNAČAJNO”?
Statistički značajno
ne mora biti iSTVARNOznačajno!!!
PRIMJER
Rezultati randomiziranog kontroliranog pokusapokazuju da je novi lijek u pokusnoj skupini
prosječno smanjio dijastolički tlaks 99 mmHg na 96 mmHg, p<0.001
Statistički značajno, ali ne i klinički!
PRIMJER
94,5
95
95,5
96
96,5
97
97,5
98
98,5
99
99,5
1 20
102030405060708090
100110120
1 2
p<0.001
Slušanje kolegija utječe na stvaranje pozitivnijihstavova prema znanosti
Slušanje kolegija utječe na stvaranje pozitivnijihstavova prema znanosti
POVEZANOST
Korelacija između stavova prema znanostii slušanja kolegija “Uvod u znanstveni rad u medicini”
iznosi ρ=0.84, p<0.001
Studenti koji su slušali kolegij vjerojatnoimaju pozitivnije stavove prema znanosti
NE ZNAČI I UZROČNOST
SAMO POKUSOMMOŽEMO UTVRDITI
UZROČNOST!!!
ELEMENTARY CONCEPTS IN STATISTICS http://www.statsoftinc.com/textbook/esc.html
BIOSTATISTICS INSTRUCTIONAL MANUALhttp://www.sjsu.edu/faculty/gerstman/StatPrimer/
POWER CALCULATIONhttp://calculators.stat.ucla.edu/powercalc/
ONLINE STATISTICS TEXTBOOK http://www2.chass.ncsu.edu/garson/pa765/statnote.htm
Procjena veličine uzorka
• “Koliki uzorak mi treba?”– često pitanje
– važno pitanje
– odgovor nije sasvim jednostavan
• grafički način procjene veličine uzorka – Altmanov nomogram
Procjena veličine uzorka• potrebna 3 parametra
– (klinički) relevantna razlika
– razina značajnosti (0.05, 0.01)
– snaga
• na temelju razlike koju smatramo relevantnom možemo izračunati standardiziranu razliku koja ovisi o vrsti podataka (kontinuirani/kvantitativni ili kategorijski/kvalitativni)
– za kategorijske varijable:
SR=δ/√p(1-p) , pri čemu je: δ=p1-p2 (razlika u proporcijama) p=(p1+p2)/2 (prosječna proporcija)
– za kontinuirane varijable:
SR=δ/σ0, pri čemu je: δ – klinički relevantna razlika σ0 – očekivana standardna devijacija
Procjena veličine uzorka – primjer 1 kategorijske varijable
Ispitujemo novi antibiotik. Dosad korišteni lijek učinkovit je u 40% slučajeva, a novi, da bi se isplatio mora biti učinkovit u barem 60% slučajeva.Koliko ispitanika trebamo da bismo, uz dvosmjernu značajnost od 0.05 i snagu od 80%, provjerili takvu razliku u učinkovitosti lijekova?
SR=(0.6-0.4)/0.5=0.4
SR=δ/√p(1-p) , pri čemu je: δ=p1-p2 (razlika u proporcijama)
p=(p1+p2)/2 (prosječna proporcija)
Procjena veličine uzorka – primjer 1 kategorijske varijable
Koliki uzorak biste trebali da je sve isto, samo uz značajnost od 0.01?
Procjena veličine uzorka – primjer 2 kontinuirane varijable
Koliki uzorak je potreban da bi se, uz dvosmjernu značajnost od 0.05 i 80% snage, provjerila razlika u razini kolesterola od 1.0 mmol/l između aritmetičkih sredina dviju skupina ispitanika? Očekujemo podjednaku standardnu devijaciju u obje skupine od 3.0 mmol/l.
SR=1/3=0.333
SR=δ/σ0, pri čemu je: δ – klinički relevantna razlika σ0 – očekivana standardna devijacija
Procjena veličine uzorka – primjer 2 kontinuirane varijable
150 po skupini
Procjena veličine uzorka – zaključno
• u procjenu veličine uzorka treba uključiti i očekivano osipanje ispitanika
npr. dodati 20-30% za istraživanja koja će duže trajati
• zaokružite na cijeli broj
• veličina uzorka jest važna, ali ne znači ništa ako uzorak nije dobro odabran
Tablice i slike• Svaka tablica / slika mora biti samorazumljiva (bez
čitanja teksta)• Svaka tablica / slika mora imati naslov – što
informativniji• Gdje god su podatci statistički obrađeni,
podbilješke tablica / opisi slika moraju donijeti osnovne statističke informacije
• Ne štediti na potrebnim opisima i objašnjenjima legendi (legende – opisne)
PRIKAZ PODATAKA - NAČELA
PRIKAZ PODATAKA - NAČELA
• Svaka tablica / slika treba donijeti jednu poruku
• Ta poruka je odgovor na jedno pitanje koje proistječe iz deduktivne raščlambe hipoteze
• Prije izbora tablice / slike, mora se točno i jasno definirati što se njome želi reći
TABLICE• kategorijske varijable (numerički podatci, prebrojivi), frekvencije...
• velik broj podataka
• jednoznači, jasni i informativni naslovi stupaca i redova u tablici
• u podbilješkama (* † ‡ § ¶...) su navedena objašnjenja (statističkih testova, kratica...)Primjeri:
– podatci o ispitanicima (broj, dob, spol, indeks tjelesne mase)
– broj bolničkih kreveta, broj liječnika, sestara, tehničara, pomoćnog osoblja na odjelu....
– RTG, EKG, PHD, fotografije, zemljovidi, grafovi...
Grafovi – vremenski odnos (linijski graf)
– odnos proporcija (stupčani graf)
– korelacije
– apscisa i ordinata uvijek jasno označene (naziv, mjerne jedinice)
SLIKE
TABLICA VS. SLIKA
Tablica
• numerički podatci
• veliki broj podataka
• podatci o ispitanicima (BMI, dob, spol...), broj bolničkih kreveta, broj muških bolesnika...
Slika
• RTG, PHD, EKG...
• linijski graf - vremenski odnos
• stupčani graf -odnos proporcija
Racionalan prikaz podataka u tablici:
Pretvaranje dvaju stupaca u jedan
broj pacijenata postotak pacijenata No. (%) of patients 43 34.4% 43 (34.4) 27 21.6% 27 (21.6) 32 26.1% 32 (26.1) 17 ... ... 6
Uporaba nadnaslova za stupce
Broj (%) pacijenata broj (%) pacijenata broj (%) pacijenata
koji su dobili infarkt koji nisu dobili infarkt s infarktom bez infarkta
17 (12.4) 74 (78.3) 17 (12.4) 74 (22.8)
Raspored podataka u tablici
• Organizirati podatke tako da se srodni elementi slažu u stupac, a ne u red (npr. dob, spol, srednji tlak, težina infarkta)
• Stupce slažite ovom logikom:
DOBSPOL SIMPTOMI FIZIKALNI NALAZ RTG NALAZ TERAPIJA ISHOD
• Nastojte stupac s p vrijednostima staviti između stupaca s vrijednostima koje uspoređujete
• P vrijednosti možete staviti i u redove ako uspoređujete podatke koji stoje jedni iznad drugih
• P vrijednosti uvijek pišite na tri decimale, bez obzira na to je li razlika značajna