OSNOVE STATISTIČKE OBRADE PODATAKA

47
OSNOVE OSNOVE STATISTIČKE OBRADE PODATAKA STATISTIČKE OBRADE PODATAKA Darko Hren Croatian Medical Journal Medicinski Fakultet u Zagrebu

description

OSNOVE STATISTIČKE OBRADE PODATAKA. Darko Hren Croatian Medical Journal Medicinski Fakultet u Zagrebu. populacija. uzorak. CILJ ISTRAŽIVANJA. Opisati. Objasniti. Predvidjeti. Oruđe : STATISTIKA. Nezavršena osnovna škola 19%. Osnovna škola 22%. Više ili visoko obrazovanje 12%. - PowerPoint PPT Presentation

Transcript of OSNOVE STATISTIČKE OBRADE PODATAKA

Page 1: OSNOVE STATISTIČKE OBRADE PODATAKA

OSNOVEOSNOVESTATISTIČKE OBRADE PODATAKASTATISTIČKE OBRADE PODATAKA

Darko HrenCroatian Medical Journal

Medicinski Fakultet u Zagrebu

Page 2: OSNOVE STATISTIČKE OBRADE PODATAKA

uzorak populacija

CILJ ISTRAŽIVANJA

Opisati

Objasniti

Predvidjeti

Oruđe:STATISTIKA

Page 3: OSNOVE STATISTIČKE OBRADE PODATAKA

Više ili visokoobrazovanje

12%

Nezavršenaosnovna škola

19%

Osnovna škola22%

Srednja škola47%

UZORAKUZORAKKakvo je stanje u populaciji?

Reprezentativan

Nereprezentativan

Nereprezentativan

Page 4: OSNOVE STATISTIČKE OBRADE PODATAKA

UZORAKUZORAKVrste uzoraka (načini uzimanja uzoraka)

Slučajni

Stratificirani

Sustavni

Prigodni

Svaki član populacije ima jednaku vjerojatnost biti odabran(izvlačenje brojeva iz šešira, tablice slučajnih brojeva,računalni programi...)

Uzima se svaki n-ti član populacije

Populacija se dijeli na “slojeve” pa se iz njih uzimajuslučajni uzorci

Podatci se uzimaju od ispitanika koje imamo “pri ruci”

Page 5: OSNOVE STATISTIČKE OBRADE PODATAKA

UZORAKUZORAK

Veličina uzorkaVarijabilnost mjerene

pojaveŽeljena preciznost

mjerenja

Snaga istraživanja – vjerojatnost pronalaženja razlike koja zaista i postoji u populaciji

Pogreške:alfa – pronašli smo statistički značajnu razliku, a razlike zapravo nemabeta – nismo pronašli razliku, a razlika zapravo postoji

Page 6: OSNOVE STATISTIČKE OBRADE PODATAKA

OBLIKOVANJE SKUPINA

Uzorak

Kontrolna Eksperimentalna (1 ili više)

randomizacija

Page 7: OSNOVE STATISTIČKE OBRADE PODATAKA

VJEŽBA

Želimo ispitati stavove studenata prema znanosti.Tijekom prvog tjedna upisa, upitnikom od 10 pitanja ispitali smo studente koji su čekali ispred referade.

Slučajni?

Stratificirani?

Sustavni?

Page 8: OSNOVE STATISTIČKE OBRADE PODATAKA

LJESTVICE MJERENJANOMINALNA

ORDINALNA

INTERVALNA

OMJERNA

broj stoji umjesto imena (npr. spol – muški=0, žene=1)

brojevi označavaju redoslijed, ali ne znamo KOLIKE su razlike(npr. pokretljivost bolesnika: I nepokretan, II slabo ili ograničenopokretan, III pokretan)

imamo redoslijed i razlike ali brojčani odnosi ne označavaju odnose u mjerenoj pojavi jer nema apsolutne nule

(npr. temperatura – 20ºC nije dvostruko toplije od 10ºC)

brojčani odnosi označavaju odnose u mjerenoj pojavi jerpostoji apsolutna nula(npr. dužina – 20 cm je dvostruko duže od 10 cm)

Page 9: OSNOVE STATISTIČKE OBRADE PODATAKA

VJEŽBA

Zbroj bodova na ljestvici stavova prema znanosti(najmanji mogući rezultat je 10, a najveći 50)

Dob

Brojevi na majicama nogometaša

Doza lijeka koji se daje pacijentu (izražena u mg)

Stupanj opeklina ordinalna

nominalna

intervalna

omjerna

omjerna

Page 10: OSNOVE STATISTIČKE OBRADE PODATAKA

OBRADA PODATAKA:OBRADA PODATAKA:

Opis

Usporedba

Povezanost

Kakvi su stavovi studenata medicineprema znanosti?

Postoje li razlike u stavovima premaznanosti između studenata različitih godina?

Postoji li povezanost između stavova prema znanostiprosjeka ocjena?

Page 11: OSNOVE STATISTIČKE OBRADE PODATAKA

OPIS

Srednje vrijednosti i raspršenja

Raspodjela

Dominantna vrijednost (Mode)-najčešći rezultatat-

Središnja vrijednost (Median)-središnji rezultatat-

Aritmetička sredina (Mean)-prosjek-

Raspon

Poluinterkvartilno raspršenje

Standardna devijacija

Page 12: OSNOVE STATISTIČKE OBRADE PODATAKA

SREDNJE VRIJEDNOSTI

Aritmetička sredinaZbroj svih rezultata

Broj rezultata

Ovisi o vrijednosti rezultata, pa je osjetljiva na vrijednosti koje jako odstupaju

Središnja vrijednost Vrijednost koja se nalazi točno u sredini nizarezultata poredanih po veličini

Ne ovisi o vrijednosti rezultata, pa je vrijednosti koje jako odstupaju nemijenjaju, ali ju može promijeniti broj rezultata

Dominantna vrijednost

Ne ovisi ni o vrijednosti ni o broju rezultata

Vrijednost koja se najčešće pojavljuje

Page 13: OSNOVE STATISTIČKE OBRADE PODATAKA

SREDNJE VRIJEDNOSTII RASPRŠENJA

Page 14: OSNOVE STATISTIČKE OBRADE PODATAKA

1+2+2+2+2+3+3+4+8

1+2+2+3+3+3+4+4+5

9= 3

9= 3

M=C

1 2 3 4 8

1 2 3 4 5

SREDNJE VRIJEDNOSTI

C=2M=3

Page 15: OSNOVE STATISTIČKE OBRADE PODATAKA

RASPODJELA PODATAKA

0

5

10

15

20

25

30

35

40

45

1 2 3 4 5

0

5

10

15

20

25

30

35

40

45

1 2 3 4 5

C=4 C=4

Page 16: OSNOVE STATISTIČKE OBRADE PODATAKA

VRIJEDNOSTI KOJE SE JAKO RAZLIKUJU

105 110 115 120 125 130 135 140 145 150 155

sfenoidni kut [o]

151

Pažnja! Možda je pogreška, a

možda neistražena

pojava!

Page 17: OSNOVE STATISTIČKE OBRADE PODATAKA

NORMALNA RASPODJELANORMALNA RASPODJELA

Testiranje normaliteta raspodjele: Kolmogorov-Smirnov test

Page 18: OSNOVE STATISTIČKE OBRADE PODATAKA

DRUGE RASPODJELEDRUGE RASPODJELE

Asimetrična udesno

Asimetrična ulijevo

Stožasta

Spljoštena

Bimodalna

Page 19: OSNOVE STATISTIČKE OBRADE PODATAKA

Aritmetička sredina i standardna devijacija

Središnja/dominantna vrijednost i interkvartilno raspršenje/totalni raspon

Parametrijska statistika

Neparametrijska statistika

Page 20: OSNOVE STATISTIČKE OBRADE PODATAKA

ZBOG POGREŠKE MJERENJA DOBIVENI REZULTATI

UVIJEK SU SAMO PROCJENA STANJA U POPULACIJI

RASPON POUZDANOSTI(CONFIDENCE INTERVAL)

RASPON U KOJI, UZ ODREĐENU SIGURNOST (95%, 99%),

ZAHVAĆA “PRAVI” REZULTAT U POPULACIJI

Npr. M=20, 95%CI 18-24C=76, 99%CI 69-85

Page 21: OSNOVE STATISTIČKE OBRADE PODATAKA

IZBOR ODGOVARAJUĆEG STATISTIČKOG POSTUPKA

Page 22: OSNOVE STATISTIČKE OBRADE PODATAKA

VJEŽBAVJEŽBA

1. Kakvi su stavovi studenata medicineprema znanosti?

2. Postoje li razlike u stavovima premaznanosti između studenata različitih godina?

4. Postoji li povezanost između stavova premaznanosti i prosjeka ocjena?

3. Postoje li razlike u stavovima premaznanosti između studenata i studentica?

Page 23: OSNOVE STATISTIČKE OBRADE PODATAKA

1. Kakvi su stavovi studenata medicine prema znanosti?

Page 24: OSNOVE STATISTIČKE OBRADE PODATAKA

2. Postoje li razlike u stavovima prema znanosti između studenata različitih godina?

Page 25: OSNOVE STATISTIČKE OBRADE PODATAKA

3. Postoje li razlike u stavovima prema znanosti izmeđustudenata i studentica?

Page 26: OSNOVE STATISTIČKE OBRADE PODATAKA

4. Postoji li povezanost između stavova prema znanostii prosjeka ocijena?

Page 27: OSNOVE STATISTIČKE OBRADE PODATAKA

Statistički značajno!!!

TUMAČENJE REZULTATA

p<0.05

Page 28: OSNOVE STATISTIČKE OBRADE PODATAKA

p<0.05 – 95% sigurnosti da dobivenarazlika/povezanost nije posljedica slučaja

p<0.01 – 99% sigurnosti da dobivenarazlika/povezanost nije posljedica slučaja

PRIKAZ p-vrijednosti – tri decimalna mjestaNpr. p=0.024

p=0.007p<0.001

ŠTO ZNAČI “STATISTIČKI ZNAČAJNO”?

Page 29: OSNOVE STATISTIČKE OBRADE PODATAKA

Statistički značajno

ne mora biti iSTVARNOznačajno!!!

Page 30: OSNOVE STATISTIČKE OBRADE PODATAKA

PRIMJER

Rezultati randomiziranog kontroliranog pokusapokazuju da je novi lijek u pokusnoj skupini

prosječno smanjio dijastolički tlaks 99 mmHg na 96 mmHg, p<0.001

Statistički značajno, ali ne i klinički!

Page 31: OSNOVE STATISTIČKE OBRADE PODATAKA

PRIMJER

94,5

95

95,5

96

96,5

97

97,5

98

98,5

99

99,5

1 20

102030405060708090

100110120

1 2

p<0.001

Page 32: OSNOVE STATISTIČKE OBRADE PODATAKA

Slušanje kolegija utječe na stvaranje pozitivnijihstavova prema znanosti

Slušanje kolegija utječe na stvaranje pozitivnijihstavova prema znanosti

POVEZANOST

Korelacija između stavova prema znanostii slušanja kolegija “Uvod u znanstveni rad u medicini”

iznosi ρ=0.84, p<0.001

Studenti koji su slušali kolegij vjerojatnoimaju pozitivnije stavove prema znanosti

NE ZNAČI I UZROČNOST

SAMO POKUSOMMOŽEMO UTVRDITI

UZROČNOST!!!

Page 33: OSNOVE STATISTIČKE OBRADE PODATAKA

ELEMENTARY CONCEPTS IN STATISTICS http://www.statsoftinc.com/textbook/esc.html

BIOSTATISTICS INSTRUCTIONAL MANUALhttp://www.sjsu.edu/faculty/gerstman/StatPrimer/

POWER CALCULATIONhttp://calculators.stat.ucla.edu/powercalc/

ONLINE STATISTICS TEXTBOOK http://www2.chass.ncsu.edu/garson/pa765/statnote.htm

Page 34: OSNOVE STATISTIČKE OBRADE PODATAKA

Procjena veličine uzorka

• “Koliki uzorak mi treba?”– često pitanje

– važno pitanje

– odgovor nije sasvim jednostavan

• grafički način procjene veličine uzorka – Altmanov nomogram

Page 35: OSNOVE STATISTIČKE OBRADE PODATAKA

Procjena veličine uzorka• potrebna 3 parametra

– (klinički) relevantna razlika

– razina značajnosti (0.05, 0.01)

– snaga

• na temelju razlike koju smatramo relevantnom možemo izračunati standardiziranu razliku koja ovisi o vrsti podataka (kontinuirani/kvantitativni ili kategorijski/kvalitativni)

– za kategorijske varijable:

SR=δ/√p(1-p) , pri čemu je: δ=p1-p2 (razlika u proporcijama) p=(p1+p2)/2 (prosječna proporcija)

– za kontinuirane varijable:

SR=δ/σ0, pri čemu je: δ – klinički relevantna razlika σ0 – očekivana standardna devijacija

Page 36: OSNOVE STATISTIČKE OBRADE PODATAKA

Procjena veličine uzorka – primjer 1 kategorijske varijable

Ispitujemo novi antibiotik. Dosad korišteni lijek učinkovit je u 40% slučajeva, a novi, da bi se isplatio mora biti učinkovit u barem 60% slučajeva.Koliko ispitanika trebamo da bismo, uz dvosmjernu značajnost od 0.05 i snagu od 80%, provjerili takvu razliku u učinkovitosti lijekova?

SR=(0.6-0.4)/0.5=0.4

SR=δ/√p(1-p) , pri čemu je: δ=p1-p2 (razlika u proporcijama)

p=(p1+p2)/2 (prosječna proporcija)

Page 37: OSNOVE STATISTIČKE OBRADE PODATAKA

Procjena veličine uzorka – primjer 1 kategorijske varijable

Koliki uzorak biste trebali da je sve isto, samo uz značajnost od 0.01?

Page 38: OSNOVE STATISTIČKE OBRADE PODATAKA

Procjena veličine uzorka – primjer 2 kontinuirane varijable

Koliki uzorak je potreban da bi se, uz dvosmjernu značajnost od 0.05 i 80% snage, provjerila razlika u razini kolesterola od 1.0 mmol/l između aritmetičkih sredina dviju skupina ispitanika? Očekujemo podjednaku standardnu devijaciju u obje skupine od 3.0 mmol/l.

SR=1/3=0.333

SR=δ/σ0, pri čemu je: δ – klinički relevantna razlika σ0 – očekivana standardna devijacija

Page 39: OSNOVE STATISTIČKE OBRADE PODATAKA

Procjena veličine uzorka – primjer 2 kontinuirane varijable

150 po skupini

Page 40: OSNOVE STATISTIČKE OBRADE PODATAKA

Procjena veličine uzorka – zaključno

• u procjenu veličine uzorka treba uključiti i očekivano osipanje ispitanika

npr. dodati 20-30% za istraživanja koja će duže trajati

• zaokružite na cijeli broj

• veličina uzorka jest važna, ali ne znači ništa ako uzorak nije dobro odabran

Page 41: OSNOVE STATISTIČKE OBRADE PODATAKA

Tablice i slike• Svaka tablica / slika mora biti samorazumljiva (bez

čitanja teksta)• Svaka tablica / slika mora imati naslov – što

informativniji• Gdje god su podatci statistički obrađeni,

podbilješke tablica / opisi slika moraju donijeti osnovne statističke informacije

• Ne štediti na potrebnim opisima i objašnjenjima legendi (legende – opisne)

PRIKAZ PODATAKA - NAČELA

Page 42: OSNOVE STATISTIČKE OBRADE PODATAKA

PRIKAZ PODATAKA - NAČELA

• Svaka tablica / slika treba donijeti jednu poruku

• Ta poruka je odgovor na jedno pitanje koje proistječe iz deduktivne raščlambe hipoteze

• Prije izbora tablice / slike, mora se točno i jasno definirati što se njome želi reći

Page 43: OSNOVE STATISTIČKE OBRADE PODATAKA

TABLICE• kategorijske varijable (numerički podatci, prebrojivi), frekvencije...

• velik broj podataka

• jednoznači, jasni i informativni naslovi stupaca i redova u tablici

• u podbilješkama (* † ‡ § ¶...) su navedena objašnjenja (statističkih testova, kratica...)Primjeri:

– podatci o ispitanicima (broj, dob, spol, indeks tjelesne mase)

– broj bolničkih kreveta, broj liječnika, sestara, tehničara, pomoćnog osoblja na odjelu....

Page 44: OSNOVE STATISTIČKE OBRADE PODATAKA

– RTG, EKG, PHD, fotografije, zemljovidi, grafovi...

Grafovi – vremenski odnos (linijski graf)

– odnos proporcija (stupčani graf)

– korelacije

– apscisa i ordinata uvijek jasno označene (naziv, mjerne jedinice)

SLIKE

Page 45: OSNOVE STATISTIČKE OBRADE PODATAKA

TABLICA VS. SLIKA

Tablica

• numerički podatci

• veliki broj podataka

• podatci o ispitanicima (BMI, dob, spol...), broj bolničkih kreveta, broj muških bolesnika...

Slika

• RTG, PHD, EKG...

• linijski graf - vremenski odnos

• stupčani graf -odnos proporcija

Page 46: OSNOVE STATISTIČKE OBRADE PODATAKA

Racionalan prikaz podataka u tablici:

Pretvaranje dvaju stupaca u jedan

broj pacijenata postotak pacijenata No. (%) of patients 43 34.4% 43 (34.4) 27 21.6% 27 (21.6) 32 26.1% 32 (26.1) 17 ... ... 6

Uporaba nadnaslova za stupce

Broj (%) pacijenata broj (%) pacijenata broj (%) pacijenata

koji su dobili infarkt koji nisu dobili infarkt s infarktom bez infarkta

17 (12.4) 74 (78.3) 17 (12.4) 74 (22.8)

Page 47: OSNOVE STATISTIČKE OBRADE PODATAKA

Raspored podataka u tablici

• Organizirati podatke tako da se srodni elementi slažu u stupac, a ne u red (npr. dob, spol, srednji tlak, težina infarkta)

• Stupce slažite ovom logikom:

DOBSPOL SIMPTOMI FIZIKALNI NALAZ RTG NALAZ TERAPIJA ISHOD

• Nastojte stupac s p vrijednostima staviti između stupaca s vrijednostima koje uspoređujete

• P vrijednosti možete staviti i u redove ako uspoređujete podatke koji stoje jedni iznad drugih

• P vrijednosti uvijek pišite na tri decimale, bez obzira na to je li razlika značajna