stat01 deskriptiv JJ -...
Transcript of stat01 deskriptiv JJ -...
Deskriptiv Statitik
Judith L. Jacobsen, PhD.
http://staff.pubhealth.ku.dk/~lts/basal10_1/
F 2010 2
Kursus formål
• Planlægning af studier
– selve indsamlingen af data,
– opstilling af statistiske hypoteser
– valg af tests og udførsel enkle analyser
• Faglig fortolkning af statistiske resultater
• Normalfordelingen & binomial fordelingen
• Frekvens og antals tabeller
F 2010 3
Deskriptiv Statistik
• Typer af data
• Tabeller
• Grafik
• Summary statistik
• Forstå variation i observerede værdier
• Forskellige datatyper, skala og deres fordeling
F 2010 4
Undersøg ALTID Data
¶Plot ALLE observationerne
·STUDER dine plots
¸Analyser dine data
F 2010 5
Handler om
Ud fra tal – data: • at kunne udtale sig om aspekter af virkeligheden
• (lægevidenskabelige/biologiske problemstillinger)
• (Ikke “officiel” statistik, statistikproduktion)
Ud fra stikprøve:1. Deskriptiv statistik:
beskrive variation i population
2. Statistisk inferens (cf. infer )
drage konklusioner om ukendte størrelser, parametre, knyttet til populationen.
F 2010 6
Hvad er Statistik
Generalisere (gøre inferens) omkring en population ved at studere et udsnit fra denne
Population
UdsnitInferens
F 2010 7
Eksempel
PopulationAlle voksne med mistanke om CHD ud fra nogle observationer
ForsøgUdsnit af 60 voksne med mistanke om CHD
Afprøvning af en intervention
Statistik går ud på at sige noget om, hvor tæt vores observationer er på de resultater vi ville have, hvis vi havde observeret alle voksne med CHD
F 2010 8
Emner
Nøgleord
• Datareduktion
• Datapræsentation
• Statistiske modeller
Værktøj
• Matematik
• Sandsynlighedsregning
• Grafik
og sund fornuft!
F 2010 9
Data typer I
• Kvalitativ
♀ ♂
• Kvantitativ
• Binære
�Kategorisk
Subjektiv
�Numerisk, målbar
Objektiv
�Enten – Eller
Død – levende
0–1
1 2 3
Præcision
F 2010 10
Data typer II
Kvalitative
• Beskrivelse
– Subjektivt
– Objektivt ♀ ♂
• Nominal
– Benævnte kategorier
• Ordinal
– Ordnede kategorier
Kvantitative
• Målinger
– Kontinuerte
– Diskrete
• Interval
– Specifik afstand
• Ratio
– Samme reference
F 2010 11
Interval & Ratio
• Interval skala Specifik distanceTemperaturArbitrær reference, Celcius og Farenheit, man kan ikke sige at 20° er dobbelt såvarmt som 10°
• Ratio skala Samme referenceAlderRatio har samme reference – 50 år er dobbelt så gammel som 25 år
F 2010 12
Kategoriske Data
To kategorier (dikotom/binær):
• Mand/kvinde
• Gravid/ikke gravid
• Gift/ugift
• Ryger/ikke ryger
Flere end to:
• Nominal: Gift / ugift / fraskilt / enke(mand)
• Ordinal:
minimal / moderat / alvorlig / uudholdelig
smerte
F 2010 13
Kontinuerte Data
• Måling på en sammen-hængende skala
• I praksis afrundede tal
• Variable der antager “mange værdier”
• Ofte ’noget med’normalfordelingen
Eksempler
• Højde
• Vægt
• Serum-kolesterol
• Blodtryk
F 2010 14
Diskrete Numeriske Data
Tælletal
• Antal børn i en familie
• Antal metastaser/celler/bakteriekolonier
• Flydende grænser mellem diskrete numeriske og ordinale kategoriske data.
OBS: Ofte meningsløst at behandle ordinale data som om de var numeriske.
Gennemsnitlig socialklasse eller cancerstadium??
F 2010 15
Censurerede data
Typisk overlevelsesdata
• For nogen data vides kun om de er større end en vis værdi. For andre kendes værdien.
• “Patienten var i live ved sidste follow-up / pr. 1.jan. 1997”
NB: der er også trunkerede data hvor man slet ikke har data hvis de er mindre/større end en vis værdi:
• Tid til diagnose blandt patienter med symptomstart i 1995, fx.
F 2010 16
Beaufort Vindskala
Elastisk skalaOrdinalVel defineret
Ret høje, lange bølger -bølgekammen brydes til skumsprøjt
Kviste og grene brækkes af - besværligt at gå mod vinden
Hård kuling62 - 7434-4017-208
Høje bølger, hvor toppen vælter over - skumsprøjt kan påvirke sigten
Store grene knækkes -tagsten blæser ned
Stormende kuling75 - 8841-4721-249
Meget høje bølger - næsten hvid overflade - skumsprøjt påvirker udsigten
Træer rives op med rode -betydelige skader på huse
Storm89 -10248-5525-2810
Umådeligt høje bølger - havet dækket af hvide skumflager -sigten forringet
Talrige ødelæggelserStærk storm103-11756-6329-3211
Luften fyldt med skum, der forringer sigten væsentligt
Voldsomme ødelæggelserOrkan118 ->63>3212
Observationer på vandObservationer på landBetegnelsekm/tKnobm/sBeaufort
Admiral Francis Beaufort
F 2010 17
Beauforts Vindskala
F 2010 18
Oversigt over Teknikker
Kategoriskeog Kontinuerte
KontinuerteKategoriskeDikotome
KovariaterRespons
Kovarians analyseMultipel regression
Varians AnalyseEn- / to-sidet
T-testParret / uparret
NormalFordeling
Modeller for gentagne målingerVarians komponentModeller
KorreleredeNormalt ford.
Cox regressionLog-rank testCensorededata
Robust multipelregression
Kruskal - Wallis- Friedman
Mann – WhitneyWilcon sign rank
KontinuerteVanskeligt, e.g. proportional odds modelsOrdinale
Gen. Logistisk regressionKontingens tabeller /KategoriskeLogistisk regression2 x 2-tabellerDikotome test−2χ
test−2χ
F 2010 19
Overblik
• Interval & ratio data indeholder mere information end
ordinal data,
som indeholder mere information end
nominal data
• Man kan altid gå fra kontinuert – diskret –ordinal – nominal
Men aldrig den anden vej!
F 2010 20
Beskrivelse af Data
Nominal
• Frekvenser
• Tabellering
• Tærte diagram
Ordinal
• Frekvenser
• Stolpe diagram
Kontinuerte
• Middel, median, Sd, fraktiler
• Scatter plot
Diskret
• Median, min, max
• Stolpe diagram
F 2010 21
Beskrivelse Kategoriske Data
• Stolpediagrammer (barplots)
F 2010 22
Tabeller
Absolutte hyppigheder/frekvenser (antal)
• Kejsersnit og skostørrelse:
35122 35 42 48 54 150Total
43308
5 7 6 7 8 1017 28 36 41 46 140
YesNo
Total<4 4 4½ 5 5½ 6+Section
F 2010 23
Tabeller - i procent
Kejsersnit og skostørrelse:
• Relative frekvenser (i %)
100100 100 100 100 100 100Total
12.387.7
22.7 20.0 14.3 14.6 14.8 6.777.3 80.0 85.7 85.4 85.2 93.3
YesNo
Total<4 4 4½ 5 5½ 6+Section
• Fordel: direkte sammenlignelighed
• Ulempe: mister de faktiske antal
F 2010 24
Procenter – ’den anden vej’
Kejsersnit og skostørrelse:
• Relative frekvenser (i %)
1006.3 10.0 12.0 13.7 15.4 42.7Total
100100
11.6 16.3 14.0 16.3 18.6 23.35.5 9.1 11.7 13.3 14.9 45.5
YesNo
Total<4 4 4½ 5 5½ 6+Section
• Dette siger noget om fodstørrelse
– og ikke så meget om hyppighed af kejsersnit
F 2010 25
Mere om Frekvenser
• Trafikofre i the London Borough of Harrow 1985 (65 med ukendt alder udeladt)
Remark: Her kommer grupperne fra ’kontinuerte’observationer
• Så et ’bar chart’ af frekvenserne er mere som et histogram...
Total815
0-4 5-9 10-15 16 17 18-19 20-24 25-59 60+28 46 58 20 31 64 149 316 103
5.4 9.2 11.6 20.0 31.0 32.0 29.8 9.0 5.2
AlderFrekv.Fr./ år
F 2010 26
Ukorrekt: (uens interval bredde)• højden af stolper = absolutte frekvenser
F 2010 27
Korrekt: (uens interval bredde)• højden af stolper = antal ofre pr år (alder)
F 2010 28
Grupperinger
1,0-1,5 1,5-2,0 2,0-2,5 2,5-3,0 3,0-3,5 3,5-4,0
1,0-1,5 1,5-2,0 2,0-2,5 2,5-3,0 3,0-3,5 3,5-4,01,0-1,5 1,5-2,0 2,0-2,5 2,5-3,0 3,0-3,5 3,5-4,0
A B
Histogrammer
• Overvej om databør deles op
F 2010 29
Grupperinger II
R WGRUPPE$
100
200
300
400
Valu
e
AGE(1)AGE(2)AGE(3)AGE(4)
AGE(1)AGE(2)AGE(3)AGE(4)Trial
100
200
300
400
Measu
re
RW
GRUPPE$
F 2010 30
Eksempel – Kvantitative Data
• PI max
F 2010 31
Beskrivelse – Kvantitative Variable
Graphs:
• Histogram
• Probability plot
• QQ plot
• Box plot
• Graph/Histogram
pimax i Analysis
F 2010 32
Histogram – tæthed
F 2010 33
Sandsynligheder – Tæthed
• Hvad betyder sandsynligheder, f.eks. for PImax?• Her: hver enkelt værdi sandsynlighed = 0 for at indtræffe
(fordi der i princippet er ∞ mange mulige udfald)• Sandsynlighedstætheder,
sandsynligheden for et interval = arealet under kurven
F 2010 34
Diagrammer
• Histogram
• Frekvens fordeling
• Box plot
• Scatter plot
F 2010 35
Normalfordelingstætheder
µ middelforventet
σ standard afvigelse
F 2010 36
Histogram
med overlejret
Normalfordeling
• Graph/Histogram
• pimax i Analysis
• klik Fit og afkryds Normal Parameters
F 2010 37
Gennemsnit
Eksempel:• Indlæggelsestider: 5,5,5,7,10,16,106 dage• Gennemsnit: 154/7=22 dage
Repræsentativt for hvad??• Hvis omkostninger er proportionale med indlæggelsestiden, er
det måske gennemsnittet, der er interessant
Et mål for centrum
i en fordeling
Kan opfattes som lige-
vægtspunkt – påvirkes
af yderlige observationer
F 2010 38
Skal vi skræmme
modstanderne
Ved at give vores
middelhøjde?
Eller berolige
dem ved at give
median højden?
F 2010 39
Estimatorer for Beliggenhed
• Middel Den aritmetiske middelværdi for et set observationer. Misvisende når baseret på’skewed’ data.
• Median Den værdi, i et set ordnede observationer, som deler data i to ens dele. God til ’skewed’ data og relativ robust for ’outliere’.
• Modus Den oftest observerede værdi i et set observationer (‘typisk værdi‘). Bruges bla. når ovennævnte ikke slår til
F 2010 40
Estimatorer for Spredning
• Range Forskellen mellem max. og min. i et set observationer. Ikke anbefalet til at måle spredning pga. sensitiviteten til outliers. Dens størrelse øger med stikprøve størrelsen.
• Varians ‘Gennemsnittet’ af observation-ernes kvadrerede afvigelser fra middel-værdien. Standard afvigelse SD = kvadrat-roden af variansen.
• Standard fejl SD for stikprøve fordelingen af en statistik. SE = s / n½
F 2010 41
Deskriptive Mål
• Udregning af basale mål
• Middel: Varians:
• Std.afv.:
Medianen (50%) er den midterste værdi når data
er sorteret efter størrelse
n
xx
∑=
)1(
)( 2
2
−
−=∑
n
xxs
2ss =
F 2010 42
Hvornår bruges hvad?
Beliggenhed
• Formen på data
– Skewed: Median
– Symmetrisk: Middel
• Type data
– Nominale data: Modus
– Ordinale data: Median
– Kontinuerte Data: Middel
Skala
• Formen på data
Gir ingen mening at beregne SD for skewed data
Brug kvartiler og fraktiler i stedet
F 2010 43
Fraktiler og kvartiler
Et mål for variabilitet
• Viser skævheder
• 50% = medianen
• 25% og 75%
Fraktiler
• Frekvens fordelingS T
METODE$
500
1000
1500
2000
ST
YR
KE
F 2010 44
Summary Statistik i SAS
Statistics/Descriptive/Summary Statistics
• pimax i Analysis i Statistics afkrydses:
• Mean, Standard Deviation, Minimum, Maximum, Median & Number of Observations
The MEANS ProcedureAnalysis Variable : pimax
Mean Std Dev Minimum Maximum Median N---------------------------------------------------------------------------------------------------92.60 24.9215436 40.00 150.00 95.00 25---------------------------------------------------------------------------------------------------
F 2010 45
Normalfordeling – God?
Hvordan ses, om normalfordelingen er en god beskrivelse?
• Computersimulation af 150 observationer fra samme normalfordeling, gentages 9 gange.
• Nogle ser ’ikke ret normalfordelte’ ud!
• Ganske store afvigelser kan tolereres (i visse sammenhænge)
specielt når de ikke er for systematiske
F 2010 46
Tilfældigt udtrukket 150 obs fra en normalfordeling
mid
de
l =
115
og s
pre
dn
ing =
10
⇒ Samme forskel i middelværdi, men ikke lige vigtig
Varians er vigtig
F 2010 48
Test af Normalitet i SAS Analyst
Statistics/
Descriptive/
Distributions
→ klik: Fit/Normal
Parameters
blandt meget
andet output fås:
The UNIVARIATE Procedure
Fitted Distribution for pimax
Parameters for Normal Distribution
Parameter Symbol Estimate
Mean Mu 92.6
Std Dev Sigma 24.92154
Goodness-of-Fit Tests for Normal Distribution
Test --- Statistic --- --- p Value ---
Kolmogorov-Smirnov D 0.12002682 Pr > D >0.150
Cramer-von Mises W-Sq 0.05671455 Pr > W-Sq >0.250
Anderson-Darling A-Sq 0.35232007 Pr > A-Sq >0.250
------- Quantile ------Percent Observed Estimated
1.0 40.0000 34.62385.0 45.0000 51.607710.0 70.0000 60.661825.0 75.0000 75.790750.0 95.0000 92.600075.0 110.0000 109.409390.0 125.0000 124.538295.0 130.0000 133.592399.0 150.0000 150.5762
Quantiles – Normal Fordeling
F 2010 50
Fraktiler
• (PImax-eksempel) Data i rækkefølge:
Median: Midterste observation, 50%-fraktil: 95
Kvartiler (25% og 75% fraktiler): 75, 110.
25150
24130
23125
22120
21110
Ipimax
20110
19110
18100
17100
16100
1595959595
1495
1395
1295
1185
Ipimax
1080
980
880
775
675
575
475
370
245
140
Ipimax
F 2010 51
Fraktildiagram
Graphs/Probability
Plot:
Hvis data er normalfordelt, skal
fraktildiagrammet ligne en ret linie
F 2010 52
Graph/Box Plot
i Display skiftes
til Schematic
F 2010 53
Hvis Fordelingen er Skæv
eller afviger tydeligt fra N-
Formalfordelingen:
• gennemsnit og spredning bør ikke angives
I stedet:
• fraktiler– median
– Inter-quartile range, IQR intervallet mellem 25% og 75% fraktil
• range
Om muligt bør fordelingen
illustreres grafisk!
Alternativ:
Transformer til normalitet
For små materialer angives
• median
• range
F 2010 54
Hvorfor Normalfordelingen?
Ofte en rimelig approksimation
• Evt. efter transformation
med logaritme, kvadratrod, invers,...
Central grænseværdisætning:
• Summen af et stort antal variable ligner efterhånden en Normalfordeling
(sum af N-fordelinger er igen en N-fordeling).
Rimelig let at arbejde med, fordi standard programmel er udviklet for Normalfordelingen
F 2010 55
Højder
F 2010 56
Diastolisk Blodtryk
F 2010 57
Central Grænseværdisætning
standard error of the mean SD1
nn
SDSEM ===
F 2010 58
Normal Fordelingen
• Hvis variablen Y er normalfordelt med middelværdi µ og varians σ2, skrives
• Standardiseret /normeret variabel:
−−−−3σ 3σ 3σ 3σ −−−−2σ 2σ 2σ 2σ −−−−σ µ +σ +2σ +3σσ µ +σ +2σ +3σσ µ +σ +2σ +3σσ µ +σ +2σ +3σ
68,3%
95,4%
99,7%
),(~ 2σµNY
dfs
Yt~
µ−=Ζ
tdf t-fordeling med df frihedsgrader (afh af ant. obs.)
F 2010 59
N-Ford. – Middel & Varians
µ = 10 µ = 24
σ = 1
σ = 2
F 2010 60
Eksempel
Fra et stort materiale har vi fundet gennemsnitlig Se-albumin på 34.46 (g/l) og empirisk varians på 5.842 (g/l)2
• Hvis vi antager Se-albumin er normalfordelt med middelværdi 34.46 g/l og spredning 5.84 g/l, hvad er sandsynligheden for at en tilfældigt udvalgt person har en værdi over 42.0 g/l?
Hvor mange standardafvigelser er 42.0 fra 34.46?
Tabelopslag i standardnormalfordeling –eller computer: P = 0.0985 ≈ 10%
29.184.5
46.3442 =−
F 2010 61
Normalområder
der omslutter 95% af normale observationer:
• nedre grænse: 2 ½ % fraktil
• øvre grænse: 97 ½ % fraktil
• Hvis fordelingen kan beskrives ved en normalfordeling N(µ,σ2) kan disse fraktiler direkte udtrykkes som
2 ½ % fraktil: µ − 1.96 ≈ y − 1.96 s
97 ½ % fraktil: µ + 1.96 ≈ y + 1.96 s
• og normalområdet udregnes derfor som
hvis standard N-fordeling
)2,2(2 sysysy ×+×−×± =
96.1975.0025.0 ≈=− zz
F 2010 62
Skæve fordelinger
- 0.47g/l0.80g/l
Standard deviation s = SD
Gennemsnit
)/74.1 ,/14.0()2 ,2( llyy ggss −=++
F 2010 63
Transformation
0.238- 0.158SDmiddel
På log10 skala:
)32.0 ,63.0(238.0 2158.0 −=×±−
08.210
23.010
695.010
:Antilogs
32.0
0.63
158.0
=
=−
=−
Bedre grænser: (0.23, 2.08)