stat01 deskriptiv JJ -...

Deskriptiv Statitik

Judith L. Jacobsen, PhD.

http://staff.pubhealth.ku.dk/~lts/basal10_1/

[email protected]

F 2010 2

Kursus formål

• Planlægning af studier

– selve indsamlingen af data,

– opstilling af statistiske hypoteser

– valg af tests og udførsel enkle analyser

• Faglig fortolkning af statistiske resultater

• Normalfordelingen & binomial fordelingen

• Frekvens og antals tabeller

F 2010 3

Deskriptiv Statistik

• Typer af data

• Tabeller

• Grafik

• Summary statistik

• Forstå variation i observerede værdier

• Forskellige datatyper, skala og deres fordeling

F 2010 4

Undersøg ALTID Data

¶Plot ALLE observationerne

·STUDER dine plots

¸Analyser dine data

F 2010 5

Handler om

Ud fra tal – data: • at kunne udtale sig om aspekter af virkeligheden

• (lægevidenskabelige/biologiske problemstillinger)

• (Ikke “officiel” statistik, statistikproduktion)

Ud fra stikprøve:1. Deskriptiv statistik:

beskrive variation i population

2. Statistisk inferens (cf. infer )

drage konklusioner om ukendte størrelser, parametre, knyttet til populationen.

F 2010 6

Hvad er Statistik

Generalisere (gøre inferens) omkring en population ved at studere et udsnit fra denne

Population

UdsnitInferens

F 2010 7

Eksempel

PopulationAlle voksne med mistanke om CHD ud fra nogle observationer

ForsøgUdsnit af 60 voksne med mistanke om CHD

Afprøvning af en intervention

Statistik går ud på at sige noget om, hvor tæt vores observationer er på de resultater vi ville have, hvis vi havde observeret alle voksne med CHD

F 2010 8

Emner

Nøgleord

• Datareduktion

• Datapræsentation

• Statistiske modeller

Værktøj

• Matematik

• Sandsynlighedsregning

• Grafik

og sund fornuft!

F 2010 9

Data typer I

• Kvalitativ

♀ ♂

• Kvantitativ

• Binære

�Kategorisk

Subjektiv

�Numerisk, målbar

Objektiv

�Enten – Eller

Død – levende

0–1

1 2 3

Præcision

F 2010 10

Data typer II

Kvalitative

• Beskrivelse

– Subjektivt

– Objektivt ♀ ♂

• Nominal

– Benævnte kategorier

• Ordinal

– Ordnede kategorier

Kvantitative

• Målinger

– Kontinuerte

– Diskrete

• Interval

– Specifik afstand

• Ratio

– Samme reference

F 2010 11

Interval & Ratio

• Interval skala Specifik distanceTemperaturArbitrær reference, Celcius og Farenheit, man kan ikke sige at 20° er dobbelt såvarmt som 10°

• Ratio skala Samme referenceAlderRatio har samme reference – 50 år er dobbelt så gammel som 25 år

F 2010 12

Kategoriske Data

To kategorier (dikotom/binær):

• Mand/kvinde

• Gravid/ikke gravid

• Gift/ugift

• Ryger/ikke ryger

Flere end to:

• Nominal: Gift / ugift / fraskilt / enke(mand)

• Ordinal:

minimal / moderat / alvorlig / uudholdelig

smerte

F 2010 13

Kontinuerte Data

• Måling på en sammen-hængende skala

• I praksis afrundede tal

• Variable der antager “mange værdier”

• Ofte ’noget med’normalfordelingen

Eksempler

• Højde

• Vægt

• Serum-kolesterol

• Blodtryk

F 2010 14

Diskrete Numeriske Data

Tælletal

• Antal børn i en familie

• Antal metastaser/celler/bakteriekolonier

• Flydende grænser mellem diskrete numeriske og ordinale kategoriske data.

OBS: Ofte meningsløst at behandle ordinale data som om de var numeriske.

Gennemsnitlig socialklasse eller cancerstadium??

F 2010 15

Censurerede data

Typisk overlevelsesdata

• For nogen data vides kun om de er større end en vis værdi. For andre kendes værdien.

• “Patienten var i live ved sidste follow-up / pr. 1.jan. 1997”

NB: der er også trunkerede data hvor man slet ikke har data hvis de er mindre/større end en vis værdi:

• Tid til diagnose blandt patienter med symptomstart i 1995, fx.

F 2010 16

Beaufort Vindskala

Elastisk skalaOrdinalVel defineret

Ret høje, lange bølger -bølgekammen brydes til skumsprøjt

Kviste og grene brækkes af - besværligt at gå mod vinden

Hård kuling62 - 7434-4017-208

Høje bølger, hvor toppen vælter over - skumsprøjt kan påvirke sigten

Store grene knækkes -tagsten blæser ned

Stormende kuling75 - 8841-4721-249

Meget høje bølger - næsten hvid overflade - skumsprøjt påvirker udsigten

Træer rives op med rode -betydelige skader på huse

Storm89 -10248-5525-2810

Umådeligt høje bølger - havet dækket af hvide skumflager -sigten forringet

Talrige ødelæggelserStærk storm103-11756-6329-3211

Luften fyldt med skum, der forringer sigten væsentligt

Voldsomme ødelæggelserOrkan118 ->63>3212

Observationer på vandObservationer på landBetegnelsekm/tKnobm/sBeaufort

Admiral Francis Beaufort

F 2010 17

Beauforts Vindskala

F 2010 18

Oversigt over Teknikker

Kategoriskeog Kontinuerte

KontinuerteKategoriskeDikotome

KovariaterRespons

Kovarians analyseMultipel regression

Varians AnalyseEn- / to-sidet

T-testParret / uparret

NormalFordeling

Modeller for gentagne målingerVarians komponentModeller

KorreleredeNormalt ford.

Cox regressionLog-rank testCensorededata

Robust multipelregression

Kruskal - Wallis- Friedman

Mann – WhitneyWilcon sign rank

KontinuerteVanskeligt, e.g. proportional odds modelsOrdinale

Gen. Logistisk regressionKontingens tabeller /KategoriskeLogistisk regression2 x 2-tabellerDikotome test−2χ

test−2χ

F 2010 19

Overblik

• Interval & ratio data indeholder mere information end

ordinal data,

som indeholder mere information end

nominal data

• Man kan altid gå fra kontinuert – diskret –ordinal – nominal

Men aldrig den anden vej!

F 2010 20

Beskrivelse af Data

Nominal

• Frekvenser

• Tabellering

• Tærte diagram

Ordinal

• Frekvenser

• Stolpe diagram

Kontinuerte

• Middel, median, Sd, fraktiler

• Scatter plot

Diskret

• Median, min, max

• Stolpe diagram

F 2010 21

Beskrivelse Kategoriske Data

• Stolpediagrammer (barplots)

F 2010 22

Tabeller

Absolutte hyppigheder/frekvenser (antal)

• Kejsersnit og skostørrelse:

35122 35 42 48 54 150Total

43308

5 7 6 7 8 1017 28 36 41 46 140

YesNo

Total<4 4 4½ 5 5½ 6+Section

F 2010 23

Tabeller - i procent

Kejsersnit og skostørrelse:

• Relative frekvenser (i %)

100100 100 100 100 100 100Total

12.387.7

22.7 20.0 14.3 14.6 14.8 6.777.3 80.0 85.7 85.4 85.2 93.3

YesNo


• Fordel: direkte sammenlignelighed

• Ulempe: mister de faktiske antal

F 2010 24

Procenter – ’den anden vej’

Kejsersnit og skostørrelse:

• Relative frekvenser (i %)

1006.3 10.0 12.0 13.7 15.4 42.7Total

100100

11.6 16.3 14.0 16.3 18.6 23.35.5 9.1 11.7 13.3 14.9 45.5

YesNo


• Dette siger noget om fodstørrelse

– og ikke så meget om hyppighed af kejsersnit

F 2010 25

Mere om Frekvenser

• Trafikofre i the London Borough of Harrow 1985 (65 med ukendt alder udeladt)

Remark: Her kommer grupperne fra ’kontinuerte’observationer

• Så et ’bar chart’ af frekvenserne er mere som et histogram...

Total815

0-4 5-9 10-15 16 17 18-19 20-24 25-59 60+28 46 58 20 31 64 149 316 103

5.4 9.2 11.6 20.0 31.0 32.0 29.8 9.0 5.2

AlderFrekv.Fr./ år

F 2010 26

Ukorrekt: (uens interval bredde)• højden af stolper = absolutte frekvenser

F 2010 27

Korrekt: (uens interval bredde)• højden af stolper = antal ofre pr år (alder)

F 2010 28

Grupperinger

1,0-1,5 1,5-2,0 2,0-2,5 2,5-3,0 3,0-3,5 3,5-4,0

1,0-1,5 1,5-2,0 2,0-2,5 2,5-3,0 3,0-3,5 3,5-4,01,0-1,5 1,5-2,0 2,0-2,5 2,5-3,0 3,0-3,5 3,5-4,0

A B

Histogrammer

• Overvej om databør deles op

F 2010 29

Grupperinger II

R WGRUPPE$

100

200

300

400

Valu

e

AGE(1)AGE(2)AGE(3)AGE(4)

AGE(1)AGE(2)AGE(3)AGE(4)Trial

100

200

300

400

Measu

re

RW

GRUPPE$

F 2010 30

Eksempel – Kvantitative Data

• PI max

F 2010 31

Beskrivelse – Kvantitative Variable

Graphs:

• Histogram

• Probability plot

• QQ plot

• Box plot

• Graph/Histogram

pimax i Analysis

F 2010 32

Histogram – tæthed

F 2010 33

Sandsynligheder – Tæthed

• Hvad betyder sandsynligheder, f.eks. for PImax?• Her: hver enkelt værdi sandsynlighed = 0 for at indtræffe

(fordi der i princippet er ∞ mange mulige udfald)• Sandsynlighedstætheder,

sandsynligheden for et interval = arealet under kurven

F 2010 34

Diagrammer

• Histogram

• Frekvens fordeling

• Box plot

• Scatter plot

F 2010 35

Normalfordelingstætheder

µ middelforventet

σ standard afvigelse

F 2010 36

Histogram

med overlejret

Normalfordeling

• Graph/Histogram

• pimax i Analysis

• klik Fit og afkryds Normal Parameters

F 2010 37

Gennemsnit

Eksempel:• Indlæggelsestider: 5,5,5,7,10,16,106 dage• Gennemsnit: 154/7=22 dage

Repræsentativt for hvad??• Hvis omkostninger er proportionale med indlæggelsestiden, er

det måske gennemsnittet, der er interessant

Et mål for centrum

i en fordeling

Kan opfattes som lige-

vægtspunkt – påvirkes

af yderlige observationer

F 2010 38

Skal vi skræmme

modstanderne

Ved at give vores

middelhøjde?

Eller berolige

dem ved at give

median højden?

F 2010 39

Estimatorer for Beliggenhed

• Middel Den aritmetiske middelværdi for et set observationer. Misvisende når baseret på’skewed’ data.

• Median Den værdi, i et set ordnede observationer, som deler data i to ens dele. God til ’skewed’ data og relativ robust for ’outliere’.

• Modus Den oftest observerede værdi i et set observationer (‘typisk værdi‘). Bruges bla. når ovennævnte ikke slår til

F 2010 40

Estimatorer for Spredning

• Range Forskellen mellem max. og min. i et set observationer. Ikke anbefalet til at måle spredning pga. sensitiviteten til outliers. Dens størrelse øger med stikprøve størrelsen.

• Varians ‘Gennemsnittet’ af observation-ernes kvadrerede afvigelser fra middel-værdien. Standard afvigelse SD = kvadrat-roden af variansen.

• Standard fejl SD for stikprøve fordelingen af en statistik. SE = s / n½

F 2010 41

Deskriptive Mål

• Udregning af basale mål

• Middel: Varians:

• Std.afv.:

Medianen (50%) er den midterste værdi når data

er sorteret efter størrelse

n

xx

∑=

)1(

)( 2

2

−

−=∑

n

xxs

2ss =

F 2010 42

Hvornår bruges hvad?

Beliggenhed

• Formen på data

– Skewed: Median

– Symmetrisk: Middel

• Type data

– Nominale data: Modus

– Ordinale data: Median

– Kontinuerte Data: Middel

Skala

• Formen på data

Gir ingen mening at beregne SD for skewed data

Brug kvartiler og fraktiler i stedet

F 2010 43

Fraktiler og kvartiler

Et mål for variabilitet

• Viser skævheder

• 50% = medianen

• 25% og 75%

Fraktiler

• Frekvens fordelingS T

METODE$

500

1000

1500

2000

ST

YR

KE

F 2010 44

Summary Statistik i SAS

Statistics/Descriptive/Summary Statistics

• pimax i Analysis i Statistics afkrydses:

• Mean, Standard Deviation, Minimum, Maximum, Median & Number of Observations

The MEANS ProcedureAnalysis Variable : pimax

Mean Std Dev Minimum Maximum Median N---------------------------------------------------------------------------------------------------92.60 24.9215436 40.00 150.00 95.00 25---------------------------------------------------------------------------------------------------

F 2010 45

Normalfordeling – God?

Hvordan ses, om normalfordelingen er en god beskrivelse?

• Computersimulation af 150 observationer fra samme normalfordeling, gentages 9 gange.

• Nogle ser ’ikke ret normalfordelte’ ud!

• Ganske store afvigelser kan tolereres (i visse sammenhænge)

specielt når de ikke er for systematiske

F 2010 46

Tilfældigt udtrukket 150 obs fra en normalfordeling

mid

de

l =

115

og s

pre

dn

ing =

10

⇒ Samme forskel i middelværdi, men ikke lige vigtig

Varians er vigtig

F 2010 48

Test af Normalitet i SAS Analyst

Statistics/

Descriptive/

Distributions

→ klik: Fit/Normal

Parameters

blandt meget

andet output fås:

The UNIVARIATE Procedure

Fitted Distribution for pimax

Parameters for Normal Distribution

Parameter Symbol Estimate

Mean Mu 92.6

Std Dev Sigma 24.92154

Goodness-of-Fit Tests for Normal Distribution

Test --- Statistic --- --- p Value ---

Kolmogorov-Smirnov D 0.12002682 Pr > D >0.150

Cramer-von Mises W-Sq 0.05671455 Pr > W-Sq >0.250

Anderson-Darling A-Sq 0.35232007 Pr > A-Sq >0.250

------- Quantile ------Percent Observed Estimated

1.0 40.0000 34.62385.0 45.0000 51.607710.0 70.0000 60.661825.0 75.0000 75.790750.0 95.0000 92.600075.0 110.0000 109.409390.0 125.0000 124.538295.0 130.0000 133.592399.0 150.0000 150.5762

Quantiles – Normal Fordeling

F 2010 50

Fraktiler

• (PImax-eksempel) Data i rækkefølge:

Median: Midterste observation, 50%-fraktil: 95

Kvartiler (25% og 75% fraktiler): 75, 110.

25150

24130

23125

22120

21110

Ipimax

20110

19110

18100

17100

16100

1595959595

1495

1395

1295

1185

Ipimax

1080

980

880

775

675

575

475

370

245

140

Ipimax

F 2010 51

Fraktildiagram

Graphs/Probability

Plot:

Hvis data er normalfordelt, skal

fraktildiagrammet ligne en ret linie

F 2010 52

Graph/Box Plot

i Display skiftes

til Schematic

F 2010 53

Hvis Fordelingen er Skæv

eller afviger tydeligt fra N-

Formalfordelingen:

• gennemsnit og spredning bør ikke angives

I stedet:

• fraktiler– median

– Inter-quartile range, IQR intervallet mellem 25% og 75% fraktil

• range

Om muligt bør fordelingen

illustreres grafisk!

Alternativ:

Transformer til normalitet

For små materialer angives

• median

• range

F 2010 54

Hvorfor Normalfordelingen?

Ofte en rimelig approksimation

• Evt. efter transformation

med logaritme, kvadratrod, invers,...

Central grænseværdisætning:

• Summen af et stort antal variable ligner efterhånden en Normalfordeling

(sum af N-fordelinger er igen en N-fordeling).

Rimelig let at arbejde med, fordi standard programmel er udviklet for Normalfordelingen

F 2010 55

Højder

F 2010 56

Diastolisk Blodtryk

F 2010 57

Central Grænseværdisætning

standard error of the mean SD1

nn

SDSEM ===

F 2010 58

Normal Fordelingen

• Hvis variablen Y er normalfordelt med middelværdi µ og varians σ2, skrives

• Standardiseret /normeret variabel:

−−−−3σ 3σ 3σ 3σ −−−−2σ 2σ 2σ 2σ −−−−σ µ +σ +2σ +3σσ µ +σ +2σ +3σσ µ +σ +2σ +3σσ µ +σ +2σ +3σ

68,3%

95,4%

99,7%

),(~ 2σµNY

dfs

Yt~

µ−=Ζ

tdf t-fordeling med df frihedsgrader (afh af ant. obs.)

F 2010 59

N-Ford. – Middel & Varians

µ = 10 µ = 24

σ = 1

σ = 2

F 2010 60

Eksempel

Fra et stort materiale har vi fundet gennemsnitlig Se-albumin på 34.46 (g/l) og empirisk varians på 5.842 (g/l)2

• Hvis vi antager Se-albumin er normalfordelt med middelværdi 34.46 g/l og spredning 5.84 g/l, hvad er sandsynligheden for at en tilfældigt udvalgt person har en værdi over 42.0 g/l?

Hvor mange standardafvigelser er 42.0 fra 34.46?

Tabelopslag i standardnormalfordeling –eller computer: P = 0.0985 ≈ 10%

29.184.5

46.3442 =−

F 2010 61

Normalområder

der omslutter 95% af normale observationer:

• nedre grænse: 2 ½ % fraktil

• øvre grænse: 97 ½ % fraktil

• Hvis fordelingen kan beskrives ved en normalfordeling N(µ,σ2) kan disse fraktiler direkte udtrykkes som

2 ½ % fraktil: µ − 1.96 ≈ y − 1.96 s

97 ½ % fraktil: µ + 1.96 ≈ y + 1.96 s

• og normalområdet udregnes derfor som

hvis standard N-fordeling

)2,2(2 sysysy ×+×−×± =

96.1975.0025.0 ≈=− zz

F 2010 62

Skæve fordelinger

- 0.47g/l0.80g/l

Standard deviation s = SD

Gennemsnit

)/74.1 ,/14.0()2 ,2( llyy ggss −=++

F 2010 63

Transformation

0.238- 0.158SDmiddel

På log10 skala:

)32.0 ,63.0(238.0 2158.0 −=×±−

08.210

23.010

695.010

:Antilogs

32.0

0.63

158.0

=

=−

=−

Bedre grænser: (0.23, 2.08)

stat01 deskriptiv JJ -...

Documents

Transcript of stat01 deskriptiv JJ -...