Statistik 2005-2006 statistik - bi.ku.dk her_files/EB2005-M1...1 Matematik/Statistik statistik...

12
1 Matematik/Statistik statistik Forelæser og ansvarlig for kursets statistikdel: Peter Sunde Afd. f. Populationsbiologi [email protected] M1, slide 1 Dagens prædiken: Introduktion til kurset ° Praktiske oplysninger ° Hvad vedkommer statistik os biologer! ° Hvad vi vil ha’, at I skal ha’ ud af dette kursus Statistiske grundbegreber ° Hvad går statistik ud på? ° Observationer, stikprøver og populationer ° Stokastiske variable ° Mål for central tendens ° Mål for spredning M1, slide 2 (Introduktion til kurset: praktiske oplysninger) Populationsbiologi Bio-statistik Matematik for biologer Matematik/Statistik M1, slide 3 (Introduktion til kurset: praktiske oplysninger) Statistik 2005-2006 9 dobbeltforelæsninger (uge 46-2) 2x2 ugentlige øvelsestimer (sammen med matematik) Eksamen 27. januar 2006 4 timers skriftligt prøve Statistikdel og matematikdel vægtes lige Bestået, hvis >50% rigtigt M1, slide 4 (Introduktion til kurset: praktiske oplysninger) Kursusmateriale: 80 kr Fowler et al. 1998. Practical statistics for field biology. Lærebog: pensum . Kompendium og opgaver i biostatistik M1, slide 5 (Introduktion til kurset: praktiske oplysninger) Statistik: Kursus-hjemmeside: www.bi.ku.dk Vælg menuerne: Courses Course homepages Undergraduate courses Blok 2 - Matematik/Statistik Login to protected documents, Username: biologi, Password: biku --Start her.htm Kursusinformation og Downloads: Forelæsnings-slides Løsninger til regneopgaver Regneark med automatiserede statistikfunktioner M1, slide 6 (Introduktion til kurset: praktiske oplysninger)

Transcript of Statistik 2005-2006 statistik - bi.ku.dk her_files/EB2005-M1...1 Matematik/Statistik statistik...

1

Matematik/Statistik

statistikForelæser og ansvarlig for kursets statistikdel:

Peter SundeAfd. f. Populationsbiologi

[email protected]

M1, slide 1

Dagens prædiken:• Introduktion til kurset

° Praktiske oplysninger° Hvad vedkommer statistik os biologer!° Hvad vi vil ha’, at I skal ha’ ud af dette kursus

• Statistiske grundbegreber° Hvad går statistik ud på?° Observationer, stikprøver og populationer° Stokastiske variable° Mål for central tendens° Mål for spredning

M1, slide 2 (Introduktion til kurset: praktiske oplysninger)

Populationsbiologi

Bio-statistik Matematikfor biologer

Matematik/Statistik

M1, slide 3 (Introduktion til kurset: praktiske oplysninger)

Statistik 2005-2006• 9 dobbeltforelæsninger (uge 46-2)

• 2x2 ugentlige øvelsestimer (sammen med matematik)

• Eksamen 27. januar 2006 ☺– 4 timers skriftligt prøve– Statistikdel og matematikdel vægtes lige– Bestået, hvis >50% rigtigt

M1, slide 4 (Introduktion til kurset: praktiske oplysninger)

Kursusmateriale:

80 kr

• Fowler et al. 1998. Practicalstatistics for field biology. Lærebog: pensum.

• Kompendium og opgaver i biostatistik

M1, slide 5 (Introduktion til kurset: praktiske oplysninger)

Statistik: Kursus-hjemmeside:

www.bi.ku.dkVælg menuerne:Courses → Course homepages → Undergraduate

courses → Blok 2 - Matematik/Statistik →Login to protected documents, Username:biologi, Password: biku → --Start her.htm

Kursusinformation og Downloads:Forelæsnings-slides Løsninger til regneopgaverRegneark med automatiserede statistikfunktioner

M1, slide 6 (Introduktion til kurset: praktiske oplysninger)

2

Vejledende forelæsningsplan

12

Introduktion til kurset. Statistiske grundbegreber. Sandsynlighedsfordelinger for diskrete variable på nominalskala: Binomialfordelingen, Poisson-fordelingen. (1-56)

34

Principper for hypotese-testning.Statistiske test for data på nominalskala: Binomialtestet, χ2-tests. Fordelingsmønstre af tælledata. (62-70, 103-122)

5 Sandsynlighedsfordelinger for data på interval- og ratioskala: normalfordeling, t-fordeling, F-fordeling, sikkerhedsgrænser for middelværdi og forskel i middelværdi. (74-100)

6 Tests for forskel i central tendens for data på ordinal- oginterval/ratioskala: t-tests for afhængige of uafhængige stikprøver, Mann-Whitney U-test, Kruskall-Wallis test, Wilcoxon’s test, Friedman’s test. (165-178)7 Korrelation og regression:Covarians, Pearson’s r, Spearman’s rs,Lineær regression. (131-154)

8 Regression fortsat. Introduktion til variansanalyse og generelle lineæremodeller, samt brug af statistisk software. (179-181, 187-189)

9 OpsamlingM1, slide 7 (Introduktion til kurset: praktiske oplysninger)

Uge Statistik-forelæsninger * Relevante opgaver i øvelseskompendium

Statistik i forbindelse med populationsøvelser

46 (1 + 2) Introduktion til kursetStatistiske grundbegreber. Sandsynligheds-fordelinger for diskrete stokastiske variable på nominalskala: Binomialfordelingen, Poisson-fordelingen. (1-56)

Sæt 1: 1–6Sæt 2: 1–5

Sæt 3: 1–4 (også uge 47)

(ingen)

47 (3+4) Principper for hypotese-testning.Statistiske test for data på nominalskala: Binomialtestet, χ2-tests. Fordelingsmønstreaf tælledata (62-70, 103-122)

Sæt 3: 1–4 (også uge 46)

Sæt 5: 1–5

Livstabel: Binomialfordeling, binomialtest, χ2 one sample test

48 (5) Sandsynlighedsfordelinger for data påinterval- og ratioskala: normalfordeling, t-fordeling, F-fordeling, sikkerhedsgrænserfor middelværdi og forskel i middelværdi(74-100)

Sæt 4: 1–4 Biologisk bekæmpelse: Mann-Whitney, Wilcoxon, t-statistik

49 (6) Tests for forskel i central tendens for data på ordinal, interval og ratioskala: t-tests , Mann-Whitney U-test, Kruskall-Wallis test, Wilcoxon’s test, Friedman’s test (165-178)

Sæt 6: 1–5 Funktionelt respons:Spearman’s rs, lineærregressionSignalering: Mann-Whitney, Wilcoxon, Spearman’s rs

50 (7) Korrelation og regression:Covarians, Pearson’s r, Spearman’s rs,Lineær regression (131-154)

Sæt 7: 1–3 Frøbank: χ2 (r × c table), Wilcoxon, fordelingsmønstrePopulationsvækst: Mann-Whitney, Wilcoxon, t-statistik

1 (8) Regression fortsat. Introduktion tilvariansanalyse og generelle lineære modeller, samt brug af statistisk software (179-181, 187-189)

Sæt 8: 1–2 Aldersstruktur: t-statistik, χ2

-statistikDominans: Kruskall-Wallis, χ2-statistik

2 (9) Opsamling Eksempler påeksamensopgaver

(ingen)

* Sidehenvisninger til lærebogen (Fowler et al. 1998) er angivet med rød tekst.M1, slide 8 (Introduktion til kurset)

• Introduktion til kurset

– Praktiske oplysninger– Hvad vedkommer statistik os biologer!

– Hvad vi vil ha’, at I skal ha’ ud af dette kursus

M1, slide 9 (Introduktion til kurset: Hvad vedkommer statistik biologer?)

Hvad vedkommer statistik egentlig os biologer?• Statistisk analyse er en del af den

(natur)videnskabelige metode!• Statistik vil indgå i din professionelle

hverdag!

M1, slide 10 (Introduktion til kurset: Hvad vedkommer statistik biologer?)

Statistisk analyse er en del af den naturvidenskabelige metode

Data

Statistisk analyse

Kvantitativt resultat

Biologisk tolkning

Biologisk funderet konklusion = Varen DU skal levereM1, slide 11 (Introduktion til kurset: Hvad vedkommer statistik biologer?)

Statistisk analyse er en del af den naturvidenskabelige metode

Data

Statistisk analyse

Kvantitativt resultat

Biologisk tolkning

Biologisk funderet konklusion

”Sampling design”

”stærkest mulige metode”

”Biologiske kompetence”

(Estimat af virkeligheden)

= Varen DU skal levereM1, slide 12 (Introduktion til kurset: Hvad vedkommer statistik biologer?)

3

Brugen af statistik bare stiger og stiger..

M1, slide 13 (Introduktion til kurset: Hvad vedkommer statistik biologer?)

Forstår du denne tekst?” Der var 47 hanner og 23 hunner i koloni A

(67% hanner; 95% CI: 56-73%). I koloni B var det tilsvarende antal 23 og 12 (66% hanner, 95% CI: 49-74%). Der var ingen signifikant forskel på fordelingen af hanner og hunner i de to kolonier (X2

[Yate’s korrektion] = 0.005, df=1, P>0.9). I de to kolonier tilsammen, var der signifikant flere hanner end hunner (binomial test (two-tailed): P= 0.0006). ”

M1, slide 14 (Introduktion til kurset: Hvad vedkommer statistik biologer?)

Formålsbeskrivelse:” Undervisningen skal introducere de studerende til

statistikkens grundbegreber og metoder, primært gennem konkrete eksempler på statistikkens anvendelse i forbindelse med biologiske problemstillinger. Der vil blive lagt vægt på, at den studerende med udgangspunkt i en konkret biologisk problemstilling kan opstille hypoteser, vælge signifikansniveau, vælge en statistisk test, der udnytter data optimalt, udføre beregningerne korrekt og til slut drage den rigtige konklusion baseret på de opstillede hypoteser og det valgte signifikansniveau. I løbet af kurset vil den studerende stifte bekendtskab med de mest anvendte statistiske fordelinger samt en række parametriske og parameterfrie tests. Endelig vil den studerende blive introduceret til statistisk software.”

M1, slide 16 (Introduktion til kurset: Hvad du skal lære på dette kursus)

Hvad vi vil ha’, at I skal ha’ud af dette kursus

• Forståelse af statistikkens grundprincipper og underlæggende teori

• Basale færdigheder i brug af simpel statistik til behandling af egne data.

• En grundlæggende viden, som sætter jer i stand til på egen hånd, at opsøge mereviden..

M1, slide 17 (Introduktion til kurset: Hvad du skal lære på dette kursus)

Grib chancen!

M1, slide 18 (Introduktion til kurset)

Statistiske grundbegreber° Hvad går statistik ud på?° Observationer, stikprøver og

populationer° Stokastiske variable° Mål for central tendens° Mål for spredning

M1, slide 19 (Statistiske grundbegreber)

4

Hvad er statistik?Én definition:“There are three kinds of lies: lies, damned lies, and statistics”

Benjamin Disraeli, 1804-1881

Britisk Premierminister

M1, slide 20 (Statistiske grundbegreber: Hvad går statistik ud på?)

Hvad er statistik?En anden definition:Statistik: Det videnskabelige studie af data, som beskriver naturlig variation

Videnskab: Objektiv, standardiseret metode

Data: Kvantitative mængder af information, ikke enkeltobservationer

Naturlig variation: Variation, som kan henføres til alle de begivenheder, der ikke er under undersøgerens direkte kontrol

M1, slide 21 (Statistiske grundbegreber: Hvad går statistik ud på?)

Hvad er statistik?

0

2

4

6

8

10

23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

x

frek

vens

(f)

0

0.1

0.2

0.3

23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

x

Forv

ente

t hyp

pigh

ed (p

)

-En tredje definition:ved på basis af sandsynlighedsteori, at generalisere

en kvantitativt udtrykt viden fra et begrænset antal observationer til en større helhed.

(Kvantitativt = kan angives i talstørrelser)

M1, slide 22 (Statistiske grundbegreber: Hvad går statistik ud på?)

Hvad er statistik?

0

2

4

6

8

10

23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

x

frek

vens

(f)

0

0.1

0.2

0.3

23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

x

Forv

ente

t hyp

pigh

ed (p

)

- ved på basis af sandsynlighedsteori, at generalisere en kvantitativt udtrykt viden fra et begrænset antal observationer til en større helhed.

Vægtfordeling af 28 kongepingviner → vægtfordeling af alle kongepingviner

Stikprøve → population

M1, slide 23 (Statistiske grundbegreber: Hvad går statistik ud på?)

Hvad bruger vi statistik til?

0

2

4

6

8

10

23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

x

frek

vens

(f)

0

0.1

0.2

0.3

23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

x

Forv

ente

t hyp

pigh

ed (p

)

- Ud fra stikprøvens sammensætning, kan vi estimere populationens ”sande” sammensætning, som vi ikke kender.

- Et estimat er derfor behæftet med statistisk usikkerhed

- Statistisk teori sætter os i stand til at angive størrelsen af denne usikkerhed.

Stikprøve → population

M1, slide 24 (Statistiske grundbegreber: Hvad går statistik ud på?)

Hovedanvendelser af statistik

• Induktiv/deskriptiv/beskrivende statistik:– Angivelse af sikkerhedsgrænser omkring estimater af

de ”sande” underlæggende fordelinger

• Deduktiv (hypotese-testende) statistik:– Test for om en observeret forskel er reel, ud fra

sandsynligheden for at den kan tilskrives tilfældig variation

A) Forskelle mellem grupperB) Sammenhænge mellem variable

M1, slide 25 (Statistiske grundbegreber: Hvad går statistik ud på?)

5

Deskriptiv statistik

• Udgangspunktet for alle analyser: Hvordan ser mønsteret ud?- Hvad er de to stikprøvers estimerede middelværdier, og hvor stor er usikkerheden omkring de to estimater?

0

1

2

3

4

5

6

7V

ærd

i af v

aria

bel

M1, slide 26 (Statistiske grundbegreber: Hvad går statistik ud på?)

Deduktiv statistik, Hypotese-testning:

0

1

2

3

4

5

6

7

rdi a

f var

iabe

l

• Tester om en observeret forskel (eller sammenhæng) er reel.- Hvad er sandsynligheden for at den observerede forskel i gennemsnit skyldes tilfældigheder?

Herom, meget mere senere...

M1, slide 27 (Statistiske grundbegreber: Hvad går statistik ud på?)

Datagrundlag/forsøgsdesign:

• Eksperimentelle data:Uafhængige variable kontrolleret af forsøgslederF.eks. Kliniske forsøg: forsøgspersoner modtager

forskellig behandling bestemt ved lodtrækning

Korrelative dataUafhængige variable ikke underlagt forsøgsleders

kontrol.F.eks. Epidemiologiske undersøgelser: dødelighed

blandt rygere og ikke-rygere i en befolkning

M1, slide 28 (Statistiske grundbegreber: Hvad går statistik ud på?)

Eksempel på korrelative data:Fødselshyppighed og antal storkepar i Danmark, 1890-2000

0

5

10

15

20

25

30

35

1 10 100 1000 10000

Antal storkepar

Føds

ler

per

1000

inb.

M1, slide 29 (Statistiske grundbegreber: Hvad går statistik ud på?)

Eksempel på korrelative data:Fødselshyppighed og antal storkepar i Danmark, 1890-2000

0

5

10

15

20

25

30

35

1 10 100 1000 10000

Antal storkepar

Føds

ler p

er 1

000

inb.

”CORRELATION IS NOT CAUSATION”

En statistisk påviselig sammenhæng siger kun, at derer en sammenhæng. Ikke hvad den skyldes!

Statistisk funderede konklusioner er sårbare over for mistolkninger (eller manipulation..). Vær altid kritisk!

M1, slide 30 (Statistiske grundbegreber: Hvad går statistik ud på?)

Statistiske grundbegreber° Hvad går statistik ud på?° Observationer, stikprøver og populationer

° Stokastiske variable° Mål for central tendens° Mål for spredning

M1, slide 31 (Statistiske grundbegreber: Observationer, stikprøver og populationer)

6

M1, slide 32 (Statistiske grundbegreber: Observationer, stikprøver og populationer)

Stikprøve → population

• Enkeltobservation: én pingvin

• Stikprøve: n pingviner i kolonien

• Statistisk population: alle pingviner i kolonien

• Biologisk population: alle kongepingviner, som har unger i februar måned (?)

M1, slide 33 (Statistiske grundbegreber: Observationer, stikprøver og populationer)

• Stikprøven skal være et tilfældigt udtræk af den statistiske population (repræsentativ)!

• Hvis stikprøven ikke er repræsentativ, er undersøgelsen ”biased”.

• De enkelte observationer skal være indbyrdes uafhængige!

Universelle krav til stikprøvetagning (”sampling”)!

M1, slide 34 (Statistiske grundbegreber: Observationer, stikprøver og populationer)

Statistiske grundbegreber° Hvad går statistik ud på?° Observationer, stikprøver og

populationer° Stokastiske variable° Mål for central tendens° Mål for spredning

M1, slide 35 (Statistiske grundbegreber: Stokastiske variable)

• Variabel: Hvad som helst, som varierer mellem observationer

• Stokastisk variabel: En variabel, hvis udfald/værdi vi på forhånd ikke kender.

• Udfaldsrum: Det sæt værdier en stokastisk variabel kan antage.

Variable

M1, slide 36 (Statistiske grundbegreber: Stokastiske variable)

Observation: Variabel: Udfaldsrum:Pingvin køn {♀,♂}Pingvin Længde (cm) [0, ∞]Pingvin PCB indhold (ppm) [0, 106]Pingvinkoloni Antal Pingviner {0, 1, 2 .. ∞}

Eksempler på variable

M1, slide 37 (Statistiske grundbegreber: Stokastiske variable)

7

Måleskalaer for variable:

• Nominal-skala (”klassifikations-skala”){♂,♀},{rød, blå}, {konge-, kejserpingvin}

• Ordinal-skala (”rang-skala”){pulli, juvenil, subadult, adult}

• Interval-skala Temperatur i °C

• Ratio-skalaHøjde, masse, antal

M1, slide 38 (Statistiske grundbegreber: Stokastiske variable)

Matematiske operatorer:• Nominal-skala = ≠

• Ordinal-skala = > <

• Interval-skala = > < - +

• Ratio-skala = > < - + X /• .

M1, slide 39 (Statistiske grundbegreber: Stokastiske variable)

Diskrete og kontinuerte variable

• Diskrete variable”discrete, discintinuous, meristic”:– Kan kun antage diskrete værdier

• Kontinuerte variable”continuous”:– Kan antage alle værdier indenfor et

givet udfaldsrum

M1, slide 40 (Statistiske grundbegreber: Stokastiske variable)

Diskrete og kontinuerte variable

• Diskrete variableAntal pingviner i en koloni, ⎯X = {0,1,2...∞}Køn,⎯X = {♂,♀}

• Kontinuerte variableLængde, ⎯X ∈]0, ∞[

M1, slide 41 (Statistiske grundbegreber: Stokastiske variable)

Grafisk fremstilling

• Diskrete variablePindediagram(”bar graphs”)Lagkagediagram (nominalskala)

• Kontinuerte variableHistogram (interval-,ratioskala)

0

5

1015

20

25

30

Hanner Hunner Unger

Gruppe

Ant

al o

bser

vatio

ner

0

1

23

4

5

6

0 1 2 3 4 5 6

Kuldstørrelse

Ant

al re

der

0

2

4

6

8

10

70 72 74 76 78 80 82

Højde (cm)A

ntal

pin

gvin

er, f

(x)

Hunner

HannerUnger

M1, slide 42 (Statistiske grundbegreber: Stokastiske variable)

Statistiske grundbegreber° Hvad går statistik ud på?° Observationer, stikprøver og populationer° Stokastiske variable° Mål for fordelingers centrale tendens° Mål for fordelingers spredning

0

2

4

6

8

10

23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

x

M1, slide 43 (Statistiske grundbegreber: Mål for fordelingers centrale tendens

8

Forskellige mål for fordelingers centrale tendens

• Middelværdi/gennemsnit• Median• Modus

0

2

4

6

8

10

23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

x

M1, slide 44 (Statistiske grundbegreber: Mål for fordelingers centrale tendens

• Middelværdien:”mean”

• Gennemsnittet (estimat af middelværdi):”sample mean””average”

(Forskellige notationerbetyder det samme)

N

xi∑=µ

n

xx

i∑== µ̂

nx

nx

nx ii

n

i ∑∑∑ ===1

Middelværdi og gennemsnit(data på interval eller ratioskala)

M1, slide 45 (Statistiske grundbegreber: Mål for fordelingers centrale tendens

H

• Eksempel på beregning af gennemsnit:xi = {21, 24, 45, 51} Σxi = 21+24+45+51 = 141n = 4⎯x = Σxi /n =141/4 = 35,25 ≈ 35,3

n

xx

i∑== µ̂

M1, slide 46 (Statistiske grundbegreber: Mål for fordelingers centrale tendens

Gennemsnit af grupperede data

0

1

2

3

4

5

6

0 1 2 3 4 5 6

Kuldstørrelse

f(x)

, (A

ntal

rede

r)

x f f*x0 5 01 1 12 4 83 5 154 3 125 1 5

Σ f = n = 19Σxif i = 41⎯ x = Σ x i f i / Σ f = 41 /19 = 2,2

nxf

xi∑ ⋅

== µ̂

M1, slide 47 (Statistiske grundbegreber: Mål for fordelingers centrale tendens

Medianen(data skal være på mindst ordinalskala)

• Den værdi som deler en frekvensfordeling i to lige store dele

• = 50% fraktil

M1, slide 48 (Statistiske grundbegreber: Mål for fordelingers centrale tendens

0

1

2

3

4

5

6

0 1 2 3 4 5 6

x: Kuldstørrelse

f(x)

, (A

ntal

rede

r med

x æ

g)

Beregning af median når antallet af observationer (n) er ulige:

• Median= værdien af den (n + 1)/2’te observation(19+1)/2 = 10’ende observation,Median = 2

0

1

2

3

4

5

6

0 1 2 3 4 5 6

x: Kuldstørrelse

f(x)

, (A

ntal

rede

r med

x æ

g)

x f F0 5 51 1 62 4 103 5 154 3 185 1 19

M1, slide 49 (Statistiske grundbegreber: Mål for fordelingers centrale tendens

9

To metoder:1) Median = gennemsnittet af værdierne for den n/2’te

og den (n/2+1)’te observation:eller

2) Medianværdien ligger mellem værdien af den n/2’te og den (n/2+1)’te observation.

Find medianen for denne fordeling (4 observationer): 12, 31, 34, 67

1) n/2 = 4/2 = 2; værdi af 2. observation = 31, (n/2+1 = 4/2 + 1 = 3, værdi af 3. observation = 34Median = (31 + 34)/2 = 32.5

2) Medianen ligger i mellem 31 og 34

Beregning af median for en fordeling med et lige antal observationer

(interval-/ratioskala)

(ordinalskala)

M1, slide 50 (Statistiske grundbegreber: Mål for fordelingers centrale tendens

Modus• Værdien af de(t) mest almindelige

udfald

0

1

2

3

4

5

6

0 1 2 3 4 5 6

x, kuldstørrelse

f(x)

, ant

al re

der

Fordelinger med et, to eller tre toppunkter, kaldeshenholdsvist uni-, bi og tri-modale

M1, slide 51 (Statistiske grundbegreber: Mål for fordelingers centrale tendens

Tre måder at vægte central tendens for den typiske kuldstørrelse

• Gennemsnit =⎯x = 41/19 = 2,2• Median = 2• Modus = {0;3}

0

1

2

3

4

5

6

0 1 2 3 4 5 6

x, kuldstørrelse

f(x)

, ant

al re

der

M1, slide 52 (Statistiske grundbegreber: Mål for fordelingers centrale tendens

Statistiske grundbegreber° Hvad går statistik ud på?° Observationer, stikprøver og populationer° Stokastiske variable° Mål for fordelingers centrale tendens° Mål for fordelingers spredning

0

2

4

6

8

10

23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

x

M1, slide 53 (Statistiske grundbegreber: Mål for fordelingers spredning

Tre fordelinger med samme gennemsnit, men forskellig spredning

0

2

4

6

8

10

23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

x

frek

vens

(f)

0

2

4

6

8

10

23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

x

frek

vens

(f)

0

2

4

6

8

10

23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

x

frek

vens

(f)

⎯x = 31 n = 30

M1, slide 54 (Statistiske grundbegreber: Mål for fordelingers spredning

Forskellige mål for, hvor stor forskel der er i værdier inden for en fordeling:

0

2

4

6

8

10

23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

x

frek

vens

(f)

• ”Range”, ”Fraktiler” (mindst ordinalskala)

• Varians, standardafvigelse (interval/ratioskala)

• Variationskoefficient (kun ratioskala)

M1, slide 55 (Statistiske grundbegreber: Mål for fordelingers spredning

10

”Range” (”spændvidde”)Difference mellem den største og den lavest

målte værdi

Højeste værdi = 5, Laveste værdi = 0, Range = 5-0 = 5

0

1

2

3

4

5

6

0 1 2 3 4 5 6

x, kuldstørrelse

f(x)

, ant

al re

der

M1, slide 56 (Statistiske grundbegreber: Mål for fordelingers spredning

Fraktiler/procentiler(”Fractiles”/”Percentiles”)

• Angiver værdier, som afgrænser de mest ekstreme ”haler” af fordelingen.

• I modsætning til ”range” robuste over for variation i stikprøvestørrelse

0

2

4

6

8

10

23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

x

frek

vens

(f)

M1, slide 57 (Statistiske grundbegreber: Mål for fordelingers spredning

Fraktiler/procentiler

• ”Fractiles”,/”Percentiles”• Robuste over for variation i

stikprøvestørrelse

weight (g)

19001800

17001600

15001400

13001200

11001000

900800

700600

500

137 duehøgehunner dræbt i kollisionsulykker30

20

10

0

5% fraktil

95% fraktil

50% fraktil (= medianen)

x (kropsvægt, målt i gram)F(x)

, ant

aldu

ehøg

epe

r in

terv

al

M1, slide 58 (Statistiske grundbegreber: Mål for fordelingers spredning

H

weight (g)

19001800

17001600

15001400

13001200

11001000

900800

700600

500

137 duehøgehunner dræbt i kollisionsulykker30

20

10

0

weight (g)

19001800

17001600

15001400

13001200

11001000

900800

700600

500

Sub-sample af 20 hunner:6

5

4

3

2

1

0

Hvis stikprøven havde været mindre…

De 137 hunner: 20 af de 137 hunner:

M1, slide 59 (Statistiske grundbegreber: Mål for fordelingers spredning

Hn = 137 n = 20 n = 20 n = 20

Gennemsnit 1087 985 1053 1192median 1050 895 1038 1150

Minimum 495 550 520 750Maksimum 1850 1512 1460 1636

Difference: 1355 962 940 886

5% procentil 600 553 532 75595% procentil 1568 1508 1457 1634

Difference: 968 955 925 879

Range, men ikke fraktilværdier, følsomme over for variation i stikprøvens størrelse

M1, slide 60 (Statistiske grundbegreber: Mål for fordelingers spredning

Afvigelsen fra gennemsnittet• ”Deviation from the mean” ,”deviate”:

xxD i −=

M1, slide 61 (Statistiske grundbegreber: Mål for fordelingers spredning

11

Den kvadrerede afvigelse fra gennemsnittet:

• ”Squared deviation from the mean”

• ”Sum of squares”, ”SS”Kvadratsummen

• ”Mean square”, ”MS”Variansen

• ”Standard deviation”, Standard afvigelsen N

xi∑ −=

2)( µσ

2)( µ−ix

∑ − 2)( xxi

2)( xxi −

∑ − 2)( µix

Total-optælling: Stikprøve:

1

)( 2

−= ∑

n

xxs

i

N

xi∑ −=

22 )( µ

σ 1

)( 22

−= ∑

n

xxs

i

M1, slide 62 (Statistiske grundbegreber: Mål for fordelingers spredning

”Sum-of-squares”:• ”Sum of squares of the deviations”, ”Sum of

squares”, ”SS”, ”Kvadrat-summen”

- En nøgleparameter i parametriskstatistik!

(mere herom senere......)

( )∑ ∑

−=

−=

n

xxSS

xxSS

i

ix

ix

2

2

2

)(

)(c

M1, slide 63 (Statistiske grundbegreber: Mål for fordelingers spredning

Frihedsgrader (ν)....• ”Degrees of freedom”, ”DF”, ν

• DF = antal observationer (n) – antal estimerede parametre.

• Hver populationsparameter, som estimeres ud fra en stikprøve ”spiser”en informationsmængde svarende til 1 observation!

M1, slide 64 (Statistiske grundbegreber: Mål for fordelingers spredning

Frihedsgrader (ν)....

• Et lomme-eksempel:• X={13, 14, 15, 18}

xi xi-gnst.13 -214 -115 018 3

Σ = 60 0n = 4gnst.= 15

Da de aritmetiske afvigelser fra gennemsnittet summerer op til 0, vil den sidste (n’te) observations afvigelse være defineret ud fra de foregående observationer!

1

)( 22

−= ∑

n

xxs

i

M1, slide 65 (Statistiske grundbegreber: Mål for fordelingers spredning

Variationskoefficienten• ”coefficient of variation”, ”CV”

• Angiver den relative variation, standardiseret i forhold til gennemsnittet.

• Da CV angiver et relativt forhold (er en ratio), skal data være på ratioskala

xsCV =

M1, slide 66 (Statistiske grundbegreber: Mål for fordelingers spredning

Variationskoefficient• Eksempel: længde af lårbensknogler hos

to gnavere:Markmus: Bæver:

22 15317 16221 15131 14125 17226 160

Gnst. = 23.7 156.5SD = 4.8 10.6

CV = 0.20 0.07

xsCV =

M1, slide 67 (Statistiske grundbegreber: Mål for fordelingers spredning

12

0

2

4

6

8

10

23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

x

frek

vens

(f)

0

2

4

6

8

10

23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

x

frek

vens

(f)

0

2

4

6

8

10

23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

x

frek

vens

(f)

⎯x = 31, n = 30

S2 = 1,93S = 1,38CV = 4,5%

S2 = 5,24S = 2,29CV = 7,4%

S2 = 6,28S = 2,51CV = 8,1%

M1, slide 68 (Statistiske grundbegreber: Mål for fordelingers spredning

Tjekliste, Modul 1 (uge 46):Hvad er statistik?Observationsenhed, stikprøve, populationRepræsentativitet, uafhængighed af observationerStokastisk variabel, udfaldsrumNominal-, ordinal-, interval- og ratioskalaDiskrete eller kontinuerte variablePindediagram, histogramAfledt variabelInduktiv (deskriptiv) og deduktiv (hypotese-testende) statistik

middelværdi, gennemsnit, median, modus, fraktilvarians, standardafvigelse, variationscoefficientkvadratsum (”Sum-of-squares, SS”)frihedsgrader

M1, slide 69 (Statistiske grundbegreber: Tjekliste