Statistik 2005-2006 statistik - bi.ku.dk her_files/EB2005-M1...1 Matematik/Statistik statistik...
Transcript of Statistik 2005-2006 statistik - bi.ku.dk her_files/EB2005-M1...1 Matematik/Statistik statistik...
1
Matematik/Statistik
statistikForelæser og ansvarlig for kursets statistikdel:
Peter SundeAfd. f. Populationsbiologi
M1, slide 1
Dagens prædiken:• Introduktion til kurset
° Praktiske oplysninger° Hvad vedkommer statistik os biologer!° Hvad vi vil ha’, at I skal ha’ ud af dette kursus
• Statistiske grundbegreber° Hvad går statistik ud på?° Observationer, stikprøver og populationer° Stokastiske variable° Mål for central tendens° Mål for spredning
M1, slide 2 (Introduktion til kurset: praktiske oplysninger)
Populationsbiologi
Bio-statistik Matematikfor biologer
Matematik/Statistik
M1, slide 3 (Introduktion til kurset: praktiske oplysninger)
Statistik 2005-2006• 9 dobbeltforelæsninger (uge 46-2)
• 2x2 ugentlige øvelsestimer (sammen med matematik)
• Eksamen 27. januar 2006 ☺– 4 timers skriftligt prøve– Statistikdel og matematikdel vægtes lige– Bestået, hvis >50% rigtigt
M1, slide 4 (Introduktion til kurset: praktiske oplysninger)
Kursusmateriale:
80 kr
• Fowler et al. 1998. Practicalstatistics for field biology. Lærebog: pensum.
• Kompendium og opgaver i biostatistik
M1, slide 5 (Introduktion til kurset: praktiske oplysninger)
Statistik: Kursus-hjemmeside:
www.bi.ku.dkVælg menuerne:Courses → Course homepages → Undergraduate
courses → Blok 2 - Matematik/Statistik →Login to protected documents, Username:biologi, Password: biku → --Start her.htm
Kursusinformation og Downloads:Forelæsnings-slides Løsninger til regneopgaverRegneark med automatiserede statistikfunktioner
M1, slide 6 (Introduktion til kurset: praktiske oplysninger)
2
Vejledende forelæsningsplan
12
Introduktion til kurset. Statistiske grundbegreber. Sandsynlighedsfordelinger for diskrete variable på nominalskala: Binomialfordelingen, Poisson-fordelingen. (1-56)
34
Principper for hypotese-testning.Statistiske test for data på nominalskala: Binomialtestet, χ2-tests. Fordelingsmønstre af tælledata. (62-70, 103-122)
5 Sandsynlighedsfordelinger for data på interval- og ratioskala: normalfordeling, t-fordeling, F-fordeling, sikkerhedsgrænser for middelværdi og forskel i middelværdi. (74-100)
6 Tests for forskel i central tendens for data på ordinal- oginterval/ratioskala: t-tests for afhængige of uafhængige stikprøver, Mann-Whitney U-test, Kruskall-Wallis test, Wilcoxon’s test, Friedman’s test. (165-178)7 Korrelation og regression:Covarians, Pearson’s r, Spearman’s rs,Lineær regression. (131-154)
8 Regression fortsat. Introduktion til variansanalyse og generelle lineæremodeller, samt brug af statistisk software. (179-181, 187-189)
9 OpsamlingM1, slide 7 (Introduktion til kurset: praktiske oplysninger)
Uge Statistik-forelæsninger * Relevante opgaver i øvelseskompendium
Statistik i forbindelse med populationsøvelser
46 (1 + 2) Introduktion til kursetStatistiske grundbegreber. Sandsynligheds-fordelinger for diskrete stokastiske variable på nominalskala: Binomialfordelingen, Poisson-fordelingen. (1-56)
Sæt 1: 1–6Sæt 2: 1–5
Sæt 3: 1–4 (også uge 47)
(ingen)
47 (3+4) Principper for hypotese-testning.Statistiske test for data på nominalskala: Binomialtestet, χ2-tests. Fordelingsmønstreaf tælledata (62-70, 103-122)
Sæt 3: 1–4 (også uge 46)
Sæt 5: 1–5
Livstabel: Binomialfordeling, binomialtest, χ2 one sample test
48 (5) Sandsynlighedsfordelinger for data påinterval- og ratioskala: normalfordeling, t-fordeling, F-fordeling, sikkerhedsgrænserfor middelværdi og forskel i middelværdi(74-100)
Sæt 4: 1–4 Biologisk bekæmpelse: Mann-Whitney, Wilcoxon, t-statistik
49 (6) Tests for forskel i central tendens for data på ordinal, interval og ratioskala: t-tests , Mann-Whitney U-test, Kruskall-Wallis test, Wilcoxon’s test, Friedman’s test (165-178)
Sæt 6: 1–5 Funktionelt respons:Spearman’s rs, lineærregressionSignalering: Mann-Whitney, Wilcoxon, Spearman’s rs
50 (7) Korrelation og regression:Covarians, Pearson’s r, Spearman’s rs,Lineær regression (131-154)
Sæt 7: 1–3 Frøbank: χ2 (r × c table), Wilcoxon, fordelingsmønstrePopulationsvækst: Mann-Whitney, Wilcoxon, t-statistik
1 (8) Regression fortsat. Introduktion tilvariansanalyse og generelle lineære modeller, samt brug af statistisk software (179-181, 187-189)
Sæt 8: 1–2 Aldersstruktur: t-statistik, χ2
-statistikDominans: Kruskall-Wallis, χ2-statistik
2 (9) Opsamling Eksempler påeksamensopgaver
(ingen)
* Sidehenvisninger til lærebogen (Fowler et al. 1998) er angivet med rød tekst.M1, slide 8 (Introduktion til kurset)
• Introduktion til kurset
– Praktiske oplysninger– Hvad vedkommer statistik os biologer!
– Hvad vi vil ha’, at I skal ha’ ud af dette kursus
M1, slide 9 (Introduktion til kurset: Hvad vedkommer statistik biologer?)
Hvad vedkommer statistik egentlig os biologer?• Statistisk analyse er en del af den
(natur)videnskabelige metode!• Statistik vil indgå i din professionelle
hverdag!
M1, slide 10 (Introduktion til kurset: Hvad vedkommer statistik biologer?)
Statistisk analyse er en del af den naturvidenskabelige metode
Data
Statistisk analyse
Kvantitativt resultat
Biologisk tolkning
Biologisk funderet konklusion = Varen DU skal levereM1, slide 11 (Introduktion til kurset: Hvad vedkommer statistik biologer?)
Statistisk analyse er en del af den naturvidenskabelige metode
Data
Statistisk analyse
Kvantitativt resultat
Biologisk tolkning
Biologisk funderet konklusion
”Sampling design”
”stærkest mulige metode”
”Biologiske kompetence”
(Estimat af virkeligheden)
= Varen DU skal levereM1, slide 12 (Introduktion til kurset: Hvad vedkommer statistik biologer?)
3
Brugen af statistik bare stiger og stiger..
M1, slide 13 (Introduktion til kurset: Hvad vedkommer statistik biologer?)
Forstår du denne tekst?” Der var 47 hanner og 23 hunner i koloni A
(67% hanner; 95% CI: 56-73%). I koloni B var det tilsvarende antal 23 og 12 (66% hanner, 95% CI: 49-74%). Der var ingen signifikant forskel på fordelingen af hanner og hunner i de to kolonier (X2
[Yate’s korrektion] = 0.005, df=1, P>0.9). I de to kolonier tilsammen, var der signifikant flere hanner end hunner (binomial test (two-tailed): P= 0.0006). ”
M1, slide 14 (Introduktion til kurset: Hvad vedkommer statistik biologer?)
Formålsbeskrivelse:” Undervisningen skal introducere de studerende til
statistikkens grundbegreber og metoder, primært gennem konkrete eksempler på statistikkens anvendelse i forbindelse med biologiske problemstillinger. Der vil blive lagt vægt på, at den studerende med udgangspunkt i en konkret biologisk problemstilling kan opstille hypoteser, vælge signifikansniveau, vælge en statistisk test, der udnytter data optimalt, udføre beregningerne korrekt og til slut drage den rigtige konklusion baseret på de opstillede hypoteser og det valgte signifikansniveau. I løbet af kurset vil den studerende stifte bekendtskab med de mest anvendte statistiske fordelinger samt en række parametriske og parameterfrie tests. Endelig vil den studerende blive introduceret til statistisk software.”
M1, slide 16 (Introduktion til kurset: Hvad du skal lære på dette kursus)
Hvad vi vil ha’, at I skal ha’ud af dette kursus
• Forståelse af statistikkens grundprincipper og underlæggende teori
• Basale færdigheder i brug af simpel statistik til behandling af egne data.
• En grundlæggende viden, som sætter jer i stand til på egen hånd, at opsøge mereviden..
M1, slide 17 (Introduktion til kurset: Hvad du skal lære på dette kursus)
Grib chancen!
M1, slide 18 (Introduktion til kurset)
Statistiske grundbegreber° Hvad går statistik ud på?° Observationer, stikprøver og
populationer° Stokastiske variable° Mål for central tendens° Mål for spredning
M1, slide 19 (Statistiske grundbegreber)
4
Hvad er statistik?Én definition:“There are three kinds of lies: lies, damned lies, and statistics”
Benjamin Disraeli, 1804-1881
Britisk Premierminister
M1, slide 20 (Statistiske grundbegreber: Hvad går statistik ud på?)
Hvad er statistik?En anden definition:Statistik: Det videnskabelige studie af data, som beskriver naturlig variation
Videnskab: Objektiv, standardiseret metode
Data: Kvantitative mængder af information, ikke enkeltobservationer
Naturlig variation: Variation, som kan henføres til alle de begivenheder, der ikke er under undersøgerens direkte kontrol
M1, slide 21 (Statistiske grundbegreber: Hvad går statistik ud på?)
Hvad er statistik?
0
2
4
6
8
10
23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
x
frek
vens
(f)
0
0.1
0.2
0.3
23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
x
Forv
ente
t hyp
pigh
ed (p
)
-En tredje definition:ved på basis af sandsynlighedsteori, at generalisere
en kvantitativt udtrykt viden fra et begrænset antal observationer til en større helhed.
(Kvantitativt = kan angives i talstørrelser)
M1, slide 22 (Statistiske grundbegreber: Hvad går statistik ud på?)
Hvad er statistik?
0
2
4
6
8
10
23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
x
frek
vens
(f)
0
0.1
0.2
0.3
23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
x
Forv
ente
t hyp
pigh
ed (p
)
- ved på basis af sandsynlighedsteori, at generalisere en kvantitativt udtrykt viden fra et begrænset antal observationer til en større helhed.
Vægtfordeling af 28 kongepingviner → vægtfordeling af alle kongepingviner
Stikprøve → population
M1, slide 23 (Statistiske grundbegreber: Hvad går statistik ud på?)
Hvad bruger vi statistik til?
0
2
4
6
8
10
23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
x
frek
vens
(f)
0
0.1
0.2
0.3
23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
x
Forv
ente
t hyp
pigh
ed (p
)
- Ud fra stikprøvens sammensætning, kan vi estimere populationens ”sande” sammensætning, som vi ikke kender.
- Et estimat er derfor behæftet med statistisk usikkerhed
- Statistisk teori sætter os i stand til at angive størrelsen af denne usikkerhed.
Stikprøve → population
M1, slide 24 (Statistiske grundbegreber: Hvad går statistik ud på?)
Hovedanvendelser af statistik
• Induktiv/deskriptiv/beskrivende statistik:– Angivelse af sikkerhedsgrænser omkring estimater af
de ”sande” underlæggende fordelinger
• Deduktiv (hypotese-testende) statistik:– Test for om en observeret forskel er reel, ud fra
sandsynligheden for at den kan tilskrives tilfældig variation
A) Forskelle mellem grupperB) Sammenhænge mellem variable
M1, slide 25 (Statistiske grundbegreber: Hvad går statistik ud på?)
5
Deskriptiv statistik
• Udgangspunktet for alle analyser: Hvordan ser mønsteret ud?- Hvad er de to stikprøvers estimerede middelværdier, og hvor stor er usikkerheden omkring de to estimater?
0
1
2
3
4
5
6
7V
ærd
i af v
aria
bel
M1, slide 26 (Statistiske grundbegreber: Hvad går statistik ud på?)
Deduktiv statistik, Hypotese-testning:
0
1
2
3
4
5
6
7
Væ
rdi a
f var
iabe
l
• Tester om en observeret forskel (eller sammenhæng) er reel.- Hvad er sandsynligheden for at den observerede forskel i gennemsnit skyldes tilfældigheder?
Herom, meget mere senere...
M1, slide 27 (Statistiske grundbegreber: Hvad går statistik ud på?)
Datagrundlag/forsøgsdesign:
• Eksperimentelle data:Uafhængige variable kontrolleret af forsøgslederF.eks. Kliniske forsøg: forsøgspersoner modtager
forskellig behandling bestemt ved lodtrækning
Korrelative dataUafhængige variable ikke underlagt forsøgsleders
kontrol.F.eks. Epidemiologiske undersøgelser: dødelighed
blandt rygere og ikke-rygere i en befolkning
M1, slide 28 (Statistiske grundbegreber: Hvad går statistik ud på?)
Eksempel på korrelative data:Fødselshyppighed og antal storkepar i Danmark, 1890-2000
0
5
10
15
20
25
30
35
1 10 100 1000 10000
Antal storkepar
Føds
ler
per
1000
inb.
M1, slide 29 (Statistiske grundbegreber: Hvad går statistik ud på?)
Eksempel på korrelative data:Fødselshyppighed og antal storkepar i Danmark, 1890-2000
0
5
10
15
20
25
30
35
1 10 100 1000 10000
Antal storkepar
Føds
ler p
er 1
000
inb.
”CORRELATION IS NOT CAUSATION”
En statistisk påviselig sammenhæng siger kun, at derer en sammenhæng. Ikke hvad den skyldes!
Statistisk funderede konklusioner er sårbare over for mistolkninger (eller manipulation..). Vær altid kritisk!
M1, slide 30 (Statistiske grundbegreber: Hvad går statistik ud på?)
Statistiske grundbegreber° Hvad går statistik ud på?° Observationer, stikprøver og populationer
° Stokastiske variable° Mål for central tendens° Mål for spredning
M1, slide 31 (Statistiske grundbegreber: Observationer, stikprøver og populationer)
6
M1, slide 32 (Statistiske grundbegreber: Observationer, stikprøver og populationer)
Stikprøve → population
• Enkeltobservation: én pingvin
• Stikprøve: n pingviner i kolonien
• Statistisk population: alle pingviner i kolonien
• Biologisk population: alle kongepingviner, som har unger i februar måned (?)
M1, slide 33 (Statistiske grundbegreber: Observationer, stikprøver og populationer)
• Stikprøven skal være et tilfældigt udtræk af den statistiske population (repræsentativ)!
• Hvis stikprøven ikke er repræsentativ, er undersøgelsen ”biased”.
• De enkelte observationer skal være indbyrdes uafhængige!
Universelle krav til stikprøvetagning (”sampling”)!
M1, slide 34 (Statistiske grundbegreber: Observationer, stikprøver og populationer)
Statistiske grundbegreber° Hvad går statistik ud på?° Observationer, stikprøver og
populationer° Stokastiske variable° Mål for central tendens° Mål for spredning
M1, slide 35 (Statistiske grundbegreber: Stokastiske variable)
• Variabel: Hvad som helst, som varierer mellem observationer
• Stokastisk variabel: En variabel, hvis udfald/værdi vi på forhånd ikke kender.
• Udfaldsrum: Det sæt værdier en stokastisk variabel kan antage.
Variable
M1, slide 36 (Statistiske grundbegreber: Stokastiske variable)
Observation: Variabel: Udfaldsrum:Pingvin køn {♀,♂}Pingvin Længde (cm) [0, ∞]Pingvin PCB indhold (ppm) [0, 106]Pingvinkoloni Antal Pingviner {0, 1, 2 .. ∞}
Eksempler på variable
M1, slide 37 (Statistiske grundbegreber: Stokastiske variable)
7
Måleskalaer for variable:
• Nominal-skala (”klassifikations-skala”){♂,♀},{rød, blå}, {konge-, kejserpingvin}
• Ordinal-skala (”rang-skala”){pulli, juvenil, subadult, adult}
• Interval-skala Temperatur i °C
• Ratio-skalaHøjde, masse, antal
M1, slide 38 (Statistiske grundbegreber: Stokastiske variable)
Matematiske operatorer:• Nominal-skala = ≠
• Ordinal-skala = > <
• Interval-skala = > < - +
• Ratio-skala = > < - + X /• .
M1, slide 39 (Statistiske grundbegreber: Stokastiske variable)
Diskrete og kontinuerte variable
• Diskrete variable”discrete, discintinuous, meristic”:– Kan kun antage diskrete værdier
• Kontinuerte variable”continuous”:– Kan antage alle værdier indenfor et
givet udfaldsrum
M1, slide 40 (Statistiske grundbegreber: Stokastiske variable)
Diskrete og kontinuerte variable
• Diskrete variableAntal pingviner i en koloni, ⎯X = {0,1,2...∞}Køn,⎯X = {♂,♀}
• Kontinuerte variableLængde, ⎯X ∈]0, ∞[
M1, slide 41 (Statistiske grundbegreber: Stokastiske variable)
Grafisk fremstilling
• Diskrete variablePindediagram(”bar graphs”)Lagkagediagram (nominalskala)
• Kontinuerte variableHistogram (interval-,ratioskala)
0
5
1015
20
25
30
Hanner Hunner Unger
Gruppe
Ant
al o
bser
vatio
ner
0
1
23
4
5
6
0 1 2 3 4 5 6
Kuldstørrelse
Ant
al re
der
0
2
4
6
8
10
70 72 74 76 78 80 82
Højde (cm)A
ntal
pin
gvin
er, f
(x)
Hunner
HannerUnger
M1, slide 42 (Statistiske grundbegreber: Stokastiske variable)
Statistiske grundbegreber° Hvad går statistik ud på?° Observationer, stikprøver og populationer° Stokastiske variable° Mål for fordelingers centrale tendens° Mål for fordelingers spredning
0
2
4
6
8
10
23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
x
M1, slide 43 (Statistiske grundbegreber: Mål for fordelingers centrale tendens
8
Forskellige mål for fordelingers centrale tendens
• Middelværdi/gennemsnit• Median• Modus
0
2
4
6
8
10
23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
x
M1, slide 44 (Statistiske grundbegreber: Mål for fordelingers centrale tendens
• Middelværdien:”mean”
• Gennemsnittet (estimat af middelværdi):”sample mean””average”
(Forskellige notationerbetyder det samme)
N
xi∑=µ
n
xx
i∑== µ̂
nx
nx
nx ii
n
i ∑∑∑ ===1
Middelværdi og gennemsnit(data på interval eller ratioskala)
M1, slide 45 (Statistiske grundbegreber: Mål for fordelingers centrale tendens
H
• Eksempel på beregning af gennemsnit:xi = {21, 24, 45, 51} Σxi = 21+24+45+51 = 141n = 4⎯x = Σxi /n =141/4 = 35,25 ≈ 35,3
n
xx
i∑== µ̂
M1, slide 46 (Statistiske grundbegreber: Mål for fordelingers centrale tendens
Gennemsnit af grupperede data
0
1
2
3
4
5
6
0 1 2 3 4 5 6
Kuldstørrelse
f(x)
, (A
ntal
rede
r)
x f f*x0 5 01 1 12 4 83 5 154 3 125 1 5
Σ f = n = 19Σxif i = 41⎯ x = Σ x i f i / Σ f = 41 /19 = 2,2
nxf
xi∑ ⋅
== µ̂
M1, slide 47 (Statistiske grundbegreber: Mål for fordelingers centrale tendens
Medianen(data skal være på mindst ordinalskala)
• Den værdi som deler en frekvensfordeling i to lige store dele
• = 50% fraktil
M1, slide 48 (Statistiske grundbegreber: Mål for fordelingers centrale tendens
0
1
2
3
4
5
6
0 1 2 3 4 5 6
x: Kuldstørrelse
f(x)
, (A
ntal
rede
r med
x æ
g)
Beregning af median når antallet af observationer (n) er ulige:
• Median= værdien af den (n + 1)/2’te observation(19+1)/2 = 10’ende observation,Median = 2
0
1
2
3
4
5
6
0 1 2 3 4 5 6
x: Kuldstørrelse
f(x)
, (A
ntal
rede
r med
x æ
g)
x f F0 5 51 1 62 4 103 5 154 3 185 1 19
M1, slide 49 (Statistiske grundbegreber: Mål for fordelingers centrale tendens
9
To metoder:1) Median = gennemsnittet af værdierne for den n/2’te
og den (n/2+1)’te observation:eller
2) Medianværdien ligger mellem værdien af den n/2’te og den (n/2+1)’te observation.
Find medianen for denne fordeling (4 observationer): 12, 31, 34, 67
1) n/2 = 4/2 = 2; værdi af 2. observation = 31, (n/2+1 = 4/2 + 1 = 3, værdi af 3. observation = 34Median = (31 + 34)/2 = 32.5
2) Medianen ligger i mellem 31 og 34
Beregning af median for en fordeling med et lige antal observationer
(interval-/ratioskala)
(ordinalskala)
M1, slide 50 (Statistiske grundbegreber: Mål for fordelingers centrale tendens
Modus• Værdien af de(t) mest almindelige
udfald
0
1
2
3
4
5
6
0 1 2 3 4 5 6
x, kuldstørrelse
f(x)
, ant
al re
der
Fordelinger med et, to eller tre toppunkter, kaldeshenholdsvist uni-, bi og tri-modale
M1, slide 51 (Statistiske grundbegreber: Mål for fordelingers centrale tendens
Tre måder at vægte central tendens for den typiske kuldstørrelse
• Gennemsnit =⎯x = 41/19 = 2,2• Median = 2• Modus = {0;3}
0
1
2
3
4
5
6
0 1 2 3 4 5 6
x, kuldstørrelse
f(x)
, ant
al re
der
M1, slide 52 (Statistiske grundbegreber: Mål for fordelingers centrale tendens
Statistiske grundbegreber° Hvad går statistik ud på?° Observationer, stikprøver og populationer° Stokastiske variable° Mål for fordelingers centrale tendens° Mål for fordelingers spredning
0
2
4
6
8
10
23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
x
M1, slide 53 (Statistiske grundbegreber: Mål for fordelingers spredning
Tre fordelinger med samme gennemsnit, men forskellig spredning
0
2
4
6
8
10
23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
x
frek
vens
(f)
0
2
4
6
8
10
23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
x
frek
vens
(f)
0
2
4
6
8
10
23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
x
frek
vens
(f)
⎯x = 31 n = 30
M1, slide 54 (Statistiske grundbegreber: Mål for fordelingers spredning
Forskellige mål for, hvor stor forskel der er i værdier inden for en fordeling:
0
2
4
6
8
10
23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
x
frek
vens
(f)
• ”Range”, ”Fraktiler” (mindst ordinalskala)
• Varians, standardafvigelse (interval/ratioskala)
• Variationskoefficient (kun ratioskala)
M1, slide 55 (Statistiske grundbegreber: Mål for fordelingers spredning
10
”Range” (”spændvidde”)Difference mellem den største og den lavest
målte værdi
Højeste værdi = 5, Laveste værdi = 0, Range = 5-0 = 5
0
1
2
3
4
5
6
0 1 2 3 4 5 6
x, kuldstørrelse
f(x)
, ant
al re
der
M1, slide 56 (Statistiske grundbegreber: Mål for fordelingers spredning
Fraktiler/procentiler(”Fractiles”/”Percentiles”)
• Angiver værdier, som afgrænser de mest ekstreme ”haler” af fordelingen.
• I modsætning til ”range” robuste over for variation i stikprøvestørrelse
0
2
4
6
8
10
23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
x
frek
vens
(f)
M1, slide 57 (Statistiske grundbegreber: Mål for fordelingers spredning
Fraktiler/procentiler
• ”Fractiles”,/”Percentiles”• Robuste over for variation i
stikprøvestørrelse
weight (g)
19001800
17001600
15001400
13001200
11001000
900800
700600
500
137 duehøgehunner dræbt i kollisionsulykker30
20
10
0
5% fraktil
95% fraktil
50% fraktil (= medianen)
x (kropsvægt, målt i gram)F(x)
, ant
aldu
ehøg
epe
r in
terv
al
M1, slide 58 (Statistiske grundbegreber: Mål for fordelingers spredning
H
weight (g)
19001800
17001600
15001400
13001200
11001000
900800
700600
500
137 duehøgehunner dræbt i kollisionsulykker30
20
10
0
weight (g)
19001800
17001600
15001400
13001200
11001000
900800
700600
500
Sub-sample af 20 hunner:6
5
4
3
2
1
0
Hvis stikprøven havde været mindre…
De 137 hunner: 20 af de 137 hunner:
M1, slide 59 (Statistiske grundbegreber: Mål for fordelingers spredning
Hn = 137 n = 20 n = 20 n = 20
Gennemsnit 1087 985 1053 1192median 1050 895 1038 1150
Minimum 495 550 520 750Maksimum 1850 1512 1460 1636
Difference: 1355 962 940 886
5% procentil 600 553 532 75595% procentil 1568 1508 1457 1634
Difference: 968 955 925 879
Range, men ikke fraktilværdier, følsomme over for variation i stikprøvens størrelse
M1, slide 60 (Statistiske grundbegreber: Mål for fordelingers spredning
Afvigelsen fra gennemsnittet• ”Deviation from the mean” ,”deviate”:
xxD i −=
M1, slide 61 (Statistiske grundbegreber: Mål for fordelingers spredning
11
Den kvadrerede afvigelse fra gennemsnittet:
• ”Squared deviation from the mean”
• ”Sum of squares”, ”SS”Kvadratsummen
• ”Mean square”, ”MS”Variansen
• ”Standard deviation”, Standard afvigelsen N
xi∑ −=
2)( µσ
2)( µ−ix
∑ − 2)( xxi
2)( xxi −
∑ − 2)( µix
Total-optælling: Stikprøve:
1
)( 2
−
−= ∑
n
xxs
i
N
xi∑ −=
22 )( µ
σ 1
)( 22
−
−= ∑
n
xxs
i
M1, slide 62 (Statistiske grundbegreber: Mål for fordelingers spredning
”Sum-of-squares”:• ”Sum of squares of the deviations”, ”Sum of
squares”, ”SS”, ”Kvadrat-summen”
- En nøgleparameter i parametriskstatistik!
(mere herom senere......)
( )∑ ∑
∑
−=
−=
n
xxSS
xxSS
i
ix
ix
2
2
2
)(
)(c
M1, slide 63 (Statistiske grundbegreber: Mål for fordelingers spredning
Frihedsgrader (ν)....• ”Degrees of freedom”, ”DF”, ν
• DF = antal observationer (n) – antal estimerede parametre.
• Hver populationsparameter, som estimeres ud fra en stikprøve ”spiser”en informationsmængde svarende til 1 observation!
M1, slide 64 (Statistiske grundbegreber: Mål for fordelingers spredning
Frihedsgrader (ν)....
• Et lomme-eksempel:• X={13, 14, 15, 18}
xi xi-gnst.13 -214 -115 018 3
Σ = 60 0n = 4gnst.= 15
Da de aritmetiske afvigelser fra gennemsnittet summerer op til 0, vil den sidste (n’te) observations afvigelse være defineret ud fra de foregående observationer!
1
)( 22
−
−= ∑
n
xxs
i
M1, slide 65 (Statistiske grundbegreber: Mål for fordelingers spredning
Variationskoefficienten• ”coefficient of variation”, ”CV”
• Angiver den relative variation, standardiseret i forhold til gennemsnittet.
• Da CV angiver et relativt forhold (er en ratio), skal data være på ratioskala
xsCV =
M1, slide 66 (Statistiske grundbegreber: Mål for fordelingers spredning
Variationskoefficient• Eksempel: længde af lårbensknogler hos
to gnavere:Markmus: Bæver:
22 15317 16221 15131 14125 17226 160
Gnst. = 23.7 156.5SD = 4.8 10.6
CV = 0.20 0.07
xsCV =
M1, slide 67 (Statistiske grundbegreber: Mål for fordelingers spredning
12
0
2
4
6
8
10
23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
x
frek
vens
(f)
0
2
4
6
8
10
23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
x
frek
vens
(f)
0
2
4
6
8
10
23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
x
frek
vens
(f)
⎯x = 31, n = 30
S2 = 1,93S = 1,38CV = 4,5%
S2 = 5,24S = 2,29CV = 7,4%
S2 = 6,28S = 2,51CV = 8,1%
M1, slide 68 (Statistiske grundbegreber: Mål for fordelingers spredning
Tjekliste, Modul 1 (uge 46):Hvad er statistik?Observationsenhed, stikprøve, populationRepræsentativitet, uafhængighed af observationerStokastisk variabel, udfaldsrumNominal-, ordinal-, interval- og ratioskalaDiskrete eller kontinuerte variablePindediagram, histogramAfledt variabelInduktiv (deskriptiv) og deduktiv (hypotese-testende) statistik
middelværdi, gennemsnit, median, modus, fraktilvarians, standardafvigelse, variationscoefficientkvadratsum (”Sum-of-squares, SS”)frihedsgrader
M1, slide 69 (Statistiske grundbegreber: Tjekliste