SPSS-cursus inleiding statistiek
description
Transcript of SPSS-cursus inleiding statistiek
september 1999 SPSS-cursus Statistiek 1
SPSS-cursus
inleiding statistiek
2SPSS-cursus Statistiekseptember 1999
SPSS-cursus
inleiding statistiek
september 1999 SPSS-cursus Statistiek 3
Statistiek
• Waarschijnlijkheidsrekening
• Statistiek
september 1999 SPSS-cursus Statistiek 4
Waarschijnlijkheidsrekening
• uit het bekende kansen op uitkomsten berekenen– kans op munt– kans op 3* munt bij 10 worpen
• bekende:– de werkelijkheid: populatie of universum– een hypothese (veronderstelling over
werkelijkheid)
september 1999 SPSS-cursus Statistiek 5
Populatie
• Eindige populatie– alle nederlandse vrouwen – alle studenten Geneeskunde in Groningen
• Oneindige populatie– alle mogelijke worpen met een munt
september 1999 SPSS-cursus Statistiek 6
Populatie
• (verdeling) is bekend– hoeveel nederlandse vrouwen en hun kenmerken
• bijv. leeftijdsverdeling
– hoeveel studenten Geneeskunde en hun kenmerken
• bijv. verhouding vrouw/ man
– mits munt eerlijk: evenveel kans op kruis of munt
september 1999 SPSS-cursus Statistiek 7
Steekproef
• een willekeurige trekking uit de populatie (aselect)
• 100 nederlandse vrouwen
• 20 studenten Geneeskunde
• 10 worpen met een munt
september 1999 SPSS-cursus Statistiek 8
Waarschijnlijkheidsrekening
• kans dat 12 (van de 100) vrouwen ouder 60 zijn
• kans dat er minstens 15 (van 20) vrouwelijke studenten zijn
• kans op minstens 8 (van 10) keer munt
september 1999 SPSS-cursus Statistiek 9
Statistiekbeschrijvende/ inferentiële statistiek (schatten
en toetsen)
• beschrijvende statistiekwat vind je in de steekproef?: tellen (aantallen, gemiddelden, grafieken, ...)– aantal vrouwen– gemiddelde leeftijd– staafdiagram kruis/ munt bij 10 worpen– scatterplot leeftijd/ waardering
september 1999 SPSS-cursus Statistiek 10
Statistiek• inferentiële statistiek (schatten en toetsen)
op grond van uitkomsten in de steekproef parameters in de populatie schatten en conclusies trekken– 12% van nederlandse vrouwen is ouder dan 60– er studeren in Groningen meer vrouwen
Geneeskunde dan mannen– de munt is eerlijk
september 1999 SPSS-cursus Statistiek 11
Statistiek
Schatten
uit uitkomsten van een steekproef schatting maken van de werkelijkheid (populatie)
september 1999 SPSS-cursus Statistiek 12
Statistiek• gevonden 12 vrouwen ouder dan 60, hoeveel
vrouwen zullen in de populatie ouder 60 zijn? (puntschatting: P(v>60) =0,12)
• gevonden 15 vrouwelijke studenten, wat is verhouding man/ vrouw in de populatie? (P(v)=0,75)
• gevonden 8 keer munt, kans op munt ? (P(munt)=0.80)
september 1999 SPSS-cursus Statistiek 13
Statistiek
• bij ander steekproef (toevallig bepaald!)andere uitkomst:20 van de 100 ouder dan 60 P(v>60)=0,2010 vrouwelijke studenten P(v)=0,50 4 keer munt P(munt)=0,40
september 1999 SPSS-cursus Statistiek 14
Statistiek
• Puntschatting met onzekerheid (standaarddeviatie (SD), spreiding,interval)
• P(v>60) =0,12 SD=0,03
• P(v)=0,75 SD=0,10
• P(munt)=0,8 SD=0,13
september 1999 SPSS-cursus Statistiek 15
Schatting
Conclusie
“Ik denk dat de fractie vrouwen > 60 jaar in de populatie 0,12 is (puntschatting), maar deze fractie ‘kan best’ (met 95% waarschijnlijkheid) liggen tussen 0,06 en 0,18 (puntschatting 2* SD)”
september 1999 SPSS-cursus Statistiek 16
Toetsen van hypothesen
• Hypothese: veronderstelling over werkelijkheid (populatie)– munt is eerlijk P(munt) = P(kruis)– minder mannelijke dan vrouwelijke studenten
Geneeskunde
september 1999 SPSS-cursus Statistiek 17
Stel hypothese• Stel Nulhypothese (H0) op
– P(munt) = P(kruis) = 0,5– P(vrouw) = P(man) =0,5– P(vrouw>60)= 0,2
• Stel Alternatieve hypothese vast (Ha)(situatie als H0 niet waar is)
– P(munt) > 0,5– P(vrouw) 0,5– P(vrouw>60) > 0,2
september 1999 SPSS-cursus Statistiek 18
Bepaal kansverdeling onder H0
• waarschijnlijkheidsrekening bij steekproefgrootte:– P(0 * munt), P(1 * munt), …, P(10 * munt)
als P(munt) = 0,5– P(0 * vrouw), P(1 * vrouw), … , P(20 * vrouw)
als P(vrouw) = 0,5
september 1999 SPSS-cursus Statistiek 19
Trek steekproef
• Trek een aselecte steekproef uit de populatie
• Doe de waarnemingen (tellen, meten, …)
september 1999 SPSS-cursus Statistiek 20
Bepaal kans op gevonden uitkomst
• Dit heet Overschrijdingskans
• Gevonden 8 keer munt
• P( 8 * munt) = 0,055 berekening?
• Let op: 8, 9, 10 * alle bij Ha (P(munt)>0,5)
• Zou dit kunnen als H0 waar is?
• Ja, de kans is 0,055 !
september 1999 SPSS-cursus Statistiek 21
Wat vind je van de uitkomst?
• Acht je uitkomst ‘redelijk’ als H0 waar is?
• Of past uitkomst beter bij Ha?
september 1999 SPSS-cursus Statistiek 22
Fout I en fout IIwerkelijkheid
H0 Ha
uitkomst H0
Ha
OK Fout II
Fout I OK
september 1999 SPSS-cursus Statistiek 23
Significantieniveau• Geef vooraf aan welke kans je redelijk vindt
dit is een keus van de onderzoeker!
– 0,05 gebruikelijke significantieniveau
– 0,01 kleinere kans om H0 ten onrechte te
verwerpen,
grotere om hem ten onrechte niet te verwerpen
september 1999 SPSS-cursus Statistiek 24
Verwerpen van H0
• als P(uitkomst) < significantieniveau:
verwerp H0, neem Ha aan
• anders: neem H0 aan
september 1999 SPSS-cursus Statistiek 25
Conclusie
• P(gevonden # vrouw) = 0,03
• bij H0: P(vrouw)=0,5
• Significantieniveau is 0,05
• Resultaat is significant
• Er zijn niet evenveel vrouwen als mannen
september 1999 SPSS-cursus Statistiek 26
1-zijdig / 2-zijdig toetsen
• Ho is ’is gelijk aan’
• Ha kan zijn:
– is ongelijk aan 2-zijdig
– is groter dan (of kleiner dan) 1-zijdig
september 1999 SPSS-cursus Statistiek 27
1-zijdig / 2-zijdig toetsen
• 1-zijdig als je tevoren een verwachting hebt
over het alternatief als H0 wordt verworpen
Bijvoorbeeld het toedienen van een medicatie
om de bloeddruk te verlagen.
Het is slechts interessant als dit tot verlaging
leidt (mits er iets verandert).
Hiervoor moet je een ‘theorie’ hebben.
september 1999 SPSS-cursus Statistiek 28
1-zijdig / 2-zijdig toetsen
• 2-zijdig als de richting bij verwerpen van H0
niet is te voorspellen.
Bijvoorbeeld of vrouwen beter op een
trainingsprogramma reageren dan mannen.
september 1999 SPSS-cursus Statistiek 29
1-zijdig / 2-zijdig toetsen
Gem.
Overschr.Overschr
SD
september 1999 SPSS-cursus Statistiek 30
1-zijdig / 2-zijdig toetsen• De verdeling van een toetsingsgrootheid, bijv. het
verschil in gemiddelde leeftijd
• Bij 2-zijdig moet je kijken of de waarde van de
toetsingsgrootheid valt in het linker of rechter
staartje, samen een kans van 0,05 (als dat
significantieniveau is)
Bij een normale verdeling zijn de grenzen
> 1,96 en < -1,96
september 1999 SPSS-cursus Statistiek 31
1-zijdig / 2-zijdig toetsen
• Bij 1-zijdig kijk je in 1 staartje (bijv.
rechts); het gebied omvat dat aan die ene
kant een kans 0,05
Bij een normale verdeling is de grens >
1,645
september 1999 SPSS-cursus Statistiek 32
Keus methode
• kansverdeling variabelen
• meetniveau variabelen
• verschil of verband
• steekproef opzet
september 1999 SPSS-cursus Statistiek 33
Kansverdeling• De kansverdeling beschrijft de kansen op
uitkomsten
• De totale kans, alle uitkomsten samen, = 1
• Je hebt continue en discrete
kansverdelingen
september 1999 SPSS-cursus Statistiek 34
Kansverdeling• Discreet
– slechts bepaalde uitkomsten mogelijk
– man of vrouw
– blauwe, bruine, grijze, groene ogen
– aantal mensen
– elke uitkomst heeft bepaalde kans, andere uitkomsten
onmogelijk, kans = 0
september 1999 SPSS-cursus Statistiek 35
Kansverdeling• Continu
– alle uikomsten zijn mogelijk
– de getallenrechte, van - oneindig tot + oneindig
– snelheid
– afstand
– tijd
september 1999 SPSS-cursus Statistiek 36
Kansen continu
• Bij continue verdeling kans op uitkomst in
interval
– Kans uitkomst < a = 0,05
– Kans op uitkomst > b = 0,20
– Kans op uitkomst tussen a en b = 0,75
september 1999 SPSS-cursus Statistiek 37
Normale verdeling
Gem.
Overschr.Overschr
SD
september 1999 SPSS-cursus Statistiek 38
Kansverdeling• Bijv. (continue) Normale verdeling
(oppervlak = 1)• Hoe hoger, hoe groter kans, kans bij gemiddelde
groot, staart klein• De ‘vorm’ is bepaald
• Plaats en breedte wordt bepaald door Parameters
gemiddelde en SD *
september 1999 SPSS-cursus Statistiek 39
Kansverdeling* Populatie:
griekse letters, steekproef ‘gewone’ letters
Gemiddelde resp. m
SD resp. s
Corr. Coëff. resp. R
Er zijn ook verdelingen die niet door parameters worden bepaald: parametervrij (non parametric)
september 1999 SPSS-cursus Statistiek 40
Meetniveau
• Nominaal
– discrete uitkomsten zonder volgorde
– man, vrouw
– oogkleur
– typologie ziekten
september 1999 SPSS-cursus Statistiek 41
Meetniveau
• Ordinaal
– discrete uitkomsten met volgorde
– verschil uitkomsten onbepaald: slecht/ matig
versus matig/ voldoende
– slecht/ matig/ voldoende/ goed
– leeftijdsklassen: <20, 20-40, >40
september 1999 SPSS-cursus Statistiek 42
Meetniveau• Interval
– representatie van continue verdeling
– verschil uitkomsten bepaald: 5-4 = 6-5
– tijd in seconden
– afstand in mm
– score op IQ-test
september 1999 SPSS-cursus Statistiek 43
Meetniveau
• Ratio
– als interval
– met absoluut nulpunt
– temperatuur Celsius Interval
– afstand in meters Ratio
september 1999 SPSS-cursus Statistiek 44
Centrale tendentie
• Interval (Ratio) gemiddelde
• Ordinaal mediaan
(middelste waarde, 50%)
• Nominaal - (PM: frequenties, modus)
september 1999 SPSS-cursus Statistiek 45
Spreiding
• Interval (ratio) standaarddeviatie (SD)
• Ordinaal interkwartielenrange
(25% - 75%)
• Nominaal - (PM: frequenties, modus)
september 1999 SPSS-cursus Statistiek 46
Toetsen op verschil
• 2 onafhankelijke steekproeven
• interval niveau
• Normale verdeling
• Student t-toets
september 1999 SPSS-cursus Statistiek 47
Normale verdeling
gem 2.
SD
gem 1.
SD
september 1999 SPSS-cursus Statistiek 48
Student t-toets onafh. steekpr.
• zijn gemiddelden gelijk (H0) ?
• twee varianten:
– varianties gelijk (equal)
– varianties ongelijk (unequal)
september 1999 SPSS-cursus Statistiek 49
Toetsen op verschil
• 2 onafhankelijke steekproeven
• interval niveau, geen Normale verdeling
• of ordinaal niveau
september 1999 SPSS-cursus Statistiek 50
Mann-Whitney U-toets
• zijn medianen gelijk (H0) ?
• gemiddelde rangnummers
• U statistic
• standaardnormale benadering U
september 1999 SPSS-cursus Statistiek 51
Gepaarde waarnemingen• aan een individu zijn 2 waarnemingen
• bijv. test voor en na training
• is er verschil?
• per individu voor en na vergelijken,
verschil per individu
• ‘middelen’ over de steekproef
september 1999 SPSS-cursus Statistiek 52
Toetsing
• Ho: geen verschil
• Ha: 1 of 2-zijdige verandering
• interval: Student t-toets match
• ordinaal: Wilcoxon symm. toets
september 1999 SPSS-cursus Statistiek 53
Samenhang variabelen
(relatie, verband, correlatie)
• H0: geen samenhang
• Ha: wel samenhang
positief: groot met groot
negatief: groot met klein
september 1999 SPSS-cursus Statistiek 54
Samenhang interval
leeftijd
waardeer * * *
* * * *
* * * * * * **
* ** * ** * *
* * *
* *
positieve
samenhang
september 1999 SPSS-cursus Statistiek 55
Samenhang interval
leeftijd
waardeer * * * *
* * * * *
* * * * * * * **
* * ** * ** * * *
* * * * *
* * *
geen
samenhang
september 1999 SPSS-cursus Statistiek 56
Samenhang• Bij geen samenhang: correlatie = 0
• Perfect positief = + 1
• Perfect negatief = - 1
• Significantie bepalen, H0: = 0
• R ook ‘sterktemaat’
september 1999 SPSS-cursus Statistiek 57
Samenhang
• interval - interval Pearson (‘product-moment’)
• interval - ordinaal Spearman * (rangorde)
• ordinaal - ordinaal Spearman *• nominaal - nominaal Chi2
* of Kendall tau
september 1999 SPSS-cursus Statistiek 58
Samenhang
• als variabele verschillend niveauis laagste bepalend
september 1999 SPSS-cursus Statistiek 60
Chi2
GESLACHT by OPLEID
OPLEID
Row 1 2 3 TotalGESLACHT 1 18 8 1 27
66,7 29,6 3,7 58,7
2 7 9 3 19
36,8 47,4 15,8 41,3
Column 25 17 4 46
Total 54,3 37,0 8,7 100,0
september 1999 SPSS-cursus Statistiek 61
Chi2
Chi-Square Value DF Sign.
Pearson 4,64810 2 ,09788
Likelihood Ratio 4,71664 2 ,09458
Mantel-Haenszel test for 4,54068 1 ,03310
linear association
Minimum Expected Frequency - 1,652
Cells with Expected Frequency <5- 2 OF 6(33,3%)
Number of Missing Observations: 0
september 1999 SPSS-cursus Statistiek 62
Chi2
• Ho: geen relatie geslacht - opleid
• dan verdeling opleid man = vrouw= totaal= 54,3 - 37,0 - 8,7 (verwachting)
• vergelijk gevonden verdelingen
66,7 - 29,6 - 3,7 resp.
36,8 - 47,4 - 15,8
hiermee
september 1999 SPSS-cursus Statistiek 63
Chi2
• (grote) verschillen leiden tot verwerpen H0
• Maat: Pearson Sign. 0.09788
• NS op niveau 0,05
• ‘Eis’ omdat uitkomsten (aantallen) discreet en Chi2 continu, is voor goede benadering nodig: max. 20% cellen verwachting <5
september 1999 SPSS-cursus Statistiek 64
Chi2
• In dit geval 33,3 % cellen te klein.
• Dan codes samenvoegen, bijv. opleid laag / midden+hoog
september 1999 SPSS-cursus Statistiek 65
aantal successen N=10, p=0,5
109876543210
ka
ns
,5
,4
,3
,2
,1
0,0
Staafdiagram: aantallen van categorieën
hoogte = aantal
Kans aantal munt, N=10
Histogram: aantallen in klassen
oppervlakte = aantal
Leeftijdsverdeling
LEEFTIJD
80,070,060,050,040,030,020,0
20
10
0
Std. Dev = 12,01
Mean = 36,7
N = 49,00
september 1999 SPSS-cursus Statistiek 66
LEEFTIJD
70605040302010
WA
AR
DE
ER
10
9
8
7
6
5
4
3
2
Scatterplot leeftijd - waardering
september 1999 SPSS-cursus Statistiek 67
Binomiale verdeling
Uitkomst is Succes (vrouw > 60) of niet
Binomiale verdeling
N pogingen N = 100
X Successen X = 12
Succeskans p = X/N = 0,12
SD = (p*(1-p)/N) ½ = (0,12*0,88/100) ½
= 0,0325
september 1999 SPSS-cursus Statistiek 68
Kans op x successen
Uitkomst is Succes of niet
Binomiale verdeling
Succeskans = p
N pogingen
Kans dat x van N succes zijn
september 1999 SPSS-cursus Statistiek 69
Binomiale verdelingN=10, p=0,5
x kans
0 ,0009751 ,0097502 ,0439003 ,1170004 ,2047505 ,2457006 ,2047507 ,1170008 ,0439009 ,00975010 ,000975
Kansverdeling
H0
Ha
september 1999 SPSS-cursus Statistiek 70
aantal successen N=10, p=0,5
109876543210
ka
ns
,5
,4
,3
,2
,1
0,0
< H0 >< Ha >
Kansverdeling
september 1999 SPSS-cursus Statistiek 71
Formule
P(x=X; p; N) = pX (1-p)N-X
p=0.5
N=10
X=8
N
X
september 1999 SPSS-cursus Statistiek 72
Berekening
= = = 45
0.5 8 = 0.0039
0.5 2 = 0.25
45 * 0.0039 * 0.25 = 0.0439
10
8
10
2
10*9
2* 1
september 1999 SPSS-cursus Statistiek 73
Berekening
= = = 10
0.5 9 = 0.00195
0.5 2 = 0.5
10 * 0.00195 * 0.5 = 0.00975
10
9
10
1
10
1
september 1999 SPSS-cursus Statistiek 74
Berekening
= = 1
0.5 10 = 0.000975
0.5 0 = 1
1 * 0.000975 * 1 = 0.000975
10
10
10
0
september 1999 SPSS-cursus Statistiek 75
Berekening
0.0439 8 *
0.00975 9 *
0.000975 10 *
+
0.00546