Myceliummycelium.nu/.../2017/02/statistiek-b-overzicht-deel-2.docx · Web viewLaat zien hoe je de...

42
Betrouwbaarheid: 90% betrouwbaarheidsinterval gaan bepalen. Klik hiertoe op Analyze Descriptive Statistics Explore selecteer links variabele LFTKERK en klik op de bovenste Ø zodat LFTKERK onder Dependent List komt te staan, klik rechts op Statistics en verander in het hokje achter ‘Confidence Interval for Mean’ het getal 95 in 90, Continue. Klik nu (ook) rechts op Plots en vraag zowel een stamdiagram (‘stem-and-leaf plot’) als een histogram op en schakel Boxplots uit (op None), Continue, OK. Laat de output printen (of bekijk deze op het beeldscherm Case Processing Summary Cases Valid Missing Total N Percent N Percent N Percent leeftijd waarop respondent stopt regelmatig naar de kerk te gaan 436 33,5% 864 66,5% 1300 100,0% Descriptives Statisti c Std. Error leeftijd waarop respondent stopt regelmatig naar de kerk te gaan Mean 22,30 ,480 90% Confidence Interval for Mean Lower Bound 21,51 Upper Bound 23,09 5% Trimmed Mean 21,27 Median 18,00 Variance 100,270 Std. Deviation 10,013 Minimum 3 Maximum 65 Range 62 Interquartile Range 9 Skewness 1,779 ,117 Kurtosis 3,172 ,233 Laat zien hoe je de waarden van de ‘Lower Bound’ en de ‘Upper Bound’ van het 90% betrouwbaarheidsinterval kunt afleiden uit 1

Transcript of Myceliummycelium.nu/.../2017/02/statistiek-b-overzicht-deel-2.docx · Web viewLaat zien hoe je de...

Page 1: Myceliummycelium.nu/.../2017/02/statistiek-b-overzicht-deel-2.docx · Web viewLaat zien hoe je de waarden van de ‘Lower Bound’ en de ‘Upper Bound’ van het 90% betrouwbaarheidsinterval

Betrouwbaarheid:90% betrouwbaarheidsinterval gaan bepalen. Klik hiertoe op Analyze Descriptive Statistics

Explore selecteer links variabele LFTKERK en klik op de bovenste Ø zodat LFTKERK onder

Dependent List komt te staan, klik rechts op Statistics en verander in het hokje achter ‘Confidence

Interval for Mean’ het getal 95 in 90, Continue. Klik nu (ook) rechts op Plots en vraag zowel een

stamdiagram (‘stem-and-leaf plot’) als een histogram op en schakel Boxplots uit (op None), Continue,

OK. Laat de output printen (of bekijk deze op het beeldscherm

Case Processing Summary

Cases

Valid Missing Total

N Percent N Percent N Percent

leeftijd waarop respondent

stopt regelmatig naar de

kerk te gaan

436 33,5% 864 66,5% 1300 100,0%

Descriptives

Statistic Std. Error

leeftijd waarop respondent

stopt regelmatig naar de

kerk te gaan

Mean 22,30 ,480

90% Confidence Interval for

Mean

Lower Bound 21,51

Upper Bound 23,09

5% Trimmed Mean 21,27

Median 18,00

Variance 100,270

Std. Deviation 10,013

Minimum 3

Maximum 65

Range 62

Interquartile Range 9

Skewness 1,779 ,117

Kurtosis 3,172 ,233

Laat zien hoe je de waarden van de ‘Lower Bound’ en de ‘Upper Bound’ van het 90% betrouwbaarheidsinterval kunt afleiden uit andere grootheden in de output. Geef de formule met de bijbehorende getallen.Bij 95% is Z-waarde: 1.96 en bij 99% 2.55

X = µ ± 1.65 σ `x Hierbij is σ de standaardfout, en µ het gemiddelde. Lower Bound: 22.32 – 1.65 x 0.468= 21.55 Upper Bound: 22.32 + 1.65 x 0.468= 23.09

1

Page 2: Myceliummycelium.nu/.../2017/02/statistiek-b-overzicht-deel-2.docx · Web viewLaat zien hoe je de waarden van de ‘Lower Bound’ en de ‘Upper Bound’ van het 90% betrouwbaarheidsinterval

t-toets:

Analyze, Compare Means,  Independent-Samples T TestIndependent samples t-test

Je hebt 2 klassen (klas A & klas B) en je wilt weten of klas A gemiddeld beter scoort op de wiskundetoets dan klas B.  Je toets dan de hypothese: scoort klas A hoger dan klas B op de wiskundetoets?

In de eerste tabel in de output van de independent t-test worden de statistieken van de 2 groepen gegeven. Hier staat simpelweg (in de bovenste rij) dat de Klas A uit 61 personen bestond, een gemiddelde had van 7,07, een SD had van 1,08 en een SE van ,14. Deze kan je later rapporteren bij het beschrijven van je resultaten en daar hoef je voor de test verder niks mee te doen.

1. Je kijkt naar de Levene’s test. Deze vertelt je of er gelijkheid in variantie bestaat tussen deze 2 groepen. We nemen pas aan dat er GEEN gelijkheid in variantie(dus de varianties verschillen)  is indien de Levene’s test significant is en dat is bij een sig kleiner dan .05. In dit geval is de gegeven waarde .354 en dat is groter dan .05 dus er is gelijkheid in variantie en verschillen de varianties NIET. We nemen dus aan dat de varianties gelijk zijn en kijken dus naar de bovenste rij in de tabel (equal variances assumed).

2. In stap 1 heb je vastgesteld dat je naar de bovenste rij moet kijken. Je hebt het gemiddelde van klas A (7.07) vergeleken met het gemiddelde van klas B (6.92), het verschil tussen deze twee gemiddeldes vind je onder mean difference. Je wilt weten of dit verschil significant is en dat is als we met 95% of meer zekerheid kunnen zeggen dat dit verschil bestaat. Dat is het geval als onder sig een waarde staat van .05 (5% foutkans) of lager. In het voorbeeld staat onder sig een waarde van .482 (48,2% kans op een fout) dus groter dan .05 (5% kans op een fout) dus mogen we niet zeggen dat er een (significant) verschil is tussen Klas A en klas B en het gemiddelde cijfer.

Paired samples t-testKlas C krijgt een wiskundecursus. Je wilt weten of klas C beter scoort op wiskundetoets na de cursus dan voor ze de cursus hebben gevolgd. Klas C maakt op 2 momenten een wiskunde toets. Een toets voor ze de cursus hebben gevolgd (moment 1) en na de cursus (moment 2). Je toets dus de hypothese:  scoort klas C hoger op de wiskundetoets na (moment 2) een wiskundecursus dan voor de cursus (moment 1)One sample t-testEen wiskundetoets wordt landelijk afgenomen en het landelijk gemiddelde is een 6. Je wilt onderzoeken of klas D hoger scoort dan het landelijk gemiddelde. Je toetst de hypothese: scoort klas D hoger dan een 6?

2

Page 3: Myceliummycelium.nu/.../2017/02/statistiek-b-overzicht-deel-2.docx · Web viewLaat zien hoe je de waarden van de ‘Lower Bound’ en de ‘Upper Bound’ van het 90% betrouwbaarheidsinterval

General linear model

Analyze general linear model univariate

General Linear Model (GLM), is de verzamelnaam die SPSS geeft voor diverse technieken binnen de variantieanalyse. Variantieanalyse is vergelijkbaar met de diverse t-toetsen voor het toetsen van verschillen tussen gemiddelden. Echter, een t-toets is alleen geschikt voor het toetsen van verschillen tussen twee gemiddelden. Met een variantieanalyse kun je verschillen toetsen wanneer je meer dan twee groepen hebt. Ook kun je meerdere onafhankelijke variabelen gebruiken, meerdere afhankelijke variabelen, of een combinatie hiervan.

 Wanneer slechts één factor getoetst moet worden, dan wordt One-Way ANOVA toegepast. Als je een onafhankelijke variabele wil toevoegen gebruik je het GLM-model.

Voorbeeld:

Tests of Between-Subjects Effects

Dependent Variable:aantal dagen in de week televisiekijken

Source

Type III Sum of

Squares df Mean Square F Sig.

Corrected Model 246,578a 13 18,968 2,154 ,011

Intercept 5217,526 1 5217,526 592,596 ,000

Q2 49,867 6 8,311 ,944 ,463

geslacht 48,683 1 48,683 5,529 ,019

Q2 * geslacht 68,608 6 11,435 1,299 ,256

Error 3918,011 445 8,805

Total 13178,000 459

Corrected Total 4164,588 458

a. R Squared = ,059 (Adjusted R Squared = ,032)

Het totale model levert een significant resultaat op, namelijk bij ‘corrected model’ staat sig ,011, dit 

is kleiner dan alpha 0,05. geslacht is hier ook van invloed op het model want deze is ook signficant 

(,019) opleidingsniveau echter niet want deze is ,463.

De interactie tussen opleidingsniveau en geslacht kun je ook toetsen, deze kun je vinden bij 

‘Q2*geslacht’, sig .256 dus dit resultaat is niet significant en dus niet van invloed op het model.

Voorbeeldvraag:

Controleer of de varianties aan elkaar gelijk mogen worden verondersteld of niet. Als dat niet zo is, wordt het model van variantieanalyse ten onrechte gebruikt. Tenzij de groepen alle groot genoeg  zijn (vuistregel >= 30).  

3

Page 4: Myceliummycelium.nu/.../2017/02/statistiek-b-overzicht-deel-2.docx · Web viewLaat zien hoe je de waarden van de ‘Lower Bound’ en de ‘Upper Bound’ van het 90% betrouwbaarheidsinterval

Je kunt dit nagaan door een levene’s test uit te voeren, oftewel een homogeniteits test: z.o.z

Analyze general linear model univariate options homogeneity tests

Levene's Test of Equality of Error Variancesa

Dependent Variable:aantal dagen in de week

televisiekijken

F df1 df2 Sig.

2,909 13 445 ,000

Tests the null hypothesis that the error variance

of the dependent variable is equal across

groups.

a. Design: Intercept + Q2 + geslacht + Q2 *

geslacht

Sig is hier 0,000 je verwerpt dus de homogeniteit. Omdat n>=30 mag je deze

variantieanalyse wel gebruiken

4

Page 5: Myceliummycelium.nu/.../2017/02/statistiek-b-overzicht-deel-2.docx · Web viewLaat zien hoe je de waarden van de ‘Lower Bound’ en de ‘Upper Bound’ van het 90% betrouwbaarheidsinterval

ANOVA = ANalysis Of VAriance (F-toets)

Analyze Compare Means One-Way ANOVA

Gebruik je als je wil kijken of er een verschil is tussen gemiddelden.

Bij de algemene hypothese van een ANOVA (F-test), bij meer dan 2 groepen, is het dus ook niet mogelijk richting te geven want deze zegt puur en alleen of er verschil bestaat tussen de groepen. In ons voorbeeld geeft de ANOVA (F-test) alleen maar aan of er een verschil is tussen de landen en NIET welk land hoger scoort ten opzichte van een ander land.

De subhypothesen gaan over de onderlinge verschillen tussen de landen. Deze toets je met een posthoc test. “Post” betekent “na” dus een na-test. Wat opzich ook wel logisch is omdat je als je met de ANOVA (F-test) hebt 

vastgesteld dat er een verschil is tussen de landen je zeer waarschijnlijk ook wilt weten welke landen dan precies van elkaar verschillen. Dus bij de subhypothesen ga je kijken naar de onderlinge verschillen tussen de 

landen: H0 (nul hypothese):Er is geen verschil tussen in het gemiddelde wiskunde cijfer tussen Nederland, Duitsland en

Belgie.HA (alternatieve hypothese)

Er is wel verschil tussen in het gemiddelde wiskunde cijfer tussen Nederland, Duitsland en Belgie.

Sig. ,990 > 0,05 dus er is geen significant verschil en is er gelijkheid in variantie 

Sig. ,093 > 0,05 dus er is geen verschil tussen de landen.POST HOC tests

5

Page 6: Myceliummycelium.nu/.../2017/02/statistiek-b-overzicht-deel-2.docx · Web viewLaat zien hoe je de waarden van de ‘Lower Bound’ en de ‘Upper Bound’ van het 90% betrouwbaarheidsinterval

hoe de verschillende gemiddelden van elkaar verschillen door gebruik te maken van de Post Hoc test

Bovenste rij (let even niet op de afronding): Het gemiddelde cijfer van Belgie (6,25) – het gemiddelde cijfer van Duitsland (6,5)  = -,25, dit verschil heeft een SE van .26 en dit verschil is niet significant want de waarde onder sig (.99) is groter dan .05. Belgie heeft een lager gemiddelde dan Duitsland alleen is dat geen significant verschil

Post hoc:

door onder Oneway ANOVA te kiezen voor Options en dan Homogeneity of Variance tests) kun je kijken of de varianties gelijk of ongelijk zijn. 

Varianties ongelijk = Games/Howell

Varianties gelijk = Bonferroni

6

Page 7: Myceliummycelium.nu/.../2017/02/statistiek-b-overzicht-deel-2.docx · Web viewLaat zien hoe je de waarden van de ‘Lower Bound’ en de ‘Upper Bound’ van het 90% betrouwbaarheidsinterval

Enkelvoudige Regressie:

Je gebruikt de regressie analyse om te toetsen of een onafhankelijke variabele invloed heeft op een afhankelijke variabele en of dit een positief of een negatief effect is.

B-coefficient berekenen:Hoe groot is deze b-coëfficiënt ongeveer afgaande op jouw regressielijn? Leg uit hoe je deze waarde uit de plot kunt afleiden zonder dat daarvoor een ingewikkelde berekening nodig is. Berekenen door delta Y / delta X te doen. Hiervoor kijk je op de lijn je kijkt wanneer X 10 toeneemt neemt Y 20 toe, dus 20/10 = 2

Dependent variabele:Dependent is de variabele die afhankelijk is van de andere variabele. Deze veranderd dus op basis van verandering van de onafhankelijke variabele. In dit geval is het kranten kijken afhankelijk van de leeftijd, dus dependent: krant, independent: leeftijd.

R-square:R Square staat voor de ruimte tussen de punten en de regressielijn. Wanneer R=0 liggen de punten ruim verspreid, en wanneer R=1 liggen alle punten op de regressielijn. Als er een R square is van o,2 of hoger is dit goed. De waarde die we vinden is 0,274. Dit betekend dat 27,4% van de variantie krantlezen wordt verklaard door “leeftijd”.

R Regressie- of B-coëfficiënt. Dit 

is de hellingshoek van de lijn. 

Geeft weer met hoeveel 

eenheden Y verandert als X met 

één eenheid toeneemt. 

Tabel Coëfficiënt; onder constant (de

X) staat de schatting van B-coëfficiënt

van X.

Bij positief: X neemt toe, Y ook.

Bij negatief: X neemt toe, Y neemt af.

Intercept

Het snijpunt van de lijn met de 

Y-as. De voorspelde waarde van 

Y als X = 0. 

Tabel Coëfficiënt; onder

Unstandardized Coefficients; Onder B

en achter Constant; hier staat de

kleinste schatting van het intercept.

SSE Som van kwadraten van de fouten. (Sum of Square for Error.)

s² Standard Error of the Estimate 

(Steekproefvariantie?)

SSE Voor SSE en df: kijk bij s² = n – 2 ‘Residual’.

s = √s Standard Error of the Regression model. 

Enkelvoudige

regressie

Het causale verband tussen X en Y 

wordt uitgedrukt in een lineaire 

regressievergelijking. (Waarden van Y 

voorspellen aan de hand van X.)

Analyze; Regression; Linear;

Dependent en Indepedent: vul

variabele in; Paste; Ok.

7

Page 8: Myceliummycelium.nu/.../2017/02/statistiek-b-overzicht-deel-2.docx · Web viewLaat zien hoe je de waarden van de ‘Lower Bound’ en de ‘Upper Bound’ van het 90% betrouwbaarheidsinterval

R Correlatie (coefficient) van X met Y. 

R Square

(R²)

Determinantiecoëfficiënt: geeft het

percentage verklaarde variantie in Y

door X aan;

R square in tabel = .450. 45% van de variantie 

‘winkelen’ wordt dus verklaard door ‘afstand’.  

R square = 1 = perfect model, 

R square = 0=  geen linear verband.

R2= verklaarde variantie/ totale variantieSSR / SST

Std. Error of

the Estimate

Standaarddeviatie van de residuen. 

(residuen zijn verschillen tussen de

voorspelde en echte Y-waarden.) Is

gelijk aan de wortel uit de variantie

(Mean Square) van de residuen.

SSE Voor SSE en df: kijk bij s² = n – 2 ‘Residual’.

Voorbeeld:Je wilt onderzoeken of intelligentie (onafhankelijk) invloed heeft op het tentamencijfer (afhankelijk). Je toetst dan de hypothese: Hoe hoger de intelligentie hoe hoger het tentamencijfer (of intelligentie heeft een positieve invloed op het tentamencijfer).

H0 (nul hypothese): Er is geen (of een negatief) verband tussen het IQ en het wiskunde cijfer. HA (alternatieve hypothese): Er is een positief verband tussen het IQ en het wiskunde cijfer.

LET OP!!! We geven nu dus WEL richting aan de hypothese dus toetsen één-zijdig omdat onze alternatieve hypothese stelt dat het een positief verband betreft (en dus geen negatief).  In dit voorbeeld gebruiken we nog steeds  de 95% (standaard) zekerheid om te zeggen dat we de nul

hypothese moeten verwerpen en de alternatieve hypothese aannemen. Als iets twee-zijdig significant is, is deze éénzijdig ook significant!

Je leest deze tabel zo :Het model correleert met .375 (onder R) met de afhankelijke variabele (wiskunde cijfer).Het model verklaart 14,1% (.141 onder R Square) het wiskunde cijfer.The model fits the data very well wanneer R2 boven 0.2 als een gevonden waarde hier ver onder ligt spreek je van een low fit. Dus spreek je hier van een very well fit

8

Page 9: Myceliummycelium.nu/.../2017/02/statistiek-b-overzicht-deel-2.docx · Web viewLaat zien hoe je de waarden van de ‘Lower Bound’ en de ‘Upper Bound’ van het 90% betrouwbaarheidsinterval

9

Page 10: Myceliummycelium.nu/.../2017/02/statistiek-b-overzicht-deel-2.docx · Web viewLaat zien hoe je de waarden van de ‘Lower Bound’ en de ‘Upper Bound’ van het 90% betrouwbaarheidsinterval

(Mean square: Sum of squares / df)!

Deze geeft aan of het model significant is. Als het model niet significant is, is het geen toevoeging ten opzichte van als er geen model zou zijn (je kan in dat geval net zo goed geen model hebben). Hier is het model wel significant want de waarde onder sig is kleiner dan .05 dus we zijn met meer dan 95% zeker dat het model “iets” verklaart. Dit betekent dus dat het model bruikbaar zou zijn.

De laatste tabel geeft de invloed per onafhankelijke variabele weer. In dit voorbeeld is IQ onze enige onafhankelijke variabele. De invloed is positief (anders had er een min voor de B, Beta en t gestaan en significant want onder sig staat de waarde .000 en dus kleiner dan .05. We zijn dus met meer dan 95% (zelfs met meer dan 99,9% zeker en dus sowieso meer dan 95%) zeker dat hier sprake is van een positief effect van IQ op de attitude. We verwerpen dus de H0 en nemen de HA aan.Interpretatie van B: IQ = .027, dit betekent dat voor elk IQ punt, het cijfer van wiskunde met ,027 beter wordt.

10

Page 11: Myceliummycelium.nu/.../2017/02/statistiek-b-overzicht-deel-2.docx · Web viewLaat zien hoe je de waarden van de ‘Lower Bound’ en de ‘Upper Bound’ van het 90% betrouwbaarheidsinterval

Correlatie: (pearsons)

De correlatie coëfficient kan zowel negatief als positief zijn en is tussen -1 (perfecte negatieve correlatie) en +1 (perfecte positieve correlatie). Een correlatie coëfficient van 0 betekent dat er geen correlatie is. Perfecte negatieve correlatie: jij doet een stap naar links, ik doe een stap naar rechts (TEGENOVERGESTELDE)

Met de correlatiemaat kan de sterkte van het lineaire verband tussen twee kwantitatieve variabelen worden bepaald. Zonder dat je zegt dat er sprake is van een causaal verband.Voorbeeld:

Men heeft het vermoeden dan naarmate het aantal door een student bezochte colleges hoger is, deze student ook meer practica heeft gevolgd.

Analyze Correlatie Bivariate

Correlatie tussen de variabelen A en B voor mannen is ,149 en deze is niet significant (,851)

Je kunt hier ook pearson en spearman aanvinken.

Als Spearman’s Rho groter is dan 0.3 of kleiner is dan -0.3 dan is deze altijd relevant. 

11

Page 12: Myceliummycelium.nu/.../2017/02/statistiek-b-overzicht-deel-2.docx · Web viewLaat zien hoe je de waarden van de ‘Lower Bound’ en de ‘Upper Bound’ van het 90% betrouwbaarheidsinterval

Multipele regressie:

Je gebruikt de multiple regressie analyse om te toetsen of meerdere onafhankelijke variabelen invloed hebben op een afhankelijke variabele en of dit een positief of een negatief effect is. Ook is het mogelijk om interactie-effecten te toetsen.

Multipele regressie Er wordt een lineair regressiemodel gemaakt tussen afhankelijke variabele Y

en meerdere onafhankelijke variabelen (regressors) X.

F-waarde = (sumofsquaresregression/df1)/(sumofsquaresresidual/df2)

Veronderstellingen - Y = interval/ratio; X = interval/ratio of ordinal

- Verband tussen Y en X is causaal.

- Multipele regressie is lineair. (Kun je controleren met residuen.)

- Geen multicollineariteit.

- Normale verdeling (met dezelfde variantie) van de Y-waarden.

(Residuen normaal verdeeld en evenwichtig gespreid.)

Regressievergelijking Voorspelde Ŷi= βo+β1X1+β2X2+β3X3

Algemene formule met 3 predicatoren: Y = B0 + B1 * X1 + B2 * X2 + B3 *

X3 + e (De Y waarde is de onafhankelijke variabele!)

Elke onafhankelijke variabele X heeft een eigen B1. (regressiecoëfficiënt.)

Residuen De verschillen tussen de voorspelde Y-waarden en de ‘echte’ Y-waarden. 

Multicollineariteit Er mogen geen onafhankelijke variabelen in het model zijn, die ongeveer 

hetzelfde meten. Dit kun je vooraf controleren door de bivariate correlatie-

coëfficiënten van alle paren onafhankelijke variabelen te berekenen. 

Multicollineariteit = als er correlaties van r > = 0.9. In dat geval moet je de 

beide variabelen buiten je model houden. 

Standaard methode Alle onafhankelijke variabelen, (ook de niet significante) tegelijk in het model 

brengen. In één keer berekenen.

Stapsgewijze

methoden

Stap voor stap een onafhankelijke variabele in het model opnemen, op 

volgorde van de relatieve invloed op de afhankelijke Y (hoogste F-waarde en 

laagste significantie). Dit proces stopt als alle significante X-en zijn verwerkt.

Beta-coefficient Geeft een indicatie van het relatieve belang van iedere X.

Regressieanalyse De residuen zijn de verschillen tussen de waargenomen Y-waarden en de 

voorspelde Y-waarden. 

Residuenanalyse Hiermee kun je nagaan of aan een aantal vooronderstellingen van regressie (en 

correlatie) zijn voldaan. De residuen geven een beeld van de kwaliteit van het 

12

Page 13: Myceliummycelium.nu/.../2017/02/statistiek-b-overzicht-deel-2.docx · Web viewLaat zien hoe je de waarden van de ‘Lower Bound’ en de ‘Upper Bound’ van het 90% betrouwbaarheidsinterval

regressiemodel. Hoe dichter de punten bij de lijn liggen, des te kleiner zijn de 

residuen en des te sterker is het verband en des te beter is de kwaliteit van het 

regressiemodel.

Zijn de residuen

normaal verdeeld?

Analyze; Regression; Linear; geen X en Y invullen; Plots; Kies: Histogram en

Normal probability plot; Continue; Paste; Run.

Voorbeeld:

Om inzicht te krijgen in de relatie tussen TRADMV enerzijds en LEEFTIJD, OPLEID en KINDEREN anderzijds voeren we een multipele regressie-analyse uit, met TRADMV als afhankelijke en de andere kenmerken als onafhankelijke variabelen/predictoren. We nemen daarbij aan dat alle variabelen van interval meetniveau zijn

Model Summary

Model R R Square

Adjusted R

Square

Std. Error of the

Estimate

1 ,373a ,139 ,124 5,634

Hoeveel procent van de variatie of kwadratensom van TRADMV wordt verklaard door de drie onafhankelijke variabelen tezamen? 13,9% RSquareN = dfresidual + aantal variabelen = 176

ANOVAb

Model Sum of Squares df Mean Square F Sig.

1 Regression 885,113 3 295,038 9,294 ,000a

Residual 5491,746 173 31,744

Total 6376,859 176

N is hier 177, want df + 1 = N Laat zien hoe je deze maat kunt berekenen vanuit twee Sum's of Squares in de tabel getiteld ANOVA.Ssregr./Sstotal885,113/6376,859 = 0,139Er is hier sprake van een low fit want 0,139 < 0,2 – 0.5)Well fit = R2 > 0,2

13

Page 14: Myceliummycelium.nu/.../2017/02/statistiek-b-overzicht-deel-2.docx · Web viewLaat zien hoe je de waarden van de ‘Lower Bound’ en de ‘Upper Bound’ van het 90% betrouwbaarheidsinterval

Coefficientsa

Model

Unstandardized Coefficients

Standardized

Coefficients

t Sig.B Std. Error Beta

1 (Constant) 19,805 1,653 11,980 ,000

Leeftijd ,090 ,033 ,223 2,682 ,008

Hoogst voltooide opleiding -1,376 ,475 -,217 -2,897 ,004

Aantal kinderen ,135 ,267 ,043 ,505 ,614

B-waarde leeftijd, per jaar wordt TRADV 0,090 schaaleenheden groter door leeftijd

Ander voorbeeld:Coefficientsa

Model

Unstandardized Coefficients

Standardized

Coefficients

t Sig.B Std. Error Beta

1 (Constant) 7,436 ,161 46,310 ,000

deelname cultuur in

nijmegen: aantal bezochte

voorstellingen en

voorzieningen

,042 ,013 ,132 3,380 ,001

aantal jaren opleiding

gevolgd

,003 ,010 ,010 ,254 ,800

Wat is uw leeftijd? -,002 ,002 -,040 -1,107 ,269

a. Dependent Variable: waardering nijmegen als woon- en leefomgeving

Stel een respondent is 25 jaar, heeft 8 jaar lang een opleiding gevolgd en heeft het afgelopen jaar vijf cultuurvoorstellingen gevolgd in Nijmegen.

Geef door middel van een berekening aan wat de verwachte score van deze respondent is op de afhankelijke variabele.Y = B0 + (B1 * X1) +( B2 * X2) + (B3 * X3)

7,436 + (25x -0,002) + (8x 0,003) + (5x 0,042) = 7.62

Op welke wijze had je op basis van de output de t-waarde achter cultuurnijm zelf eenvoudig kunnen uitrekenen als SPSS die niet gegeven had?

T = β1/standard error = 0,042/0,013 = 3.23

Bepaal het interval waarbinnen met een betrouwbaarheid van 99% de ‘ware’ b-waarde van cultuurdeelname zal liggen, door de formule weer te geven en de in te vullen getallen.Β1±ta/2 * standard error0.042±2.581*0.013 = 0.042±0.0336

14

Page 15: Myceliummycelium.nu/.../2017/02/statistiek-b-overzicht-deel-2.docx · Web viewLaat zien hoe je de waarden van de ‘Lower Bound’ en de ‘Upper Bound’ van het 90% betrouwbaarheidsinterval

F-toets:

F – toets (variantie-analyse)

Met de variantie analyse kan getoetst worden of de gemiddelde van meer dan twee onafhankelijke 

groepen van elkaar afwijken.

Voorbeeld:

Stel dat men wil toetsen of de tijd die men aan statistiek heeft besteed, gelijk is voor drie 

verschillende leeftijdsgroepen: 18 t/m 20 jaar, 21 t/m 30 jaar en 31 t/m 37 jaar. Vervolgens wordt 

een variantie analyse uitgevoerd, ook wel ANOVA = ANalysis Of VAriance

Variantie-analyse

(N>= 30)

Om te toetsen of populatiegemiddelde van een interval/ratiovariabele

voor drie of meer onafhankelijke groepen aan elkaar gelijk zijn. De

groepen worden onderscheiden op basis van categorale variabelen.

Vooronderstellingen - Alle steekproeven zijn onafhankelijk en select.

- Elke groep is afkomstig uit een normaal verdeelde populatie.

- De varianties van de groepen zijn in de populatie aan elkaar gelijk.

(Levene’s toets.) (als alle groepen ongeveer even groot zijn hoeft dit

niet zo strikt.)

Ho Ho = µ1 = µ2 = µ3 = µk. Populatiegemiddelden van alle groepen zijn gelijk

F Toont of het regressiemodel significant is. F = de mean squares op elkaar

delen. (verklaarde op onverklaarde varianties)

F-waarde 1 =  gemiddelde van alle groepen aan elkaar gelijk zijn. Ho wordt 

dan niet verworpen.

F waarde > 1 = Ho verwerpen. De groepsgemiddelden verschillen 

significant. De spreiding is veroorzaakt door verschillen tussen de groepen. 

(NB: Met de T-toets, toets je de onafhankelijke Y’s, want niet alle 

variabelen hoeven relevant te zijn.)

Waarde F in ANOVA: Mean square between groups/ mean

square within groups

Variatie Variantie-analyse is gebaseerd op de variatie in steekproefgegevens.

Variatie = de gekwadrateerde afwijking van alle waarnemingen t.o.v. het

gemiddelde (Sum of Squares) Door de variatie te delen door het aantal

vrijheidsgraden verkrijg je de variantie.

15

Page 16: Myceliummycelium.nu/.../2017/02/statistiek-b-overzicht-deel-2.docx · Web viewLaat zien hoe je de waarden van de ‘Lower Bound’ en de ‘Upper Bound’ van het 90% betrouwbaarheidsinterval

Logistische regressie (binary logistic regression)

Analyze regression Binary logistic

Gebruik je als je een regressie analyse wil doen maar dan met een afhankelijke variabele die diochtoom van aard is, een variabele met dus maar 2 categorieen (bijvoorbeeld WEL SPORT of NIET SPORT).

Voorbeeld:

kijken of het gegeven dat de respondent wel of niet aan sport doet, te voorspellen is uit de variabelen: cultuurdeelname, jaren opleiding en leeftijd.

Omnibus Tests of Model Coefficients

Chi-square df Sig.

Step 1 Step 151,733 3 ,000

Block 151,733 3 ,000

Model 151,733 3 ,000

Sig is hier 0,000 dit is kleiner dan alpha dus is het model bruikbaar

Variables in the Equation

B S.E. Wald df Sig. Exp(B)

Step 1a cultuurnijm ,186 ,040 21,561 1 ,000 1,205

opleidduur ,159 ,028 32,118 1 ,000 1,173

leeftijd -,018 ,005 15,099 1 ,000 ,982

Constant -,768 ,440 3,039 1 ,081 ,464

a. Variable(s) entered on step 1: cultuurnijm, opleidduur, leeftijd.

‘Wald’ is de maat waarnaar je moet kijken om te zien of de afhankelijke predicatioren het wel of niet sporten voorspellen.’Bij alle waarden is de significantie 0,000 dat betekent dat alle waarden significant zijn en dus bijdragen aan de voorspellingOdds berekenen: odds voor iemand van 25 jaar, 8 jaar lang opleiding gevolgd en afgelopen 5 jaar cultuurvoorstellingen gevolgd heeft in nijmegen

1 1P(event Y) = _____________ = ____________________________________

1+e ^ -(b0+b1+X1;) 1+e ^ - 0,768+0,186*5+0,159*8 – 0,018 *25

= 1/ 1+e^-0,984= 1/1,3738 = 0,7279

P(no event y) = 1-p (event y) = 1 - 0.7279 = 0,2721

Odds = P(event)/P(no event) = 0,7279/0,2721 = 2,6751!

16

Page 17: Myceliummycelium.nu/.../2017/02/statistiek-b-overzicht-deel-2.docx · Web viewLaat zien hoe je de waarden van de ‘Lower Bound’ en de ‘Upper Bound’ van het 90% betrouwbaarheidsinterval

Chi-Square & Cramers VVia: analyze descriptive statistics crosstabs statistics Chi Square & Cramer’s V

Met deze toets probeer je aannemelijk te maken dat er verschil of een relatie bestaat tussen groepen wat betreft een bepaald kenmerk. Je spreekt dan van afhankelijkheid, wat weer hetzelfde betekent dat er verband bestaat. Je maakt een kruistabel. Afhankelijke variabele in de rijen/onafhankelijke in de kolommen!

Heel gebruikelijke hypothesen zijn hier:

H0: Er is geen verschil tussen de wijken wat betreft internetgebruikH1: Er is wel verschil tussen de wijken wat betreft internetgebruik

Je ziet bij ‘Chi-square Tests’’ dat sig 0,021 is dit is kleiner dan 0,05 dus wordt H0 verworpen en H1 aangenomen

17

Page 18: Myceliummycelium.nu/.../2017/02/statistiek-b-overzicht-deel-2.docx · Web viewLaat zien hoe je de waarden van de ‘Lower Bound’ en de ‘Upper Bound’ van het 90% betrouwbaarheidsinterval

Mann whitney & Wilcoxon Rank Sum test:

Analyze Non parametric tests legacy dialogs 2 independent samples onder test variable selecteer hetgene waar je op wil toetsen kies onder grouping variable ‘sex’descriptive statistics (type 1 voor mannen en 2 voor vrouwen)

Stellen geen eisen aan de steekproef. De wilcoxon test is in tegenstelling tot de T-toets een non-parametrische toets, deze veronderstelt in tegenstelling tot de T-test geen normaliteit in de data. Dus deze kan ook gebruikt worden als de data niet normaal verdeeld is (je kunt kijken of iets normaal verdeeld is aan de hand van een staafdiagram). De toets wordt gebruikt om 2 verschillende populaties met elkaar te vergelijken net zoals de T-test. Bijvoorbeeld als je het verschil tussen mannen en vrouwen wil onderzoeken onder een bepaalde conditie. 2 onafhankelijke steekproeven MW toets, 2 afhankelijke Wilcoxon.!

Voorbeeld: je wil kijken of er in Nederland inkomensverschillen zijn tussen mannen en vrouwen. H0 = mannen en vrouwen verdienen evenveel, H1 = mannen verdienen meer.

Ranks

R: Sex N Mean Rank Sum of Ranks

income: Netherlands Male 507 493,22 250063,00

Female 415 422,75 175440,00

Total 922

Test Statisticsa

income:

Netherlands

Mann-Whitney U 89120,000

Wilcoxon W 175440,000

Z -4,004

Asymp. Sig. (2-tailed) ,000

a. Grouping Variable: R: Sex

Mannen hebben een hogere mean rank dan vrouwen en verdienen dus meer. Als dit getal bij 

vrouwen hoger was geweest hadden we meteen H1 al kunnen verwerpen. Bovendien is 

Asymp. Sig. (2-tailed) 0,000 deze moet je delen door 2, want het is een eenzijdige toets, dus 

0,000/2 = 0,000. Bij een alpha van 0,05 is sig kleiner, dus kunnen we H0 verwerpen en H1 

aannemen. Mannen verdienen dus meer dan vrouwen.

SPSS geeft onder Test Statistics de z-waarde (volgens de formule op pagina 773) op basis van T1 of T2, afhankelijk van welk van beide groepen de laagste Mean Rank heeft. Daarom is de z-waarde die SPSS geeft altijd negatief of nul en bestaat de ‘rejection region’ bij eenzijdig toetsen uit z < -z.

18

Page 19: Myceliummycelium.nu/.../2017/02/statistiek-b-overzicht-deel-2.docx · Web viewLaat zien hoe je de waarden van de ‘Lower Bound’ en de ‘Upper Bound’ van het 90% betrouwbaarheidsinterval

Kruskall-Wallis/Friedman

Analyze Nonparametric Tests Legacy Dialogs K Independent Samples (Grouping Variable) Define Range. Type 1 in het minimum-hokje, N in het maximum-hok en klik dan Continue OK

Voor meerdere onafhankelijke steekproeven.

Gebruik je als non-parametrische toets en is een alternatief voor ANOVA. De Kruskal-Wallis toets wordt gebruikt voor het vergelijken van de gemiddelde rangorde scores van twee of meer groepen.

Een voorbeeld waarin de Kruskal-Wallis toets gebruikt zou moeten worden is deze: in een wedstrijd tussen drie landen zijn de turners van land A geëindigd op de 1e, 6e, 7e, plaats, van land B op de 3e, 5e, 8e plaats en van Land C op de 2e, 4e, 9e plaats. Welk land is gemiddeld genomen beter?

1) Output:

Ranks

5 15,205 12,304 7,385 4,60

19

V2 haark leur1 lichtblond2 donkerblond3 lichtbruin4 donkerbruinTotal

V1 pijngrensN Mean Rank

 Test Statist icsa,b

10,5893

,014

Chi-SquaredfAsymp. Sig.

V1 pijngrens

Kruskal Wallis Tes ta.

Grouping Variable: V2 haark leurb.

- Chi square is hier de KW-waarde.

2) Conclusie:SIG > α, H0 aannemenSIG < α, H0 verwerpen.

19

Page 20: Myceliummycelium.nu/.../2017/02/statistiek-b-overzicht-deel-2.docx · Web viewLaat zien hoe je de waarden van de ‘Lower Bound’ en de ‘Upper Bound’ van het 90% betrouwbaarheidsinterval

20

Page 21: Myceliummycelium.nu/.../2017/02/statistiek-b-overzicht-deel-2.docx · Web viewLaat zien hoe je de waarden van de ‘Lower Bound’ en de ‘Upper Bound’ van het 90% betrouwbaarheidsinterval

Parametrische toetsen:

standaardeisen:- steekproeven moeten aselect getrokken zijn- Steekproeven moeten symmetrisch en klokvormig verdeeld zijn

Kruistabel: onderzoeken of er een relatie bestaat tussen twee variabelen- meetniveau variabelen: nominaal of ordinaal- via de kruistabel kun je een Chi² toets (representativiteit/verschil verdelingen nagaan) of een

Cramers V (samenhangtoets) toepassen

One Sample T-test: onderzoeken of de waarde van een bepaald steekproefgemiddelde afwijkt van een van tevoren verwacht theoretisch gemiddelde onder de nulhypothese.

- variabele is van interval/ratio meetniveau

Independent Samples T-test: onderzoeken of de gemiddelden van twee groepen van elkaar afwijken (vergelijking van twee onafhankelijke groepen)

- varianties van populaties zijn aan elkaar gelijk- steekproeven zijn onafhankelijk van elkaar- afhankelijke variabele is van interval/ratio meetniveau

Paired Sampes T-test: onderzoeken of de gemiddelden van twee groepen/ gemiddelden van scores op variabelen aan elkaar gelijk zijn (vergelijking van twee afhankelijke groepen)

- steekproeven zijn afhankelijk van elkaar- afhankelijke variabele is van interval/ratio niveau

Enkelvoudige Lineaire Regressie: onderzoeken of twee kwantitatieve variabelen verband met elkaar ouden en kijken hoe sterk dit verband is. Hierbij is er één afhankelijke en één onafhankelijke variabele. 

- correlaties tussen de onafhankelijke variabelen mogen niet hoger zijn dan 0.65 (anders probleem van multicollineariteit)

- alleen interval/ratio-variabelen die normaal verdeeld zijn- verband tussen de onafhankelijke variabele en de afhankelijke variabele is causaal- regressie is lineair (te controleren met residuanalyse)

Multipele Lineaire Regressie:  onderzoeken of kwantitatieve variabelen verband met elkaar houden en kijken hoe sterk dit verband is. hierbij is er één afhankelijke variabele en meerdere onafhankelijke variabelen.

- afhankelijke variabele is van interval/ratio niveau, onafhankelijke variabelen interval/ratio of ordinaal

- verband tussen de onafhankelijke variabelen en de afhankelijke variabele is causaal- multipele regressie is lineair (te controleren met residuanalyse)- geen multicollineariteit (correlaties onafhankelijke variabelen niet hoger dan 0.65)- normale verdeling van de afhankelijke variabele- varianties zijn aan elkaar gelijk

Variantieanalyse (ANOVA): onderzoeken of de populatiegemiddelden van méér dan twee onafhankelijke groepen van elkaar afwijken.

F-toets: Nagaan of de varianties van twee nominale verdelingen van elkaar verschillen- alle steekproeven zijn onafhankelijk

21

Page 22: Myceliummycelium.nu/.../2017/02/statistiek-b-overzicht-deel-2.docx · Web viewLaat zien hoe je de waarden van de ‘Lower Bound’ en de ‘Upper Bound’ van het 90% betrouwbaarheidsinterval

- de varianties van de groepen zijn aan elkaar gelijk (levenes test)- F=1: gemiddelden van alle groepen zijn aan elkaar gelijk. h0 niet verwerpen- F>1: H0 verwerpen, de groepsgemiddelden verschillen significant van elkaar.

General Lineair Model: Varantieanalyse met meer dan één controlerende variabele (invloed van meerdere onafhankelijke variabelen op een afhankelijke variabele met meer dan twee groepen)

Correlatiecoëfficiënt van Pearson: Samenhang tussen twee variabelen meten- de variabelen zijn van interval/ratio meetniveau

Non parametrische toetsenAlgemene eisen

- de steekproeven moeten aselect getrokken zijn

Wilcoxon toets (Mann Whitney toets): verschillen tussen twee onafhankelijke steekproeven (Verdelingen) nagaan: Zijn de twee verdelingen aan elkaar gelijk?

- gebruiken als niet aan de eisen van een T-toets (for independent samples) wordt voldaan

Kruskal-Wallistoets: Toetsen of er een verschil is tussen de verdelingen waaruit twee of meer steekproeven afkomstig zijn

- gebaseerd op rangnummers- gebruiken als niet aan de eisen van variantieanalyse (one way ANOVA) wordt voldaan

Chi² toets: toetsen of twee of meer verdelingen van elkaar verschillen (1 bekende en 1 onbekende verdeling / 2 onbekende verdelingen). Gaat na of waargenomen aantallen systematisch afwijken van verwachte/gemiddelde getallen & berekent daartoe het totaal van de gewogen kwadratische afwijkingen tussen deze getallen

- gebruikt om kruistabellen te analyseren- meetniveau niet van belang (kijkt alleen naar aantallen)

Spearmans rangcorrelatiecoëfficiënt: Samenhang berekenen wanneer niet aan de eisen van Pearsons correlatiecoëfficient voldaan wordt.

- gebaseerd op rangummers van de data- ook geschikt voor ordinaal meetniveau

Post Hoc toetsenTurkey: gebruiken bij gelijke steekproevenBonferoni: toepasbaar bij zowel gelijke als ongelijke steekproevenGames-Howel: gebruiken bij ongelijke steekproeven / bij grote verschillen tussen steekproeven

22

Page 23: Myceliummycelium.nu/.../2017/02/statistiek-b-overzicht-deel-2.docx · Web viewLaat zien hoe je de waarden van de ‘Lower Bound’ en de ‘Upper Bound’ van het 90% betrouwbaarheidsinterval

Non-parametrische testen: toetsen op representativiteit, zijn minder snel met verwerpen nulhypothese.Chi-square  nominaal                         OrdinaalH0: twee variabelen zijn statistisch onafhankelijk Ha: twee variabelen zijn statistisch afhankelijk 

Tweetal toetsen: wilcoxon / mann withney

Wilcoxon bij 2 onafhankelijke steekproefen of bij 2 afhankelijke steekrpoeven. (variabelen) 

H0: P1 = P2 = P3 = …Ha: tenminste 1 van de proporties onder H0 wijkt af. (wil je liever niet) 

H0: de twee verdelingen zijn identiek/ De twee locaties zijn gelijkHa: de twee verdelingen zijn niet identiek / De twee locaties zijn ongelijk

Kruskall wallis/ Friedman : voor meer dan 2 variabelenH0: μ1 = μ2 = μ3 = μ4Ha: tenminste 1 van de gemiddelden wijkt af

Assumpties voor de uitvoering van analyse kruskall wallis/ Friedman: σ12 = σ22= σ32 gekwadrateerde standaardafwijkingen zijn gelijk aan elkaarAl die verdelingen zijn klokvormig in de populatie

Bij de friedman test moet je 5 variabelen vergelijken. 

Cochrans regel: het aantal cellen met verwachte frequentie onder 5 ≤ 20%  dan mag chi kwadraat worden toegepast. 

Parametrische toetsen Non-parametrische toetsenToetsen van verschillen:Verschillen tussen 2 populaties

Toetsen van verschillen:Verschillen tussen 2 populaties

Toetsen van:Verschillen tussen meer dan 2 populaties

Toetsen van:Verschillen tussen meer dan 2 populaties

Toetsen van causale relaties:- Correlaties en enkelvoudige regressie- Multipele en lineaire regressie- Logistische regressie

23

Page 24: Myceliummycelium.nu/.../2017/02/statistiek-b-overzicht-deel-2.docx · Web viewLaat zien hoe je de waarden van de ‘Lower Bound’ en de ‘Upper Bound’ van het 90% betrouwbaarheidsinterval

SPSS syntax:

Betrouwbaarheidsinterval:Allereerst zullen we het 90% betrouwbaarheidsinterval gaan bepalen. Klik hiertoe op Analyze Descriptive Statistics Explore selecteer links variabele LFTKERK en klik op de bovenste  zodat LFTKERK onder Dependent List komt te staan, klik rechts op Statistics  en verander in het hokje achter ‘Confidence Interval for Mean’ het getal 95 in 90, Continue.  Klik nu (ook) rechts op Plots en vraag zowel een stamdiagram (‘stem-and-leaf plot’) als een histogram op en schakel Boxplots uit (op None), Continue, OK. Laat de output printen (of bekijk deze op het beeldscherm).

Steekproef trekken:Ga in het Data Editor window staan. Klik op Data, Select Cases, Random sample of Cases, Sample, Exactly, type achter ‘Exactly’ het aantal 25 en type achter ‘cases from the first’ het totaal aantal respondenten dat nu in je datafile is terug te vinden en klik dan Continue, OK. SPSS selecteert nu willekeurig 25 respondenten uit de substeekproef.

Grenswaarden:

Analyze Descriptive Statistics explore Dependent List: PERCMINDERH Statistics 90 % Continue OK.

t-toets:Analyze, Compare Means, Independent-Samples T Test, kijktijd (schuifbalk), bovenste (Test Variable) , opleid (schuifbalk), onderste (Grouping Variable), Define Groups, Cut point. Type nu het cijfer 3 in en klik op Continue. Op deze wijze hebben we de steekproef in tweeën gesplitst: mensen met een OPLEID-score van 3 of hoger vormen de eerste groep en mensen met een score lager dan 3, ofwel score 1 en 2, vormen de tweede groep. Klik tenslotte op OK. Je komt nu in het output-window. Laat wat daar staat printen.

Scatter dot:

Om de selectie van 100 te maken klik je op Data Select Cases Random sample of cases Sample Exactly, type links: 100, type rechts (achter ‘cases from the first’): 1300, Continue OK. Je ziet nu links in het Data-window dat de meeste respondenten doorgestreept zijn als teken dat ze niet geselecteerd zijn. Maak nu de scatterplot met  Graphs Legacy Dialogs Scatter/Dot Simple Scatter Define krantmin (links in variabelenlijst), bovenste (Y Axis), leeftijd, tweede van boven (X Axis) OK. De plot wordt nu gemaakt. Laat hem printen vanuit het output-window en verwijder daarna de plot zodat deze dadelijk niet opnieuw wordt geprint.

24

Page 25: Myceliummycelium.nu/.../2017/02/statistiek-b-overzicht-deel-2.docx · Web viewLaat zien hoe je de waarden van de ‘Lower Bound’ en de ‘Upper Bound’ van het 90% betrouwbaarheidsinterval

Select cases:

We gaan nu dezelfde vraag beantwoorden, maar dan uitsluitend voor de respondenten die 

een hoge opleiding hebben genoten. Hiervoor gebruiken we naast natuurlijk de variabele 

INKOMEN2 de variabele OPLEIDCAT. Voer de selectie uit via Data Select Cases If

condition is satisfied If klik in het in het lege hok rechts van Ø en type daar dan de tekst 

opleidcat=3 (de waarde 3 staat voor hoge opleiding)  Continue OK.

Belangrijkste syntaxcommando’s uit de syntaxopdrachten

Belangrijkste commando’s uit de opdrachten zijn de volgende:

COMPUTE -----------------> MEAN---------------------------------> variabele opstellen (rekensommetje maken)

INTO SAMERECODE variabele (1=1)(2=2)(3=3).

RECODE

INTO DIFFERENT= RECODE variabele (1=1)(2=2)(3=3) INTO variabele2.

MULT RESPONSEGROUPS= $kijkgedrag (v1 v2 v3)/FREQUENCIES= $kijkgedrag.

Chi-kwadraat toets:

CROSSTABS/TABLES= afhankelijke BY onafhankelijke/FORMAT= AVALUE TABLES/STATISTIC= CHISQ RISK/CELLS= COUNT COLUMN RESID/COUNT ROUND CELL.

Andere toetsen:Kunnen altijd via paste.

Weegvariabele Syntaxopdracht 4:Uit een nonparametrische Chi-kwadraat test naar representativiteit van een steekproef, komt dat een steekproef niet representatief is op het kenmerk geslacht (v60).Dit los je op door een weegvariabele te maken:

Expected / CountIF (v60 = 1) WEEG = 207,5 / 177 .IF (v60 = 2) WEEG = 207,5 / 238 .WEIGHT BY WEEG.FREQUENCIES

/VARIABLES=v60/ORDER= ANALYSIS .

WEIGHT OFF.

De rest kan allemaal in het syntaxboekske gevonden worden.

Syntax uit de opdrachten per onderwerp/begrip:

25

Page 26: Myceliummycelium.nu/.../2017/02/statistiek-b-overzicht-deel-2.docx · Web viewLaat zien hoe je de waarden van de ‘Lower Bound’ en de ‘Upper Bound’ van het 90% betrouwbaarheidsinterval

MULTI RESPONSE:

ANALYZE MULTI RESPONSE

Vragen waar meerdere antwoorden mogelijk zijn leveren altijd meerdere variabelen per vraag op. Om dit soort vragen in één tabel of in één grafiek te laten zijn is het vaak noodzakelijk deze eerst samen te definiëren in één setje van variabelen. 

Voorbeeld vraag:

De variabelen Q26_01 tot en met Q26_11 hebben betrekking op de bekendheid van culturele podia en voorzieningen in Nijmegen. Construeer één variabele uit hiervoor genoemde elf variabelen waarmee een totaaloverzicht kan worden verkregen. Zijn er verschillen in percentages te onderkennen naar staddeel (je hoeft niet te toetsen)? Tip: zie vraag 1 van de eerste syntaxopdracht, maar bedenk wel dat hier van een ander soort variabelen sprake is.Analyse> multiple response> define variable sets (je wilt een totaaloverzicht zien van stadsdelen over bekendheid vd podia’s)Je klikt Dichotome aan met counted 1. Je wilt alleen weten welke bekend zijn onder de stadsdelen.Naam: PODTotaalAdd

Daarna multiple response> crosstabbsIn de rijen PODtotaal, kolommen stadsdeel en dan define ranges met 1 tm 9 (want missing hoeft niet).Dan Options: ColomnsDit is de syntax:MULT RESPONSE GROUPS=$PODTotaal (Q26_01 Q26_02 Q26_03 Q26_04 Q26_05 Q26_06 Q26_07 Q26_08 Q26_09 Q26_10 Q26_11 (1)) /VARIABLES=staddeel(1 9) /TABLES=$PODTotaal BY staddeel /CELLS=COLUMN /BASE=CASES.

Voor mannen en vrouwen:

Multiple Response: ipv stadsdeel nu geslacht in de kolommen. Define range: 1 tot 2.MULT RESPONSE GROUPS=$PODTotaal (Q26_01 Q26_02 Q26_03 Q26_04 Q26_05 Q26_06 Q26_07 Q26_08 Q26_09 Q26_10 Q26_11 (1)) /VARIABLES=geslacht(1 2) /TABLES=$PODTotaal BY geslacht /CELLS=COLUMN /BASE=CASES.

Kijken of een steekproef verdeling significant afwijkt:

26

Page 27: Myceliummycelium.nu/.../2017/02/statistiek-b-overzicht-deel-2.docx · Web viewLaat zien hoe je de waarden van de ‘Lower Bound’ en de ‘Upper Bound’ van het 90% betrouwbaarheidsinterval

Voorbeeld vraag:We gaan eens kijken of deze steekproef representatief genoemd kan worden op het kenmerk geslacht. Ga er vanuit dat de man – vrouwverdeling in de populatie 50%-50% is, dat is dus de verwachting. De steekproefverdeling wijkt vast en zeker af. Om te toetsen of die afwijking significant is maken we gebruik van de Chikwadraat toets (onder Analyze, Nonparametric tests, Legacy Dialogs, Chi-square). Zorg er voor, dat de variabele geslacht in het vak Test Variable List komt te staan. Toets nu eerst of de steekproef representatief is op het kenmerk geslacht.

geslacht

Observed N Expected N Residual

man 413 428,5 -15,5

vrouw 444 428,5 15,5

Total 857

Test Statistics

geslacht

Chi-Square 1,121a

df 1

Asymp. Sig. ,290

Sig is groter dan alfa, niet significant dus wel representatief.

Als de toetsing een significant resultaat oplevert en we willen toch op basis van het kenmerk geslacht generaliserende uitspraken doen, die geldig zijn voor de gehele populatie (Nijmeegse bevolking van 18 jaar en ouder) dan kan een weegfactor worden ingevoerd met behulp van het Weightcommando. Dat hebben we vorig jaar geoefend in het SPSS-syntaxdeel van Statistiek A. Voer dit uit. (tip van de dag: maak met behulp van Compute (en daarbinnen IF) een nieuw kenmerk aan, een zogenoemde weegfactor, en voer vervolgens met het Weightcommando de weging uit). Laat een frequentieverdeling berekenen van het kenmerk geslacht. Klopt het?

Maak eerst Weegfactorgeslacht aan: via Compute, if, geslacht = 1 (intypen, want man =1) en Target variable nieuwe naam (weegfgesl) dan weegfactor intypen bij Numeric Expressions: wat zou moeten zijn/aantal mannen (428.5/413) en dan pasteIF (geslacht = 1) Weegges=428.5/413.IF (geslacht = 2) Weegges=428.5/444. (dit typ je voor de vrouwen)

Dan zet weeg on via Data> weight cases > klik je nieuwe weegfactorgeslacht aan. Dan is Weight on. Klaar.

Compute:

27

Page 28: Myceliummycelium.nu/.../2017/02/statistiek-b-overzicht-deel-2.docx · Web viewLaat zien hoe je de waarden van de ‘Lower Bound’ en de ‘Upper Bound’ van het 90% betrouwbaarheidsinterval

Meerdere variabelen samenvoegen tot 1 variabele.

Transform compute variable

Voorbeeld:

Construeer een nieuwe variabele uit de variabelen Q26_01 tot en met Q26_11 op een andere wijze dan bij vraag 1. Het gaat nu om de totaalscore van de respondenten op het nieuwe kenmerk, met andere woorden hoeveel podia en voorzieningen kent men.

COMPUTE TotaalPodia=Q26_01 + Q26_02 + Q26_03 + Q26_04 + Q26_05 + Q26_06 + Q26_07 + Q26_08 + Q26_09 + Q26_10 + Q26_11.EXECUTE.

Ander voorbeeld:

De variabelen Q58_01 t/m Q58_04 gaan over de informatievoorziening van de gemeente Nijmegen. Construeer een schaal die de gemiddelde tevredenheid over de informatievoorziening aangeeft. Zorg ervoor dat de nieuwe variabele een geldige score heeft als er bij drie van de vier oorspronkelijke variabelen een geldige score is ingevuld.

Doe dit bij compute variable, Function Group: ALL en dan Mean opzoeken en met pijltje naar boven klikken. Tussen de komma’s zet je de variabelen MEAN(Q58_01,Q58_02,Q58_03,Q58_04). Nieuwe naam bij Target variable: MeanQ58. PASTE.Dan moet je ervoor zorgen dat de nieuwe variabele een geldige score heeft als er bij drie van de vier oorspronkelijke variabelen een geldige score is ingevuld. Dan zet je in de syntax achter mean: .3 dus: COMPUTE MeanQ58=MEAN.3(Q58_01,Q58_02,Q58_03,Q58_04).EXECUTE.

Nog een voorbeeld:

Het bestand bevat een variabele leeftijd (leeftijd ). Dit is de leeftijd van de respondenten op het moment dat de vragenlijst werd afgenomen in 2011. Inmiddels zijn we een aantal jaar verder. Construeer uit leeftijd een nieuwe variabele leeftijdnu, waarbij je er vanuit mag gaan dat alle respondenten eerder dit kalenderjaar hun verjaardag hebben gevierd en er intussen niemand is overleden.DATASET ACTIVE DataSet1.COMPUTE LEEFTIJDNU=leeftijd + 3EXECUTE.

Crosstabs:

28

Page 29: Myceliummycelium.nu/.../2017/02/statistiek-b-overzicht-deel-2.docx · Web viewLaat zien hoe je de waarden van de ‘Lower Bound’ en de ‘Upper Bound’ van het 90% betrouwbaarheidsinterval

Voorbeeld:

Is het aantal mannen en vrouwen (geslacht) procentueel gezien even sterk vertegenwoordigd in de diverse opleidingscategorieën (Q73). Zijn de twee kenmerken statistisch van elkaar afhankelijk? Ga naar: analyze > descriptives > cross tabbs > klik chi square aan en expected en percentages within colomns. (in rijen afhankelijke in kolom onafhankelijke)

CROSSTABS /TABLES=Q73 BY geslacht /FORMAT=AVALUE TABLES /STATISTICS=CHISQ /CELLS=COUNT EXPECTED COLUMN /COUNT ROUND CELL.

Chi-Square Tests

Value df

Asymp. Sig. (2-

sided)

Pearson Chi-Square 11,725a 7 ,110

Likelihood Ratio 11,825 7 ,106

Linear-by-Linear Association ,851 1 ,356

N of Valid Cases 838

a. 0 cells (,0%) have expected count less than 5. The minimum

expected count is 14,98.

De significantie is 0.110 dus groter dan de alfa. Dus geslacht is niet afhankelijk van opleiding.

Value labels:

Een nieuwe naam geven aan categorieën van een variabele.

Ga in het databestand (die grote tabel met alle getallen)  klik onderin op variable view

Ga naar de variabele die je wil aanpassen ga in de grafiek naar de cel ‘none’ (deze staat onder values) klik op de ‘…’ knop en hier kun je de values een label geven.

Voorbeeld syntax:

VALUE LABELS LEEFNU_CAT 1 “21-35” 2 “36-50” 3 “51-65” 4 “66-80” 5 “81-92”.

EXECUTE.

29

Page 30: Myceliummycelium.nu/.../2017/02/statistiek-b-overzicht-deel-2.docx · Web viewLaat zien hoe je de waarden van de ‘Lower Bound’ en de ‘Upper Bound’ van het 90% betrouwbaarheidsinterval

Recode:

de variabele INKOMEN2 eerst te hercoderen tot twee categorieën: minder of gelijk aan 5000 euro en meer dan 5000 euro. Noem deze variabele ‘INKOMEN2REC’. Dit gaat via Transform Recode into Different variables, in het vakje onder Change dien je INKOMEN2REC in te typen dan kiezen voor Old and New Values. Maak handig gebruik van de Range-opties onder Old Value (LO thru 5000) en type onder New Value het getal 1 in en doe iets vergelijkbaars voor de inkomens boven 5000 euro.

Voorbeeld:

Maak een nieuwe variabele gemeentelijke informatievoorziening zodat geldt: dat naarmate de score hoger is, de respondent meer tevreden is. Tevredenheid 1 = niet tevreden, 5 = heel tevreden

RECODE MeanQ58 (1=5) (2=4) (3=3) (4=2) (5=1) INTO tevreden2.VARIABLE LABELS tevreden2 'tevreden2'.EXECUTE.

Ander voorbeeld:De antwoordmogelijkheden zijn aldus: 1 = helemaal eens, 2 = eens,3 = oneens, 4 = helemaal oneens5 = eens, noch oneens 6=weet niet/geen mening

Het blijkt dat genoemde variabelen onderling een hoge correlatie hebben. Wij vragen je om met behulp van SPSS één variabele ‘uitstraling Nijmegen’ te construeren uit de vier bovenstaande variabelen. Antwoordcategorie 6 is al als missing gedefinieerd. De onderzoeker wenst, in verband met het gemak voor de interpretatie, dat geldt dat hoe hoger de score des te positiever de respondent is.Voordat de score kan worden bepaald zullen er eerst enkele voorbewerkingen plaats moeten vinden.

1) Zorg ervoor dat de antwoordcategorieën opvolgend zijn.

4 =helemaal oneens3 = oneens5 = eens, noch oneens2 = eens1 = helemaal eens

Hercodeer de variabelen zodat aan de wens van de onderzoeker tegemoet gekomen wordt.Tip: gebruik Recode into Different Variables

DATASET ACTIVATE DataSet1.RECODE Q06_01 Q06_02 Q06_07 Q06_08 (4=1) (3=2) (5=3) (2=4) (1=5) (6=SYSMIS).EXECUTE.

Maak een frequentietabel voor de variabele ‘uitstraling Nijmegen’, nadat u die variabele eerst tot een vijftal categorieën hebt teruggebracht (categorie-indeling naar eigen keuze). Denk

RECODE UitstrNijm (0 thru 1=1) (1 thru 2=2) (2 thru 3=3) (3 thru 4=4) (4 thru 5=5).EXECUTE.

30