Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

79
Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1

Transcript of Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

Page 1: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

Beschrijvende en inferentiële statistiek

College 11 – Anouk den Hamer – Vervolg regressie

1

Page 2: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

Responsiecollege

• Volgende week dinsdag 19 maart• Vragen indienen op forum BB vóór vrijdag 15

maart 17.00 uur

2

Page 3: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

NB formuleblad

• Formule conditionele standaarddeviatie:

• Wordt op formuleblad “residu standaard deviatie y” genoemd

)1(

knRSS

sres

3

Page 4: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

4

Page 5: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

5

Page 6: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

6

Page 7: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

Vandaag

• Uitwerking huiswerkopdracht• Vervolg regressie

7

Page 8: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

Oefening multipele regressie

• In de huiswerkopdracht van college 9 hebben jullie onderzocht of tv kijken invloed heeft op tentamencijfer. Onderzoek of naast tv kijken sporten (in dataset exercising) en aantal uren studeren (studytime) ook invloed heeft (je hebt dus 3 onafhankelijke variabelen en 1 afhankelijke).

• Voer de regressie uit en trek je conclusie.

8

Page 9: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

Eerst correlatie

9

Page 10: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

10

Page 11: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

We weten nu dat hoe meer een student tv kijkt en hoe meer hij/zij sport, hoe lager zijn/haar tentamencijfer (p < .05).

Het aantal uren studeren bleek geen significante invloed op tentamencijfer te hebben.

Tv kijken en sporten verklaart 19.8% van het tentamencijfer.

11

Page 12: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

Tot nu toe• Enkelvoudige regressie: 1 X en 1 Y• Meervoudige regressie: > 1 X-en en 1 Y• Y voorspellen dmv X (regressieformule)• Residuals• Correlatie sterkte verband• R-square verklaarde variantie Y door X• Wijken slopes significant af van 0?

12

Page 13: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

• RSS, TSS, MSS

MSSRSS

TSS

13

Page 14: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

14

Page 15: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

15

Page 16: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

16

Page 17: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

17

Page 18: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

18

Page 19: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

19

Page 20: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

20

Page 21: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

Correlatie

• Correlatie: geeft sterkte van het verband tussen X en Y aan

• Twee manieren om te berekenen:– Met de R-square– Met de slope en de standaarddeviaties

21

Page 22: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

Correlatie

• Correlatie berekenen met de R-square:

• De correlatie wordt uitgedrukt in r. • Dus de wortel van R-square is de correlatie:

2rr

22

Page 23: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

Correlatie

• Correlatie berekenen met de slope en de standaarddeviaties van X en Y:

bs

sr

y

x )(

23

Page 24: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

24

Page 25: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

• In een andere tabel (door een descriptives te draaien) zie ik een standaarddeviatie van X 1.083 en van Y .650.

• De slope was .518.

863.518.*666.1518.*)650.

083.1()( b

s

sr

y

x

25

Page 26: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

26

Page 27: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

• Let op:

• De correlatie berekenen dmv de standaarddeviaties en de slope kan alleen maar als je 1 X hebt

• Als je meerdere X-en hebt dan geeft de correlatie het verband tussen al die X-en en Y aan

27

Page 28: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

Theorie achter correlatie

28

Page 29: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

Variantie en covariantieVariantie: gemiddelde gekwadrateerde afstand tot het

gemiddelde

11

2

2

n

xxxx

n

xxs iii

Covariantie: vergelijkbaar met variantie, maar dan voor 2 variabelen:

1

,cov

n

yyxxyx ii

Covariantie: meet hoeveel afstand tussen de gemiddeldes van 2 variabelen met elkaar te maken heeft.

29

Page 30: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

Covariantie Individual Income in $

Income in €

Education

1 16 11.9 102 18 13.4 73 26 19.4 94 16 11.9 115 34 25.4 146 22 16.4 127 42 31.3 168 42 31.3 169 16 11.9 9

10 20 14.9 1011 66 49.2 1612 26 19.4 1213 20 14.9 1014 30 22.4 1515 20 14.9 1016 30 22.4 1917 32 23.9 1618 16 11.9 1119 20 14.9 1020 58 43.3 16

407.381

,cov

n

yyxxyx ii

Nadeel: is afhankelijk van meeteenheden.

Voor inkomen in euros ipv dollars:

707.251

,cov

n

yyxxyx ii

30

Page 31: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

Covariantie and correlatieIn plaats van de variantie, gebruiken we de standaard deviatie.In plaats van de covariantie, gebruiken we de correlatie.

: waar,

,cov

yxss

yxr

In ons inkomen (in dollars) en opleiding voorbeeld:

647.0

,cov

yxss

yxr

1

2

n

xxsx

1

2

n

yysy

31

Page 32: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

Correlatie

Voordeel: is niet afhankelijk van meeteenheden.Eigenschappen:

• -1 ≤ r ≤ 1.

• r=1: perfecte positieve correlatie.

• r=-1: perfecte negatieve correlatie.

• Grootte van r: sterkte van de associatie.

Gebruiken we vooral met interval/continue variabelen.

32

Page 33: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

Correlatie en regressie

Correlatie: geen causaal onderscheid tussen X en Y.

Regressie: wel een causaal onderscheid tussen X en Y.

bs

sr

y

x

Relatie tussen correlatie en regressiecoëfficiënt:

xbay ˆ

deviaties standaard normale) (dus marginale : , yx ss33

Page 34: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

Correlatie en regressie

In ons voorbeeld:

647.0659.4673.20

871.2

bs

sr

y

x

r is ook de gestandaardiseerde coëfficiënt (alleen met 1 X)

34

Page 35: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

Correlatie en regressie

1

b

sx

sxb=rsy

Eén s.d. omhoog in x resulteert in r s.d.’s omhoog in y.

• Onafhankelijk van meeteenheid!

r (in dit geval de gestandardiseerde coefficient): goede maat voor sterkte!

35

Page 36: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

Ter illustratieInkomen in dollars:

Inkomen in euros:

36

Page 37: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

Gestandaardiseerde coëfficiënten (beta’s)

Om de sterkte van de associatie te meten.Mogelijk om verschillende coëfficiënten te

vergelijken:• …van dezelfde variabelen tussen verschillende

regressies.– Ook als de meeteenheid niet hetzelfde is.

• …van verschillende variabelen in dezelfde (multivariate) regressie.

37

Page 38: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

Verschil correlatie en regressielijn

Correlatie:• Onafhankelijk van meeteenheden• Geeft sterkte van associatie tussen X en Y aan in één getal• Niet mogelijk om Y te voorspellen• Geen causale richting tussen X en Y, simpelweg associatie

Regressielijn:• Afhankelijk van meeteenheden• Mogelijk om Y te voorspellen o.b.v. X• Geeft richting: je kijkt of X Y voorspelt

38

Page 39: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

Weten nu meer over

• RSS, TSS, MSS• R-square• Correlatie

39

Page 40: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

40

Page 41: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

Hebben het nu steeds over beschrijvende statistiek

Nu inferentiële statistiek

41

Page 42: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

BetrouwbaarheidsintervallenHypothesetests

• Ha: β > 0 of Ha: β < 0 42

Page 43: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

We willen weten of de slope significant afwijkt van 0 (0 is waarde nulhypothese)

Moeten eerst de test statistic (t-waarde) weten.

43

Page 44: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

Want n – (1 + k)

44

Page 45: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

Kritieke t-waarde bij df=8 met 95% (tweezijdig)?

45

Page 46: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

Kritieke t = 2.306

46

Page 47: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

47

Page 48: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

Betrouwbaarheidsinterval van de slope (95%)

• b ± t(se)• b = .518• Kritieke t-waarde = 2.306 • Se = 0.107

Dus: .518 ± 2.306(0.107)

We weten met 95% zekerheid dat de slope in de populatie tussen de 0.27 en 0.76 ligt.

48

Page 49: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

Als de 0 in het betrouwbaarheidsinterval van de slope ligt, dan kunnen we de nulhypothese niet verwerpen.

Ligt de 0 niet in het betrouwbaarheidsinterval, dan kunnen we de nulhypothese wel verwerpen: de slope wijkt significant af van 0.

49

Page 50: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

50

0.391 +- 1.96(0.028) = van 0.336 tot 0.446

Page 51: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

Nu

• F-toets in ANOVA tabel

• De F-toets ziet of een van de X-en een significante invloed op Y heeft

51

Page 52: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

52

Page 53: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

Mean squares

Hoe kleiner de gemiddelde residual sum of squares (ofwel prediction errors) - de afwijkingen die we NIET verklaren met het regressiemodel - ten opzichte van de variatie die het regressiemodel WEL verklaart (de gemiddelde regression sum of squares), hoe beter het regressiemodel variantie y verklaart

53

Page 54: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

De F-toets geeft de verhouding weer tussen het regressiemodel en de residuals.

54

Page 55: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

• Hoe hoger de F-waarde, hoe groter de kans dat één van de X-en een significante invloed heeft op Y

• Zoeken kritieke F-waardes: Tabel D

55

Page 56: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

56

Df1

Df2

Page 57: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

57

Page 58: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

58

Df1 = 1

Df2 = 754

Kritieke F-waarde = 3.84

Page 59: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

59

Kritieke F-waarde = 3.84

Page 60: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

F-test en t-test• t-test

Test of één regressiecoëfficiënt 0 is.H0: β1=0 (of β2=0 of β3=0).

• F-testTest of ALLE regressiecoëfficiënten 0 zijn.H0: β1=β2=β3=0.

Ha: in ieder geval één van β1,β2,β3 is niet nul.– F-test toetst of in ieder geval één onafhankelijke variabele

enige variantie in de afhankelijke variabele verklaart.– t-toets(en) vindt welk coëfficiënt dat doet.

60

Page 61: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

Manieren om significantie X op Y te bepalen

• T-toets: toets per slope• Betrouwbaarheidsinterval van de slopes• F-toets: toets alle slopes tegelijk

61

Page 62: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

62

Page 63: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

Meervoudige regressie

63

Page 64: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

Multipele regressie in SPSS

64

Page 65: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

65

Page 66: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

66

Df1 = 2

Df2 = 100

Page 67: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

67

Page 68: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

Waarom zoveel output?

• Zodat je alles snapt als je zelf onderzoek doet

68

Page 69: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

Oefenen

69

Page 70: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

Vraag 1

We voeren een enkelvoudige regressie uit en vinden een model sum of squares (MSS) van 2163 en een total sum of squares (TSS) van 8560.

Welke waarde heeft de residual sum of squares (RSS)?

A) MSS + TSSB) MSS – TSSC) TSS – MSSD) Dat weten we niet obv bovenstaande

70

Page 71: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

Output

• MSS + RSS = TSS, dus 2318 + 854 = 3172

MSSRSSTSS

71

Page 72: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

Vraag 2

We vinden een slope van X1 van .523 en een standaard error van deze slope van .023.

Wat is de t-waarde?

A)Slope * seB)Slope / seC)Se / slopeD)Se + slope

72

Page 73: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

73

Page 74: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

Vraag 3

Bij een meervoudige regressie vind je een R-square van .745.

Wat is de waarde van de correlatie?

A)Onbekend obv bovenstaandeB)R-square * 2C)R-square / 2D)Wortel R-square

74

Page 75: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

75

Page 76: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

Vraag 4

Een onderzoeker wil weten welke factoren van belang zijn in het bepalen van de huurprijs. Hij onderzoekt de effecten van grootte van de woning, wijk waarin de woning gesitueerd is en hoeveel kamers de woning heeft. Hij vindt een R-square van .31.

Dit betekent dat 31% van de variantie in huurprijs bepaald wordt door grootte, wijk en aantal kamers.

A) WaarB) Niet waar

76

Page 77: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

Vraag 5

Dezelfde onderzoeker vindt voor grootte van de woning een slope van .589, voor wijk een slope van .123 en voor aantal kamers een slope van .988.

Welke X heeft de grootste invloed op huurprijs?

A) Grootte van de woningB) Wijk waarin de woning gesitueerd isC) Aantal kamers in de woningD)Dat weet je niet obv bovenstaande

77

Page 78: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

Inferentiële statistiek: overzichtAantal

variabelen Soort variabele(n) SPSS toets

1 Categorisch Binomial

1 Kwantitatief One-sample T test

2 (of meer)

Kwantitatief en 2 onafhankelijke groepen Independent-samples T test

Kwantitatief en 2 afhankelijke groepen Dependent-samples T test

Categorisch Chi-kwadraat

Kwantitatief T test en F test (regressie)

Betrouwbaarheid schaal Reliability analysis

78

Page 79: Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolg regressie 1.

Morgen betrouwbaarheidsanalyse

Toegevoegd hoofdstuk Van de Bunt: reliability analysis

79