Kansrekening en Statistiek - phil.uu.nl · Dus P(jXn j 0:004) 0:2 voor n 0:0005 2(0:004)2 = 15:625....

32
Kansrekening en Statistiek College 9 Dinsdag 18 Oktober 1/1

Transcript of Kansrekening en Statistiek - phil.uu.nl · Dus P(jXn j 0:004) 0:2 voor n 0:0005 2(0:004)2 = 15:625....

Page 1: Kansrekening en Statistiek - phil.uu.nl · Dus P(jXn j 0:004) 0:2 voor n 0:0005 2(0:004)2 = 15:625. De dozen moeten minimaal 16 essen bevatten. Merk op:wanneer de variantie toeneemt

Kansrekening en Statistiek

College 9

Dinsdag 18 Oktober

1 / 1

Page 2: Kansrekening en Statistiek - phil.uu.nl · Dus P(jXn j 0:004) 0:2 voor n 0:0005 2(0:004)2 = 15:625. De dozen moeten minimaal 16 essen bevatten. Merk op:wanneer de variantie toeneemt

2 Statistiek

Vandaag:

• Centrale Limietstelling

• Correlatie

• Regressie

2 / 1

Page 3: Kansrekening en Statistiek - phil.uu.nl · Dus P(jXn j 0:004) 0:2 voor n 0:0005 2(0:004)2 = 15:625. De dozen moeten minimaal 16 essen bevatten. Merk op:wanneer de variantie toeneemt

Centrale Limietstelling

3 / 1

Page 4: Kansrekening en Statistiek - phil.uu.nl · Dus P(jXn j 0:004) 0:2 voor n 0:0005 2(0:004)2 = 15:625. De dozen moeten minimaal 16 essen bevatten. Merk op:wanneer de variantie toeneemt

Centrale Limietstelling

St. (Centrale Limietstelling) Voor een stochast X met verwachtingswaarde µ enstandaardafwijking σ geldt voor elke a:

limn→∞

P(X n − µ

σ√n

≤ a) = Ps (z ≤ a).

Bij toenemende n benadert X n de normale verdeling met gemiddelde µ enstandaardafwijking σ√

n.

De Centrale Limietstelling is een versterking en precisering van de Wet van de GroteGetallen.

Def. σX = σ√n

is de standaardfout van het gemiddelde.

4 / 1

Page 5: Kansrekening en Statistiek - phil.uu.nl · Dus P(jXn j 0:004) 0:2 voor n 0:0005 2(0:004)2 = 15:625. De dozen moeten minimaal 16 essen bevatten. Merk op:wanneer de variantie toeneemt

Wet van de Grote Getallen

Vb. Een wijnboer verkoopt wijn per doos en wil dat de kans dat het percentagebedorven flessen in een doos meer dan 0.4% afwijkt van gemiddelde µ hoogstens 0.2is. Hij weet µ niet en neemt voor de variantie 0.0005.

Hoeveel flessen wijn moeten de dozen minimaal bevatten?

Met Chebyshev:

P(|X n − µ| ≥ 0.004) ≤0.0005

n(0.004)2.

Dus P(|X n − µ| ≥ 0.004) ≤ 0.2 voor n ≥ 0.00052(0.004)2 = 15.625.

De dozen moeten minimaal 16 flessen bevatten.

Merk op: wanneer de variantie toeneemt , neemt n evenredig toe. Bijvoorbeeld, bijvariantie 0.05 wordt n gelijk aan 0.05

2(0.004)2 = 1562.5

5 / 1

Page 6: Kansrekening en Statistiek - phil.uu.nl · Dus P(jXn j 0:004) 0:2 voor n 0:0005 2(0:004)2 = 15:625. De dozen moeten minimaal 16 essen bevatten. Merk op:wanneer de variantie toeneemt

Centrale Limietstelling

Vb. Zij X een stochast met E(X ) = 3 en Var(X ) = 4 waarvoor de verdeling onbekendis of moeilijk te berekenen. Er wordt gevraagd naar de kans dat het steekproefgemiddelde van een willekeurige steekproef ter grootte n = 10.000 kleiner is dan 2.95.

Aangenomen wordt dat n voldoende groot is om de verdeling van X = X 10.000 als eennormale verdeling met verwachtingswaarde µ = 3 en standaardafwijking√

4√n

= 2100

= 0.02 te beschouwen.

Onder die aanname geldt:

P(X ≤ 2.95) = Ps (X − 3

0.02≤

2.95− 3

0.02) = Ps (

X − 3

0.02≤−0.05

0.02) =

Ps (X − 3

0.02≤ −2.25).

Wegens de symmetrie van de standaard normale verdeling rond 0 geldt

Ps (X − 3

0.02≤ −2.25) = Ps (

X − 3

0.02≥ 2.25).

Uit tabel C.1 blijkt dat Ps (z ≥ 2.25) = 0.0122. Dus P(X ≤ 2.95) = 0.0122.

6 / 1

Page 7: Kansrekening en Statistiek - phil.uu.nl · Dus P(jXn j 0:004) 0:2 voor n 0:0005 2(0:004)2 = 15:625. De dozen moeten minimaal 16 essen bevatten. Merk op:wanneer de variantie toeneemt

Centrale Limietstelling

Vb. Een onderzoeksbureau wil middels een steekproef vaststellen hoe groot hetpercentage Nederlanders is dat niet stemt. Aangenomen wordt dat hetsteekproefgemiddelde X n (het percentage niet-stemmers in de steekproef) normaalverdeeld is.

Het bureau kiest n zo dat de kans dat het steekproefgemiddelde meer dan 1% afwijktvan het ware percentage niet-stemmers niet groter dan 0.2 is. Die n kan als volgtberekend worden. Aangenomen wordt dat de variantie van de populatie 9% is.

Gezocht wordt een n zodat geldt

P(|X n − µ| ≥ 0.01) ≤ 0.2.

Dat kan zo berekend worden:

P(|X n−µ| ≥ 0.01) = 2P(X n ≥ 0.01+µ) = 2P(X n − µ

σ√n

≥0.01σ√

n

) = 2Ps (z ≥0.01√

n

0.3).

Uit tabel C.1 blijkt dat Ps (z ≥ 1.28) = 0.1. Dus 0.01√

n0.3

= 1.28, waaruit volgt dat

n = (128× 0.3)2 ≈ 1475.

7 / 1

Page 8: Kansrekening en Statistiek - phil.uu.nl · Dus P(jXn j 0:004) 0:2 voor n 0:0005 2(0:004)2 = 15:625. De dozen moeten minimaal 16 essen bevatten. Merk op:wanneer de variantie toeneemt

Correlatie

8 / 1

Page 9: Kansrekening en Statistiek - phil.uu.nl · Dus P(jXn j 0:004) 0:2 voor n 0:0005 2(0:004)2 = 15:625. De dozen moeten minimaal 16 essen bevatten. Merk op:wanneer de variantie toeneemt

Correlatie

Def. Een scatterplot op grond van een steekproef waarbij twee scores gemeten worden,stochasten X en Y , is een grafiek waarin de paren (Xi ,Yi ) voor elke element i in desteekproef weergegeven worden.

Voor scatterplots moeten de variabelen interval- of ratioschaal zijn.

9 / 1

Page 10: Kansrekening en Statistiek - phil.uu.nl · Dus P(jXn j 0:004) 0:2 voor n 0:0005 2(0:004)2 = 15:625. De dozen moeten minimaal 16 essen bevatten. Merk op:wanneer de variantie toeneemt

Correlatie: lengte en schoenmaat

Vb. Lengte (x-as) tegen schoenmaat (y-as):

lengte 157 161 . . . 170 170 . . .schoenmaat 38 36 . . . 39 40 . . .

160 170 180 190 200

3638

4042

4446

stat6a

stat6c

10 / 1

Page 11: Kansrekening en Statistiek - phil.uu.nl · Dus P(jXn j 0:004) 0:2 voor n 0:0005 2(0:004)2 = 15:625. De dozen moeten minimaal 16 essen bevatten. Merk op:wanneer de variantie toeneemt

Correlatie: carnaval en BMI

Vb. Aantal maal carnaval gevierd (x-as) tegen BMI (y-as):

carnaval 0 0 0 . . . 13BMI 17 18 19 . . . 24

0 2 4 6 8 10 12

1820

2224

2628

stat9a

stat9b

11 / 1

Page 12: Kansrekening en Statistiek - phil.uu.nl · Dus P(jXn j 0:004) 0:2 voor n 0:0005 2(0:004)2 = 15:625. De dozen moeten minimaal 16 essen bevatten. Merk op:wanneer de variantie toeneemt

Correlatie

Def. Een correlatie tussen de variabelen betekent dat er op grond van de steekproefeen verband lijkt te zijn.

Een correlatie impliceert niet noodzakelijk een causaal verband (hidden variables).

12 / 1

Page 13: Kansrekening en Statistiek - phil.uu.nl · Dus P(jXn j 0:004) 0:2 voor n 0:0005 2(0:004)2 = 15:625. De dozen moeten minimaal 16 essen bevatten. Merk op:wanneer de variantie toeneemt

Correlatie: lengte en hoogte kin

Vb. Lengte (x-as) tegen hoogte kin (y-as):

160 170 180 190 200

140

145

150

155

160

165

170

175

stat6a

stat6b

Er bestaat een sterke correlatie tussen lengte en de hoogte van de kin.

13 / 1

Page 14: Kansrekening en Statistiek - phil.uu.nl · Dus P(jXn j 0:004) 0:2 voor n 0:0005 2(0:004)2 = 15:625. De dozen moeten minimaal 16 essen bevatten. Merk op:wanneer de variantie toeneemt

Correlatie: lengte en hoogte kin

Vb. Schoenmaat (x-as) tegen hoogte kin (y-as):

36 38 40 42 44 46

140

145

150

155

160

165

170

175

stat6c

stat6b

Er bestaat een correlatie tussen schoenmaat en de hoogte van de kin.

14 / 1

Page 15: Kansrekening en Statistiek - phil.uu.nl · Dus P(jXn j 0:004) 0:2 voor n 0:0005 2(0:004)2 = 15:625. De dozen moeten minimaal 16 essen bevatten. Merk op:wanneer de variantie toeneemt

Correlatie: lengte en hoogte kin

Vb. BMI (x-as) tegen aantal vakken behaald in het eerste jaar (y-as):

18 20 22 24 26 28

34

56

78

9

stat9b

stat9c

Er bestaat geen correlatie tussen BMI en het aantal vakken behaald in het eerste jaar.

15 / 1

Page 16: Kansrekening en Statistiek - phil.uu.nl · Dus P(jXn j 0:004) 0:2 voor n 0:0005 2(0:004)2 = 15:625. De dozen moeten minimaal 16 essen bevatten. Merk op:wanneer de variantie toeneemt

Correlatie: correlatiecoefficient

Def. Gegeven twee stochasten X en Y , waarbij (Xi ,Yi ) de score van element i is ineen steekproef ter grootte n, is de Pearson correlatiecoefficient:

rXY =

PzX zY

n − 1=

Pni=1 zXi

zYi

n − 1.

Waarbij zXi, zYi

de standaarscores van Xi ,Yi t.o.v. de steekproef zijn:

zXi=

Xi − X

sXzYi

=Yi − Y

sY.

Gebruikmakend van de notatie x = X − X :

rXY =

PxypP

x2P

y2=

Pni=1 xi yiqPn

i=1 x2i

Pni=1 y2

i

.

Ook geldt

rXY =n

PXY −

PX

PYp

(nP

X 2 − (P

X )2)(nP

Y 2 − (P

Y )2).

16 / 1

Page 17: Kansrekening en Statistiek - phil.uu.nl · Dus P(jXn j 0:004) 0:2 voor n 0:0005 2(0:004)2 = 15:625. De dozen moeten minimaal 16 essen bevatten. Merk op:wanneer de variantie toeneemt

Correlatie

17 / 1

Page 18: Kansrekening en Statistiek - phil.uu.nl · Dus P(jXn j 0:004) 0:2 voor n 0:0005 2(0:004)2 = 15:625. De dozen moeten minimaal 16 essen bevatten. Merk op:wanneer de variantie toeneemt

Correlatie

Merk op: −1 ≤ rXY ≤ 1.

De Pearson correlatiecoefficient is een maat voor het lineare verband tussen tweevariabelen.

Hoe homogener een van de variabelen over de populatie verdeeld is, hoe kleiner deabsolute waarde van de Pearson correlatiecoefficient wordt.

De Pearson correlatiecoefficient is ordinaal.

18 / 1

Page 19: Kansrekening en Statistiek - phil.uu.nl · Dus P(jXn j 0:004) 0:2 voor n 0:0005 2(0:004)2 = 15:625. De dozen moeten minimaal 16 essen bevatten. Merk op:wanneer de variantie toeneemt

Correlatie: (facebook) vrienden

Vb. Goede vrienden (x-as) tegen aantal facebook vrienden (y-as).

Gemiddel aantal goede vrienden: 4.6. Gemiddeld aantal facebook vrienden: 108.8.

0 2 4 6 8 10 12

050

100

150

200

250

300

stat2a

stat2b

De Pearson correlatiecoefficient: 0.82.19 / 1

Page 20: Kansrekening en Statistiek - phil.uu.nl · Dus P(jXn j 0:004) 0:2 voor n 0:0005 2(0:004)2 = 15:625. De dozen moeten minimaal 16 essen bevatten. Merk op:wanneer de variantie toeneemt

Correlatie: vrienden en zoenen

Vb. Goede vrienden (x-as) tegen aantal mensen waarmee gezoend (y-as).

Gemiddeld aantal mensen waarmee gezoend: 8.3.

0 2 4 6 8 10 12

010

2030

4050

60

stat2a

stat2c

De Pearson correlatiecoefficient: 0.56.20 / 1

Page 21: Kansrekening en Statistiek - phil.uu.nl · Dus P(jXn j 0:004) 0:2 voor n 0:0005 2(0:004)2 = 15:625. De dozen moeten minimaal 16 essen bevatten. Merk op:wanneer de variantie toeneemt

Correlatie: (eerste) zoenen

Vb. Leeftijd eerste zoen (x-as) tegen aantal mensen waarmee gezoend (y-as).

0 5 10 15 20

010

2030

4050

60

stat3c

stat3a

De Pearson correlatiecoefficient: 0.08.

21 / 1

Page 22: Kansrekening en Statistiek - phil.uu.nl · Dus P(jXn j 0:004) 0:2 voor n 0:0005 2(0:004)2 = 15:625. De dozen moeten minimaal 16 essen bevatten. Merk op:wanneer de variantie toeneemt

Correlatie: Studie versus vrij tijd

Vb. Aantal ECTS vorig jaar behaald (x-as) tegen aantal uren per week besteed aanhobbies/uitgaan/werk (y-as).

Gemiddeld aantal ECTS: 52.1. Gemiddeld aantal uren hobbies/uitgaan/werk: 36.71.

20 30 40 50 60 70 80

2040

6080

stat7a

stat7c

De Pearson correlatiecoefficient: -0.40.

22 / 1

Page 23: Kansrekening en Statistiek - phil.uu.nl · Dus P(jXn j 0:004) 0:2 voor n 0:0005 2(0:004)2 = 15:625. De dozen moeten minimaal 16 essen bevatten. Merk op:wanneer de variantie toeneemt

Regressie

23 / 1

Page 24: Kansrekening en Statistiek - phil.uu.nl · Dus P(jXn j 0:004) 0:2 voor n 0:0005 2(0:004)2 = 15:625. De dozen moeten minimaal 16 essen bevatten. Merk op:wanneer de variantie toeneemt

Regressie

Def. Op grond van twee variabelen X en Y worden constanten a en b bepaald zodatde lijn Y = bX + a zo goed mogelijk het lineare verband tussen X en Y weergeeft.

Met behulp van de regressielijn kunnen de scores voor elementen uit de populatie dieniet in de steekproef bevat zijn voorspeld worden.

De regressiecoefficient b is gedefinieerd als:

b = rsY

sX.

waarbij sX en sY de standaardafwijking van respectievelijk X en Y zijn.

De regressieconstante a is gedefinieerd als:

a = Y − bX .

St. Voor de regressielijn is de waarde vanP

(Y − Y ) minimaal.

24 / 1

Page 25: Kansrekening en Statistiek - phil.uu.nl · Dus P(jXn j 0:004) 0:2 voor n 0:0005 2(0:004)2 = 15:625. De dozen moeten minimaal 16 essen bevatten. Merk op:wanneer de variantie toeneemt

Regressie: schoenmaat en elleboog

Vb. Schoenmaat (x-as) tegen de afstand van de binnenkant van de elleboog tot dehandpalm (y-as).

Pearson correlatiecoefficient r = 0.47, regressieconstante a = 7.11 enregressiecoefficient b = r sY

sX= 0.46.

36 38 40 42 44 46

2224

2628

30

stat8b

stat8c

25 / 1

Page 26: Kansrekening en Statistiek - phil.uu.nl · Dus P(jXn j 0:004) 0:2 voor n 0:0005 2(0:004)2 = 15:625. De dozen moeten minimaal 16 essen bevatten. Merk op:wanneer de variantie toeneemt

Regressie: schoenmaat en elleboog

Vb. Schoenmaat (x-as) tegen de afstand van de binnenkant van de elleboog tot dehandpalm (y-as).

Pearson correlatiecoefficient r = 0.47, regressieconstante a = 7.11 enregressiecoefficient b = r sY

sX= 0.46.

36 38 40 42 44 46

2224

2628

30

stat8b

stat8c

26 / 1

Page 27: Kansrekening en Statistiek - phil.uu.nl · Dus P(jXn j 0:004) 0:2 voor n 0:0005 2(0:004)2 = 15:625. De dozen moeten minimaal 16 essen bevatten. Merk op:wanneer de variantie toeneemt

Regressie: vingerkootjes

Vb. Lengte middelste vingerkootje (x-as) tegen lengte onderste vingerkootje (y-as).

Pearson correlatiecoefficient r = 0.73, regressieconstante a = −28.89 enregressiecoefficient b = r sY

sX= 2.27.

25 30 35 40

2030

4050

60

stat10b

stat10c

27 / 1

Page 28: Kansrekening en Statistiek - phil.uu.nl · Dus P(jXn j 0:004) 0:2 voor n 0:0005 2(0:004)2 = 15:625. De dozen moeten minimaal 16 essen bevatten. Merk op:wanneer de variantie toeneemt

Regressie: vingerkootjes

Vb. Lengte middelste vingerkootje (x-as) tegen lengte onderste vingerkootje (y-as).

Pearson correlatiecoefficient r = 0.73, regressieconstante a = −28.89 enregressiecoefficient b = r sY

sX= 2.27.

25 30 35 40

2030

4050

60

stat10b

stat10c

28 / 1

Page 29: Kansrekening en Statistiek - phil.uu.nl · Dus P(jXn j 0:004) 0:2 voor n 0:0005 2(0:004)2 = 15:625. De dozen moeten minimaal 16 essen bevatten. Merk op:wanneer de variantie toeneemt

Regressie: standaardscores

St. Laat Y = bX + a de regressielijn van (X ,Y ) zijn en r de Pearson

correlatiecoefficient. zY zijn de standaardscores van Y en zX van X . Dan geldt:

zY = rzX .

29 / 1

Page 30: Kansrekening en Statistiek - phil.uu.nl · Dus P(jXn j 0:004) 0:2 voor n 0:0005 2(0:004)2 = 15:625. De dozen moeten minimaal 16 essen bevatten. Merk op:wanneer de variantie toeneemt

Regressie: standaardfout

Def. Wanneer er n scores zijn en de Pearson correlatiecoefficient is r , dan is destandaardfout van de schatting, sY ·X , gedefinieerd als de standaardafwijking van destochast (Y − Y ) bij n − 1 scores. D.w.z., voor Z = (Y − Y ):

sY ·X =

s P(Z − Z)2

n − 2.

St. Wanneer er n scores zijn en de Pearson correlatiecoefficient is r , dan geldt

sY ·X = sY

p1− r2

p(n − 1)/(n − 2).

Voor grote n geldt:

sY ·X ≈ sY

p1− r2.

30 / 1

Page 31: Kansrekening en Statistiek - phil.uu.nl · Dus P(jXn j 0:004) 0:2 voor n 0:0005 2(0:004)2 = 15:625. De dozen moeten minimaal 16 essen bevatten. Merk op:wanneer de variantie toeneemt

Regressie: het quartet van Anscombe

Het quartet van Anscombe bestaat uit vier verzamelingen data die dezelfdestatistische eigenschappen hebben, maar die verschillend zijn wanneer ze grafischworden weergegeven.

In alle vier de verzamelingen data zijn voor X (x-as) gemiddelde en variantie gelijk.Evenzo voor Y . Voor alle vier is de correlatiecoefficient en regressielijn gelijk.

31 / 1

Page 32: Kansrekening en Statistiek - phil.uu.nl · Dus P(jXn j 0:004) 0:2 voor n 0:0005 2(0:004)2 = 15:625. De dozen moeten minimaal 16 essen bevatten. Merk op:wanneer de variantie toeneemt

Finis

32 / 1