Regressions- och tidserieanalys, 5 p Projekt 1: Index och efterfrågeanalys, 0.5 hp

37
1 Regressions- och tidserieanalys, 5 p Projekt 1: Index och efterfrågeanalys, 0.5 hp Projekt 2: Tidserieanalys, 1.5 hp Tenta: 5.5 hp Lärare: Lotta Hallberg, [email protected]

description

Regressions- och tidserieanalys, 5 p Projekt 1: Index och efterfrågeanalys, 0.5 hp Projekt 2: Tidserieanalys, 1.5 hp Tenta: 5.5 hp Lärare: Lotta Hallberg, [email protected]. Enkel linjär regression: hyran kan förklaras av lägenhetsstorlek. Kvadratisk regression. - PowerPoint PPT Presentation

Transcript of Regressions- och tidserieanalys, 5 p Projekt 1: Index och efterfrågeanalys, 0.5 hp

Page 1: Regressions- och tidserieanalys, 5 p Projekt 1: Index och efterfrågeanalys, 0.5 hp

1

Regressions- och tidserieanalys, 5 p

Projekt 1: Index och efterfrågeanalys, 0.5 hpProjekt 2: Tidserieanalys, 1.5 hpTenta: 5.5 hp

Lärare: Lotta Hallberg, [email protected]

Page 2: Regressions- och tidserieanalys, 5 p Projekt 1: Index och efterfrågeanalys, 0.5 hp

2

12011010090807060504030

7000

6000

5000

4000

3000

2000

Kv-meter

Hyr

a

Page 3: Regressions- och tidserieanalys, 5 p Projekt 1: Index och efterfrågeanalys, 0.5 hp

3

Enkel linjär regression: hyran kan förklaras av lägenhetsstorlek

Page 4: Regressions- och tidserieanalys, 5 p Projekt 1: Index och efterfrågeanalys, 0.5 hp

4

Kvadratisk regression

Page 5: Regressions- och tidserieanalys, 5 p Projekt 1: Index och efterfrågeanalys, 0.5 hp

5

Efterfrågeanalys: Efterfrågan förklaras av priset. Priselasticiteten kan skattas.

Page 6: Regressions- och tidserieanalys, 5 p Projekt 1: Index och efterfrågeanalys, 0.5 hp

6

Tidserieanalys: en variabel som observeras över flera år kan förklaras av tiden, månaden, ...

Page 7: Regressions- och tidserieanalys, 5 p Projekt 1: Index och efterfrågeanalys, 0.5 hp

7

Varför behövs regressionsanalys?

Värdet på responsvariabeln (t.ex. hyra) varierar med värdet på den förklarande variabeln (t.ex storlek på lägenheten):

Vi kan använda informationen om lägenhetsstorleken för att göra en bättre skattning/prediktion – av den förväntade hyran eller – av hyran för en lägenhet av en speciell typ

Page 8: Regressions- och tidserieanalys, 5 p Projekt 1: Index och efterfrågeanalys, 0.5 hp

8

120110100 90 80 70 60 50 40 30

8000

7000

6000

5000

4000

3000

2000

Kv-meter

Hyr

a

S = 525.512 R-Sq = 85.5 % R-Sq(adj) = 84.8 %

Hyra = 720.923 + 60.5329 Kv-meter

Regression PlotHur mycket betalar man (i genomsnitt) i hyra om man har en lägenhet på 50 kvadratmeter?

ca 3747.6 SEK

Page 9: Regressions- och tidserieanalys, 5 p Projekt 1: Index och efterfrågeanalys, 0.5 hp

9

Varför behövs regressionsanalys?

Värdet på responsvariabeln (t.ex. hyra) varierar med värdet på den förklarande variabeln (t.ex. storlek på lägenheten):

Vi kan använda informationen om lägenhetsstorleken för att göra en bättre skattning/prediktion – av den förväntade hyran eller – av hyran för en speciell lägenhet

Vi kan beskriva datamaterialet och beskriva och dra slutsatser om samband mellan variabler. Därmed kan vi (i vissa fall) öka förståelsen av hur världen omkring oss ser ut.

Page 10: Regressions- och tidserieanalys, 5 p Projekt 1: Index och efterfrågeanalys, 0.5 hp

10

120110100 90 80 70 60 50 40 30

8000

7000

6000

5000

4000

3000

2000

Kv-meter

Hyr

a

S = 525.512 R-Sq = 85.5 % R-Sq(adj) = 84.8 %

Hyra = 720.923 + 60.5329 Kv-meter

Regression PlotFör varje ytterligare kvadratmeter i lägenhetsyta får man betala ca 60 kronor i månaden mer.

10 kvadratmeter mer = 605 SEK

Page 11: Regressions- och tidserieanalys, 5 p Projekt 1: Index och efterfrågeanalys, 0.5 hp

11

Enkel linjär regression:

Till datamaterialet kan vi anpassa en rät linje:

som är en skattning av det verkliga sambandet (det som vi skulle kunna observera om vi visste hyran och ytan på alla lägenheter som finns):

E (y ) = μy|x = 0 + 1· x

eller y = μy|x + = 0 + 1· x +

xbby 10ˆ

Page 12: Regressions- och tidserieanalys, 5 p Projekt 1: Index och efterfrågeanalys, 0.5 hp

12

E (y ) = μy|x = 0 + 1· x

eller y = μy|x + = 0 + 1· x + μy|x... det förväntade värdet på y om värdet på den

förklarande variabeln är givet.

0... interceptet (intercept). Det förväntade värdet på y om x=0.

1... lutningen (slope). Anger förändringen i y om x ökar med en enhet.

... felterm (error term). Den del av variationen i datamaterialet som inte går att beskriva med regressionslinjen.

Page 13: Regressions- och tidserieanalys, 5 p Projekt 1: Index och efterfrågeanalys, 0.5 hp

13

120110100 90 80 70 60 50 40 30

8000

7000

6000

5000

4000

3000

2000

Kv-meter

Hyr

a

S = 525.512 R-Sq = 85.5 % R-Sq(adj) = 84.8 %

Hyra = 720.923 + 60.5329 Kv-meter

Regression PlotHur anpassar man en rät linje till ett datamaterial? Man väljer linjen som har det minsta avståndet till alla observationer.

Page 14: Regressions- och tidserieanalys, 5 p Projekt 1: Index och efterfrågeanalys, 0.5 hp

14

120110100 90 80 70 60 50 40 30

8000

7000

6000

5000

4000

3000

2000

Kv-meter

Hyr

a

S = 525.512 R-Sq = 85.5 % R-Sq(adj) = 84.8 %

Hyra = 720.923 + 60.5329 Kv-meter

Regression PlotDetta görs genom ‘Minsta-kvadrat-metoden’: Summan av alla kvadrerade avstånd ska bli så liten som möjligt.

Page 15: Regressions- och tidserieanalys, 5 p Projekt 1: Index och efterfrågeanalys, 0.5 hp

15

Minsta-kvadrat-skattningen för enkel linjär regression

xbyb

SSSS

xx

yyxxb

xx

xyn

ii

n

iii

10

1

21

1

n

ii

n

ii x

nxy

ny

11

1,1

Page 16: Regressions- och tidserieanalys, 5 p Projekt 1: Index och efterfrågeanalys, 0.5 hp

16

Det går enklare att beräkna b0 och b1 om vi skriver om formlerna för SSxx och SSxy:

n

yxyxyxnyxyyxxSS

ny

yynyyySS

nx

xxnxxxSS

iiiiiiiixy

iiiiyy

iiiixx

)()(

)(

)(

22222

22222

Page 17: Regressions- och tidserieanalys, 5 p Projekt 1: Index och efterfrågeanalys, 0.5 hp

17

Kv-meter Hyra xi*yi xi*xi

61 4490 61*4490= 273890 372150 3211 160550 250032 3265 104480 102474 4750 351500 547661 4063 247843 372170 5471 382870 490052 4120 214240 270464 5432 347648 409665 5020 326300 422538 3512 133456 144437 2456 90872 136937 2560 94720 136950 3179 158950 2500117 7110 831870 1368986 7019 603634 739650 3199 159950 250073 4953 361569 532977 5623 432971 592952 3919 203788 270456 3898 218288 313692 6219 572148 8464

Σ 1294 93469 6271637 88196

Page 18: Regressions- och tidserieanalys, 5 p Projekt 1: Index och efterfrågeanalys, 0.5 hp

18

Då får vi:

9233.72021

12945329.6021

93469

5329.609524.8460

2381.512166

2381.512166219346912946271637

9524.846021

129488196

10

1

222

xbyb

SSSS

b

nyx

yxSS

nx

xSS

xx

xy

iiiixy

iixx

Page 19: Regressions- och tidserieanalys, 5 p Projekt 1: Index och efterfrågeanalys, 0.5 hp

19

Alltså: Skattningen av regressionslinjen är

För varje ytterligare kvadratmeter i lägenhetsyta kommer man i genomsnitt betala 60.53 kronor mer i hyra.

För en lägenhet med 0 kvadratmeter kommer man att betala 720.92 kronor i hyra (??!?)

xbby 10ˆ

xy 5329.6092.720ˆ

Page 20: Regressions- och tidserieanalys, 5 p Projekt 1: Index och efterfrågeanalys, 0.5 hp

20

Statistisk slutledning (Inference) i regressionsmodellen

Signifikanstest för parametrarna 0 och 1.

t.ex. ökar hyran verkligen med storleken på lägenheten, eller skulle man kunna sätta b1=0?

Konfidensintervall för parametrarna 0 och 1.

Konfidensintervall för ett medelvärde av y (givet x). Prediktionsintervall för en individuell prognos av y (givet x).

För att kunna göra signifikanstest och för att kunna beräkna konfidensintervall måste vi göra vissa antaganden.

Page 21: Regressions- och tidserieanalys, 5 p Projekt 1: Index och efterfrågeanalys, 0.5 hp

21

Antagande i regressionsmodellen

y = 0 + 1· x +

Feltermen har medelvärde 0 och varians 2. (Variansen är konstant över hela datamaterialet)

Feltermen är normalfördelad.Feltermen är statistisk oberoende. Varje värde för är

oberoende av alla andra värden av .

Hur man undersöker om feltermen verkligen uppfyller de här kraven kommer vi att se senare (residualanalys).

Feltermens varians 2 måste skattas.

Page 22: Regressions- och tidserieanalys, 5 p Projekt 1: Index och efterfrågeanalys, 0.5 hp

22

Hur bestämmer man , skattningen för , variansen av feltermen?

2s

n

ii yy

ns

1

222

11

I ett vanligt stickprov bestäms s som stickprovsvariansen:

2

I regressionssammanhang gör vi på ett liknande sätt, men vi måste ta hänsyn till den del av variationen i datamaterialet som kan förklaras av x.

n

iiie xbby

ns

1

210

222

1

iy‘Residual’

Page 23: Regressions- och tidserieanalys, 5 p Projekt 1: Index och efterfrågeanalys, 0.5 hp

23

Kv-meter Hyra b0+b1*xi yi-(b0+b1xi)61 4490 720.92+60.53*61= 4413.25 76.7550 3211 3747.42 -536.4232 3265 2657.88 607.1274 4750 5200.14 -450.1461 4063 4413.25 -350.2570 5471 4958.02 512.9852 4120 3868.48 251.5264 5432 4594.84 837.1665 5020 4655.37 364.6338 3512 3021.06 490.9437 2456 2960.53 -504.5337 2560 2960.53 -400.5350 3179 3747.42 -568.42117 7110 7802.93 -692.4286 7019 5926.5 1092.550 3199 3747.42 -548.4273 4953 5139.61 -186.6177 5623 5381.73 241.2752 3919 3868.48 50.5256 3898 4110.6 -212.692 6219 6289.68 -70.68

Residualerna

Page 24: Regressions- och tidserieanalys, 5 p Projekt 1: Index och efterfrågeanalys, 0.5 hp

24

Skattning av s

n

ii

n

ii

n

iiie

en

residualn

xbbyn

s

1

2

1

2

1

210

22

21

21

21

276162.55247087221

12

es

se betecknas ofta bara med s.

Page 25: Regressions- och tidserieanalys, 5 p Projekt 1: Index och efterfrågeanalys, 0.5 hp

25

Signifikanstest för parametrarna 0 och 1

Nollhypotesen: H0:1=0

Alternativhypotesen: H1:1≠0

t-test:

1

01

bsbt

SkattningNollhypotes

Standardavvikelse för skattningen av b1 (standard error)

t-fördelad med n-2 frihetsgrader

Page 26: Regressions- och tidserieanalys, 5 p Projekt 1: Index och efterfrågeanalys, 0.5 hp

26

Hur beräknar man , skattningen för ?1bs 1b

xxb SS

ss 1

I vårt fall:

5.71311291.98342525.5116

95.8460276162.5

1bs

Page 27: Regressions- och tidserieanalys, 5 p Projekt 1: Index och efterfrågeanalys, 0.5 hp

27

Signifikanstest för b1 :

6.1071.553.600

1

1

bs

bt

Jämför med t-fördelningen med 19 frihetsgrader. → högt signifikant

Slutsats: Lutningen i regressionsmodellen är signifikant skild från noll. Ytan på en lägenhet har betydelse för hur hög hyran är. Ju större lägenhet desto högre hyra (positivt samband).

Signifikanstest för interceptet se sidan 107 i boken.

Page 28: Regressions- och tidserieanalys, 5 p Projekt 1: Index och efterfrågeanalys, 0.5 hp

28

Konfidensintervall för lutningen 1:

Med hjälp av skattningarna vi har tagit fram, kan vi även beräkna ett konfidensintervall för 1.

1

221 bn stb

48.7258.4871.5093.253.6071.5093.253.60

Med 95% säkerhet ligger 1 i intervallet 48.58 – 72.48.

Page 29: Regressions- och tidserieanalys, 5 p Projekt 1: Index och efterfrågeanalys, 0.5 hp

29

Ett datorprogram, som MINITAB, kan beräkna en regressionsanalys åt oss.

Där får vi ut t.ex.:– Regressionlinjen– Parameterskattningar b0 och b1

– Signifikanstest för 0 och 1

– Skattningen s (spridningen i residualerna)

Page 30: Regressions- och tidserieanalys, 5 p Projekt 1: Index och efterfrågeanalys, 0.5 hp

30

Regression Analysis: Hyra versus Kv-meterThe regression equation isHyra = 721 + 60.5 Kv-meter

Predictor Coef SE Coef T PConstant 720.9 370.2 1.95 0.066Kv-meter 60.533 5.713 10.60 0.000

S = 525.5 R-Sq = 85.5% R-Sq(adj) = 84.8%

Analysis of Variance

Source DF SS MS F PRegression 1 31002923 31002923 112.26 0.000Residual Error 19 5247087 276162Total 20 36250010

Regressionslinjen

t-tester och deras p-värden

Parameterskattningar och deras standardavvikelser

Residualspridningen

Konfidensintervall för parametrarna 0 och 1 måste man dock beräkna själv.

Page 31: Regressions- och tidserieanalys, 5 p Projekt 1: Index och efterfrågeanalys, 0.5 hp

31

Punktskattningar och punktprognoser

För ett givet värde på x (säg x0) kan man – skatta det genomsnittliga värdet på y

(Vad är hyran för en lägenhet på 60 kvadratmeter i genomsnitt?)

– prediktera värdet på y för en ny observation(Hur mycket kommer just den här lägenheten på 60 kvadratmeter att kosta i hyra?)

Både punktskattningen och punktprognosen beräknas som

010ˆ xbby

Page 32: Regressions- och tidserieanalys, 5 p Projekt 1: Index och efterfrågeanalys, 0.5 hp

32

Punktskattningar och punktprognoser är naturligtvis osäkra. Därför ska man helst ange dem tillsammans med ett intervall:

Punktskattningen med ett konfidensintervall

och punktprognosen med ett prediktionsintervall

valueDistanceˆ 22 sty n

valueDistance1ˆ 22 sty n

‘Distance value’ anger hur ‘centralt’ x0-värdet är i datamaterialet.

Page 33: Regressions- och tidserieanalys, 5 p Projekt 1: Index och efterfrågeanalys, 0.5 hp

33

2

201valueDistance

xx

xxn

i

För ett x0 som ligger nära får vi ett litet ‘distance value’ och därför även ett smalare konfidens- eller predikitonsintervall.

x

Page 34: Regressions- och tidserieanalys, 5 p Projekt 1: Index och efterfrågeanalys, 0.5 hp

34

Vad är hyran för en lägenhet på 60 kvadratmeter i genomsnitt?

0479.0

9524.8460619.6160

2111valueDistance

2

2

20

xx

xxn

i

72.43526053.6092.720ˆ 010 xbby

Page 35: Regressions- och tidserieanalys, 5 p Projekt 1: Index och efterfrågeanalys, 0.5 hp

35

Vad är hyran för en lägenhet på 60 kvadratmeter i genomsnitt?

valueDistanceˆ 22 sty n

5.459341120479.05.525093.272.43520479.05.525093.272.4352

Med 95% säkerhet kommer hyran att ligga mellan 4112 och 4593.3 kronor i månaden.

Page 36: Regressions- och tidserieanalys, 5 p Projekt 1: Index och efterfrågeanalys, 0.5 hp

36

Hur mycket kommer jag att betala om jag hyr just den här lägenheten på 60 kvadratmeter?

valueDistance1ˆ 22 sty n

63.54788.32260479.015.525093.272.43520479.015.525093.272.4352

Med 95% säkerhet kommer hyran för just den här lägenheten ligga mellan 3226.8 och 5478.63 kronor i månaden.

72.43526053.6092.720ˆ 010 xbbyenda skillnaden

Page 37: Regressions- och tidserieanalys, 5 p Projekt 1: Index och efterfrågeanalys, 0.5 hp

37

Även punktskattningar och punktprognoser kan beräknas med hjälp av MINITAB

The regression equation isHyra = 721 + 60.5 Kv-meter

Predictor Coef SE Coef T PConstant 720.9 370.2 1.95 0.066Kv-meter 60.533 5.713 10.60 0.000

S = 525.5 R-Sq = 85.5% R-Sq(adj) = 84.8%

....Predicted Values for New Observations

New Obs Fit SE Fit 95.0% CI 95.0% PI1 4353 115 ( 4112, 4594) ( 3227, 5479)

Values of Predictors for New Observations

New Obs Kv-meter1 60.0