第四章 多元线性回归分析

45
1 第第第 第第第第第第第第

description

第四章 多元线性回归分析. 本章主要内容. 第一节 多元线性回归模型 第二节 参数估计 第三节 回归拟合度评价和决定系数 第四节 统计推断和预测. 第一节 多元线性回归模型. 一、模型的建立 二、模型的假设. 一、模型的建立. 多元线性回归模型就是研究多因素关系,有多个解释变量的线性回归模型。一般形式是: - PowerPoint PPT Presentation

Transcript of 第四章 多元线性回归分析

Page 1: 第四章 多元线性回归分析

1

第四章 多元线性回归分析

Page 2: 第四章 多元线性回归分析

2

本章主要内容 第一节 多元线性回归模型 第二节 参数估计 第三节 回归拟合度评价和决定系数 第四节 统计推断和预测

Page 3: 第四章 多元线性回归分析

3

第一节 多元线性回归模型一、模型的建立

二、模型的假设

Page 4: 第四章 多元线性回归分析

4

一、模型的建立

多元线性回归模型就是研究多因素关系,有多个解释变量的线性回归模型。一般形式是:

其中 Y 是被解释变量, 是 K 个认为对 Y

有显著影响的解释变量( K 2 ), 是 K+1 个待定参数,是计量经济分析首先要估计的对象, 是随机误差项。

0 1 1 K KY X X 2K

KXX ,,1 K ,,0

Page 5: 第四章 多元线性回归分析

5

多元线性回归模型的建立也需要有理论和现实的根据。

多元线性回归模型中包括哪些变量、因素,哪个指标是被解释变量,有几个解释变量或哪几个指标作为解释变量,既要考虑理论分析和研究目的的需要,也应该根据所研究问题的具体情况、相关经济理论,以及以往研究经验等确定。

Page 6: 第四章 多元线性回归分析

6

虽然一个经济指标受到其他几个经济指标线性影响在现实经济中是存在的,但更多的情况下多变量关系往往是非线性的,需要经过数学变换才能转化为多元线性回归模型的标准形式。

例:

pp

p

iii

p

ii

SSZ

XAYeXAY

110

11

lnlnln

Page 7: 第四章 多元线性回归分析

7

二、模型的假设

(1) 、变量 和 之间存在多元线性随机函数关系 ;

(2) 、 对任意 都成立;(3) 、 , 与 无关;(4) 、误差项不相关,当 时,(5) 、解释变量都是确定性的而非随机变量,且解释变量之间不存在线性关系;

(6) 、误差项 服从正态分布。

Y KXX ,1 KK XXY 110

0iE i

i 2 iVar

ji 0jiE

i

Page 8: 第四章 多元线性回归分析

8

对假设的进一步分析 上述六条假设中( 2 )、( 3 )、( 4 )和

( 6 )与两变量模型相同。 第( 1 )条是关于模型基本变量关系的。 第( 5 )条不仅针对的解释变量数目增加了,

而且多了一个要求解释变量之间没有线性关系的假设,这是多元线性回归模型的重要特点。

Page 9: 第四章 多元线性回归分析

9

多元线性回归模型的矩阵表示

nKKnn

KK

XXY

XXY

110

1111101

nY

Y

Y 1

ni

i

i

X

X

X 1

1

1

l

K

0

n

1

Knn

K

K

XX

XX

XXlX

1

111

1

1

1

,,,

XXXXY KK22110

Page 10: 第四章 多元线性回归分析

10

第二节 参数估计

一、最小二乘估计二、投资函数模型参数估计三、参数估计的性质和方差估计

Page 11: 第四章 多元线性回归分析

11

一、最小二乘估计 参数估计也是多元线性回归模型的基本

步骤。 最小二乘法也是多元线性回归的基本方

法。 对于多元线性回归模型

KK XXY 110

Page 12: 第四章 多元线性回归分析

12

得到样本回归方程:

回归残差平方和当 对 的一阶偏导数都等于 0,得到正规方程组:

其中

KK XbXbbY 110ˆ

i i

KiKiii XbXbbYeV 2110

2

Kbbb ,, 10V

102211

101212111

110

KKKKKK

KK

KK

SbSbSbS

SbSbSbS

XbXbYb

KjkXXXXSYYXXS jjii

kkjkjii

kkik ,1,,,0

Page 13: 第四章 多元线性回归分析

13

该正规方程组有 K+1 个方程,未知数也是 K+1 个。只要满足模型假设( 5 ),解释变量之间不存在严格线性关系,就可以解出 的唯一一组解。

该解就是 的最小二乘估计。Kbb ,,0

K ,,0

Page 14: 第四章 多元线性回归分析

14

特别地,对于两个解释变量的线性回归模型:

样本回归方程是: 可推导出参数最小二乘估计的公式如下:

22110 XXY

22110ˆ XbXbbY

221

22

21

211212

2

221

22

21

212221

1

22110

)())((

))(())((

)())((

))(())((

iii

ii

ii

iii

iii

ii

iii

iii

ii

ii

iii

iii

ii

iii

xxxx

xxxyxxyb

xxxx

xxxyxxyb

XbXbYb

Page 15: 第四章 多元线性回归分析

15

最小二乘估计的向量、矩阵形式

向量表示

回归方程的向量表示 回归残差向量 残差平方和

Kb

b

b

1

0

B

nY

Y

ˆ

ˆ

ˆ1

Y

ne

e

1

e

XBY ˆ

XBYYYe ˆ

XBXBXBYYXBYY

XBYXBYee

i

ieV 2

Page 16: 第四章 多元线性回归分析

16

当 对 的一阶偏导数都等于 0V Kbbb ,, 10

0220

XBXYXB

Kb

V

b

V

V

YXXBX

YXXXB 1

Page 17: 第四章 多元线性回归分析

17

二、投资函数模型参数估计 作为例子,我们估计 [ 例 4-1] 的投资函

数多元线性回归模型的参数。 假设已获得该地区 1968-1983 年期间实

际投资和实际 GNP 数据。

Page 18: 第四章 多元线性回归分析

18

表 4.1 某地区投资和 GNP 数据 年份 实际投资 实际 GNP 年份 实际投资 实际 GNP

1968 0.161 1.058 1976 0.195 1.298

1969 0.172 1.088 1977 0.231 1.370

1970 0.158 1.086 1978 0.257 1.439

1971 0.173 1.122 1979 0.259 1.479

1972 0.195 1.186 1980 0.225 1.474

1973 0.217 1.254 1981 0.241 1.503

1974 0.199 1.246 1982 0.204 1.475

1975 0.163 1.232 1983 0.210 1.500

Page 19: 第四章 多元线性回归分析

19

投资函数EViews 回归输出结果 Dependent Variable: Y Method: Least Squares Date: 07/13/04 Time: 19:44 Sample: 1968 1983 Included observations: 16 Variable Coefficient Std. Error t-Statistic Prob. C -0.486463 0.053836 -9.035936 0.0000 X1 -0.016593 0.001819 -9.122606 0.0000 X2 0.639117 0.052896 12.08262 0.0000 R-squared 0.958362 Mean dependent var 0.203750 Adjusted R-squared 0.951957 S.D. dependent var 0.033061 S.E. of regression 0.007246 Akaike info criterion -6.849241 Sum squared resid 0.000683 Schwarz criterion -6.704381 Log likelihood 57.79393 F-statistic 149.6088 Durbin-Watson stat 1.313453 Prob(F-statistic) 0.000000

Page 20: 第四章 多元线性回归分析

20

三、参数估计的性质和方差估计 只要变量关系符合多元回归模型的假设,

多元回归分析参数的最小二乘估计量也有优良的性质,也是 BLUE 估计和一致估计。

因此在模型假设成立的前提下,最小二乘估计也是多元线性回归分析基本的参数估计方法,并能为相关统计推断和预测分析提供基础。

Page 21: 第四章 多元线性回归分析

21

要进一步对多元线性回归模型进行统计推断和检验,同样需要先估计参数估计量的方差。

据最小二乘估计公式和模型假设,可以导出两个解释变量的多元回归模型各个参数的最小二乘估计量的方差。

Page 22: 第四章 多元线性回归分析

22

22

2122

21

212121

22

22

21

0 )(

21

)(

iii

ii

ii

iii

ii

ii

xxxx

xxXXxXxX

nbVar

22

2122

21

22

1 )()(

iii

ii

ii

ii

xxxx

xbVar

22

2122

21

21

2 )()(

iii

ii

ii

ii

xxxx

xbVar

Page 23: 第四章 多元线性回归分析

23

上述参数估计量方差中的 是模型误差项 的方差,一般可以用多元线性回归最小二乘估计的残差序列:

加以估计,公式是: =

2i

KiKiiiii XbXbbYYYe 110ˆ

2S3

2

n

ei

i

Page 24: 第四章 多元线性回归分析

24

第三节 回归拟合度评价和决定系数 分析两变量线性回归决定系数公式

可以发现,该决定系数只与被解释变量的观测值以及回归残差有关,而与解释变量无直接关系。

多元模型解释变量的数目有多有少,该决定系数是解释变量数目的增函数,意味着不管增加的解释变量是否真是影响被解释变量的重要因素,都会提高决定系数的数值,解释变量个数越多,决定系数一定会越大。

ii

ii

YY

eR

2

2

2 1

Page 25: 第四章 多元线性回归分析

25

克服决定系数上述缺陷的方法,是对决定系数进行适当的调整,采用如下“调整的决定系数”:

)1(1

11 22 R

Kn

nR

1

11

Kn

n e

Y Y

ii

ii

2

2

( )

Page 26: 第四章 多元线性回归分析

26

根据上述公式可以看出,当 n 较大和 K 较小时, 和 R 差别不大,但当 n并不是很大而 K又较大时,两者的差别是比较明显的。

用这个调整的决定系数作为评价多元线性回归拟合度的评价标准,可以基本消除由于解释变量数目差异造成的影响。

根据上述公式计算决定系数,需要先根据回归直线计算 的理论值,然后计算回归残差序列,再结合样本数据进行计算。

2R 2

iY

Page 27: 第四章 多元线性回归分析

27

第四节 统计推断和预测

一、参数估计量的标准化

二、统计推断和检验

三、预测

Page 28: 第四章 多元线性回归分析

28

一、参数估计量的标准化 在满足模型假设的情况下,多元线性回归模型

参数的最小二乘估计量是线性无偏估计。 参数估计量服从以参数真实值为中心的正态分布:

可以通过下列变换转化为标准正态分布的统计量:

= N[0 , 1]

)]var(,[~ kkk bNb kb

kZ)( k

kk

bse

b

Page 29: 第四章 多元线性回归分析

29

用无偏估计 代替误差项方差 , 代入 得到的统计量服从自由度为 n-K-1 的 t分布,记为

= t(n-K-1)

这个 t 分布统计量是对多元线性回归参数估计量进行统计推断和检验的基础。

2S 2 )(ˆ kbes

kZ

kt )(ˆ k

kk

bes

b

Page 30: 第四章 多元线性回归分析

30

二、统计推断和检验

(一)单个参数的置信区间

(二)参数显著性检验

(三)模型总体显著性检验

Page 31: 第四章 多元线性回归分析

31

(一)单个参数的置信区间 对给定的或要求的置信度,下式应该成立: | |= 因此参数 置信度为 的置信区间(或称区间估计)为:

[ - , + ]

k 1

kt)(ˆ k

kk

bes

b 2/t

kbkb 2/t 2/t)(ˆ kbes )(ˆ kbes

Page 32: 第四章 多元线性回归分析

32

投资函数模型参数 的区间估计 首先根据 EViews给出的回归分析结果,

知道 的点估计 =0.639117 , 的方差 即 =0.052896 。

再通过查表得到自由度为 ,显著性水平 =0.05 的双侧 t 分布临界值

把这些数值及代入区间估计公式,可得:

2

2 2b 2b)(ˆ 2bes

131 Kn

160.2)13(025.0 t

7533671.05117581.0 2

Page 33: 第四章 多元线性回归分析

33

(二)参数的显著性检验 可以对多元线性回归模型的各个参数进行

显著性检验,或取特定值的假设检验。 模型参数显著性检验就是对相应参数检验原假设 : = 0 。如果 =0成立,那么意味着不能排除模型中第 k个假设变量是不重要的。

根据要求的置信度( 95%或 99%),查t 分布表得到自由度为 n-K-1 的 t 分布统计量的双侧分布临界值。

0H k k

Page 34: 第四章 多元线性回归分析

34

如果假设 是真实的,那么 95%或 99%应该成立:

= = (n-K-1)

如果 t 统计量数值不满足上述不等式,意味着可以拒绝原假设,不能认为第 k个解释变量是不重要的,称模型的第 k个解释变量通过了显著性检验。

0H

kt)(ˆ k

kk

bes

b

)(ˆ k

k

bes

b2/t

Page 35: 第四章 多元线性回归分析

35

除了上述参数非 0 的显著性检验以外,也可以检验多元回归模型各个参数取非 0的其他特定值的可能性。

检验的原理与显著性检验基本相同,只要把参数的真实值 换成要检验是否成立的数值即可。

k

Page 36: 第四章 多元线性回归分析

36

(三)模型总体显著性检验 多元线性回归模型每个参数的显著性与模型总体的显著性并不一定一致。

因此还可以进行模型总体显著性,也就是全体解释变量总体对被解释变量是否存在明显影响的检验,称为“回归显著性检验”。

回归显著性检验的基本方法,是检验模型常数项以外所有参数同时为 0 的假设,即检验原假设为 : = 0 。0H K 1

Page 37: 第四章 多元线性回归分析

37

为了方便起见,实践中一般都利用 成立时模型的决定系数应为 0 的事实,通过检验决定系数的显著性间接检验回归显著性。

决定系数的显著性则利用下列F分布统计量进行检验:

F = F (K,n-K-1) 给定显著性水平(对应置信度 1- ),查F 分布临界值表,得到临界值F (K,n-K-1) ,若F 统计量大于 F 回归是显著的,否则是不显著的。

0H

)1/()1(

/2

2

KnR

KR

Page 38: 第四章 多元线性回归分析

38

三、预测 预测也是多元线性回归分析的目的和进一步检验

模型的方法,也包括点预测和区间预测两方面。 点预测就是求对应解释变量观测值 的被

解释变量值 的估计。 得到回归直线以后,只要 把代入回归直线,得到:

就是一个点预测。

),,,1( 1KXX

*Y

),,,1( 1KXX

*Y KK XbXbb 110

Page 39: 第四章 多元线性回归分析

39

即使模型代表的经济规律在预测时刻是严格成立的,预测 与实际发生的 一般也不会完全一样,因为预测和实际值之间存在预测误差。

但在模型假设成立的前提下,上述基于最小二乘参数估计的预测是一个“线性无偏预测”,而且是具有最小方差的线性无偏预测,也称为“最优预测”。

是观测值 的线性组合,以 为数学期望,且服从正态分布。

*Y *Y

*Y Y *Y

Page 40: 第四章 多元线性回归分析

40

利用点预测的上述性质,我们可以构造比点预测更有意义的区间预测:

[ se( ) , + se( )]*Y 2/t*Y *Y 2/t *Y

Page 41: 第四章 多元线性回归分析

41

( 例 )利用投资函数模型进行预测 假设 1984 年的 GNP 为 1.52万亿元,要求预测该年该地区的总投资。

由于 1984 年相当于模型中的 , 1.52万亿相当于 。把这两个解释变量的数值代入回归直线,可得到第 1984 年实际 GNP 为 1.52万亿时,实际投资水平的点预测:

= ≈0.203

171 X

52.12 X

*Y 52.1639117.017016593.0486483.0

Page 42: 第四章 多元线性回归分析

42

用 EViews软件进行预测时,需要先把工作文件的样本范围扩大( change workfile range )至包括 1984 年,然后在数据库中加以编辑( edit ),输入 1984 年的解释变量数值( 17 , 1.52 )。

进行回归以后,在回归结果窗口直接点击菜单“ forcast”,并在对话框中选择预测样本区间为 1968-1984 ,为了得到预测的标准差序列,在对话框中将其命名为 SEYF。

结果可输出如下的预测图形:

Page 43: 第四章 多元线性回归分析

43

投资函数预测图形

0.14

0.16

0.18

0.20

0.22

0.24

0.26

0.28

68 70 72 74 76 78 80 82 84

YF ± 2 S.E.

Page 44: 第四章 多元线性回归分析

44

注意在回归样本区间范围内的预测实际上就是拟合,主要作用是检验模型。

对应 1984 年的最后一个预测值( YF)0.202918 和预测标准差( SEYF) 0.008896 是我们真正关注的预测。

Page 45: 第四章 多元线性回归分析

45

在点预测和预测标准差的基础上,很容易进一步构造区间预测了。仍然采用 95%的置信度,t 分布临界值仍然是 。

将上述点预测和预测标准差代入区间预测的公式,得到 的 95%置信度的区间预测为 [0.184 ,0.222] 。

160.2)13(025.0 t

*Y