第 7 章 最小二乘估计的改进

74
第7第 第第第第第第第第第

description

第 7 章 最小二乘估计的改进. §7.1 多重共线性的判别. §7.2 岭估计. K 的选择. 岭迹的作用:. §7.3 主成分估计. K 的几种取法:. SAS 中计算相关系数矩阵. proc corr 选项; 选语句: var 变量名表; with 变量名表 ; … 选项除 data=… 外,还有 pearson 缺省项 计算两两相关系数 cov 样本协方差矩阵 outp=… 存放样本相关系数矩阵数据. - PowerPoint PPT Presentation

Transcript of 第 7 章 最小二乘估计的改进

Page 1: 第 7 章  最小二乘估计的改进

第 7 章 最小二乘估计的改进

Page 2: 第 7 章  最小二乘估计的改进

的均方误差是指:

2

)(ˆ

)(ˆ)(ˆ)(ˆ)(

kE

kkEkMSEkH

Page 3: 第 7 章  最小二乘估计的改进

引理 6.1.1 在Y 服从 ),( 2nn IXN 时,有如下结论:

(1) 122

)'(ˆ

XXtrE

(2) 242

)'(2ˆ

XXtrD

Page 4: 第 7 章  最小二乘估计的改进

证明: YXXX 1ˆ

XXXX 1 XXX 1

所以有:

ˆˆˆ EMSE

XXXXE 2

EXXXXtr 2

= 12 ' XXtr

Page 5: 第 7 章  最小二乘估计的改进

若记 ijaXXXXA 2 ,有:

ADD

ˆˆ 22 AEAE

i j

jiijaA

i j k l

lkjiklijaaA 2

Page 6: 第 7 章  最小二乘估计的改进

当 ),0(~ 2nIN ,此时,有:

niEEEE iiii ,2,1,3,0,,0 44322

n ,, 21 相互独立,从而有:

4 2

2 2 4

3

, ,

, ,

, ,

0

i

i j k l i k

E i j k l

i j k l i k

E E E i k j l i j

i l j k i j

others

Page 7: 第 7 章  最小二乘估计的改进

i j k l

lkjiklij EaaAE 2

222222242ji

i ki ji jijiijjiijkikkiiiii EEaaEEaEEaaEa

i i i i

iiijii

iiiii aaaaa 222

2

24 23

iij

iii aa 2

2

4 2

2224 AtrtrA

Page 8: 第 7 章  最小二乘估计的改进

又 AtrAE 2 ,即有

2424 22ˆˆ

XXtrAtrD

Page 9: 第 7 章  最小二乘估计的改进

设 XX 为 mm 矩阵,又记其特征根为 021 m ,由线性

代数的知识可知,

(1) 1XX 的特征根为 mii ,2,1,1 ;

(2) 2XX 的特征根为 mii ,2,1,1 2 ;

(3)

m

ii

XXtr1 ,

m

iiXX

1

Page 10: 第 7 章  最小二乘估计的改进

当 XX 病态时, 0XX ,从而存在着某个 i使当 ij 时, j1

将变得很大,又由引理可知:

m

i i

XXtrE1

2122 1

)'(ˆ

m

i i

XXtrD1

2424

2 12)'(2ˆ

由此可知,当 0XX 时, 与 的差向量的平均长度将变得

很大,且波动也很大,从而表明 不再是 的一个好的估计了。

Page 11: 第 7 章  最小二乘估计的改进

对于模型

0 1 1 1,2, ,i i t it iy x x i n

在求最小二乘估计时,要求 X X 的逆矩阵存在。当 X X 的逆矩

阵不存在时,即 ix 之间存在高度相关的情况,我们称之为多重共

线性。

Page 12: 第 7 章  最小二乘估计的改进

一般经验告诉我们,对于采用时间序列数据作样本、以简单

线性形式建立的计量经济学模型,往往存在多重共线性。以截面

数据作样本时,问题不那么严重,但仍然是存在的。

多重共线性的后果:

完全共线性下参数估计量不唯一;

一般共线性下普通最小二乘法参数估计量非有效;

变量的显著性检验失去意义;

模型的预测功能失效。

Page 13: 第 7 章  最小二乘估计的改进

(1)样本相关系数检验法

考虑两个解释变量之间的相关系数,若较大,如大于 0.8,

则可认为存在多重共线性问题。

§7.1 多重共线性的判别

Page 14: 第 7 章  最小二乘估计的改进

(2)条件指数检验法

设 1 2, , , k 为矩阵 X X 的特征根,则条件指数的定义如下:

maxmax

jj

i ii

i

CI k CI

较大的条件指数意味着有较强的多重共线性,在应用中,经验性

地可作如下判断:

多重共线性

轻微 若0<k<10

较强 若10 k<30

严重 若k 30

Page 15: 第 7 章  最小二乘估计的改进

(3)方差膨胀因子检验法

基于复相关系数 iR 可以定义各个解释变量 iX 的容忍度(TOL ,

tolerance)与方差膨胀因子(VIF,variance inflation factor)如下: 21i iTOL R ,该值越小,意味着变量 iX 不由其余解释变量说

明的部分相对越小,

2

1

1ii

VIFR

,对于不好的试验设计,VIF的取值可能趋于无限

大。

Page 16: 第 7 章  最小二乘估计的改进

根据经验,我们提出确定多重共线严重程度的一个经验准则:

i

i

i

轻微 若maxVI F<5

较强 若5 maxVI F<10

严重 若maxVI F 10

i

i

i

mi nTOL >0. 2轻微 若0. 1<mi nTOL 0. 2较强 若

mi nTOL 0. 1严重 若

Page 17: 第 7 章  最小二乘估计的改进

所以,当 0XX 时,用 的最小二乘估计建立的回归方

程需要改进。改进的方法有很多,我们介绍其中的二种:

(1) 从减少均方误差的角度出发,引入岭估计;

(2) 从消除 X 的列向量间的多重其线性关系出发,引入主成

分估计。

Page 18: 第 7 章  最小二乘估计的改进

在下面讨论中,我们均假设数据已经过了”标准化”变换,记数据为

niyxxx iimii ,2,1,,,, 21

并且:

mjxxn

iij

n

iij ,2,1,1,0

1

2

1

从而 RXX 为相关系数矩阵,其特征要为 021 m ,并且

mm

jj

1

Page 19: 第 7 章  最小二乘估计的改进

§7.2 岭估计定义 1:设 0k ,称

1ˆ( ) mk X X kI X Y

为 的岭估计,其中 k为岭参数。由岭估计建立的回归方程称为岭回归。

当 0k 时, YXXX 1)0( 即为 的最小二乘估计。

定义 2:对于每个 i,当 ,0k 时, )(ˆ k 的第 i个分量 )(ˆ ki 作为 k的

函数,在直角坐标系下,称由点 )(ˆ, kk i 所构成的曲线为岭迹。

Page 20: 第 7 章  最小二乘估计的改进

岭估计的性质及几种表示形式:

(1) 岭估计是线性估计,但不是无偏估计。

1ˆ( ) m kk X X kI X Y W X Y

其中 1

k mW X X kI ,由此可见,岭估计仍是Y 的线性函数,

所以仍是线性估计。

Page 21: 第 7 章  最小二乘估计的改进

(2) 1ˆ( ) m kk X X kI X Y W X Y

1 1 ˆ' 'm kX X kI X X X X X Y Z

其中 11 1

'k m mZ X X kI X X I k X X

kZ 与 kW 之间的关系如下:

1

1

k k m m m

m m m k

Z W X X X X kI X X kI kI

I k X X kI I kW

Page 22: 第 7 章  最小二乘估计的改进

(3)若 XX 的特征根为 021 m ,对应的特征向量为

mlll ,, 21 ,则有 millXX iii ,2,1,

从而由于 , 1, 2,m i i iX X kI l k l i m

则有: 1 1, 1, 2,m i i iX X kI l k l i m ,即有:

milklW iiik ,2,1,1

可知: kW 的特征根为 miki ,2,1,1

Page 23: 第 7 章  最小二乘估计的改进

(4)由于 millXX iii ,2,1,11

则 11 , 1,2,m i i

i

kI k X X l l i m

从而 11

, 1, 2,im i i

i

I k X X l l i mk

所以有: miil

ki

ilk

Z i ,2,1,

可知: kZ 的特征根为 mik

i

i ,2,1,

Page 24: 第 7 章  最小二乘估计的改进

(5)并且 kZ 与 kW 之间它们的特征向量与 XX 的特征向量相同,与 k无

关。

(6)记: )()(ˆ)(ˆ)(ˆ kHkkEkMSE

)(ˆ)(ˆ)( kkEkH

)(ˆ)(ˆ)(ˆ)(ˆ)(ˆ)(ˆ kEkEkEkkEkE

)()( 21 krkr

Page 25: 第 7 章  最小二乘估计的改进

m

ii kDkEkkEkEkr

11 )(ˆ)(ˆ)(ˆ)(ˆ)(ˆ)(

即为岭估计各分量的方差和。

m

i

kEkEkEkr1

2

2 )(ˆ)(ˆ)(ˆ)(

即为岭估计各分量的偏倚平方之和。

Page 26: 第 7 章  最小二乘估计的改进

定理(岭估计的存在性定理)存在 0k ,使 )0()( HkH

证明: 显然,只要证明 )(kH 在 0k 处的导数 0)0( H 即可。

由于 )()()( 21 krkrkH ,故下面分别计算 )(),( 21 krkr 。

2

)(ˆ

)(ˆ)(ˆ)(ˆ)(

kE

kkEkMSEkH

Page 27: 第 7 章  最小二乘估计的改进

)(ˆ)(ˆ)(ˆ)(ˆ)(1 kEkkEkEkr

kkkk ZZZZE

ˆˆ

ˆˆ

kk ZZE

XXXZZXXXE kk 11

EXXXZZXXXtr kk

11

Page 28: 第 7 章  最小二乘估计的改进

kk ZZXXtr 12

12k ktr X X X X W I kW

22kk kWWtr

m

i i

m

i i kk

k 12

1

2 11

m

i i

i

k12

2

从而有:

02)(1

32

1

m

i i

i

kkr

Page 29: 第 7 章  最小二乘估计的改进

若记 2kW 的特征向量为列的矩阵为Q,记以其特征根为对角元

的对角阵为U ,从而有: UQQWk 2

)(ˆ)(ˆ)(2 kEkEkr kk ZZ

k kZ I Z I 22kWk UQQk 2

Uk 2

22

2

mi

i i

kk

其中: mQ ,, 21 与 k无关。

Page 30: 第 7 章  最小二乘估计的改进

2

22

21

1000

0000

000

001

0

0001

k

k

k

U

m

从而有

2 2 2 2

2 2 3 31 1 1

( ) 2 2 2 0m m m

i i i i

i i ii i i

k kr k k

k k k

Page 31: 第 7 章  最小二乘估计的改进

02)0()0()0(1

2221

m

iirrH

由 )(kH 的连续性可知,在零的一个邻域内,存在 0k 使

)0()( HkH 。

Page 32: 第 7 章  最小二乘估计的改进

K 的选择

在实际中, k的值的选取是一个十分重要的问题,

因而引起了不少人的研究,近年来提出了许多确定 k的

原则和方法。下面给出几个常用的选择方法,各有优点

和缺点,目前还尚未找到确定 k的最好方法。

Page 33: 第 7 章  最小二乘估计的改进

方法一、选择一个较小的 k值,且使对应的回归方程中的回

归系数不再具有不合理的符号及不理想的绝对值。

Page 34: 第 7 章  最小二乘估计的改进

方法二、由于 )(ˆ k 在减小均方误差的同时增大了残差平方和,从而

可以给定一个 c值(一般 1c )使:

ˆˆ)(ˆ)(ˆ XYXYckXYkXY

成立的最大的 k值。

Page 35: 第 7 章  最小二乘估计的改进

方法三、在同一个直角坐标系中画出m条岭迹,找出一个 k

值,使各条岭迹均处于稳定的状态。

Page 36: 第 7 章  最小二乘估计的改进

方法四、由前面的讨论可知:

22 2

2 21

( )m m

i i

i ii i

H k kk k

由于 2 和 未知,故用 的最小二乘估计 和 2 的无偏估计 2s 代

入,对于不同的 k值计算上式,找出一个 k值,使 )(kH 达到最小。

Page 37: 第 7 章  最小二乘估计的改进

方法五、迭代法。先用方法四,找出一个 k值 1k 使得 )( 1kH 达到最

小,再用 )(ˆ1k 与 2s 代入

22 2

2 21

( )m m

i i

i ii i

H k kk k

找出一个 2k ,使 )( 2kH 达到最小,直到求得的 k值变化不大为止。

这种方法可以求出较精确的 k值,但计算的工作量太大。

Page 38: 第 7 章  最小二乘估计的改进

岭迹的作用:

(1)岭迹的一个重要的作用是判断最小二乘估计是否适用

若图中各条岭迹均较稳定,这表明最小二乘估计可能适用。

若图中各条岭迹变化很大,我们可以怀疑最小二乘估计是

否很好地反映了真实情况,此时最小二乘估计可能不适用。

Page 39: 第 7 章  最小二乘估计的改进

(2)岭迹的另一个很重要的作用是可以用来选择自变量。

若岭迹中 )0( 很大,但随着 k的增加 )(ˆ k 很快地趋于 0,

则这个变量可以删去;

若岭迹中 )0( 很小,但随着 k 的增加 )(ˆ k 绝对值很快增

加,则这个变量应可以保留;

若岭迹图中的两条岭迹并不稳定,但从其形状来看,其和是

稳定的,则可以将这两个变量组合成一个新的变量。

Page 40: 第 7 章  最小二乘估计的改进

§7.3 主成分估计 当 X 的列向量间存在某种多重共线性关系,这种关系往往是

比较复杂的。

为了找出这种多重共线性关系并把它从回归方程中删除,我

们对原变量作线性变换,构造m个新变量 mzzz ,, 21 使得对n个

样本来说某些 jz 的值近似为零。这种 jz 是 mxxx ,, 21 的线性组

合,故它反映了一种多重共线性的关系,而当一个变量各个样本

值近似为零时,该变量对 y来讲影响很小,可将它从方程中删除。

Page 41: 第 7 章  最小二乘估计的改进

),0(~ 2nIN

XY

其中 X 为 mn 矩阵,且各变量均已标准化,从而 RXX 。记

R的特征根为 021 m ,相应的规范化特征向量记作

mlll ,, 21 ,并记

m

m

lllP

,,,

00

00

00

00

212

1

Page 42: 第 7 章  最小二乘估计的改进

则有 IPP ,且 RPP ,

即 XPXPXPXP

令: XPZ ,则有 ZZ ,其中 Z 是 mn 阵,记

mZZZZ 21 ,其中 jZ 为 1n 向量。

mj

z

z

z

XlZ

nj

j

j

jj

,2,1,2

1

Page 43: 第 7 章  最小二乘估计的改进

由于数据是标准化数据,所以有

mjzi

ij ,,2,1,0

mjzi

jij ,,2,1,2

mjkkjzzi

ikij ,,2,1,,,0

Page 44: 第 7 章  最小二乘估计的改进

这说明Z 的各列间正交,且当 0j 时, njjj zzz ,, 21 均近似为 0,

即当特征根近似为零时,由其对应的特征向量分量作为系数构成的

mxxx ,, 21 的线性组合的各样本值近似为零。

称: mjzxlxlxl jmmjjj ,2,1,2211 为第 j个主成分。

它的n个样本值为

1 1 2 2 , 1, 2, , 1,2, .ij j i j i mj imz l x l x l x i n j m

由于其偏差平方和为 j ,因而第一主成分的n个样本值差异最大,第

二个主成分其次,…最后一个主成分的n个样本值差异最小。

Page 45: 第 7 章  最小二乘估计的改进

当 0XX 时,由于每个 0j , .,2,1 mj 且

mi

j ,故必存在一个k,使 mkk ,, 21 均近似为

0,从而 mkk zzz ,, 21 对 y无显著影响,这时我们可将原

回归模型简化:

XY

PXP

Z

c c cZ

Page 46: 第 7 章  最小二乘估计的改进

其中:

m

P

2

1

k

c

2

1

, kc ZZZZ 21

c 的最小二乘估计为

kiik

ii

ii

iik

ii

ii

k

cccc

yz

yz

yz

yz

yz

yz

YZZZ

22

11

2

1

1

2

1

1

00

000

00

00

ˆ

Page 47: 第 7 章  最小二乘估计的改进

即: jiijj yz ˆ , kj ,2,1 ,

mc

c

kkc

c lllP

ˆ

ˆ

ˆˆˆ0

ˆˆ1

2211

为主成分估计。

方程

kk zzzy ˆˆˆˆ 2211 是 y关于 k个主成分的回归方程

Page 48: 第 7 章  最小二乘估计的改进

再将 mjzxlxlxl jmmjjj ,2,1,2211 代入后有:

mmkkkk

mmmm

xlxlxl

xlxlxlxlxlxly

2211

2222112212211111

ˆ

ˆˆˆ

1 11 2 12 1 1 1 21 2 22 2 2

1 1 2 2

ˆ ˆ ˆ ˆ ˆ ˆ

ˆ ˆ ˆk k k k

m m k mk m

l l l x l l l x

l l l x

1 1 2 2ˆ ˆ ˆc c mc mx x x

这是主成分回归方程。

Page 49: 第 7 章  最小二乘估计的改进

K 的几种取法: (1)由于 m

ij ,而 j 又反映了第 j个主成分各样本值间的差异,

从而人们可给出一个定值 c, 10 c ,使

cmk

ij

1

, cmk

ij

同时满足。常取 c为 70%以上。

一般称 mj 为第 j个主成分的贡献率, mk

ij 为前 k个主成分的

累计贡献率。

Page 50: 第 7 章  最小二乘估计的改进

(2)删去 01.0j 的特征根对应的主成分。

(3)由于k

i j1与估计的均方误差有关,有人提出其值不能太

大,建议取 k满足:

kk

i j

51

Page 51: 第 7 章  最小二乘估计的改进

SAS 中计算相关系数矩阵proc corr 选项;选语句: var 变量名表; with 变量名表 ; …选项除 data=… 外,还有pearson 缺省项 计算两两相关系数cov 样本协方差矩阵outp=… 存放样本相关系数矩阵数据

Page 52: 第 7 章  最小二乘估计的改进

Page 163 例 7.1data p163;input x1 x2 x3 y;cards;149.3 4.2 108.1 15.9161.2 4.1 114.8 16.4171.5 3.1 123.2 19.0175.5 3.1 126.9 19.1180.8 1.1 132.1 18.8190.7 2.2 137.7 20.4202.1 2.1 146.0 22.7212.4 5.6 154.1 26.5226.1 5.0 162.3 28.1231.9 5.1 164.3 27.6239.0 0.7 167.6 26.3;run;proc corr;run;

Page 53: 第 7 章  最小二乘估计的改进
Page 54: 第 7 章  最小二乘估计的改进
Page 55: 第 7 章  最小二乘估计的改进

标准化过程在 SAS 中的实现proc standard 选项;选语句: var 变量名表; …

选项除 data=… 外 还有 out= 新数据集mean=…或m=… 指定新变量的均值std=… 指定新变量的标准差

Page 56: 第 7 章  最小二乘估计的改进

Page 163 例 7.1 数据标准化data p163;input x1 x2 x3 y;cards;… /* 数据省略 */;run;proc corr;run;proc standard m=0 std=1 out=std;run;proc print data=std;run;

Page 57: 第 7 章  最小二乘估计的改进
Page 58: 第 7 章  最小二乘估计的改进

SAS 中实现共线性诊断proc reg 选项;model y= 自变量 /vif collin;run;

选项 vif 用来输出方差膨胀因子 collin 或 collinoint 用来输出特征根与条件指数。 collin和 collinoint 的区别在于后者对模型中截距项

作了校正。当截距项无显著性时,看由 collin 输出的结果;反之,应看由 collinoint 输出的结果。

Page 59: 第 7 章  最小二乘估计的改进

Page 163 例 7.1 的共线性分析data p163;input x1 x2 x3 y;cards;… /* 数据省略 */;run;proc corr;run;proc standard m=0 std=1 out=std;run;proc print data=std;run;proc reg data=std;model y=x1 x2 x3/vif collinoint;run;

Page 60: 第 7 章  最小二乘估计的改进
Page 61: 第 7 章  最小二乘估计的改进
Page 62: 第 7 章  最小二乘估计的改进

SAS 中实现岭回归proc reg 选项;model y= 自变量 /ridge= 初始值 to 终值 by 步长;plot/ridgeplot;

run;

选项: data= 数据集; outest= 岭回归估计数据集; graphics 绘图功能 outvif 输出 vif

Page 63: 第 7 章  最小二乘估计的改进

例 7.1 的岭回归data p163;input x1 x2 x3 y;cards;… /* 数据省略 */;run;proc standard m=0 std=1 out=std;run;proc reg data=std outest=rrresult graphics outvif;model y=x1 x2 x3/ridge=0 to 0.1 by 0.01;plot/ridgeplot;run;proc print data=rrresult;run;

Page 64: 第 7 章  最小二乘估计的改进

注:在岭回归以及主成分回归中,若所有自变量以及因变量的量纲一致,则可以不用预先对数据进行标准化处理。

Page 65: 第 7 章  最小二乘估计的改进
Page 66: 第 7 章  最小二乘估计的改进

岭迹

Page 67: 第 7 章  最小二乘估计的改进

取 k=0.04, 可得 page 174 的标准化数据的岭回归方程 .

若在岭回归程序中把 data=std 更换为data=p163, 则可直接得到 page 174 里原始数据的岭回归方程 (page 163例 7.1 中四个变量的量纲都是:十亿法郎 ).

Page 68: 第 7 章  最小二乘估计的改进
Page 69: 第 7 章  最小二乘估计的改进

主成分回归在 SAS 中的实现proc reg 选项;model y= 自变量 /pcomit= 给定数字 选项;run;

reg 选项有 data= 数据集 , outest= 输出数据集

pcomit=k 表示删除最后面的 k 个主成分model 选项有 outvif 表示输出 vif 到输出数据

集中

Page 70: 第 7 章  最小二乘估计的改进

例 7.1 的主成分回归data p163;input x1 x2 x3 y;cards;… /* 数据省略 */;run;proc standard m=0 std=1 out=std;run;proc reg data=std;model y=x1 x2 x3/vif collinoint;run;proc reg data=std outest=prinresult;model y=x1 x2 x3/pcomit=1 outvif;run;proc print data=prinresult;run;

Page 71: 第 7 章  最小二乘估计的改进
Page 72: 第 7 章  最小二乘估计的改进

x1-x3的 vif 都已很小,此时可得到page 180 的回归方程 (7.3.10)

Page 73: 第 7 章  最小二乘估计的改进

若在主成分回归的程序中把 data=std 更换为data=p163, 则直接可以得到原始数据的主成分回归方程 (7.3.11).

Page 74: 第 7 章  最小二乘估计的改进