第三章 两变量线性回归

66
1 第第第 第第第第第第第

description

第三章 两变量线性回归. 本章主要内容. 第一节 两变量线性回归模型 第二节 参数估计 第三节 最小二乘估计量的性质 第四节 回归拟合度评价和决定系数 第五节 统计推断 第六节 预测. 第一节 两变量线性回归模型. 为什么学习两变量线性回归模型 1. 模型建立 2. 模型假设. 1. 模型建立. 建立两变量线性回归模型必须有理论和现实根据 一个例子: 凯恩斯绝对收入假设消费理论:消费( Y )是由收入( X )唯一决定的,是收入的线性函数: Y =  +  X 要利用经验和数据分布情况来判断变量间的关系是否是线性关系。. - PowerPoint PPT Presentation

Transcript of 第三章 两变量线性回归

1

第三章 两变量线性回归

2

本章主要内容 第一节 两变量线性回归模型 第二节 参数估计 第三节 最小二乘估计量的性质 第四节 回归拟合度评价和决定系数 第五节 统计推断 第六节 预测

3

第一节 两变量线性回归模型 为什么学习两变量线性回归模型 1. 模型建立 2. 模型假设

4

1. 模型建立 建立两变量线性回归模型必须有理论和现实

根据 一个例子: 凯恩斯绝对收入假设消费理论:消费( Y )

是由收入( X )唯一决定的,是收入的线性函数:

Y = + X 要利用经验和数据分布情况来判断变量间

的关系是否是线性关系。

5

年份 可支配收入 消费性支出

year

x y

1981

637 585

1982

659 576

1983

686 615

1984

834 726

1985

1075 992

1986

1293 1170

1987

1437 1282

1988

1723 1648

1989

1976 1812

1990

2182 1936

1991

2485 2167

1992

3009 2509

1993

4277 3530

1994

5868 4669

1995

7172 5868

1996

8159 6763

1997

8439 6820

1998

8773 6866

1999

10932 8248

2000

11718 8868

2001

12883 9336

2002

13250 10464

例 3-1 上海市人均居民收入和人均消费支出数据( 1981-2002 )

6

0

2000

4000

6000

8000

10000

12000

0 4000 8000 12000 16000

X

Y

Y vs. X

上海市人均居民收入和人均消费支出数据的散点图( Eviews 软件应用演示)

7

非线性函数的处理⑴ 变量置换 例如,描述税收与税率关系的拉弗曲线:抛

物线 s = a + b r + c r2 c<0 s :税收; r :税率 设 X1 = r , X2 = r2 , 则原方程变换为 s = a + b X1 + c X2 c<0 变量置换仅用于变量非线性的情况。

8

非线性函数的处理 ( 续 )⑵ 函数变换

例如, Cobb-Dauglas 生产函数:幂函数 Q = AKL

Q :产出量, K :投入的资本; L :投入的劳动

方程两边取对数: Ln Q = Ln A + Ln K + Ln L

9

非线性函数的处理 ( 续 )(3) 级数展开

例如,不变替代弹性 CES 生产函数:

方程两边取对数后,得到:

对在 ρ=0 处展开泰勒级数,取关于 ρ 的线性项,

即得到一个线性近似式。

Q A K L ( )

1 2

1

LnQ LnA Ln K L 11 2

( )

Ln K L( ) 1 2

10

非线性函数的处理 ( 续 )

211 2 1 22ln ln ln ln (ln( ))

KY A m K m L m

L

0 1 1 2 2 3 3Z X X X

变量置换得到

(3) 级数展开 ( 续)

11

结论 实际经济活动中的许多问题,都可以最终化

为线性问题,所以,线性回归模型有其普遍意义。

即使对于无法采取任何变换方法使之变成线性的非线性模型,目前使用得较多的参数估计方法——非线性最小二乘法,其原理仍然是以线性估计方法为基础。

线性模型理论是计量经济学的基础。

12

变量关系的随机性(1) 在经济问题中精确的因果关系实际上不存在。 人类经济行为本身的随机性;两变量线性关系 通常只是

抓了主要矛盾,而忽略的其他众多因素的影响。(2) 正确的计量经济模型应该是随机模型: Y = + X + ; 为随机扰动项。 其中,线性函数 Y = + X 也称为“趋势部分”,是研究的主要目标和对象,随机误差项 代表影响 Y 的各种较小因素的综合。

(3) 线性回归分析的对象是随机线性函数关系这点很重要。因为变量关系不是严格的函数关系,因此这种关系生成的数据多数不会落在同一条直线上。

13

变量关系随机性的原因 客观现象本身的随机性。 模型本身的局限性。 模型函数形式的设定误差。 数据的测量与归并误差。 随机因素的影响(如自然灾害等)

14

2. 模型假设(1) 变量间存在随机函数关系 Y= + X + ,对两变量的所有观察数据组 (xi yi)(i=1,2…,n)都成立,其中 是随机误差项;

(2) 对应每组变量观测值数据的误差项 i ,都为零均值的随机变量,即 i 数学期望 E(i)=0, 对 i=1,…n 都成立;

(3)误差项 i 方差为常数,即 Var(i)=E(i-E(i))2=E(i2) =σ2 ;

(4)误差序列不相关, Cov(i, j)=0 i≠j ,j=1,2, …,n;(5)X 是确定性的,非随机变量;(6)误差项 i 服从正态分布。

15

对假设的深入讨论1. 前五条假设是古典线性回归模型的基本假定;2. 假设( 2 )的含义是3. 假设( 3 )的意义是对应不同观测数据组误差项分布的发散趋势相同,或有相同形状的概率密度函数

( )i iE Y X

16

假设( 2 ) : 误差项均值为零的情形

.

X1

E(Yi|Xi) = α + Xi

Yf(Y)

X

17

违反假设( 2 )的情形

.

X1

E(Yi|Xi) = α + Xi

Yf(Y)

X

18

假设( 3 ) : 同方差情形

..

X1 X2

E(Yi|Xi) = α + Xi

Yf(Y)

X

19

违反假设( 3 )的情形

..

X1 X2

E(Yi|Xi) = α + Xi

Yf(Y)

X

20

对假设的深入讨论 ( 续 )4. 假设( 4 )的意义是对应不同观测值的误差

项之间没有相关性;

5. 假设( 5)和( 6)都是为了回归分析和统计推断的方便而要求的的假设 。

21

重要提示 几乎没有哪个实际问题能够同时满足所有基本假设; 通过模型理论方法的发展,可以克服违背基本假设带来

的问题; 对违背基本假设问题的处理构成了单方程线性计量经济

学理论方法的主要内容: 异方差问题(违背同方差假设) 序列相关问题(违背序列不相关假设) 共线性问题(违背解释变量不相关假设) 随机解释变量(违背解释变量确定性假设) 0均值、正态性假设是由模型的数理统计理论决定。

22

第二节 参数估计 1. 最小二乘估计 2. 消费函数参数估计

23

1. 最小二乘估计 (OLS) 给定一组样本观测值 Xi, Yi( i=1,2,…n),要求样本回归函数尽可能好地拟合这组值,即样本回归线上的点与真实观测点的“总体误差”尽可能地小。

2 2 2

[ ] [ ( )]

ii i i ii i i

V e Y Y Y a bX

二者之差的平方最小二乘法原理: 和

=

最小。

24

1. 最小二乘估计 (OLS)( 续 )2

ii

e核心:残差平方和 最小。

22min ( )

0

0

i i ii i

V e Y a bX

V

aV

b

一阶条件为:

25

1. 最小二乘估计 (OLS)( 续 )

0

0

ii

i ii

e

e X

利用残差记号 ei 可以把正规方程组写为:

正规方程组

2 ( ) 0i i

VY a bX

a

2 ( ) 0i i i

VY a bX X

b

( ) 0i iY a bX ( ) 0i i iY a bX X

26

参数 α和 β的最小二乘估计量 a 和 b

2 2 2

( )( )

( )

i i i ii i

i ii i

Y Y X X X Y nXYb

X X X nX

a Y bX

2

i i

i i i i

Y na b X

X Y a X b X

由正规方程组得到:

解得:

27

一个重要的推论

0

0

ii

i ii

e

e X

由残差记号 ei表示的正规方程组

可知: ( ) 0ii i i i i ii i i i

e Y e a bX a e b e X

28

2. 消费函数参数估计 两变量的线性回归模型为: Y = + X + ; 例 3-1操作演示

(1) 根据最小二乘估计量公式手动计算 和 的估计值 (Excel软件操作演示 )

(2) Eviews软件操作演示

29

第三节 最小二乘估计量的性质 1. 最小二乘估计的线性性 2. 最小二乘估计的无偏性 3. 最小二乘估计的最小方差性 4. 最小二乘估计的一致性

30

高斯—马尔可夫定理 (Gauss-Markov theorem) 在满足古典线性回归模型的基本假定 ( 前

五条假设 )条件下,最小二乘估计量是具有最小方差的线性无偏估计量。

31

1. 最小二乘估计的线性性 参数估计量 a 和 b 可以表示为被解释变量观

测值 Yi的线性组合。 意义:参数估计量与被解释变量服从相同名

称的分布,与误差项服从相同的分布。

32

1. 最小二乘估计的线性性 ( 续 )

2 2 2

2

( )( ) ( )

( ) ( ) ( )

, ( )

1 1 ( )

1 ,

i i i ii i i

iii i i

i i i

ii i i

iii

i i i i ii i i

i i i ii

Y Y X X Y X XX X

YX X X X X X

X XY

X X

Y bX Y X Y X Yn n

V X V Yn

令 则 =

令 则 =

的线性性:

的线性性:

b

a

b

a

a

b

33

1. 最小二乘估计的线性性 ( 续 )

22

0 ( ) 1

1

( )

1 0

i i

i i i i ii i i

ii i

i

i i ii i

V

X X X

X X

V V X

与 有用的一些性质:

34

2. 最小二乘估计的无偏性

( )

( ) ( ) ( )

0

i i i i i i i ii i i i

i ii

i i i ii i

b X X

E b E E

的无偏性证明:b

[ ] [ ]E a E b 无偏性:参数估计量的期望就是真实值即 ,

35

2. 最小二乘估计的无偏性 ( 续 )

( )

( ) ( ) ( )

0

i i i i i

i

i i

i i i i ii i i i i

ii

i ii i

a V Y V X V V X V

V

E a E V V E

的无偏性证明:a

36

3. 最小二乘估计的最小方差性

2 2 2

2

2 2 2 21 1 1 1 2 2 1 1 3 3

2 2

2 2 2 2 2

( ) ( ( )) ( ) ( )

( )

( 2 2 ... )

0 ( )

( ) ( ) ( )

i ii

i ii

n n

i i j

i i i i ii i i

b E b E b E b E

E

E

E E i j

b E E

的方差:

又因为 , 当 时

所以, = = =

b

Var

Var

37

3. 最小二乘估计的最小方差性 ( 续 )

( ) ( )

( ) ( ) ( )

( )

( )

0

i ii

i i ii

i i i i ii i i

i i i i ii i i

i i ii i

i i ii i

w Y

E b E w X

E w E w X E w

w w X w E

w w X

b E b

w w X

=

是 的无偏估计量,因此 ,则

令b

1

38

3. 最小二乘估计的最小方差性 ( 续 )

2 2 2

2

2 2 2 21 1 1 1 2 2 1 1 3 3

2 2

( )

( ) ( ( )) ( ) ( )

( )

( 2 2 ... )

i i i i i i i ii i i i

i ii

i ii

i ii

n n

i i j

b w X w w X w

w

b E b E b E b E w

E w

E w w w w w w

E E

因此,

的方差:

又因为 ,

Var

b

2 2 2 2 2

0 ( )

( ) ( ) ( )i i i i ii i i

i j

b E w w E w

当 时

所以, = = = Var

39

3. 最小二乘估计的最小方差性 ( 续 )2 2 2 2

2 2 2 2 2

2 2 2

2

2 2 2

( ) ( )

( ) 2 ( )

( ) ( ) 2 ( )

( )

1 1

( ) ( ) ( ) (

= = -

= - -

= - -

- = -

= - = -

i i i ii i

i i i i i ii i i

i i i i ii i

i i i i i ii i i

i i i ii

i ii i ii i i

b w w

w w

w b w

w w

X X w X w Xw

X X X X X X X

Var

Var

2

2 2

)

1 10

( ) ( )

= - =

ii

i ii i

X

X X X X

40

3. 最小二乘估计的最小方差性 ( 续 )

2 2 2 2

2 2 2 2 2

2 2

( ) ( )

( ) 2 ( )

( ) ( ) ( )

i i i ii i

i i i i i ii i i

i ii

b w w

w w

w b b

a

可得:

= = -

= - -

= -

同理,可证 的方差最小。高斯-马尔可夫定理证毕!

Var

Var Var

41

小结最小二乘估计量具有线性性、无偏性、最小方差性优良性质。具有这些优良性质的估计量又称为最佳线性无偏估计量,即 BLUE 估计量( the Best Linear Unbiased Estimators )。显然这些优良的性质依赖于对模型的基本假设。

全部估计量

线性无偏估计量

BLUE估计量

42

4. 最小二乘估计的一致性

n

nn

n n

ˆ θ θ 0

ˆ θ θ 0

ˆ ˆθ θ θ

lim

n

P

定义 是 的估计,任意给定 ,当 时,

若 ,

则称 为参数 的一致估计量, 具有一致性。

2 2 2

2

2 2 2 2

2

2

( ) ( ( )) ( ) ( )

( )

( )

( )

i ii

i ii

i i ii i

ii

b

b E b E b E b E

E

E

X X

证明 的一致性:

Var

43

4. 最小二乘估计的一致性 ( 续 )

2

2

2

2 2

2 2 2n

( )

( ) 0( )

( ) ( ( )) ( ) P 0

lim

ii

ii

X X

bX X

E b E b E b bb

a

当n 时, ,因此

由契贝晓夫不等式,可得,任意给定 0,

同理,可证 的一致性。

Var

Var

44

第四节 回归拟合度评价和决定系数 1. 拟合度评价的意义 2. 决定系数 ( 拟合优度 )

45

1. 拟合度评价的意义 模型假设成立时,最小二乘估计是两变量线性回归

参数比较理想的估计。 但在模型假设成立前提下的最小二乘估计的性质并

不能保证以最小二乘估计为核心的回归分析的可靠性和价值。

评价回归分析、参数估计优劣的根本标准,是回归直线对样本数据的吻合程度,也称为“拟合度” 。

拟合度是检验模型变量关系真实性,判断模型假设是否成立的重要方法。

46

2. 决定系数 ( 拟合优度 ) (1)离差分解

2

2

2

( )

ˆ( )

ˆ( )

i

i

i i

SST Y Y

SSE Y Y

SSR Y Y

总离差平方和:

解释平方和:

残差平方和:

= +SST SSE SSR离差分解:

47

证明: SST = SSE + SSR

22

2

2 2

ˆ ˆ

ˆ

ˆ ˆ 2

ˆ 2

2

2

2 2

i i i i

i i

i i i i

i i

i i

i i

i i i

SST y y y y y y

e y y

y y e y y e

SSE e y y SSR

SSE e a bX a bX SSR

SSE b e X X SSR

SSE b e X bX e SSR

0 0

SSE SSR

SSE SSR

48

2. 决定系数 ( 拟合优度 )( 续 ) (2) 决定系数 ( 拟合优度 )R2 的定义

2

22 2 2 2 2

2 2 2 2

1

1

ˆ( ) ( ) ( )

( ) ( )i i i

i i i

SST SSE SSR

SSE SSR

SST SSTSSE SSR

RSST SST

Y Y b X X b X nXSSE

SST Y Y Y Y Y nY

Excel软件操作演示与 Eviews软件操作演示

49

第五节 统计推断 1. 最小二乘估计量 a,b 的分布 2.误差项方差的估计 3. 置信区间估计 4. 假设检验

50

1. 最小二乘估计量 a,b 的分布

22 2

2

2

2

( )

ar( )( )

( , )( )

i i i ii i

ii i

i

ii

b Y

E b

V bX X

b NX X

的分布:

回顾:线性性

期望

方差

可知:

b

51

1. 最小二乘估计量 a,b 的分布 ( 续 )

2 2 2 2

2 2 2 2 2 22

( )

1 ar( ) ( )

1 1 1 ( 2 ) ( 0 )

i ii ii i

i ii i

i i ii i

a V Y V

E a

V a V Xn

X X Xn n n

的分布:

回顾:线性性

期望

方差

a

22

2

22

2

1 ( )

( )

1 ( , ( ))

( )

ii

ii

X

n X X

Xa N

n X X

可知:

52

1. 最小二乘估计量 a,b 的分布 ( 续 )

2 2

22

2

(0,1)( )

(0,1)1

( )( )

b

ii

a

ii

b

bZ N

X X

a

aZ N

X

n X X

可化为标准正态分布的随机变量

也可化为标准正态分布的随机变量

53

2.误差项方差的估计 σ2 为误差项 ε i 的方差,未知,用 为其估计量 ( 无偏)

( )

( )

( ) ( )( )

( ) ( )

ii i i i i

i i i

i i

i i j jj

e Y Y X a bX

Y X X Y bX bX

X X b

X X

2

2

2

ii

eS

n

54

2.误差项方差的估计 ( 续 )2

2

2 2 2

2 2 2 2

2

( ) ( )

( ) ( ) ( ) 2[( )( )( )]

( ) [( ) ( )] 2 [ ( )( )]

( 1)

i i i j ji i j

i i j j i i j ji j j

i i j j i i j ji i j i j

E e E X X

E X X X X

E E X X E X X

n

2 2

2 2

2 2

2

2

2 2

( ) 2 ( )( ) ( )

( 2)

( 2)

i ii ii i

i i

ii

X X X XX X X X

n

eES E

n

55

2.误差项方差的估计 ( 续 )2 2

2 2

22

2

( )

1

( )( )

b

ii

a

ii

S t

bt t

S X X

at t

XS

n X X

用 代替 ,可得到 统计量

分布

分布

Eviews软件操作演示

一些问题?

为什么?

56

3. 置信区间估计

0.025

2 0.0252 2 2 2

2 2 2 20.025 0.025

( ) ( )

( ) ( )

b

i ii i

i ii i

t t

bbt t t

S X X S X X

b t S X X b t S X X

假设要求置信度为95%,显著性水平为1-95%=5%,则双侧t检验临界值为 ,根据 分布的意义有

57

4. 假设检验0 1

0.0252 2 2 2

0.025

H =0, H 0

5

( 2)( ) ( )

(20) 2.086

b

i ii i

bbt t n

S X X S X X

t

双侧检验:原假设 : 备择假设 :

显著性水平取 %,则

0 H 检验原假设 :为某一非零特定值的方法与上面的方法类似

58

第六节 预测 1.点预测 2.点预测的性质 3.区间预测

59

1.点预测 预测就是以估计出参数的线性回归模型为基

础,对应解释变量特定水平、未来值的被解释变量水平进行估计判断。

检验模型时通常把观测数据分成两部分,一部分用来进行回归估计参数,一部分用来进行预测和评估模型的预测效果。

60

1.点预测 ( 续 )

* *

* * * * *

*

ˆ

ˆ ( )

Y a bX

e Y Y Y a bX

Y

点预测公式

预测误差

由于 未知,因此预测误差也未知。

(演示)

61

2.点预测的性质 (1) 线性性 (2) 无偏性 (3) 最小方差性

62

(1) 线性性

*

* * * *

*

2

ˆ

1ˆ ( )

( )( )1

( )

i

ii

ii i i

i ikk

Y Y

Y a bX Y bX bX Y b X Xn

X X X XY Y

n X X

是一个线性预测,仍然可以表示为 的线性组合。

63

(2) 无偏性

* * * * * *

* * *

* *

ˆ ˆ( ) ( ) ( ) ( ) 0

ˆ( ) ( )

( ) [( ) ] ( )

0

E Y Y E Y E e E Y Y

E e E Y Y

E a E b X E

即 或

64

(3) 最小方差性

* * * 2 *2 *

*2 * *

2 *2 *2 2 2 2

2 2 2

* 22

2

ˆ ˆ( ) ( ) ( ) ( )

( ) ( ) ( ) 2 ( , )

1 2

( ) ( ) ( )

1 ( ) 1

( )

i i ii i i

ii

Var Y E Y Y E e Var e

Var a X Var b Var X Cov a b

X X XX

n X X X X X X

X X

n X X

65

3.区间预测 有了上述对点预测量性质的分析,我们可以与构造参数的区间估计一样,构造对 的预测置信区间,或者说“区间预测”。

先将 标准化为服从标准正态分布的统计量,然后用 代替 ,得到服从 t分布的统计量。

*Y 2S2

*Y

* * * **

* 2 * 22 2

2 2

ˆ

1 ( ) 1 ( )1 1

( ) ( )i ii i

Y Y a bX Yt

X X X XS S

n X X n X X

66

*2

* 2* 2 *

2 2

* 2* 2

2 2

0.05 0.01

( 2)

1 ( )1

( )

1 ( )1

( )

ii

ii

n

t t n Y

X Xa bX t S Y

n X X

X Xa bX t S

n X X

根据样本容量 ,以及显著性水平 或 ,

查分布临界值表得 ,则 的预测区间为:

3.区间预测 ( 续 )

(演示)