第十五章 多元线性回归分析

50
第第第第 第第第第第第第第 (Multiple Linear Regression)

description

第十五章 多元线性回归分析. ( Multiple Linear Regression ). Content. Multiple linear regression Choice of independent variable Application. 讲述内容 第一节 多元线性回归 第二节 自变量选择方法 第三节 多元线性回归的应用 及其注意事项. 目的 :作出以多个自变量估计应变量的多元线性回归方程。 资料 :应变量为定量指标;自变量全部或大部分为定量指标,若有少量定性或等级指标需作转换。 用途 :解释和预报。 - PowerPoint PPT Presentation

Transcript of 第十五章 多元线性回归分析

Page 1: 第十五章  多元线性回归分析

第十五章 多元线性回归分析(Multiple Linear Regression)

Page 2: 第十五章  多元线性回归分析

• Multiple linear regression

• Choice of independent variable • Application

Page 3: 第十五章  多元线性回归分析

讲述内容

第一节 多元线性回归第二节 自变量选择方法第三节 多元线性回归的应

用 及其注意事项

Page 4: 第十五章  多元线性回归分析

目的:作出以多个自变量估计应变量的多元线性回归方程。

资料:应变量为定量指标;自变量全部或大部分为定量指标,若有少量定性或等级指标需作转换。

用途:解释和预报。 意义:由于事物间的联系常常是多方面的,一

个应变量的变化可能受到其它多个自变量的影响,如糖尿病人的血糖变化可能受胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂等多种生化指标的影响。

Page 5: 第十五章  多元线性回归分析

第一节   多元线性回归

Page 6: 第十五章  多元线性回归分析

• 变量:应变量 1 个,自变量 m 个,共 m+1 个。• 样本含量: n• 数据格式见表 15-1• 回归模型一般形式:

eXXXY mm 22110

上式表示数据中应变量 Y 可以近似地表示为自变量

mXXX ,,, 21 的线性函数。

0 为常数项, m,,, 21 为偏回归系数,表示在其它自

变量保持不变时, jX 增加或减少一个单位时 Y 的平均变

化量, e是去除 m个自变量对 Y影响后的随机误差(残差)。

一、多元线性回归模型

Page 7: 第十五章  多元线性回归分析

例号 X1 X2 … Xm Y

1 X11 X12 … X1m Y1 2 X21 X22 … X2m Y2

┇ ┇ ┇ … ┇ ┇

n Xn1 Xn2 … Xnm Yn

表 15-1 多元回归分析数据格式

条件(1) Y 与 mXXX ,,, 21 之间具有线性关系。

(2)各例观测值 ),,2,1( niY i 相互独立。

(3)残差 e 服从均数为 0、方差为 2 的正态分布,它等价于对任意

一组自变量 mXXX ,,, 21 值,应变量 Y 具有相同方差,并且服从正态

分布。

Page 8: 第十五章  多元线性回归分析

一般步

(1)求偏回归系数 mbbbb ,,,, 210

mm XbXbXbbY 22110ˆ

建立回归方程

(2) 检验并评价回归方程及各自变量的作用大小

Page 9: 第十五章  多元线性回归分析

二、多元线性回归方程的建立

例 15-1 27 名糖尿病人的血清总胆固

醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表 15-2 中,试建立血糖与其它几项指标关系的多元线性回归方程。

Page 10: 第十五章  多元线性回归分析

总胆固醇 甘油三脂 胰岛素 糖化血 血糖

(mmol/L) (mmol/L) (μ U/ml) 红蛋白(%) (mmol/L) 序号 i

X1 X2 X3 X4 Y 1 5.68 1.90 4.53 8.2 11.2 2 3.79 1.64 7.32 6.9 8.8 3 6.02 3.56 6.95 10.8 12.3 4 4.85 1.07 5.88 8.3 11.6 5 4.60 2.32 4.05 7.5 13.4 6 6.05 0.64 1.42 13.6 18.3 7 4.90 8.50 12.60 8.5 11.1 8 7.08 3.00 6.75 11.5 12.1 9 3.85 2.11 16.28 7.9 9.6

10 4.65 0.63 6.59 7.1 8.4 11 4.59 1.97 3.61 8.7 9.3 12 4.29 1.97 6.61 7.8 10.6 13 7.97 1.93 7.57 9.9 8.4 14 6.19 1.18 1.42 6.9 9.6 15 6.13 2.06 10.35 10.5 10.9 16 5.71 1.78 8.53 8.0 10.1 17 6.40 2.40 4.53 10.3 14.8 18 6.06 3.67 12.79 7.1 9.1 19 5.09 1.03 2.53 8.9 10.8 20 6.13 1.71 5.28 9.9 10.2 21 5.78 3.36 2.96 8.0 13.6 22 5.43 1.13 4.31 11.3 14.9 23 6.50 6.21 3.47 12.3 16.0 24 7.98 7.92 3.37 9.8 13.2 25 11.54 10.89 1.20 10.5 20.0 26 5.84 0.92 8.61 6.4 13.3 27 3.84 1.20 6.45 9.6 10.4

表 15-2 27 名糖尿病人的血糖及有关变量的测量结果

Page 11: 第十五章  多元线性回归分析

222110

2 )]([)ˆ( mm XbXbXbbYYYQ

mYmmmmm

Ymm

Ymm

lblblbl

lblblbl

lblblbl

2211

22222121

11212111

)( 22110 mm XbXbXbYb

求偏导数

( )( ) , , j=1,2, ,m

( )( ) , 1, 2 ,

i jij i i j j i j

jjY j j j

X Xl X X X X X X i

n

X Yl X X Y Y X Y j m

n

4321 6382027060351501424094335 X.X.X.X..Y

原 理最小二乘法

Page 12: 第十五章  多元线性回归分析

三、假设检验及其评价

0 1 2: 0mH ,

1 : jH j =1, 2, , m)各 ( 不全为 0,

0.05

1. 方差分析法:

残回总 SSSSSS

( MS

MS

mnSS

mSSF

)1/

/

(一)对回归方程

)1(~ mn,mFF

Page 13: 第十五章  多元线性回归分析

变异来源 自由度 SS MS F P

总变异 n-1 SS 总

回 归 m SS 回 SS 回 /m MS 回/MS 残

残 差 n-m-1 SS 残 SS 残 /(n-m-1)

表 15-4 例 15-1 的方差分析表 变异来源 自由度 SS MS F P

总变异 26 222.5519

回 归 4 133.7107 33.4277 8.28 <0.01

残 差 22 88.8412 4.0382

表 15-3 多元线性回归方差分析表

查F界值表得 31.4)22,4(01.0 F , 31.4F , 01.0P ,在 05.0

水平上拒绝H0,接受H1认为所建回归方程具有统计学意义。

( 0.05)

( 0.05)

Page 14: 第十五章  多元线性回归分析

10 2 R , 说 明 自 变 量 mXXX ,,, 21 能 够

解 释 Y 变 化 的 百 分 比 , 其 值 愈 接 近 于 1 , 说 明

模 型 对 数 据 的 拟 合 程 度 愈 好 。 本 例

6008.05519.222

7107.1332 R

表 明 血 糖 含 量 变 异 的 6 0 % 可 由 总 胆 固 醇 、 甘 油

三 脂 、 胰 岛 素 和 糖 化 血 红 蛋 白 的 变 化 来 解 释 。

2 1SS SS

RSS SS

回 残

总 总

2. 决定系数 R 2 :

Page 15: 第十五章  多元线性回归分析

3. 复相关系数

可用来度量应变量 Y与多个自变量间的线性相

关程度,亦即观察值Y与估计值Y之间的相关程度。

计算公式: 2RR ,本例 7751060080 ..R

若m=1自变量,则有 |r|R ,r为简单相关系数。

Page 16: 第十五章  多元线性回归分析

(二)对各自变量 指明方程中的每一个自变量对 Y 的影响(即方差分析和决定系数检验整体)。

含义 回归方程中某一自变量jX的偏回归平方和表示模型中含有其它m-1个自变量的条件下该自变量对Y的回归贡献,相当于从回归方程中剔除jX后所引起的回归平方和的减少量,或在m-1个自变量的基础上新增加jX引起的回归平方和的增加量。

1. 偏回归平方和

Page 17: 第十五章  多元线性回归分析

)( jXSS回 表示偏回归平方和,其值愈大说

明相应的自变量愈重要。

( )/1

/ ( 1)j

j

SS XF

SS n m

一般情况下,m-1个自变量对Y的回归平方和由重新建立的新方程得到,而不是简单地把

jjXb从有m个自变量的方程中剔出后算得。

1 2 1, 1n m

Page 18: 第十五章  多元线性回归分析

平 方 和 ( 变 异 ) 回 归 方 程 中

包 含 的 自 变 量 S S 回 S S 残

① 4321 X,X,X,X 1 3 3 . 7 1 0 7 8 8 . 8 4 1 2 ② 432 X,X,X 1 3 3 . 0 9 7 8 8 9 . 4 5 4 0 ③ 431 XX,X 1 2 1 . 7 4 8 0 1 0 0 . 8 0 3 8 ④ 421 XX,X 1 1 3 . 6 4 7 2 1 0 8 . 9 0 4 7 ⑤ 321 XX,X 1 0 5 . 9 1 6 8 1 1 6 . 6 3 5 1

表 15-5 对例 15-1 数据作回归分析的部分中间结果

各自变量的偏回归平方和可以通过拟合包含不同自变量的回归方程计算得到,表 15-5 给出了例 15-1数据分析的部分中间结果。

Page 19: 第十五章  多元线性回归分析

1 1 2 3 4 2 3 4( ) ( , , , ) ( , , )

1 3 3 . 7 1 0 7 - 1 3 3 . 0 9 7 8 = 0 . 6 1 2 9

S S X S S X X X X S S X X X

回 回 回

2 1 2 3 4 1 3 4( ) ( , , , ) ( , , )

1 3 3 . 7 1 0 7 - 1 2 1 . 7 4 8 0 1 1 . 9 6 2 7

S S X S S X X X X S S X X X

回 回 回

3 1 2 3 4 1 2 4( ) ( , , , ) ( , , )

1 3 3 . 7 1 0 7 - 1 1 3 . 6 4 7 2 2 0 . 0 6 3 5

S S X S S X X X X S S X X X

回 回 回

4 1 2 3 4 1 2 3( ) ( , , , ) ( , , )

1 3 3 . 7 1 0 7 - 1 0 5 . 9 1 6 8 2 7 . 7 9 3 9

S S X S S X X X X S S X X X

回 回 回

152.0)1427(/8412.88

1/6129.01

F , 962.2

)1427/(8412.88

1/9627.112

F

968.4)1427/(8412.88

1/0635.203

F , 883.6

)1427/(8412.88

1/7939.274

F

结果

Page 20: 第十五章  多元线性回归分析

2. t 检验法 是一种与偏回归平方和检验完全等价的一种方法。计算公式为

jb

jj S

bt

检验假设:

H0:0j ,jt服从自由度为 1mn 的t分

布。如果 12 mn,/j t|t| ,则在(0.05)水平上拒绝H0,接受H1,说明jX与Y有线性回归关系。

jb为偏回归系数的估计值,jbS是jb的标准误。

Page 21: 第十五章  多元线性回归分析

390036560

142401 .

.

.t

7211

20420

351502 .

.

.t

2292

12140

270603 .

.

.t

6232

24330

638204 .

.

.t

结 果

结 论

0742222050 .t ,/. ,074.2||34 tt ,P值均小于0.05,说明3b和4b有统计学意义,而1b和2b则没有统计学意义。

Page 22: 第十五章  多元线性回归分析

3 .标准化回归系数 变量标准化是将原始数据减去相应变量的均数,然后再除以该变量的标准差。

' ( )j jj

j

X XX

S

计算得到的回归方程称作标准化回归方程,相应的回归系数即为标准化回归系数。

Y

jj

YY

jjjj S

Sb

l

lbb '

标准化回归系数没有单位,可以用来比较各个自变

量 jX 对Y的影响强度,通常在有统计学意义的前提下,

标准化回归系数的绝对值愈大说明相应自变量对 Y的作

用愈大。

Page 23: 第十五章  多元线性回归分析

注意: 一般回归系数 有单位,用来解释各自变量

对应变量的影响,表示在其它自变量保持不变时, 增加或减少一个单位时 Y 的平均变化量 。不能用各 来比较各 对 的影响大小。

标准化回归系数无单位,用来比较各自变量对应变量的影响大小, 越大, 对 的影响越大。

jXjbjX

Yjb jX

Y

Page 24: 第十五章  多元线性回归分析

11.5934S,22.5748S,33.6706S,41.8234S,2.9257YS

0776.09257.2

5934.11424.0'

1 b

3093092572

57482351502 .

.

..b '

3395092572

67063270603 .

.

..b '

3977092572

82341638204 .

.

..b '

结论

结果显示,对血糖影响大小的顺序依次为糖化血红

蛋白)(4X、胰岛素)(3X、甘油三脂)(2X和总胆固醇)(1X。

Page 25: 第十五章  多元线性回归分析

第二节    自变量选择方法

目的:使得预报和(或)解释效果好

Page 26: 第十五章  多元线性回归分析

一、全局择优法

目的:预报效果好意义:对自变量各种不同的组合所建立

的回归方程进行比较 择优。选择方法:

1.校正决定系数 2cR 选择法

2. pC 选择法

Page 27: 第十五章  多元线性回归分析

1.校正决定系数2cR选择法,其计算公式为

MS

MS

pn

nRRc

11

1)1(1 22

n为样本含量,2R为包含 )( mpp 个自

变量的回归方程的决定系数。2cR的变化规

律是:当2R相同时,自变量个数越多2cR越

“ ”小。所谓最优回归方程是指2cR最大者。

Page 28: 第十五章  多元线性回归分析

2 . pC 选 择 法

)]1(2[)(

)( pn

MS

SSC

m

p

p

pSS )( 残 是 由 )( mpp 个 自 变 量 作 回 归

的 误 差 平 方 和 , mMS )( 残 是 从 全 部 m 个 自

变 量 的 回 归 模 型 中 得 到 的 残 差 均 方 。

当由p个自变量拟合的方程理论上为最优时,

pC的期望值是p+1,因此应选择pC最接近p+1的回

归方程为最优方程。如果全部自变量中没有包含对Y

有主要作用的变量,则不宜用pC方法选择自变量。

Page 29: 第十五章  多元线性回归分析

例 15-2 用全局择优法对例 15-1 数据的自变量进行选择。 方程中的 自变量

2cR pC 方程中的

自变量 2cR pC

X2,X3,X4 0.546 3.15 X2,X3 0.408 9.14

X1,X2,X3,X4 0.528 5.00 X1,X3 0.375 10.78

X1,X3,X4 0.488 5.96 X4 0.347 11.63

X1,X2,X4 0.447 7.97 X1 0.284 14.92

X1,X4 0.441 7.42 X1,X2 0.275 15.89

X2,X4 0.440 7.51 X3 0.231 17.77

X3,X4 0.435 7.72 X2 0.179 20.53

X1,X2,X3 0.408 9.88

m = 4 , 故 回 归 方 程 拟 合 数 为 42 1 2 1 1 5m 。 最 优 组 合均 为 X 2, X 3, X 4, 即由 甘 油三 脂、 胰

岛 素 和 糖化 血 红蛋 白 与血 糖 建立 的 回归 方 程 最优 。

Page 30: 第十五章  多元线性回归分析

二、逐步选择法

1.

1. 前进法,回归方程中的自变量从无到有、从少到多逐个引入回归方程。此法已基本淘汰。 2.  后退法,先将全部自变量选入方程,然后逐步剔除无统计学意义的自变量。 剔除自变量的方法是在方程中选一个偏回归平方和最小的变量,作 F 检验决定它是否剔除,若无统计学意义则将其剔除,然后对剩余的自变量建立新的回归方程。重复这一过程,直至方程中所有的自变量都不能剔除为止。理论上最好,建议使用采用此法。 3. 逐步回归法,逐步回归法是在前述两种方法的基础上,进行双向筛选的一种方法。该方法本质上是前进法。

Page 31: 第十五章  多元线性回归分析

检验水准的设置:小样本定为0.10或0.15,大样本定

为0.05。

值定得越小表示选取自变量的标准越严,被选入的自

变量个数相对也较少;反之,值定得越大表示选取自变量

的标准越宽,被选入的自变量个数也就相对较多。

注意:选入自变量的检验水准入要小于或等于剔除自变

量的检验水准出。

Page 32: 第十五章  多元线性回归分析

例15-3 试用逐步回归方法分析例15-1数据

( 100.入 , 15.0出 )。

步骤 (l) 引入 变量 剔除 变量 变量 个数p

2R ()( )lSS Xj回 ()lSS残

F值 P值

1 X4 1 0.372 82.714 139.837 14.788 0.0007

2 X1 2 0.484 25.076 114.762 5.244 0.0311

3 X3 3 0.547 13.958 100.804 3.185 0.0875

4 X2 4 0.601 11.963 88.841 2.962 0.0993

5 X1 3 0.598 0.613 88.841 0.152 0.7006

表 15-7 逐步回归过程

Page 33: 第十五章  多元线性回归分析

变异来源 自由度 SS MS F P

总变异 26 222.5519

回 归 3 133.098 44.366 11.41 0.0001

残 差 23 89.454 3.889

表 15-8 例 15-3 方差分析表

“ 最优”回归方程为

432 6632.02871.04023.04996.6ˆ XXXY 结果表明:血糖的变化与甘油三脂、胰岛素和糖化血红蛋白有线性回归关系,其中与胰岛素负相关。由标准化回归系数看出,糖化血红蛋白对空腹血糖的影响最大。

Page 34: 第十五章  多元线性回归分析

表 15-9 例 15-3 的回归系数的估计及检验结果 变 量 回归 系数b 标准误

bS 标准回

归系数'b t值 P值

常数项 6.4996 2.3962 0 2.713 0.0124

X2 0.4023 0.1540 0.3541 2.612 0.0156

X3 -0.2870 0.1117 -0.3601 -2.570 0.0171

X4 0.6632 0.2303 0.4133 2.880 0.0084

Page 35: 第十五章  多元线性回归分析

第三节

多元线性回归的应用及注意事项

Page 36: 第十五章  多元线性回归分析

一、多元线性回归的应用

Page 37: 第十五章  多元线性回归分析

1. 影响因素分析

• 例如影响高血压的因素可能有年龄、饮食习惯、吸烟状况、工作紧张度和家族史等,在影响高血压的众多可疑因素中,需要研究哪些因素有影响,哪些因素影响较大。

Page 38: 第十五章  多元线性回归分析

• 在临床试验中,则可能由于种种原因难以保证各组的指标基线相同,如在年龄、病情等指标不一致出现混杂的情况下,如何对不同的治疗方法进行比较等。

• 这些问题都可以利用回归分析来处理。控制混杂因素 (confounding factor) 的一个简单办法就是将其引入回归方程中,与其他主要变量一起进行分析

Page 39: 第十五章  多元线性回归分析

2. 估计与预测

• 如由儿童的心脏横径、心脏纵径和心脏宽径估计心脏的表面积;由胎儿的孕龄、头颈、胸径和腹径预测出生儿体重等。

Page 40: 第十五章  多元线性回归分析

3. 统计控制 逆估计。 • 例如采用射频治疗仪治疗脑肿瘤,脑皮

质的毁损半径与射频温度及照射时间有线性回归关系,建立回归方程后可以按预先给定的脑皮质毁损半径,确定最佳控制射频温度和照射时间。

Page 41: 第十五章  多元线性回归分析

二、多元线性回归应用的注意事项

(1)定量,非线性 线性

(2)定性,转为定量:(0,1)变量,哑变量,伪变量,指示变量。

1 .指标的数量化

分 2 类,可用一个( 0 , 1 )变量。如性别0

1 X

女 分 k 类, k-1 个( 0 , 1 )变量,如血型。

血型 X1 X2 X3

O 0 0 0 A 1 0 0 B 0 1 0

AB 0 0 1

Page 42: 第十五章  多元线性回归分析

编号 X1 X2 X3 Y 1 1 0 0 2 0 0 0 3 0 1 0 n 0 0 1

数据格式回归方程

建立回归方程

0 1 1 2 2 3 3Y b b X b X b X

b1 :相当 A 型相对于 O 型的差别b2 :相当 B 型相对于 O 型的差别b3 :相当 AB 型相对于 O 型的差别

Page 43: 第十五章  多元线性回归分析

( 3 )等级 定量。 一般是将等级从弱到强转换为 (或 )如文化程度分为小学、中学、大学、大学以上四个等级。 Y 为经济收入。

1

1 2 3

X

小学中学大学

4 大学以上

0 1 1Y b b X

解释: b(b1) 反映 X ( X1 ) 增加 1 个单位, 增加 b 个单位(如: 500 元)。 表示中学文化较小学收入多 5

00 , 大学较中学多 500 ,余类推。

,3,2,1X

,2,1,0X

Y

Page 44: 第十五章  多元线性回归分析

哑变量 X1 X2 X3

小学 0 0 0

中学 1 0 0

大学 0 1 0

大学以上 0 0 1

b1,b2,b3 分别反映中学、大学、大学以上相对于小学文化程度者经济收入差别的大小

也可将 K个等级转换为 K-1个( 0, 1)变量

Page 45: 第十五章  多元线性回归分析

• 2 .样本含量 : n =(5~ 10)m 。• 3 .关于逐步回归 : 对逐步回归得到的结果不要盲

目的信任,所谓的“最优”回归方程并不一定是最好的,没有选入方程的变量也未必没有统计学意义。例如,例 15-3 中若将选入标准和剔除标准定为

• 和 选入的变量是 , 而不是 , 结果发生了改变。

• 不同回归方程适应于不同用途,依专业知识定。

05.0入 10.0出41, XX

4321 ,,, XXXX

Page 46: 第十五章  多元线性回归分析

• 4. 多重共线性 即指一些自变量之间存在较强的线性关系。如高血压与年龄、吸烟年限、饮白酒年限等,这些自变量通常是高度相关的,有可能使通过最小二乘法建立回归方程失效,引起下列一些不良后果:

• ( 1 )参数估计值的标准误变得很大,从而 t 值变得很小。• ( 2 )回归方程不稳定,增加或减少某几个观察值,估计值

可能会发生很大的变化。• ( 3 ) t 检验不准确,误将应保留在模型中的重要变量舍弃。• ( 4 )估计值的正负符号与客观实际不一致。

消除多重共线性:剔除某个造成共线性的自变量,重建回归方程;合并自变量;采用逐步回归方法。

Page 47: 第十五章  多元线性回归分析

5.变量间的交互作用

为了检验两个自变量是否具

有交互作用,普遍的做法是在方程

中加入它们的乘积项。

Page 48: 第十五章  多元线性回归分析

如对表15-2数据的分析,已经选出甘油三酯 )( 2X、胰岛素 )( 3X和

糖化血红蛋白 )( 4X三个变量,在方程中加入 43XX 项,如果这一乘积

项显著,则说明胰岛素和糖化血红蛋白之间有交互作用。为此需要定

义一个新的变量 43XXZ ,按方程

ZbXbXbXbbY Z 4433220ˆ

估计参数。若经检验,拒绝0H: 0z ,便可认为除3X和4X的主效应

外还有交互作用。本例结果为

ZXXXY 1785.05097.12267.13690.07898.0ˆ432

经检验Z的作用显著(P <0.01),说明糖尿病患者体内胰岛素对血糖

的影响依赖于糖化血红蛋白的含量。

Page 49: 第十五章  多元线性回归分析

6.残差分析 即 iii YYe ˆ 。

在正常情况下 ie服从均值为 0,方

差为 2 的正态分布。标准化残差

残MS

ee i

i '

为纵坐标,以 iY 为横坐标作残差图

进行分析。

Page 50: 第十五章  多元线性回归分析