第九章 线性回归分析与方差分析

87
第第第 第第第第第第第第第第第 第第第第第第第 第第第 第第第第第第第第第第 第第第 第第第第第第第第 第第第 第第第第

description

第九章 线性回归分析与方差分析. 第一节 一元线性回归分析 第二节 可线性化的非线性回归 第三节 多元线性回归简介 第四节 方差分析. 第一节 一元线性回归分析. 在许多实际问题中,我们常常需要研究多个变量之间的相互关系。 一般来说,变量之间的关系可分为两类: 一类是确定性关系,确定性关系是指变量之间的关系可以用函数关系来表达,例如电流 I 电压 V 电阻 R 之间有关系式 V=IR 。 另一类是非确定性关系,有些变量之间的关系是非确定性的关系,这种关系无法用一个精确的函数式来表示。. - PowerPoint PPT Presentation

Transcript of 第九章 线性回归分析与方差分析

Page 1: 第九章 线性回归分析与方差分析

第九章 线性回归分析与方差分析

第一节 一元线性回归分析 第二节 可线性化的非线性回归第三节 多元线性回归简介第四节 方差分析

Page 2: 第九章 线性回归分析与方差分析

第一节 一元线性回归分析

在许多实际问题中,我们常常需要研究多个变量之间的相互关系。

一般来说,变量之间的关系可分为两类:一类是确定性关系,确定性关系是指变量之间的关

系可以用函数关系来表达,例如电流 I 电压 V 电阻 R 之间有关系式 V=IR 。

另一类是非确定性关系,有些变量之间的关系是非确定性的关系,这种关系无法用一个精确的函数式来表示。

Page 3: 第九章 线性回归分析与方差分析

例如,农作物的单位面积产量与施肥量之间有密切的关系,但是不能由施肥量精确知道单位面积产量,这是因为单位面积产量还受到许多其他因素及一些无法控制的随机因素的影响。

又如,人的身高与体重之间存在一种关系,一般来说,人身高越高,体重越大,

但同样高度的人,体重却往往不同。这种变量之间的不确定性关系称之为相关关系。

对于具有相关关系的变量,虽然不能找到他们之间的确定表达式,但是通过大量的观测数据,可以发现他们之间存在一定的统计规律,数理统计中研究变量之间相关关系的一种有效方法就是回归分析。

Page 4: 第九章 线性回归分析与方差分析

一、 一元线性回归模型

其中 yi是 x=xi 时随机变量 Y 的观测结果 .将 n 对观测结果( xi, yi )( i=1,…,n )在直角坐标系中进行描点,这种描点图称为散点图 .散点图可以帮助我们精略地看出 Y与 x 之间的某种关系 .

假定我们要考虑自变量 x 与因变量 Y 之间的相关关系假设 x 为可以控制或可以精确观察的变量,即 x 为普通的变量。由于自变量 x 给定后,因变量 Y 并不能确定,从而 Y 是一个与 x 有关的随机变量我们对于可控制变量 x 取定一组不完全相同的值 x1,…, xn ,作 n 次独立试验,得到 n 对观测结果:( x1,y1 ) ,( x2,y2 ),…,( xn, yn )

Page 5: 第九章 线性回归分析与方差分析

例 1 对某广告公司为了研究某一类产品的广告费 x用与其销售额 Y 之间的关系,对多个厂家进行调查,获得如下数据

厂 家 1 2 3 4 5 6 7 8 9

广告费 6 10 21 40 62 62 90 100 120

销售额 31 58 124 220 299 190 320 406 380

广告费与销售额之间不可能存在一个明确的函数关系,事实上,即使不同的厂家投入了相同的广告费,其销售额也不会是完全相同的。影响销售额的因素是多种多样的,除了广告投入的影响,还与厂家产品的特色、定价、销售渠道、售后服务以及其他一些偶然因素有关。

Page 6: 第九章 线性回归分析与方差分析

画出散点图如图 9-1 所示 . 从图中可以看出,随着广告投入费 x 的增加,销售额 Y 基本上也呈上升趋势,图中的点大致分布在一条向右上方延伸的直线附近 . 但各点不完全在一条直线上,这是由于 Y 还受到其他一些随机因素的影响 .

这样, Y 可以看成是由两部分叠加而成,一部分是 x 的线性函数 a+bx ,另一部分是随机因素引起的误差 ,即 Y=a+bx+

o x

y

100

200

300

400

500

20 40 60 80 100 120

L

***

* ** *

* *

这就是所谓的一元线性回归模型

图 9-1

Page 7: 第九章 线性回归分析与方差分析

相互独立ni

iii

N

nibxay

,,),0(~

,,1

12

一般地,假设 x与 Y 之间的相关关系可表示为 bxaY (1)

其中: a, b 为未知常数 2),0(~ 2 N为随机误差且 未知,

x与 Y 的这种关系称为一元线性回归模型y=a+bx 称为回归直线 b 称为回归系数

),(~ 2bxaNY 此时

对于( x, Y )的样本( x1, y1 ),…,( xn, yn )有:

Page 8: 第九章 线性回归分析与方差分析

一元线性回归主要解决下列一些问题: ( 1 )利用样本对未知参数 a、 b 、 进行估计; ( 2 )对回归模型作显著性检验; ( 3 )当 x=x0 时对 Y 的取值作预测,即对 Y 作区间估计 .

2

ba ˆ,ˆxbay ˆˆˆ

如果由样本得到式( 1 )中, a, b 的估计值 ,则称 为拟合直线或经验回归直线,它可作为回归直线的估计

Page 9: 第九章 线性回归分析与方差分析

二、 参数 a、 b、 的估计

最小二乘法就是选择 a, b 的估计 ,使得Q(a, b) 为最小(图 9-2 )

ba ˆ,ˆ

2

现在我们用最小二乘法来估计模型( 1 )中的未知参数 a,b.

n

i

n

iiii bxaybaQQ

1 1

22 )(),( 记

称 Q(a, b) 为偏差平方和

Page 10: 第九章 线性回归分析与方差分析

图 9-2

Page 11: 第九章 线性回归分析与方差分析

0)2()(),(

0)2()(),(

1

1

i

n

iii

n

iii

xbxaybaQb

bxaybaQa

为了求 Q( a, b )的最小值,分别求 Q 关于a, b 的偏导数,并令它们等于零:

经整理后得到

式( 2 )称为正规方程组 .

n

iii

n

ii

n

ii

n

ii

n

ii

yxbxax

bbxna

11

2

1

11 ( 2)

Page 12: 第九章 线性回归分析与方差分析

n

ii

i

n

ii

xx

yyxxb

1

2

1

)(

)()(ˆ

xbya ˆˆ

n

i

n

iii y

nyx

nx

1 1

1,

1

由正 规方程组解得

其中

Page 13: 第九章 线性回归分析与方差分析

用最小二乘法求出的估计 、 分别称为 a、 b 的最小二乘估计

a b

由矩估计法,可用 估计2E

n

iin 1

21

)(ˆˆˆˆ xxbyxbay 此时,拟合直线为2下面再用矩法求 的估计

22 ED 由于

, a、 b 分别由 、 代入i i iy a bx a b而

2

n

iii xbay

n 1

22 )ˆˆ(1故 可用 作估计

Page 14: 第九章 线性回归分析与方差分析

对于估计量 、 、 的分布,有:a b 2

定理 1

n

ii

n

i

xxn

xaNa

1

2

1

21

2

)(,~ˆ

( 1 )

n

ii xx

bNb

1

2

2

)(,~ˆ ( 2 )

)2(~ˆ 222

nn

( 3 )

2 a b( 4 ) 分别与 、 独立。

Page 15: 第九章 线性回归分析与方差分析

323.0ˆ b 37.4ˆ a 064.4ˆ 2

2例 2 在例 1 中可分别求出 a、 b 、 的估计值为:

故经验回归直线为:

Y=4.37+0.323x

Page 16: 第九章 线性回归分析与方差分析

三、线性回归的显著性检验

在实际问题中,事先我们并不能断定 Y与 x 确有线性关系, Y=a+bx+ 只是一种假设 .

下面说明这一检验的方法 .

当然,这个假设不是没有根据的,我们可以通过专业知识和散点图来作出粗略判断 .

但在求出经验回归方程后,还需对这种线性回归方程同实际观测数据拟合的效果进行检验 .

Page 17: 第九章 线性回归分析与方差分析

若假设 Y=a+bx+ 符合实际,则 b 不应为零

因为如果 b=0 ,则 Y=a+ 意味着 Y与 x 无关

所以 Y=a+bx 是否合理,归结为对假设:

0:1 bHH0: b=0

进行检验

下面介绍检验假设 H0 的二种常用方法 .

Page 18: 第九章 线性回归分析与方差分析

)1,0(~

)(

ˆ

1

2

N

xx

bn

ii

)2(~ˆ 222

nn

且 与 独立b 2

1. t检验法

若 H0 成立,即 b=0 ,由定理 7.1 知,

Page 19: 第九章 线性回归分析与方差分析

)2(||2

ntT

)2(~

2/ˆ

)(

ˆ

22

1

2

nt

nn

xx

b

T

n

ii

因而

)2(||2

ntTP故 为显著性水平

即得 H0 的拒绝域为

Page 20: 第九章 线性回归分析与方差分析

n

ii

n

ii

n

iii

YYxx

YYxxR

1

2

1

2

1

)()(

))((

2 .相关系数检验法取检验统计量

通常称 R 为样本相关系数 .

类似于随机变量间的相关系数, R 的取值 r反映了自变量 x 与因变量 Y 之间的线性相关关系 .可以推出 :在显著性水平 下 , 当 | |r r 时拒绝 H0

r其中临界值 在附表 8 中给出

相关系数检验法是工程技术中广泛应用的一种检验方法

Page 21: 第九章 线性回归分析与方差分析

( 1) x对 Y没有显著影响;( 2) x对 Y 有显著影响,但这种影响不能用线性相关关系

来描述;( 3 )影响 Y 取值的,除 x外,另有其他不可忽略的因素 .

当假设 被拒绝时,就认为 Y与 x 存在线性关系,从而认为回归效果显著;

0:0 bH

若接受 H0 ,则认为 Y与 x 的关系不能用一元线性回归模型来描述,即回归效果不显著 .此时,可能有如下几种情形:

因此,在接受 H0 的同时,需要进一步查明原因分别处理,此时,专业知识往往起着重要作用 .

Page 22: 第九章 线性回归分析与方差分析

四、 预测

000 bxay ),0(~ 20 N

00ˆˆˆ xbay

当经过检验发现回归效果显著时,通过回归模型可对 Y 的取值进行预测 .即当 x=x0 时,对 Y 作区间估计 .

设当 x=x0时 Y 的取值为 y0 ,有

可以取经验回归值

Page 23: 第九章 线性回归分析与方差分析

)2(~

)(

)(11ˆ

2

ˆ

1

2

20

00

nt

xx

xx

nn

n

yyT

n

ii

1)2(||2

ntTP

作为 y0 的预测值 . 可以证明

从而可得

Page 24: 第九章 线性回归分析与方差分析

))(),(( 0000 xyxy

n

ii xx

xx

nn

nntx

1

2

20

2

0

)(

)(11ˆ

2)2(ˆ)(

1所以,给定置信概率 , Y0 的置信区间为

其中

)(2 0x可以看出在 x0处 y 的置信区间的长度为xx 0当 时置信区间的长度最短,估计最精确,

置信区间愈长,估计的精度愈差。

Page 25: 第九章 线性回归分析与方差分析

22

)2( unt xx 0 12

n

n

)ˆˆ,ˆˆ(2

0

2

0 uyuy

x当 n很大且 x0 位于 附近时,有

1于是 y0 的置信概率为 的预测区间近似为

Page 26: 第九章 线性回归分析与方差分析

)05.0( 例 3 检验例 2 中的回归效果是否显著,当 x0=80 时,求出 Y0 的预测区间。

解 经计算 T=16.9 r=0.98

查表,得t0.025( 9) =2.26 r0.05=0.602

易见, t检验法、相关系数检验法都拒绝 H0 ,即回归效果显著。

21.31ˆ0 y于是,当 x0=80 时, y0 的预测值为

y0的 95% 的预测区间为( 24.73, 35.69 )

Page 27: 第九章 线性回归分析与方差分析

第二节 可线性化的非线性回归

在实际问题中,常常会遇到这样的情形:散点图上的几个样本数据点明显地不在一条直线附近,而在某曲线周围: 或者,用线性回归方程描述变量间的关系计算的结果与样本值误差较大,这表明变量之间不存在线性相关关系,而是一种非线性的相关关系 .下面举例说明对这类问题用线性化处理的方法。

Page 28: 第九章 线性回归分析与方差分析

例 1 在彩色显像技术中,考虑析出银的光学密度 x 与形成染料光学密度 Y 之间的相关关系,其中 11 个样本数据如下所示:

xi 0.05 0.06 0.07 0.10 0.14 0.20 0.25 0.31 0.38 0.43 0.47

yi 0.10 0.14 0.23 0.37 0.59 0.79 1.00 1.12 1.19 1.25 1.29

解 根据这 11 个样本数据点( xi,yi ) 作 出 散 点 图 ( 图 9-3) .

图 9-3

从散点图上看出,这些数据点在一条曲线 L周围 .

Page 29: 第九章 线性回归分析与方差分析

xy

1lnln

根据有关的专业知识,结合散点图,可以认为曲线 L 大致为:

xey

)0,(

对上式两边取对数:

yy lnx

x1

lna b令

xbay 即有:

Page 30: 第九章 线性回归分析与方差分析

0.250.220.170.110.00-0.24-0.53-0.99-1.47-1.97-2.30

2.132.332.633.234.005.007.1410.0014.2916.6720.00x

x1

yy ln

于是数据( )相应地变换成( )ii yx , ii yx ,

将变换后的数据点( )画出散点图(图 9-4 )ii yx ,

从散点图可以看出 与 具有线性相关关系,因此用一元线性回归分析 .

x y

利用一元线性回归的方法可以计算出 与 的经验回归方程为 xy 15.058.0

x y图 9-4

Page 31: 第九章 线性回归分析与方差分析

可求得 x与 y 之间相关关系的一个经验公式:

79.158.0 eea

15.0 b

xey15.0

79.1

这里 a=0.58, b= -0.15

所以

Page 32: 第九章 线性回归分析与方差分析

3′32.1″2′13.9″1′42.4″43.86″19.72″9.95″时间 t(分′秒″)15001000800400200100距离 x(米)

例 2 赛跑是大家熟知的一种体育活动。下表给出了截至 1997年底在 6 个不同的距离上中短跑成绩的世界记录:

试根据这些记录数据分析出运动员的赛跑成绩与所跑距离间的相关关系。

Page 33: 第九章 线性回归分析与方差分析

解 根据记录数据点( xi, ti )作出散点图 ( 图9-5)

图 9-5

从散点图上看出,全部点( xi, ti )分布在一条曲线附近,因而 x与 t 之间可以存在一种线性关系。

我们用一无线性回归分析,可计算出 x与 t间的线性回归模型为 t=-99.9+0.1455x

Page 34: 第九章 线性回归分析与方差分析

由此模型,当 x=100,200,400,800,1000,1500(米 ) 时,t 的理论值分别为 :

4.56″, 19.10″,48.20″,1'46.4″,2'15.5″,3'28.2″可以看出 t 的理论值与实际记录数据多数都比较接近。仔细分析,可发现线性回归模型的一些不合理之处。

如:当赛跑距离小于 68米时,所需时间为负值;当赛跑距离为 100米时所需时间只须 4.56″.

再仔细分析,发现:短距离 100米、 200米及长距离1500米需要的时间实际值均高于线性模型的理论值,而中间的 400米、 800米、 1000米需要的时间实际值均低于线性模型的理论值 .

它告诉我们 x与 t 的关系可能为一曲线,且曲线是下凸的。具有这种性质的最简单曲线当属幂函数:t=axb

Page 35: 第九章 线性回归分析与方差分析

它告诉我们 x与 t 的关系可能为一曲线,且曲线是下凸的。

对上式二边取对数

lnt=lna+blnx

令 t′=lnt a′=lna x′=lnx

得 t′= a′+bx 为一线性关系

具有这种性质的最简单曲线当属幂函数:t=axb

Page 36: 第九章 线性回归分析与方差分析

aea 用一元线性回归分析估计 a′、 b ,从而算出最后可得 t与 x 间的幂函数模型:

t=0.48x1.145

当 x=100, 200, 400, 800, 1000, 1500 (米)时,

利用幂函数模型算出 t 的理论值分别为:

9.39″,20.78″,45.96″,1'41.68″, 2'11.29′,3'28.88″

比较计算结果可知:幂函数模型比线性回归模型更能确切地反映 t与 x 间的关系。

Page 37: 第九章 线性回归分析与方差分析

第三节 多元线性回归简介

其中 b0, b1,…, bp , 为与 x1,…, xp 无关的未知参数。

2

假定要考察 p 个自变量 x1, x2,…, xp 与因变量 Y之间的相关关系。

pp xbxbbY 110 ),0(~ 2 N设

这就是 p 元线性回归模型

Page 38: 第九章 线性回归分析与方差分析

iippii xbxbby 110 ),0(~ 2 Ni

对变量 x1,… xp,Y作 n 次观测得到样本值:

iip yxx ;,1 ( ) i=1,…, n

这里 y1,…, yn 独立、同分布,且有

ny

y

y

Y

2

1

npnn

p

p

xnx

xxx

xxx

X

21

22221

11211

1

1

1

pb

b

b

b1

0

n

2

1

为了简化数学处理,引进矩阵表示,记

Page 39: 第九章 线性回归分析与方差分析

XbY

则等式

iippii xbxbby 110 i=1,… ,n

可表示为

pbbb ,,, 10 用最小二乘法求未知参数的估计,即参数

n

i

Tippii XbYXbYxbxbbyQ

1

2110 )()()]([ 应使

为最小

Page 40: 第九章 线性回归分析与方差分析

YXXX

b

b

b

b TT

p

11

0

)(

ˆ

ˆ

ˆ

ˆ

pp xbxbbY ˆˆˆ110

根据高等数学中求最小值的方法,可求得 b0,b1,…, bp 的估计:

从而得到 Y与 x1,…, xp 的经验回归方程:

Page 41: 第九章 线性回归分析与方差分析

类似于一元线性回归,多元线性回归模型的假设是否符合实际,同时需要进行假设检验。 另外,在实际问题中,影响因变量 Y 的因素往往很多 . 如果将它们都取作自变量,必然会导致所得到的回归方程很复杂。 因而,我们应剔除那些对 Y 影响较小的自变量,保留对 Y 有显著影响的自变量,以便我们对变量间的相关变化有更明确的认识。 在此我们对多元性回归分析作一简单介绍 . 在实际问题中多元线性回归的应用非常广泛,有兴趣的读者可以查阅有关的专门书籍。

Page 42: 第九章 线性回归分析与方差分析

习题 9—1、 2 、 3

1.在一元线性回归模型中,试证:未知参数a、 b 的最小二乘估计恰是极大似然估计 .

2.通过原点的一元线性回归模型为

试由独立样本观测值( xi, yi )( i=1,2,…,n ),采用最小二乘法估计 b.

bxY ),0(~ 2 N

Page 43: 第九章 线性回归分析与方差分析

3.为了研究钢线含碳量(单位: %) x 对于电阻(单位:微欧) Y在 20℃ 下的效应,作了 7 次试验,得数据如下:

① 画出散点图; ② 求出经验回归方程; ③ 试求相关系数 R 的值,并在显著性水平

下检验 。 01.0

0:0 bH

xi 0.10 0.30 0.40 0.55 0.70 0.80 0.95

yi 15 18 19 21 22.6 23.8 26

Page 44: 第九章 线性回归分析与方差分析

4.某种产品在生产时产生的有害物质的重量(单位:克) Y 与它的燃料消耗量(单位:千克) x 之间存在某种相关关系。由以往的生产记录得到如下数据。

① 求经验回归方程; ② 试进行线性回归的显著性检验( ); ③ 试求 x0=340时 Y0 的预测区间( )。

01.005.0

xi 289 298 316 327 329 329 331 250

yi 43.5 42.9 42.1 39.1 38.5 38.0 38.0 37.0

Page 45: 第九章 线性回归分析与方差分析

5.气体的体积(单位:立方米) v 在压力(单位:标准大气压) p 之间的一般关系为pvk=c. 今对某种气体测试到下列数据:

试对参数 k, c 进行估计 .

vi 1.62 1 0.75 0.62 0.52 0.46

pi 0.5 1 1.5 2 2.5 3

Page 46: 第九章 线性回归分析与方差分析

6.今有 4 个物体,按下述方法称重,得到如下数据:

其中 1 表示该物体放在天平左端, -1 表示该物体放在天平右端, Y 是使天平达到平衡时,在天平右端所加砝码的重量。试用最小二乘法估计这 4 个物体的重量。

x1 X2 x3 x4 x5

1 1 1 1 20.2

1 -1 1 -1 8.0

1 1 -1 -1 9.2

1 -1 -1 1 1.4

Page 47: 第九章 线性回归分析与方差分析

第四节 方差分析

一、单因素方差分析

在实际问题中,影响一事物的因素往往是很多的。例如,在化工生产中,有原料成分、原料剂量、催

化剂、反应温度、压力、反映时间等因素,每一因素的改变都有可能影响产品的质量。

有些因素影响较大,有些影响较小 .

方差分析就是根据试验的结果进行分析,鉴别各有关因素对试验结果影响的有效方法。

Page 48: 第九章 线性回归分析与方差分析

在试验中,将要考察的指标称为试验指标,影响试验指标的条件称为因素

因素所处的状态称为该因素的水平如果试验仅考虑一个因素,则称为单因素试验,否则称为多因素试验 .

我们先讨论单因素试验

Page 49: 第九章 线性回归分析与方差分析

例 1 某消防队要考察 4 种不同型号冒烟报警器的反应时间(单位:秒)。今将每种型号的报警器 5个安装在同一条烟道中,当烟量均匀时观测报警器的反应时间,得数据如下:

报警器型号 反 应 时 间A1 (甲

型) 5.2 6.3 4.9 3.2 6.8

A2 (乙型) 7.4 8.1 5.9 6.5 4.9

A3 (丙型) 3.9 6.4 7.9 9.2 4.1

A4 (丁型) 12.3 9.4 7.8 10.8 8.5这里,试验的指标是报警器的反应时间,报警器为

因素。

Page 50: 第九章 线性回归分析与方差分析

4 种不同型号的报警器是因素的 4 个不同水平。这是一个单因素试验 .

我们要考察:

①各种型号的报警器的反应时间有无显著性差异?②如果各种型号的报警器的反应时间有显著性差异,那么何种型号的报警器最优?

Page 51: 第九章 线性回归分析与方差分析

4321 ,,,

43210 : H

43211 ,,,: H

上表中数据可看作来自 4 个不同总体(每个水平对应一个总体)的样本值,将各个总体均值依记为

则各型号报警器的反应时间有无显著性差异的问题相当于需检验假设

不全相等。

Page 52: 第九章 线性回归分析与方差分析

若再假定各总体均值为正态总体,且各总体方差相等,

那么这是一个检验同方差的多个正态总体均值是否相等的问题。

显然,检验假设 H0 可以用前面所讲的 t检验法,只要检验任何二个总体均值相等就可以了。

下面所要讨论的方差分析法就是解决这类问题的一种检验方法。

但是这样做要检验 3 次,比较繁琐 .

Page 53: 第九章 线性回归分析与方差分析

…总体均值…样本均值

Xs2X22X12

Xs1X21X11

As…A2A1 水平观测值

.SX

1 S2.2X

22nX

.1X

ssnX

11nX

设影响指标值的因素 A有 s 个水平 A1, A2,…, As

)2( ii nn在水平 Ai( i=1,…,s )下,进行 次独立试验,得样本 Xij, j=1,…, ni :

Page 54: 第九章 线性回归分析与方差分析

in

jij

i

i Xn

X1

1si ,1

s

i

n

jij

i

Xn

X1 1

1

s

iinn

1

假定水平 Ai 下的样本来自正态总体 , 未知,且不同水平 Ai 下的样本独立

),( 2 iN2, i

),(~ 2 iij NX有 j=1,…, ni i=1,……, s

Xij 相互独立

Page 55: 第九章 线性回归分析与方差分析

),0(~ 2 Nij

于是 ijiijX ij 为随机误差由假设

在方差分析中,为了便于推广到多因素试验的情形,习惯上又有下列表示式:

ijiijX j=1,…, ni i=1,……, s

ii

s

iiin

1

0

s

iiin

n 1

1 其中 称 为总平均

i s ,,1 称 为水平 Ai 的效应, 满足

Page 56: 第九章 线性回归分析与方差分析

0: 210 sH

s 21现在,要检验

等价于检验

sH ,,,: 211 不全为零

下面从平方和的分解着手 ,导出上述假设 H0 的检验方案

s

i

n

jijT

i

XXS1 1

2)~(记

ST 能反映全部试验数据之间的差异,因此称 ST 为总偏差平方和

Page 57: 第九章 线性回归分析与方差分析

s

i

n

jijT

i

XXS1 1

2)(

s

i

n

j

iiij

i

XXXX1 1

2)]()[(

s

i

n

j

iiij

i

XXXX1 1

2)]()[(

s

i

n

j

s

i

n

j

iiijiij

i i

XXXXXX1 1 1 1

2 ))((2)(

s

i

n

j

i

i

XX1 1

2)(

s

i

n

j

i

s

iiiij

i

XXnXX1 1

2

1

2 )()(

由于

Page 58: 第九章 线性回归分析与方差分析

s

i

n

j

iijE

i

XXS1 1

2)(

s

i

iiA XXnS1

2)(

于是有平方和分解式:ST=SE+SA

其中

称 SE 为误差平方和, SA 为因素 A的平方和

SE反映了各水平 Ai内由于随机误差而引起的抽样误差

SA反映了因素 A 的水平不同而引起的误差外加随机误差

Page 59: 第九章 线性回归分析与方差分析

定理 1

)(~1 2

2snSE

( 1 )

( 2) SE与 ST 相互独立;

01 s )1(~1 2

2sSA

( 3 )当 时, 。

Page 60: 第九章 线性回归分析与方差分析

0: 10 sH

)(

)1(

snS

sSF

E

A

为了检验

F~F( s-1, n-s )

当 H0 成立时,由定理 1 ,

直观上,当 H0 成立时,由因素水平的不同引起的偏差相对于随机误差而言可以忽略不计,即 F 的值应较小;反之,若 F 值较大,自然认为 H0 不成立。

Page 61: 第九章 线性回归分析与方差分析

),1( snsFF

若检验结果认为假设 H0 不成立,则可用 作为 的点估计,或者对 进行区间估计。

iX ii

),1( snsFFP由

得到:在显著性水平 下 H0 的拒绝域:

计算 F 的值可用表 9-1 所示的方差分析表

Page 62: 第九章 线性回归分析与方差分析

n-1ST总和

n-sSE误差

s-1SA因素 A

F值均方和自由度平方和偏差来源

1

s

SS A

A

sn

SS E

E

E

A

S

SF

表 9-1 单因素方差方析表

Page 63: 第九章 线性回归分析与方差分析

来源 平方和 自由度 均方和 F值因素 A 56.29 3 18.76

F=6.15误差 48.77 16 3.05

在实际应用中,一般在 下若仍不能拒绝 H0 时则接受原假设 H0

10.0

例 2 在例 1 中, s=4,n1=n2=n3=n4=5,n=20 ,经计算列方差分析表如下:

查表,得F0.10( 3.16) =2.46, F0.05( 3.16) =3.24

10.0 10.0从而在显著性水平 下检验结果拒绝 H0

Page 64: 第九章 线性回归分析与方差分析

28.51 X 56.62 X 30.63 X 76.94 X

28.5ˆ1 56.6ˆ 2 30.6ˆ 3 76.9ˆ 4

由方差分析可知, 4 种型号的报警器的反应时间确有显著性差异

计算:

即反应时间较短的是甲,丙次之

Page 65: 第九章 线性回归分析与方差分析

二、双因素方差分析

假定要考察两个因素 A、 B 对某项指标值的影响

因素 A取 s 个水平 A1, A2,…, As

因素 B取 r 个水平 B1, B2,…, Br

在 A、 B 的每对组合水平( Ai, Bj )上作一次试验,

试验结果为 Xij, i=1,…, s; j=1,…, r 。

所有 Xij 独立,数据列于下表:

Page 66: 第九章 线性回归分析与方差分析

XsrXs2Xs1As

………

X2r…X22X21A2

X1r…X12X11A1

Br…B2B1 因素 B因素 A

rX 2X1XjX

sX

2X

1X

iX

siXr

Xr

jiji ,,2,1

1

1

rjXs

Xr

iijj ,,2,1

1

1

其中

要考察因素 A、 B 是否指标值产生显著性影响?

Page 67: 第九章 线性回归分析与方差分析

),(~ 2 ijij NX设

ijijijX 则有),0(~ 2 Nij为随机误差,且

ij 相互独立 i=1,…, s j=1,… , r

再假定在水平组合( Ai, Bj )下的效应可以用水平 Ai

下的效应(记为 )与水平 Bj 下的效应(记为 )之和来表示,

i j

即 jiij

其中

s

i

r

jijrs 1 1

1

s

ii

1

0

r

jj

1

0

Page 68: 第九章 线性回归分析与方差分析

0: 2101 sH

0: 2102 rH

作假设

ij如果 H01 成立,那么 与 i 无关

这表明因素 A 对指标值无显著影响同样,作假设

ij如果 H02 成立,则 与 i 无关这表明因素 B 对指标值无显著影响

Page 69: 第九章 线性回归分析与方差分析

s

i

r

jijX

rsX

1 1

1

rs

jiijT XXS

1

2)(

s

i

iA XXrS1

2)(

r

j

jB XXsS1

2)(

s

i

r

j

jiijE XXXXS1 1

2)(

类似于单因素方差分析,通过下面的平方和分解式可以检验假设 H01, H02

Page 70: 第九章 线性回归分析与方差分析

EBAT SSSS

通过简单推导可以证明下列平方和分解式:

2SA 是由因素 A 的不同效应和 引起的偏差2SB 是由因素 B 的不同效应和 引起的偏差

而 SE 表示由 引起的偏差2

因此,可用比较 SA与 SE 的值来检验假设 H01

用比较 SB与 SE 的值来检验假设 H02

Page 71: 第九章 线性回归分析与方差分析

))1)(1((~1 2

2 rsSE

定理 2

( 1) ST, SA, SB 相互独立,且

)1(~1 2

2sS A

( 2 )当 H01 成立时,

)1(~1 2

2rSB

( 3 )当 H01 成立时,

Page 72: 第九章 线性回归分析与方差分析

)1)(1(),1(~)1)(1/(

1/

rssFrsS

sSF

E

AA

))1)(1(,1( rssFFA

由定理 2

))}1)(1(,1({ rssFFP A于是有

所以 H01 的拒绝域为

为显著性水平类似地,可给出 H02 的拒绝域:

))1)(1(,1( rsrFFB

其中)1)(1(

1

rsS

rSF

E

BB

Page 73: 第九章 线性回归分析与方差分析

总和

误差

因素B

因素A

F值均方和自由度平 方 和偏差来源

rs

jiijT XXS

.

1.

2)(

)1)(1(

rs

ES E

E)1)(1( rs

1

r

SS B

B

A

A

AS

SF

rs

ji

jiijE XXXXS,

1.

2)(

1

s

SS A

A

r

j

jsB XXS1

2)(

s

i

iA XXrS1

2)(

1r

E

B

BS

SF

1s

sr

表 9-2 双因素方差分析表

Page 74: 第九章 线性回归分析与方差分析

4339.537.536A3

39.53836.533.5A2

38.535.53532A1

B4B3B2B1氧化锌 B促进剂 A

例 3 在某种橡胶的配方中,考虑了 3 种不同的促进剂, 4 种不同的氧化锌 . 各种配方试验一次,测得300% 定强如下:

问不同促进剂、不同份量氧化锌分别对定强有无显著性影响?

Page 75: 第九章 线性回归分析与方差分析

来源 平方和 自由度 均方和 F值因素 A 28.3 2 14.15 FA=36.3

因素 B 66.1 3 22.03 FB=56.5

误差 2.35 6 0.39

总和 96.75 11

解 由题意,影响定强这一指标值的因素有二个:促进剂 A 、氧化剂 B

s=4,r=3 ,列出如下的方差分析表:

取 05.0 查表,得 F0.05(2,6)=5.14 F0.05(3,6)=4.76

比较可知 FA>5.14 FB>4.76

所以不同促进剂和氧化锌的不同份量对橡胶定强都有显著影响

Page 76: 第九章 线性回归分析与方差分析

jiij

在以上的双因素方差分析中,我们作了假定:

如果此式不能成立,则需考虑二个因素 A与B 在不同水平组合下的交互作用。

对有交互作用方差分析感兴趣的读者可进一步阅读有关的书籍

Page 77: 第九章 线性回归分析与方差分析

习 题 9-4

工厂 寿 命

A1 38 40 42 45 48

A2 26 28 30 32 34

A3 39 45 43 50 50

1.有 A1, A2, A3 3 个工厂生产同一型号的电池,各个随机抽取 5 个电池,测得使用寿命(单位:小时)如下:

问各厂生产的电池的使用寿命有无显著性差异?

Page 78: 第九章 线性回归分析与方差分析

2. 4 种大白鼠经不同剂量雌激素注射后的子宫重量(单位:克)如下:

试问:① 鼠种的影响是否显著? ② 剂量差异的影响是否显著?( ) 05.0

鼠种雌激素剂量(毫克 /100克)0.2 0.4 0.8

甲 106 116 445

乙 42 68 115

丙 70 111 133

丁 42 63 87

Page 79: 第九章 线性回归分析与方差分析

3.为了考察某种合金中碳的含量百分比(因子 A )与锑铝含量和的百分比(因子 B )对合金强度的影响,对因子 A取 3 个水平,因子 A取 4 个水平,在每个水平组合下做一次试验,得数据如下:

假设因子 A 与因子 B 无交互作用,试检验因子 A或 B 的效应是否显著(取 )?

A/B 3.3% 3.4% 3.5% 3.6%

0.03% 63.1 63.9 65.6 66.8

0.04% 65.1 66.4 67.8 69.0

0.05% 67.1 71.0 71.9 73.6

01.0

Page 80: 第九章 线性回归分析与方差分析

第九章总习题

1.在服装标准的制作过程中,调查了很多人的身材,得到了一系列服装各部位的尺寸与身高、胸围等的关系。下表给出的是一组女青年的身高 x 与裤长 y 的数据:

(1) 求裤长 y对 x 身高的线性回归方程。 (2) 在显著水平 下检验回归方程的显著性。

x 168 162 160 160 156 157 159 168 159 162 158 156 165 158 166

y 107 103 103 102 100 100 101 107 110 102 100 99 105 101 105

162 150 152 156 159 156 164 168 165 162 158 157 172 147 155

105 97 98 101 103 99 107 108 106 103 101 101 110 95 99

01.0

Page 81: 第九章 线性回归分析与方差分析

2.在镁合金 X光探伤中,要考虑透视电压 U 与透视厚度 l 之间的关系,做了 5 次试验,得对应数据如下

求 U对 l 的回归直线方程,并检验回归方程的显著性( )。

01.0

l 8 16 20 34 54

U 45 52.5 55 62.5 70

Page 82: 第九章 线性回归分析与方差分析

3.已知鱼的体重 y 与体长 x 有关系式 ,测得尼罗尼非鱼的生长的数据如下,求尼罗尼非鱼体重 y 与体长 x 的经验公式。

( )

axy

01.0

y/g 0.5 34 75 122.5 170 192 195

x/mm

29 60 124 155 170 185 190

Page 83: 第九章 线性回归分析与方差分析

4.设 x固定, y 为正态随机变量,对 x,y 有如下数据

( 1 )求 y对 x 的回归方程( 2 )求相关系数,检验线性关系的显著性( 3 )当 x=0.05 时,求 y的 95%的预测区间( 4 )若要求 | y | < 4, x应控制在何范围内。

x -2.0 0.6 1.4 1.3 0.1 -1.6 -1.7 0.7 -1.8 -1.1

y -6.1 -0.5 7.2 6.9 -0.2 -2.1 -3.9 3.8 -7.5 -2.1

Page 84: 第九章 线性回归分析与方差分析

5.设

其中 相互独立, 且 ,求 a和 b 的最小二乘估计。

33

22

11

2

2

ebay

ebay

eay

)3,2,1( iei2)(,0)( ii eDeE

Page 85: 第九章 线性回归分析与方差分析

6.电视机工程师对不同类型外壳的彩色显象管与传导率是否有差异感兴趣,测得四种类型的显象管,地传导率数据如下:

外壳类型对传导率有显著影响吗?( )05.0

类型 1 143 141 150 146

类型 2 152 144 137 143

类型 3 134 136 133 129

类型 4 129 128 134 129

Page 86: 第九章 线性回归分析与方差分析

7.教师对学生智力的评价是否影响学生智力的发展?为此任意抽取 18名学生进行试验,将这 18名学生随机地分为 3 组,每组 6名,先对每名学生测试智商,然后教师对第一组学生宣称他们在今后一年中智力不可能有较大提高,对第二组学生宣称有中等程度的提高,对第三组学生宣称他们将有很大的提高,一年后再对这些学生测试智商,两次智商测试成绩的差如下所示:

据此能否认为教师的评估影响了学生智力的发展?( )05.0

第一组 3 3 6 9 11 5

第二组 10 4 11 15 6 3

第三组 20 10 16 15 9 8

Page 87: 第九章 线性回归分析与方差分析

8.在四台不同的纺织机上,用三种不同的加压水平,测得不同机器在不同加压水平下的纱支强度数据如下:

问不同机器和不同加压水平对纱支强度有无显著影响?( )05.0

机器加压

B1 B2 B3 B4

A1 1577 1690 1800 1642

A2 1535 1640 1783 1621

A3 1592 1652 1810 1663