数据统计分析 初级统计及回归分析 顾世梁 2008.09

65
数数 数数数 数数 数数数 数数 数数数数数数 数数 数数数数数数 数数数 2008.09

description

数据统计分析 初级统计及回归分析 顾世梁 2008.09. 生物统计是关于试验的设计、实施,数据的收集、整理、分析和结果推论的科学。 从事试验研究,需要对处理(措施、技术)的效应给出一个明确的结论(显著与否)。 推论是先对研究对象的总体提出一种假设 (hypothesis) ,再对该假设进行测验 (test)— 以计算在假设总体中抽得实际样本 ( 统计数 ) 的概率来判断。. 1 几种常见的分布 概率计算比较复杂,生物统计中所用的概率计算主要利用变数分布进行。. 1.1 二项总体分布 ( 0 , 1 分布) - PowerPoint PPT Presentation

Transcript of 数据统计分析 初级统计及回归分析 顾世梁 2008.09

Page 1: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

数据统计分析数据统计分析初级统计及回归分析初级统计及回归分析

顾世梁2008.09

Page 2: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

生物统计是关于试验的设计、实施,数据的收集、整理、分析和结果推论的科学。

从事试验研究,需要对处理(措施、技术)的效应给出一个明确的结论(显著与否)。

推论是先对研究对象的总体提出一种假设(hypothesis) ,再对该假设进行测验 (test)— 以计算在假设总体中抽得实际样本 ( 统计数 ) 的概率来判断。

Page 3: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

1.1 二项总体分布( 0 , 1 分布)

若一个总体由 0 , 1两种元素组成,这样的总体称 0 , 1 总体。若取 1 的概率为 p ,记为P(1)=p ,则 P(0)=1-p=q ,p+q=1.

1 几种常见的分布几种常见的分布 概率计算比较复杂,生物统计中所用的概率计算主要利用变数分布进行。

2 (1 )p p pq p (1 )p p pq

Page 4: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

1.2 二项分布 (binomial distribution)

二项分布是指在 μ=p的二项总体中,以样本容量n 进行抽样,样本总和数 k (0≤k≤n)) 的概率分布。

2 npq np npq

( ) k k n knP k C p q

2 /pq n p /pq n

Page 5: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

1.3 普松分布 (poisson distribution)

若 n 很大, p 很小,其 np=m ,二项概率分布趋于普松分布。

( )!

km m

P k ek

2 m m m

Page 6: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

1.4 正态分布 (normal distribution)

若 p 接近 0.5 , n 很大,二项概率分布趋于正态分布。2

22

1 ( )( ) exp( )

22

xf x

2 2

21( ) exp( )

22

xf x

2 1 0

Page 7: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

正态分布是最重要的连续性变数的分布,原因有 3 :

1 、试验研究中很多变数 ( 性状 ) 服从正态分布;

2 、一些间断性变数在一定条件下趋于正态分布;

3 、一些变数本身不服从正态,但其统计数 ( 如平均数 ) 在一定条件下 ( 样本容量增大时 ) 趋于正态分布。

这第 3点是一个很重要的性质,因为我们将来对处理效应的推断,往往是以平均数(或其它统计数)进行的。在对样本容量较大的统计数进行统计推断时,可不必考虑原变数服从何种分布,统计假设测验均可在正态分布的基础上进行。

Page 8: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

了解一个变数(或一个统计数)服从某种分布,其目标是为了计算该变数(统计数)落在某一区间的概率。 P(a≤x≤b)=? ˆ( ) ?P a b

Page 9: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

1.5 学生氏 t 分布 ( t distribution)

( ) ( ),

x

x xu u

标准正态离差 服从正态分布。

~ (0,1)u N

上述 u 分布在实际应用中存在问题,最主要的是无法得到 σ ,人们自然想到用样本标准差 s 代替 σ

计算 u 值,进而计算概率(假设测验)。但经抽样试验发现,这种替代是有问题的,尤其是在小样本情况下, s 的变异度较大(而 σ 是常量)。它直接的效果是由此算出的值比 u 的变异度大。后经 WS Gosse

t (1908) 导出了该统计数( t )的概率密度函数 f(t) 。

Page 10: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

122

1( )

2( ) (1 )( / 2)

tf t

1

0( ) xx e dx

Page 11: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

00(| | ) 2 ( )

tP t t f t dt

Page 12: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

~ (0,1)u N 2 2 2 21 2 nu u u

2 / 2 12 2

/ 2

( ) 1( ) exp( )

2 ( / 2) 2f

1.6 卡方分布 (χ2 distribution)

2 22

2 2

( ) ( 1)x x n s

2 2 2 22 ~

1s

n v

Page 13: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

2122

sF

s

1.7 F 分布 ( F distribution, RA Fisher, 1923)1

1 2

1 2

1 2 12

/ 2 / 21 2 ( ) / 2

1 2 1 2

( )2( )

( / 2) ( / 2) ( )

v

Ff F

F v

Page 14: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

2 统计假设测验统计假设测验2.1 概念和基本步骤 我们在试验过程中获得了一个或多个样本 ( 统计数 ) ,其目的在于推断由此代表的总体(参数)。得出处理效应存在与否的定性结论。基本过程有 4 步:1 )对未知总体 ( 参数 ) 提出假设 H0:θ=θ0, HA:θ ≠θ0 ; H0: μ = μ0, HA: μ ≠ μ0 ;2 )设定一个否定 H0 假设的小概率标准(显著水平) α

( α =0.05 , α =0.01 );3 )计算在假设条件下比实得样本 ( 统计数 ) 还偏的概率p 。4 )根据 p 与 α 值的大小,接受或否定 H0 假设。

Page 15: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

2.2 几种常用的假设测验

0u

0

ˆ

ˆt

s

1 2 1 2ˆ : , , , , x x x d p p p

ˆs指的是该统计数的标准误,亦即该统计数分布的标准差。

Page 16: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

/x n

1 2

1 2

1 1x x n n

1 2

2x x

n

1 2

1 2

1 1x xs s

n n

/xs s n

/dds s n

1 2

1 2

:

:

:

:

x

x x

d

p

p p

0 0p̂

p q

n

1 2ˆ ˆ

1 2

1 1( )p ps pqn n

ttest(x, m0)

ttest2(x1, x1)

Page 17: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

2.3 假设测验的本质1 )显著性 00

ˆ 0 A

ˆ | | H

| | H , H

t tt

s t t

接受

否定 接受

ˆs

的大小是决定统计数与假设参数间、统计数间差异显著性的主要因素。试验研究中应尽量减小统计数的标准误。一是减小试验误差( s );二是增大样本容量( n )。

2 )假设测验的错误 利用概率进行测验,有些情况下会犯错误。当正确的假设被否定时,就犯了弃真错误( I 型错误 , α 错误);当错误的假设被接受时,就犯了取伪错误( II型错误 , β 错误)。犯两类错误的概率不同。

Page 18: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

3 3 方差分析方差分析 方差分析是将多个样本作为一个整体,将总变异分解成相应变异来源的平方和和自由度,得到各变异来源方差的数量估计,用 F 测验鉴别样本间的差异显著性。分三个内容:1 )分解平方和自由度,计算各变异来源的方差;其中 MSe( 或 se) 比较重要,它是测验组间效应存在与否的标准;2 ) F 测验 , F=MSt/MSe ;3 )多重比较,当 F 测验显著,应对处理平均数的差异显著性作进一步说明。

Page 19: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

3.1 单向分组资料的方差分析

处理 观察值 Ti xi

1 x11 x12 … x1j … x1n T1 x1

2 x21 x22 … x2j … x2n T2 x2

… … … … … … … … …

i xi1 xi2 … xij … xin Ti xi

… … … … … … … … …

k xk1 xk2 … xkj … xkn Tk xkxij 为第 i 个处理的第 j 个观察值, i=1,2,…,k, j=1,2,

…,n.

Data structure

ij i ijx

Page 20: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

T t eSS SS SS T t edf df df

1Tdf kn 2

2 2

1 1

( )( )

k n

T iji j

xSS x x x

kn

22 2

1

( )1( )

k

t i ii

xSS n x x T

n kn

2 2 2

1 1

1( )

2

k n

e ij i ii j

SS x x x T

1tdf k

( 1)edf k n

, t et e

t e

SS SSMS MS

df df t

e

MSF

MS

方差分析结果尽量以方差分析表表示。 anova1(x)

2| |i j

MSex x LSD t

n

Page 21: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

3.2 两向分组资料的方差分析

A\B 1 2 … j … n Ti xi

1 x11 x12… x1j

… x1n T1 x1

2 x21 x22… x2j

… x2n T2 x2

… … … … … … … … …

i xi1 xi2… xij

… xin Ti xi

… … … … … … … … …

k xk1 xk2… xkj

… xkn Tk xk

T.1 T.2 … T.j … T.n T xxij 为 A 因素第 i 个水平和 B 因素第 j 个水平组合( 处理 ) 的反应量, i=1,2,…,k ; j=1,2,…,n.

Data structure

ij i j ijx

Page 22: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

T t R eSS SS SS SS T t R edf df df df

1Tdf kn 2

2 2

1 1

( )( )

k n

T iji j

xSS x x x

kn

22 2

. .1

( )1( )

k

t i ii

xSS n x x T

n kn

e T t RSS SS SS SS

1tdf k

( 1)( 1)edf k n

, t et e

t e

SS SSMS MS

df df t

e

MSF

MS

Anova2(x) ,或 anova2(x,n) 。

2| |i j

MSex x LSD t

n

1Rdf n 2

2 2. .

1

( )1( )

n

R j jj

xSS k x x T

k kn

Page 23: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

3.3 系统分组资料的方差分析

xijk 为第 i 组、第 j 亚组、第 k 个反应量, i=1, 2,

…, l ; j=1,2,…,m ; k=1, 2, …, n.

Data structure

ij i ij ijkx

xijk

Page 24: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

T t d eSS SS SS SS T t d edf df df df

1Tdf lmn 2

2 2

1

( )( )

lmn

T ijkijk

xSS x x x

lmn

22 2

1

1( )

lij

t i ij ii

TSS mn x x T

mn n

e T t RSS SS SS SS

1tdf l

( 1)edf lm n

, t et e

t e

SS SSMS MS

df df t

e

MSF

MS

2| |i j

MSex x LSD t

n

( 1)ddf l m 2

2 2

1 1

1( )

l m

d ij i iji j

TSS n x x T

n lmn

Page 25: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

较复杂的系统分组资料还可能在亚组中继续再分成小亚组(小小亚组);每一组具有不同的亚组数( mi 不全相同),每一亚组具有不完全相同的观察值数目( nij 不全相同)。xijk 为第 i 组 , 第 j 亚组 , 第 k 个 ( 处理 ) 的反应量, i=1, 2, …, l ; j=1,2,…,mi ; k=1, 2, …, nij.

T t d edf df df df

1 1

1iml

T iji j

df n

1tdf l

1

( 1)iml

e iji j

df n

1

( 1)l

d ii

df m

Page 26: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

3.4 单因素完全随机试验资料的分析

即单向分组资料的方差分析。

3.5 单因素随机区组试验资料的分析

即两向分组资料的方差分析。

3.6 二因素随机区组试验资料的分析

A 因素有 a 个水平, B 因素有 b 个水平,均衡搭配时有 ab 个处理; r 个重复( r 个区组), abr 个观察值。方差分析分两步:

Page 27: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

T t R eSS SS SS SS T t R edf df df df

1Tdf abr 2

2 2

1 1

( )( )

ab r

T iji j

xSS x x x

abr

22 2

1

1( )

ab

t i ii

TSS r x x T

n abr

e T t RSS SS SS SS

1tdf ab

( 1)( 1)edf ab r

1Rdf r 2

2 2

1

1( )

r

R j jj

TSS ab x x T

ab abr

1 )构建处理区组两向表,按处理区组两向分组数据模型分解平方和、自由度:

ij i j ijx

Page 28: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

2 )构建 AB 两向表,按 AB 因素两向分解平方和、自由度。

t A B ABSS SS SS SS t A B ABdf df df df

22 2

1

1( )

a

A A Ak

TSS br x x T

br abr

AB t A BSS SS SS SS

1Adf a

( 1)( 1)ABdf a b

1Bdf b 2

2 2

1

1( )

b

B B Bl

TSS ar x x T

ar abr

( )i kl k l kl

Page 29: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

二因素、多因素完全随机试验、随机区组试验资料的方差分析均可用 anovan的命令实现。

格式: anovan(x, group, model)

**

*

SSMS

df *

*e

MSF

MS

2| |i j

MSex x LSD t

n

ee

e

SSMS

df

Page 30: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

Anovan (多因素资料的方差分析)Anovan(x, group, model)

三因素 model=[1 2 3 4 5 6 7]

( 三因素方差分析编码表 )数值 含义

1 A( 主效 )2 B( 主效 )3 A×B( 互作 )4 C( 主效 )5 A×C( 互作 )6 B×C( 互作 )7 A×B×C( 互作 )

Page 31: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

四因素方差分析编码表 (model)

数 值 含 义 数 值 含 义1 A( 主效 ) 9 A×D

2 B( 主效 ) 10 B×D

3 A×B( 互作 ) 11 A×B×D

4 C( 主效 ) 12 C×D

5 A×C 13 A×C×D

6 B×C 14 B×C×D

7 A×B×C 15 A×B×C×D

8 D( 主效 )

Page 32: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

3.7 一些处理效应再分解的方差分析

1 )单一自由度比较;

2 )其他分解的一些实例。

Lsh.m; cg.m.

Page 33: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

处理 n 平均数 ABCD vs E AB vs CDA 4 27

27.875T1=446

25.75T1=206B 4 24.5

C 4 28.5 30T2=240D 4 31.5

E 4 2020

T2=802 2 22

2 1 2 1 2

1 1 2 1 2

( )( )

( )i ii

T T T TSS n x x

n n n n

如例 8.1 (水稻 N肥试验), 5 个处理( ABCDE )具有 SSt=301.2 , dft=4 ,可将其进一步分解:

ABCD vs E df1=1, SS1=198.45 ; AB vs CD df2=1, SS2=72.25

A vs B df3=1, SS3=12.5 ; C vs D df4=1, SS4=18.0

Page 34: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

4 4 回归和相关分析回归和相关分析4.1 一元线性回归分析

对于双变数资料的回归分析,主要有三项任务:

1 )建立 Y 依 X 的量化关系,即估计回归统计数和回归方程;

2 )估计离回归误差,对回归方程和回归统计数进行统计假设测验;

3 )回归方程的进一步利用。

Page 35: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

模型: i i iY X ˆi i i i iY a bX e Y e

据:

2

an b X Y

a X b X XY

2 2

1 1

ˆ( ) ( ) minn n

i i i ii i

Q RSS Y Y Y a bX

2 22

/ ( )( )

( )( ) / X

a y bx

XY X Y n X x Y y SPb

X x SSX X n

对 Q 分别对 a 、 b求偏导并使其为 0 ,得正规方程组:

解得:

2

22

1

ˆ( )n

i i Yi X

Y

Y a X b XY

SPQ Y Y SS

SS

SS bSP

Page 36: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

2Q

QMS

n

/ 2Y X Q

Qs MS

n

2 2

1 1 2

Y Y YX X

T U Q

SP SPSS U Q SS SS

SS SSdf df df

n n

/( 2)U

Q

MS UF

MS Q n

0

b b

b bt

s s

/ /b Y X Xs s SS

0

a

at

s

22

/ /

1a Y X Y X

X X

Xxs s s

n SS nSS

Page 37: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

i i iY a bX e

1 1 1Y a bX e

2 2 2Y a bX e

n n nY a bX e

1 1 1

2 2 2

1

1

... ...

1

... ...

1

i i i

nn n

Y X e

Y X e

a

Y X eb

XY e

i i iY a bX e

4.2 回归分析的矩阵方法

Page 38: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

1

2

i

n

Y

Y

Y

Y

Y

1

2

1

1

... ...

1

... ...

1

i

n

X

X

X

X

X 1

2

ba

b b

B

1

2

i

n

e

e

e

e

E

ˆY = XB + E Y + E 回归分析是用最小二乘法 (least squares method) 估计回归统计数 B’=(a, b) ,使离回归平方和( Q, RSS )最小:

ˆ( ) ( ) minQ E E Y Y Y XB =

Page 39: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

Y Y - Y XB - B X Y + B X XB( ) ( ) Y XB Y XB1

2 2 21 2

1

( , , , )n

n ii

n

Y

YY Y Y Y Y

Y

Y Y

1

21 2

1

1( , , , )

... ...

1

n

n

X

X aY Y Y

b

X

Y XB ( )a

Y XY a Y b XYb

1

2

1 2

1, 1, , 1( , )

, , , n

n

Y

Ya b

X X X

Y

B X Y

( , )Y

a b a Y b XYXY

( )( ) ( )

( )

YaXY

b

B X YY XB B X Y

= X YB X YB B

Page 40: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

1

2

1 2

1

1, 1, , 1 1( , )

, , , ... ...

1n

n

X

X aa b

X X X b

X

B X XB

2( , )n X a

a bX X b

2( , )

na b Xa b

a X b X

2 2 2na ab X ab X b X G

22

2 22

2 2

Gna b X n X aG a

G X X ba X b Xb

=B

2G

X XB

B

Page 41: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

( )0

( ) 0

Q a

b

E E

=E EB

ˆ( ) (( ) ( ))0

Q

E E Y Y Y XB

=B B B

( )2 2

Q

Y Y - 2B X Y + B X XBX Y X XB = 0

B B X XB = X Y

AB = K

1 1( ) B = X X X Y A K CK

\ \ B = X X \ X Y A K X Y

Q RSS Y Y B K Y Y B X Y YU SS Q

11 121

21 22

c c

c c

A C =

2

n X a Y

X X b XY

Page 42: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

/1UMS U2Q

QMS

n

U

Q

MSF

MS

b b

b bt

s s

/ 22b Y Xs s c

a

at

s

/ 11a Y Xs s c

222/

/( 2)Q

U b cF

MS Q n

2

22

bU

c

/ ( 2)Y X

Qs

n

Page 43: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

实例和 matlab命令集clear; clcx=[1.58, 9.98, 9.42, 1.25, .30, 2.41, 11.01, 1.85, 6.04, 5.92]y=[180, 28, 25, 117, 165, 175, 40, 160, 120, 80]x=x(:); y=y(:); n=size(y,1); SSy=var(y)*(n-1); SSx=var(x)*(n-1);xbar=mean(x); ybar=mean(y);X=[ones(n,1),x]; A=X'*X; K=X'*y; SumX=A(1,2); SumY=K(1); SumX2=A(2,2); SumXY=K(2);SP=SumXY-SumX*SumY/nC=inv(A), B=A\K, B=C*K, B=X'*X\X'*y, b=X\yQ=y'*y-B'*K, U=SSy-Q, MSQ=Q/(n-2), syx=sqrt(MSQ)F=U/MSQ; p=1-fcdf(F,1,n-2);disp(['F=',num2str(F), ' p=',num2str(p)])sa=syx*sqrt(C(1,1)), sb=syx*sqrt(C(2,2))ta=b(1)/sa; pa=2*tcdf(-abs(ta),n-2);disp(['ta=',num2str(ta), ' p=',num2str(pa)])tb=b(2)/sb; pb=2*tcdf(-abs(tb),n-2);disp(['tb=',num2str(tb), ' p=',num2str(pb)])r=corr(x,y), r2=SP^2/SSx/SSysr=sqrt((1-r^2)/(n-2)), tr=r/sr

Page 44: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

4.3 多元线性回归分析1 1 2 2i i i j ij m im iY X X X X

1 111 12 1

1221 222 2

1 2

1 2

1

1

1

1

m

m

ji i imi i

n n nmn nm

aY eX X X

bXX XY e

bX X XY e

X X XY eb

1 1 2 2i i i j ij m im iY a b X b X b X b X e 1,2, , ; 1, 2, ,i n j m

Page 45: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

1

2

i

n

Y

Y

Y

Y

Y

11 12 1

221 22

1 2

1 2

1

1

1

1

m

m

i i im

n n nm

X X X

XX X

X X X

X X X

X

1

2

1

2

1

j

m

m

ba

bb

bb

bb

B

1

2

i

n

e

e

e

e

E

ˆY = XB + E Y + E

Q RSS E E Y Y B X Y Y Y B K

Page 46: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

( )2 2

Q

Y Y - 2B X Y + B X XBX Y X XB = 0

B B

X XB = X Y AB = K

1 1( ) B = X X X Y A K CK

\ \ B = X X \ X Y A K X Y

Q Y Y B X Y Y Y B K YU SS Q

/UMS U m1Q

QMS

n m

U

Q

MSF

MS

-1C = A

/ YR U SS2 / YR U SS

Page 47: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

j j

j j jj

b b

b bt

s s

/jb Y X jjs s c

2 /

/( 1)jp j jj

jQ

U b cF

MS Q n m

2

j

jp

jj

bU

c

/ ( 1)Y X

Qs

n m

2j jF t2,3, 1j m

当其中的自变数不显著时,应将其剔除。剔除的过程应采用逐步回归的方法,即每次剔除一个偏回归平方和最小且不显著的自变数,直至所有的自变数均显著(下同)。

Up=b.*b./diag(C)

Page 48: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

实例和 matlab命令集clear;clc,alpha=.05;x1=[10, 9, 10, 13, 10, 10, 8, 10, 10, 10, 10, 8, 6, 8, 9]';x2=[23, 20, 22, 21, 22, 23, 23, 24, 20, 21, 23, 21, 23, 21, 22]';x3=[3.6,3.6,3.7,3.7,3.6,3.5,3.3,3.4,3.4,3.4,3.9,3.5,3.2,3.7,3.6]';x4=[113, 106,111,109,110,103,100,114,104,110,104,109,114,113,105]';y=[15.7,14.5,17.5,22.5,15.5,16.9,8.6,17,13.7,13.4,20.3,10.2,7.4,11.6,12.3]';x=[x1,x2,x3,x4];load regm %x=rand(100,40);y=rand(100,1);%data=xlsread('regm'); y=data(:,end);data(:,end)=[];x=data;data=[];%data=load('regm.csv'); y=data(:,end);data(:,end)=[];x=data;data=[];[n,m]=size(x);SSy=var(y)*(n-1);X=[ones(n,1),x];A=X'*X;K=X'*y;C=inv(A)b=A\K,%b=C*K,b=X'*X\X'*y,b=X\yQ=y'*y-b'*K,U=SSy-Q,MSQ=Q/(n-m-1),syx=sqrt(MSQ)Fm=U/m/MSQ; p=1-fcdf(Fm,m,n-m-1);disp(['Fm=',num2str(Fm), ' p=',num2str(p)])Up=b.*b./diag(C);Up(1)=[];F=Up/MSQ, pr=1-fcdf(F,1,n-m-1)

Page 49: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

for i=1:m if i<10 tr(i,:)=char(['X',num2str(i),' ']); else tr(i,:)=char(['X',num2str(i)]); endendwhile max(pr)>=alpha qi=find(F==min(F)); pr=1-fcdf(min(F),1,n-m-1); if pr>=alpha disp([num2str(qi),' ',num2str(min(F)),' del ',tr(qi,:)]) tr(qi,:)=[]; X(:,qi+1)=[]; m=m-1; end A=X'*X; K=X'*y; b=X\y; Q=y'*y-b'*K; MSQ=Q/(n-m-1); C=inv(A); Up=b.*b./diag(C);Up(1)=[]; F=Up/MSQ; pr=1-fcdf(F,1,n-m-1);end

Page 50: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

disp('Last Results:')disp(' Xi bi Upi Fi p>Fi')disp(['X0 ',num2str(b(1))])for i=1:m disp([tr(i,:),' ',num2str(b(i+1)),' ',num2str(Up(i)),' ', num2str(F(i)),' ',num2str(pr(i))])enddisp(['Error ',num2str(n-m-1),' ',num2str(Q),' ',num2str(MSQ)])disp(['Total ',num2str(n-1),' ' num2str(SSy)])r2=(SSy-Q)/SSy

Page 51: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

多元线性回归分析的有关假定与注意事项 :

假定 1 :误差是正态分布的;假定 2 :每一自变数对依变数的作用仅为线性。 假定 2 不满足对回归结果影响较大。注意 1 :自变数个数 (m)必须少于观察值组数 (n) ;注意 2 :避免自变数共线性情形,共线性指变数间高度相关或一个变数是其他变数的线性组合。 若结构阵不满秩,信息阵是奇异或病态的,逆阵不存在或有很大偏差,无法求解回归系数或有很大误差,难于对回归模型及回归统计数进行客观真实的假设测验。回归分析无法进行,或所得结果不可信。

Page 52: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

4.4 一元线性相关分析计算 X 、 Y 相关性质和程度的统计数—相关系数r

1

2 2

1 1

( )( )

( ) ( )

n

i ii

n nX Y

i ii i

X x Y ySP

rSS SSX x Y y

212

r

r rt

s rn

22

X Y

SPr

SS SS

/ /U

b QY X X

MSb bt F

s MSs SS

Page 53: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

4.5 多元线性相关分析 计算 m 个变数 X ( Y )的(简单)相关系数 rij :

1

2 2

1 1

( )( )

( ) ( )

n

li i lj jijl

ij n nXi Xj

li i lj jl l

X x X x SPr

SS SSX x X x

12 1

21 2

1 2

1

1

1

m

m

ij

m m

r r

r r

r

r r

R

Page 54: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

4.6 多元偏相关分析 m 个变数 X ( Y )在其它变数皆固定在某一水平时,余下两个变数间的相关称为偏相关。

.ij

ij

ii jj

cr

c c

ijcC 1C R

.

. .

2.1ij

ij ij

r ij

r rt

s r

n m

Page 55: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

4.7 通径分析 计算 m 个自变数 Xj 与 Y 关系的相对重要性,可用直接通径系数 pj 表示。

jX

j jY

SSp b

SS

2(1 )

1j

j j j

p jj

p pt

s R c

n m

-1 P = R K CK

12 1 1 1

21 2 2 2

1 2

1

1

1

m Y

m Y

ij

m m m mY

r r p r

r r p r

r

r r p r

2

1

m

j jYj

R p r

= P K

Page 56: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

4.8 一元多项式回归分析 计算 1 个自变数 X 与 Y 的多项式回归也很常见。

21 2

j ki i i j i k i iY X X X X

1,2, , ; 1, 2, ,i n j k

21 2

j ki i i j i k i iY a b X b X b X b X e

21 1 11 1

2122 22 2

2

2

1

1

1

1

k

k

kji ii i i

kn nkn n n

X X X aY e

bXY eX X

bY eX X X

Y ebX X X

Page 57: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

X XB = X Y AB = K1 1( ) B = X X X Y A K CK

\ \ B = X X \ X Y A K X Y

Q Y Y B X Y Y Y B K YU SS Q

1Q

QMS

n k

kp

kQ

UF

MS

-1C = A

2

1, 1k

kp

k k

bU

c

k k

k k kk

b b

b bt

s s

/ 1, 1kb Y X k ks s c

/ ( 1)Y X

Qs

n k

Page 58: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

jp

jQ

UF

MS

2

1, 1j

jp

j j

bU

c

2j jF t

1,2, 1j k

j j

j j jj

b b

b bt

s s

/ 1, 1jb Y X j js s c

/ ( 1)Y X

Qs

n m

m 为模型中 Xj幂的项数。

Up1, Up2, Up3, Up4 分别为线性 (linear), 二次 (Quadratic), 三次 (cubic), 四次 (4th degree)响应 (response).

Page 59: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

一元多项式回归分析的几点注意:1) 随着 k 的增加,回归平方和增加,离回归平方和减小, k 不应超过 n-2 。当 k=n-1 时,离回归平方和等于 0 (即所有的点都在线上)。但这并非很好,若用此方程进行预测(中间插值或外推)可能会相差很远。因此,合适的高次幂应由适当的判断和测验所决定。从数学关系可知, 2次式没有拐点; 3次式有一个拐点; 4次式有两个拐点;及此类推。

2) 多项式方程的假设测验一般先对最高次幂进行,若不显著时顺次向下测验;在最高次幂确定保留的前提下,再对其他项的保留(或删除)进行鉴别。

Page 60: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

上述一元线性、多元线性、一元多项式以及多元多项式回归分析,均采用前述模型及过程进行分析。假设测验是以离回归误差 MSQ 作为标准进行测验,这一般没有问题,也没有其它替代方法。但若处理有重复观察值,可用重复观察值估计误差方差( MSe ),各项回归效应的显著性应以此为标准进行测验,同时还可对离回归( MSQ )进行测验(失拟测验)。若失拟不显著,表明模型是合适的;若失拟显著,表明用此模型并不合适,有选择更好模型的必要。

Page 61: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

4.9 多元多项式回归分析 进行 m 个自变数 Xj 与 Y 的多元多项式回归分析,情况变得较复杂。如用最简单的多元多项式回归即只考虑线性和 2次幂主效及线性互作响应时,其回归模型可表示为:

2

1 1

ˆm m m

i j ij k ik kl ik il i i ij k k l

Y a b X b X b X X e Y e

其中,模型中线性主效有 m 项, 2次幂主效有 m 项,线性互作有 m(m-1)/2 项,模型中需要考虑的项数( 总自变数 )p=m(3+m)/2 项。若考虑其它效应,在模型中增加相应的分量, p 将迅速增加。

Page 62: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

ˆY = XB + E Y + E

X XB = X Y AB = K

1 1( ) B = X X X Y A K CK

\ \ B = X X \ X Y A K X Y

Q Y Y B X Y Y Y B K YU SS Q

/UMS U p1Q

QMS

n p

U

Q

MSF

MS

-1C = A

/ YR U SS2 / YR U SS

Page 63: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

j j

j j jj

b b

b bt

s s

/jb Y X jjs s c

2 /

/( 1)jp j jj

jQ

U b cF

MS Q n p

2

j

jp

jj

bU

c

/ ( 1)Y X

Qs

n p

2j jF t2,3, , 1j p

Page 64: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

多变数 ( 项 )回归模型中,既有显著的自变数 ( 项 ) ,也有不显著的自变数 ( 项 ) ,回归分析需将不显著的自变数 ( 项 )予以剔除,使所得多元回归方程比较简化而又能较准确地分析和预测 Y 的反应。这一过程称为多元回归自变数的统计选择—逐步回归。逐步回归有两种基本方法—逐个选入法和逐个剔除法,以后者更为常用。该法以所有自变数 ( 项 ) 的回归为基础,每次剔除一个偏回归平方和最小且不显著的自变数( 项 ) ,删除结构阵的相应列,重新计算回归统计数、偏回归平方和并测验,直至所有的自变数 ( 项 ) 均显著。

一些例子和 matlab 程序 : lrmpoly.m

Page 65: 数据统计分析 初级统计及回归分析 顾世梁 2008.09

Thank your cooperation!