第六章 非参数统计

59
第第第 第第第

description

第六章 非参数统计. 利用 P 值进行决策:. 假设检验 . P -Value. P- Value: 观察到的显著水平. 例题 :钻头寿命. 抽取一个随机样本 n = 25, H 0 :  = 32 H 1 :  < 32 (左尾检验) 观察到的 Z score 是 p-Value ( NORMSDIS ) : 这个概率值过分小了 . 因此我们拒绝 H 0. 非参数统计. 优点: ( 1 )对总体分布一般无特殊假设; ( 2 )适用于一些较低的计量标准(如顺序变量, 名义变量);. - PowerPoint PPT Presentation

Transcript of 第六章 非参数统计

Page 1: 第六章      非参数统计

第六章 非参数统计

Page 2: 第六章      非参数统计

利用 P 值进行决策:

P- Value: 观察到的显著水平

假设检验假设检验 .. P-Value

Page 3: 第六章      非参数统计

例题 :钻头寿命 抽取一个随机样本 n = 25, H0: = 32 H1: < 32 (左尾检验) 观察到的 Z score 是

p-Value ( NORMSDIS ) :

这个概率值过分小了 . 因此我们拒绝 H0.

5.29x

125.325/4325.29

/0 n

xz

P 3.125 0.000889093 0.05Z

Page 4: 第六章      非参数统计

非参数统计 优点: ( 1 )对总体分布一般无特殊假设; ( 2 )适用于一些较低的计量标准(如顺序变量, 名义变量);

数据计量的尺度定性变量( Qualitative ):  名义变量( Nominal Scale ): 2 检验

   顺序变量( Ordinal Scale ):符号检验、秩检验,等

定量变量( Quantitative ) : Z 检验, t 检验(正态总体)

              非参数检验(总体分布未知)

 

Page 5: 第六章      非参数统计

6.1 拟合优度的 2 检验The Chi-Square Goodness -of- Fit Test

检验目的:总体被分为 K 类 ; 检验观测频次与期望频次是否吻合?

H0: 总体在第 1, 2, …, K 类中的比率分别是 p1, p2, …, pk .

H1: 上述比率中至少有一个是不正确的 .

121 kppp

Page 6: 第六章      非参数统计

例 . 某小汽车经销商根据去年销售小汽车的颜色的百分率,认为今年顾客选择各颜色的数目仍将不变。他随机抽取了 150 名顾客询问:

color pi oi ei (oi-ei) (oi-ei)2/ei

yellow 0.2 35 30 5 0.83 red 0.3 50 45 5 0.55 green 0.1 30 15 15 15.00 blue 0.1 10 15 -5 1.67 white 0.3 25 45 -20 8.90 Total 1.0 150 150 0 26.96

488.9)15(205.0

又例 : 香皂的颜色 , 牙膏的包装等

Page 7: 第六章      非参数统计

6.2 列联表独立性检验Test of Independence of Contingency Tables

Type of TV ShowIncome

Hockey Movie NewsTotal

LowMedium

High

143 70 37 90 67 43 17 13 20

25020050

Total 250 150 100 500

列联表( Contingency table ) 两个定性变量的相关关系

例:对电视节目的选择与工资收入是否相关?

Page 8: 第六章      非参数统计

Type of TV ShowIncome

Hockey Movie NewsTotal

Lowoij

pij

eij

Mediumoij

pij

eij

Highoij

pij

eij

143 70 37 0.5 0.3 0.2 125 75 50

90 67 43 0.5 0.3 0.2 100 60 40

17 13 20 0.5 0.3 0.2 25 15 10

250

200

50

Total250/500 150/500 100/500=0.5 =0.3 =0.2

500

Page 9: 第六章      非参数统计

H0: 对电视节目的选择与工资收入无关 .

H1: 对电视节目的选择与工资收入相关 .

取 =0.05, df = (H-1)(K-1)=(3-1)(3-1)=4

查表: 2(4)=9.49

观察的 2 值为 : 2= 21.174>9.49

因此,拒绝 H0 .

收入与电视选择具有相关性 .

)1)(1(~)( 2

1 1

22

0

KHe

eo HH

i

K

j ij

ijij

Page 10: 第六章      非参数统计

习惯 性别 男 女 xi•

几乎天天看 a b a+b 偶 尔 看 c d c+d

xj • a+c b+d n

))()()(()( 2

2

dcbadbcacbadn

Page 11: 第六章      非参数统计

例:在电视收视率调查中,得到性别与收视习惯的列联表如下。试分析性别与收视习惯的相互关系。

习惯 性别 男 女 xi•

几乎天天看 38 24 62 偶 尔 看 31 7 38

xj • 69 31 100

0.55 0.77

0.45 0.23

。拒绝 H ,84.354.4

84.3)1( 1)12)(12(

54.438623169

)3124738(100

0

2

2

05.0

22

df

Page 12: 第六章      非参数统计

介绍几个比较重要的检验问题

参数检验( t- 检验, z- 检验)1 、关于总体均值的检验2 、两个总体的均值是否相等( 1 )独立样本问题( 2 )配对样本问题

非参数检验(符号检验、秩检验、游程检验)1 、关于总体中位数的检验2 、两个总体的中位数是否相等( 1 )独立样本问题( 2 )配对样本问题

Page 13: 第六章      非参数统计

6.3 符号检验 ( Sign Test)

一 . 符号检验的基本原理

Bernoulli 试验 :

二项分布: n 次独立的 Bernoulli 试验。 S+ 表示成功的次数 , S- 表示失败的次数 (S- = n S+

).

P(S+ =k) =

p

pX

1

失败成功

nkppC knkkn ,,2,1,0, )1(

)1()(

)(

pnpSD

npSE

Page 14: 第六章      非参数统计

问题:5.05.05.0

)5.01(5.0

)5.01(5.0)5.01(5.0)2(

5.0

210

222

111000

n

n

n

n

n

n

n

n

n

n

n

n

CCC

C

CCSP

p

如果

提出假设:成功的概率与失败的概率相等,即: p = 0.5

S+ S-

如果实验了 100 次,只有一次成功,能否认为成功与失败的概率相同?

Page 15: 第六章      非参数统计

提出假设:成功的概率与失败的概率相等

H0 : p = 0.5

H1 : p 0.5

如果 H0 的假设为真, S+ 与 S- 的数量应该基本相等。 S = min{S+ , S-} = k

如果 S 过小,则 H0 的假设是错误的。

X 0 1 2 k n-1 n

Pi P0 P1 P2 Pk Pn-1 Pn

k

i

nin

p

CkSP0

5.0

5.0)(

P-Value: P(Sk)

0

0. 05

0. 1

0. 15

0. 2

0. 25

0. 3

1 2 3 4 5 6 7 8 9 10 11

n = 10

k = 4

Page 16: 第六章      非参数统计

二、单样本中位数的符号检验例题:某企业生产一种钢管,规定长度的中位数是 10 米。现随机从生产线上选取 10 根进行测量,结果为:

9.8 10.1 9.7 9.9 9.8 10.0 9.7 10.0 9.9 9.8

问生产过程是否需要调整? 分析: n=8 ( 与 10 的差值为 0 者不计) S+=1 , S-= 7 ,

0

1

: 10

: 10

H M

H M

0.50 8 1 88 8( 1) 0.5 0.5 0.0352

p

P S C C

取 =0.05

结论: 拒绝 H 0 ,生产过程需要调整。

<0.05

Page 17: 第六章      非参数统计

SPSS 软件使用说明例16.1 (数据gs.sav)质量监督部门对商店里面出售的某厂家的西洋参片进行了抽查。对于 2525包写明为净重100g的西洋参片的称重结果为(单位:克):

样本中位数为 : m=98.36

因此,人们怀疑厂家包装的西洋参片份量不足。由于对于这些重量的总体分布不清楚,决定对其进行符号检验。需要检验的是:

0 1: 100 : 100H m H m

99.05 100.25 102.56 99.15 104.89 101.86 96.37 96.79 99.37

96.90 93.94 92.97 108.28 96.86 93.94 98.27 98.36

100.81 92.99 103.72 90.66 98.24 97.87 99.21 101.79

Page 18: 第六章      非参数统计

例 16.1 (数据 gs.sav )质量监督部门对商店里面出售的某厂家的西洋参片进行了抽查。对于 25 包写明为净重 100g 的西洋参片称重,结果是样本中位数为 m=98.36 。

0 1: 100 : 100H m H m Binomial Test

<= 100 17 .68 .50 .108 .032

> 100 8 .32

25 1.00

Group 1

Group 2

Total

gsweight

Category NObserved

Prop. Test Prop.Exact Sig.(2-tailed)

PointProbability

双边检验的 p- 值 =0.108 ;因此,单尾检验的 p- 值为 0.05388 。根据这个符号检验,我们还没有充分的证据拒绝零假设。

99.05 100.25 102.56 99.15 104.89 101.86 96.37 96.79 99.37

96.90 93.94 92.97 108.28 96.86 93.94 98.27 98.36  

100.81 92.99 103.72 90.66 98.24 97.87 99.21 101.79  

SPSS 输出

软件使用说明 : 以数据 gs.sav 为例SPSS 选项 : Analyze - Nonparametric Tests - Binomial

把变量 gsweight 选入 Test Variable List ,在 Define Dichotomy 的 Cut point 输入 : 100 (克)在 Test Proportion 输入 p0=0.50 (零假设大于 100 g的比例)然后点击 OK 即可得到前面显示的结果。

软件使用说明 : 以数据 gs.sav 为例SPSS 选项 : Analyze - Nonparametric Tests - Binomial

把变量 gsweight 选入 Test Variable List ,在 Define Dichotomy 的 Cut point 输入 : 100 (克)在 Test Proportion 输入 p0=0.50 (零假设大于 100 g的比例)然后点击 OK 即可得到前面显示的结果。

Page 19: 第六章      非参数统计

配对样本问题 某香烟公司要了解消费者对其香烟的电视广告

的态度,通过市场研究公司向一消费小组进行调查。该小组成员有 24 人。首先用一问卷,要求消费者回答若干有关该品牌香烟的问题,并给予相应的分数。然后,放映该牌香烟的电视广告片,看毕后再回答问卷询问。希望了解应答者在观看广告片前后的态度有无差异。

配对样本:两个样本中的个体均相同,但处理不同。判断总体分布是否发生变化。

三、配对样本符号检验

Page 20: 第六章      非参数统计

数据: 应答者 事前分数 事后分数 符号 1 80 90 +

2 70 65 –

3 75 80 +

4 80 80 0

24 85 95 +

总计 S+=19

(注意:取消符号等于 0 的样本点) S- = 4

H0: 观看前后的态度无差异 n=23

选择 S+ 与 S- 中较小的一个作为检验统计量 S , S = min{S+ , S-} ;

当H0 为真时, S 在 n/2 附近。如果 S 过小,则说明 H0 不真。

Page 21: 第六章      非参数统计

检验过程: (1) H0 : (事后分数 事前分数)的中位数 = 0

H1 : (事后分数 事前分数)的中位数 > 0

(2) S = min{S+, S-} = min{19,4} = 4

(3) 在假设为真的前提下 ( p = 0.5) ,计算

(4) 此为“小概率”事件,所以拒绝 H0 假设。 广告效果显著!

05.00013.0

5.05.05.0)4( 234

23

231

23

230

23

5.0

CCCSPp

Page 22: 第六章      非参数统计

例、采用例 6.4的减肥数据( diet.sav )。有两列 50 对数据。其中一列数据(变量是 before )是减肥前的重量,另一列 ( 变量是 after) 是减肥后的重量(单位:公斤)。令所有个体减肥前后重量差的中位数为 mD. 则要检验的问题成为:

如果不知道总体的任何信息,则可利符号检验。

符号检验的 SPSS 的输出为:

0 1: 0 : 0D DH m H m

Test Statisticsa

-3.391

.001

.001

.000

.000

Z

Asymp. Sig. (2-tailed)

Exact Sig. (2-tailed)

Exact Sig. (1-tailed)

Point Probability

after - before

Sign Testa.

显然单尾 p- 值小于 0.0.0505 ,拒绝零假设。

SPSS 软件使用 : 以”减肥数据” diet.sav 为例选项 Analyze - Nonparametric Tests - Related Samples

把变量 before 和 after 同时选入 Test Pair(s) List之中在下面选 Sign

在 Exact 中选 Exact

然后回到主对话框, OK 即可

SPSS 软件使用 : 以”减肥数据” diet.sav 为例选项 Analyze - Nonparametric Tests - Related Samples

把变量 before 和 after 同时选入 Test Pair(s) List之中在下面选 Sign

在 Exact 中选 Exact

然后回到主对话框, OK 即可

减肥前后体重有显著区别

Page 23: 第六章      非参数统计

四、 两个独立样本的符号检验 问题:

例: 某公司拟调查两性购买者的态度有无差异。在男性中抽取 n1

=12 的样本。在女性中抽取 n2=9 的样本。检验这两个总体的中位数是否相同。

样本 1 : n1=12

10 , 10 , 10 , 12 , 15 , 17 , 17 , 19 , 20 , 22 , 25 , 28 ; 样本 2 : n2=9

6 , 7 , 8 , 8 , 12 , 16 , 19 , 19 , 22 ;

)~~ , ~~ ( ~~:

~~:

,,

,,

1

0

1

1

2

1

yxyxyxH

yxH

yyY

xxX

n

n

Page 24: 第六章      非参数统计

检验方法 ( 1 )先将两组样本的观测值按统一顺序排列,找出中

位数; ( 2 )将每一个观测值与它比较,大于该中位数的用正号表示,小于中位数的用负符号表示;

如果 H0 为真,则在两个样本中,其正负号的个数应该各占其总数的一半。

+ 行和 样本 1 a b n1

样本 2 c d n2

列和 S+ S – n1+ n2

可以利用列联表检验 :

221 nn

S 2

21 nnS

221 nn

S 2

21 nnS

21

212

121

21

21

Page 25: 第六章      非参数统计

样本 2 样本 1 符号 2 符号 1 6 — –

7 — –

8 — –

8 — –

— 10 –

— 10 –

— 10 –

— 12 –

12 — –

— 15 –

16 — 0

— 17 +

— 17 +

— 19 +

19 — +

19 — +

— 20 +

22 — +

— 22 +

— 25 +

— 28 +

– + 行和

样本 1 5 7 12

样本 2 5 3 8

列和 10 10 20

84.383.0

84.3)1(

05.0

83.0 1010812

)3557(20

2

205.0

22

所以,不拒绝 H0 。两总体中位数无显著差别。

Page 26: 第六章      非参数统计

6.4 秩检验( Rank Test)

一 . Wilcoxon test ( 配对样本的秩检验)

双样本问题 例:某防晒美容霜制造者欲了解一种新

配方是否有利于防止晒黑,对 7 个志愿者进行实验。在每个人脊背上一侧涂原配方的美容霜,另一侧涂新配方的美容霜,背部在太阳下暴晒后,按照预先给顶的标准测定晒黑程度,数据如下表。

Page 27: 第六章      非参数统计

编号 原配方 yi 新配方 xi di= xi - yi 符号 的秩 1 42 46 4 + 4 2 + 2

2 51 49 - 2 - 2 1 - 1

3 31 26 -5 - 5 3 -3

4 61 52 -9 - 9 5 -5

5 44 33 -11 - 11 6 -6

6 55 49 -6 - 6 4 -4

7 48 36 -12 - 12 7 -7

id id

( 1 )符号检验

H0: S+= S– ( 两种配方的防晒作用相同 , 即 p = 0.5 )

不能拒绝 H0 ?

05.00547.05.05.01P 717

707

5.0

CCSp

T+ = 2, T = 26

Page 28: 第六章      非参数统计

( 2 )秩检验 运用更多的数据信息: — 配对样本差距的方向(符号: 正号、负号) — 配对样本差距的大小 (秩: 等级排序)

I. 计算配对样本的差距 di= xi - yi ; II. 求 ; III. 按照 的值,对样本进行等级排序(求秩); IV. 还原 的符号; V. 求秩和: T+ , T

T+ — 正等级的秩和 T — 负等级的秩和

id

id

id

Page 29: 第六章      非参数统计

检验过程: (1) H0 : T+ = T H1 : T+ < T (2) 取 T= min{T+ , T} = T= min{2 , 26} = 2 (3) 根据 n = 7 , = 0.05 ,查 Wilcoxen 检验表,得

到拒绝域的边界值 : T0.05 = 3 ( 单侧检验) (4) 而现在有 T = 2 < 3 所以,拒绝 H0 假设。

两种配方的防晒作用显著不同!

与符号检验区别:应用了更多的原始数据信息。 Wilcoxon 符号秩检验需要假定样本点来自连续对称总体分布;

Page 30: 第六章      非参数统计

例、采用例 6.4的减肥数据( diet.sav )。有两列 50 对数据。其中一列数据(变量是 before )是减肥前的重量,另一列 ( 变量是 after) 是减肥后的重量(单位:公斤)。令所有个体减肥前后重量差的中位数为 mD. 则要检验的问题成为:

如果不知道总体的任何信息,则可利用符号检验

符号检验的 SPSS 的输出为:

0 1: 0 : 0D DH m H m

Test Statisticsa

-3.391

.001

.001

.000

.000

Z

Asymp. Sig. (2-tailed)

Exact Sig. (2-tailed)

Exact Sig. (1-tailed)

Point Probability

after - before

Sign Testa.

显然单尾 p- 值小于 0.05 。我们可以拒绝减肥前后体重没有区别的零假设。

Page 31: 第六章      非参数统计

Test Statisticsb

-3.288a

.001

.001

.000

.000

Z

Asymp. Sig. (2-tailed)

Exact Sig. (2-tailed)

Exact Sig. (1-tailed)

Point Probability

after - before

Based on positive ranks.a.

Wilcoxon Signed Ranks Testb.

例、采用例 6.4的减肥数据( diet.sav )。有两列 50 对数据。其中一列数据(变量是 before )是减肥前的重量,另一列 ( 变量是 after) 是减肥后的重量(单位:公斤)。令所有个体减肥前后重量差的中位数为 mD. 则要检验的问题成为:

如果总体分布是连续对称的,则可利用 Wilcoxon符号秩检验。

Wilcoxon 符号秩检验的结果输出为:

0 1: 0 : 0D DH m H m

SPSS 软件使用 : 以数据 diet.sav 为例选项 Analyze - Nonparametric Tests -2 Related Samples

把变量 before 和 after 同时选入 Test Pair(s) List之中在下面选 Wilcoxon

在 Exact 中选 Exact

然后回到主对话框, OK 即可

单 尾 p- 值 小 于 0.050.05 ,拒绝零假设。

减肥前后体重有显著区别

Page 32: 第六章      非参数统计

二、单样本中位数检验 (Wilcoxen 检验 )

某企业生产一种钢管,规定长度的中位数是 10米。现随机从生产线上选取 10 根进行测量。问生产过程是否需要调整?

编号 长度 Xi Di=Xi-10 ABS(Di) Rank

1 9.8 -0.2 0.2 5 -52 10.1 0.1 0.1 2 23 9.7 -0.3 0.3 7.5 -7.54 9.9 -0.1 0.1 2 -25 9.8 -0.2 0.2 5 -56 9.7 -0.3 0.3 7.5 -7.57 9.9 -0.1 0.1 2 -28 9.8 -0.2 0.2 5 -5

正秩和 T+ = 2 ,负秩和 T- = 34

1 2 32

3

4 5 65

3

7 8

7.52

如果有观测值相等,则用它们的相应等级的平均数代替。

Page 33: 第六章      非参数统计

检验过程: (1) H0 : T+ = T

H1 : T+ < T

(2) 取 T= min{T+ , T} = T= min{2 , 34} = 2

(3) 根据 n = 8 , = 0.05 ,查 Wilcoxen 检验表,得到拒绝域的边界值 :

T0.05 = 4 ( 单侧检验) (4) 而现在有 T = 2 < 4

所以,拒绝 H0 假设。

钢管长度的中位数显然不是 10 。Wilcoxon 秩检验需要假定样本点来自连续对称总体分布;

Page 34: 第六章      非参数统计

例 16.1 符号检验:质量监督部门对商店里面出售的某厂家的西洋参片进行了抽查。对于 25 包写明为净重 100g的西洋参片称重,结果是样本中位数为 m=98.36 。

0 1: 100 : 100H m H m Binomial Test

<= 100 17 .68 .50 .108 .032

> 100 8 .32

25 1.00

Group 1

Group 2

Total

gsweight

Category NObserved

Prop. Test Prop.Exact Sig.(2-tailed)

PointProbability

双边检验的 p- 值 =0.108 ;因此,单尾检验的 p- 值为 0.05388 。根据这个符号检验,我们没有充分的证据拒绝零假设。

99.05 100.25 102.56 99.15 104.89 101.86 96.37 96.79 99.37

96.90 93.94 92.97 108.28 96.86 93.94 98.27 98.36  

100.81 92.99 103.72 90.66 98.24 97.87 99.21 101.79  

SPSS 输出

Page 35: 第六章      非参数统计

用例 16.1 (西洋参重量)来说明 Wilcoxon 秩检验。假定例16.1 的样本来自对称的连续总体分布。

0 1: 100 : 100H m H m

Ranks

8a 12.50 100.00

17b 13.24 225.00

0c

25

Negative Ranks

Positive Ranks

Ties

Total

m - gsweight

N Mean Rank Sum of Ranks

m < gsweighta.

m > gsweightb.

m = gsweightc.

Test Statisticsb

-1.682a

.093

.095

.047

.002

Z

Asymp. Sig. (2-tailed)

Exact Sig. (2-tailed)

Exact Sig. (1-tailed)

Point Probability

m - gsweight

Based on negative ranks.a.

Wilcoxon Signed Ranks Testb.

利用 Wilcoxon秩检验,可以在置信水平为 0.05时拒绝零假设。可见, Wilcoxon 秩检验比符号检验要更有效。

S-

S+

n

225/17

W+

W-

SPSS 软件使用 : 以数据 gs.sav 为例选项 Analyze - Nonparametric Tests -2 Related Samples

把变量 gsweight 和 m 同时选入 Test Pair(s) List之中在下面选 Wilcoxon; 在 Exact 中选 Exact

然后回到主对话框, OK 即可

SPSS 软件使用 : 以数据 gs.sav 为例选项 Analyze - Nonparametric Tests -2 Related Samples

把变量 gsweight 和 m 同时选入 Test Pair(s) List之中在下面选 Wilcoxon; 在 Exact 中选 Exact

然后回到主对话框, OK 即可

Mean Rank Sum of Rank

Page 36: 第六章      非参数统计

二 . Mann-Whitney-Wilcoxen 秩和检验 ( U- 检验)

1. 目的:独立样本,比较两个总体的中位数 

2. 工作步骤: ( 1 )将两个样本合并,按顺序从小到大排列,求秩。如果有观测值相等,则用它们的相应等级的平均数代替。

( 2 )分别计算两个样本的等级总和 : T1 , T2

当 n1 = n2 时,如果两总体中位数无差异,则有

T1 = T2

当 n1 与 n2 差别 较大时, T1 , T2 的大小将受 n1 , n2 影响。

210~~ :H XX

Page 37: 第六章      非参数统计

Mann-Whitney 提出了“ U- 统计量”:

(1)

(2)

(3) 根据 n1 , n2 查 U- 检验表,找出 U 的临界值 U* 。

(4) 判断: U U* , 拒绝 H0

     U > U* , 不拒绝 H0

21

2222

1111

,min 2

)1( ,

2)1(

UUU

nnTU

nnTU

取:

210~~ :H XX

该检验需要的唯一假定就是两个总体的分布有类似的形状(不一定对称)。

Page 38: 第六章      非参数统计

例 .

某公司欲在市场上推销一种产品。在上市之前,拟做一调查,了解高收入消费者与低收入消费者对该产品的评估是否一致。市场调查公司在高收入消费者中随机抽取 10 个人,在低收入消费者中抽 14 个人。将新产品免费增于两种消费者,试用后进行调查,结果两组消费者对该产品的评分如下表。

Page 39: 第六章      非参数统计

高收入组 低收入组 评分 等级 评分 等级 80 17 95 24 ( max ) 75 13.5 40 1 ( min ) 82 18 84 21 60 6 88 22 90 23 75 13.5 55 5 65 8 72 11 62 7 83 19.5 78 16 68 10 83 19.5 50 3 74 12 50 3 67 9 77 15 50 3

n1=10 T1= 126 n2 =14 T2= 174

21413

22019

3432

3432

3432

22019

21413

Page 40: 第六章      非参数统计

解 :

查 U- 检验表: U* = 36

因为 U> U*, 不拒绝 H0 。

两个消费组在对该新产品的态度上无显著差异。

6969,71min,min

69151421

1742

)1(

71111021

-1262

)1(

21

2222

1111

UUU

nnTU

nnTU

取:

Page 41: 第六章      非参数统计

例 16.4 、数据( GDP.sav )是地区 1 的 10个城市和地区 2的 15 个城市的人均 GDP (元)。现在要想以此作为两个样本来检验两个地区的人均 GDP 的中位数 m1和 m2 是否一样 .H0: m1=m2

H1: m1≠m2( 双尾检验 )地区 1 1 1 1 1 1 1 1 1 1 1

人均 GDP 3223 4526 3836 2781 5982 3216 4710 5628 2303 4618

地区 2 2 2 2 2 2 2 2 2 2 2

人均 GDP 5391 3983 4076 5941 4748 4600 6325 4534 5526 5699

地区 2 2 2 2 2 2          

人均 GDP 7008 5403 6678 5537 5257          

Page 42: 第六章      非参数统计

Test Statisticsb

32.000

87.000

-2.385

.017

.016a

.016

.008

.001

Mann-Whitney U

Wilcoxon W

Z

Asymp. Sig. (2-tailed)

Exact Sig. [2*(1-tailedSig.)]

Exact Sig. (2-tailed)

Exact Sig. (1-tailed)

Point Probability

gdp

Not corrected for ties.a.

Grouping Variable: areab.

可以拒绝原假设,即地区 2 的人均 GDP 的中位数明显更高一些

SPSS 软件使用说明 : GDP.sav 数据选项 : Analyze - Nonparametric Test

s - 2 Independent Samples

把变量 GDP 选入 Test Variable List ;把数据中用 1和 2 分类的变量 area 输入进 Grouping Variable

在 Define Groups 输入 1和 2

在 Test Type 选中 Mann - Whitney

在点 Exact 对话框中选择 Exact

最后 OK 即可

SPSS 软件使用说明 : GDP.sav 数据选项 : Analyze - Nonparametric Test

s - 2 Independent Samples

把变量 GDP 选入 Test Variable List ;把数据中用 1和 2 分类的变量 area 输入进 Grouping Variable

在 Define Groups 输入 1和 2

在 Test Type 选中 Mann - Whitney

在点 Exact 对话框中选择 Exact

最后 OK 即可Ranks

10 8.70 87.00

15 15.87 238.00

25

µØÇø1

2

Total

È˾ùGDPN Mean Rank Sum of Ranks

Page 43: 第六章      非参数统计

6.5 Kendall 一致性系数

例题:对某班级同学的若干科目学习成绩和办事能力进行评分。问:某门课程成绩高的学生,其他几门课程的成绩是否也高?学习成绩与办事能力是否相关?

问题: 分析学生在各方面的等级是否一致!

Page 44: 第六章      非参数统计

学生 动手实验 艺术 文学 音乐 数学 办事 Ti

1 4 5 7 6 5 1 28

2 6 2 1 5 7 4 25

2 1 8 9 2 2 9 31

4 2 6 5 10 1 7 31

5 8 1 2 8 9 5 33

6 10 3 4 3 8 3 31

7 9 7 6 4 10 2 38

8 3 4 3 1 4 8 23

9 5 9 8 7 6 10 45

10 7 10 10 9 3 6 45

秩: 10 个学生的分数排名(等级)

Page 45: 第六章      非参数统计

n = 10 (学生) , k = 6 (六科成绩) 记: Ti 为 i 同学六门课程的等级总和(秩)。

( 1 ) 10 名学生在 6 门课程的秩的总和(行和):

2)1(

)1(211

33101

330111021

6)10321(6

10

1

10

1

nknnk

nTTT

T

i i

i i

秩平均:

另一种算法(列和):

3304531252810

1

i

iT

(每一个学生)

Page 46: 第六章      非参数统计

(2) 如果排序完全相关,即某同学在 6 种能力上均排名第一,而有同学在 6种能力上均排名第二,…,某同学均排在最后。

不妨记: T1=16 , T2=26 , …, T10=106

求离差平方和:

2970)33610()3362()3361(

2)1(

)(*

222

210

1

210

1

iii

nkkiTTW

这时,离差平方和已达到最大值!

Page 47: 第六章      非参数统计

( 3 )计算实际秩的离差平方和

8.0173.02970514

1)1(3

)1(

12

* 4

*

514)3345()3325()3328(

)(

22

1

2

1

1

222

210

11

W

nn

nnk

T

WW

WKendall

WW

TTW

n

i i

i i

在例题中,

系数)(

显然有:

学生在各科成绩及办事能力等方面相关度不高!

Page 48: 第六章      非参数统计

例 16.8 (数据在 school.sav )下面是 4 个独立的环境研究单位对 15 个学校排序的结果;每一行为一个评估机构对这些学校的排序。

  学校 ( 下面是名次 )

S1 S2 S3 S4 S5 S6 S7 S8 S9 S10

S11

S12

S13

S14

S15

评估机构

A 2 4 14 11 10 9 6 13 12 5 3 8 7 1 15

B 3 5 11 8 12 14 1 13 7 9 6 4 2 10 15

C 2 12 13 6 5 11 10 3 7 8 14 4 9 1 15

D 10 13 12 14 9 6 2 7 3 5 8 4 11 1 15

H0 :四个机构在 15个学校的排序结果是随机的(不相关的);

H1 :四个机构在 15 个学校的的排序具有一致性(是相关的)。

Page 49: 第六章      非参数统计

Test Statistics

4

.491

27.500

14

.017

N

Kendall's Wa

Chi-Square

df

Asymp. Sig.

Kendall's Coefficient of Concordancea.

计算结果为 W=0.491 ,而近似的 p- 值为 0.017;

若令显著性水平=0 .05, 则拒绝零假设 ;

也就是说,这些评估机构的排序具有相关性。

SPSS 软件使用说明 : 使用 school.sav 数据

选项 : Analyze - Nonparametric Tests- K Related Samples

把变量(这里是 s1 、 s2 、…、 s15 )选入 Test Variable List

在下面 Test Type 选中 Kendall’s W

OK

SPSS 软件使用说明 : 使用 school.sav 数据

选项 : Analyze - Nonparametric Tests- K Related Samples

把变量(这里是 s1 、 s2 、…、 s15 )选入 Test Variable List

在下面 Test Type 选中 Kendall’s W

OK

Page 50: 第六章      非参数统计

6.6 Kolmogorov-Smirnov 检验 K-S 检验 :  当有一个样本数据后,希望知道它的总体分布是不

是服从某一个已知分布(比如正态分布).

例题:检验一个车间生产的 20 个轴承外座圈的内径后得到下面数据(单位: mm).

15.04 15.36 14.57 14.53 15.57 14.69 15.37 14.66 14.52 15.41

15.34 14.28 15.01 14.76 14.38 15.87 13.66 14.97 15.29 14.95

按照设计要求,检验这组数据是否来自均值为   ,方差为      的正态分布?

1522 2.0

Page 51: 第六章      非参数统计

检验问题: 样本是否来源于某一个已知分布 F0(x).

定义:样本数据的经验分布 (Empirical Distribution Function, 简称 EDF) 为如下阶梯函数:

)()(:

)()(:

01

00

值对至少一个

值对所有的

xxFxFH

xxFxFH

nxX

xS i 的个数 )(

S(x) 是小于等于 x 的值的观测点的比例.它是总体分布 F(x) 的一个估计.因此,检验统计量定义为:

)()(max 01

iini

xFxSD

0

2

4

6

8

10

12

14

80~90 90~100 100~110 110~120 120~130

Page 52: 第六章      非参数统计

xi S(xi) F0(xi) F0(xi)- S(xi)13.6614.2814.3814.5214.5314.7514.6614.6914.7614.9514.9715.0115.0415.2915.3415.3615.3715.4115.5715.87

0.050.100.150.200.250.300.350.400.450.500.550.600.650.700.750.800.850.900.951.00

0.0000.0000.0010.0080.0090.0160.0450.0610.1150.4010.4400.5200.5790.9260.9550.9640.9680.9800.9981.000

-1.050-0.100-0.149-0.192-0.241-0.284-0.305-0.339-0.335-0.099-0.110-0.080-0.0710.2260.2050.1640.1180.0800.0480.000

115.02.0

1576.14)76.14(

ZPXP例如:

20

9

Page 53: 第六章      非参数统计

在表中,

查单样本 K-S 检验统计量表

   n = 20,   = 0.05

得到   da= 0.294

因为   D = 0.339 > 0.294

则拒绝 H0 假设.轴承外座圈的内径数据不服从均

值为   ,方差为     的正态分布.

339.0)()(max 01

ii

nixFxSD

15 22 2.0

Page 54: 第六章      非参数统计

One-Sample Kolmogorov-Smirnov Test

50

1.0021

1.07647

.182

.173

-.182

1.284

.074

.069

.000

N

Mean

Std. Deviation

Normal Parametersa,b

Absolute

Positive

Negative

Most ExtremeDifferences

Kolmogorov-Smirnov Z

Asymp. Sig. (2-tailed)

Exact Sig. (2-tailed)

Point Probability

x

Test distribution is Normal.a.

Calculated from data.b.

P210 :不同软件所采取的统计量也不一定完全一样。结果会稍有差别。在 SPSS 软件中对于是否是正态分布或均匀分布的检验统计量为

1 0 0max ( ) ( ) , ( ) ( )i i i ii

Z n S X F X S X F X

例 16.2 数据 ksdata.sav 的 K-S 检验 一个容量为 50 的样本,问是否服从正态分布。

单尾检验的 p- 值 等于:

0.069/2=0.0345

若 =0.05 ,拒绝产生数据的总体为正态分布的零假设。

这是右尾检验。也就是说, Z越大,就越有理由怀疑零假设(但 SPSS 输出是双边检验的 p- 值,需要除以 2 )。

SPSS 软件使用说明:使用 ksdata.sav 数据选项: Analyze - Nonparametric Tests - 1 Sample K-S

把变量(这里是 x )选入 Variable List

在 Test Distribution 选中零假设的分布( Normal 、 Poisson 、 Uniform 、 Exponenti

al )在 Exact 对话框中可以选择精确方法( Exact )或大样本渐近方法( Asymptotic

only )OK

SPSS 软件使用说明:使用 ksdata.sav 数据选项: Analyze - Nonparametric Tests - 1 Sample K-S

把变量(这里是 x )选入 Variable List

在 Test Distribution 选中零假设的分布( Normal 、 Poisson 、 Uniform 、 Exponenti

al )在 Exact 对话框中可以选择精确方法( Exact )或大样本渐近方法( Asymptotic

only )OK

Page 55: 第六章      非参数统计

讨论讨论 . . 检验的效率(检验的效率( Efficiency)Efficiency)一个大米加工厂卖给一个超市一批表明 10 kg 重的大米。而该超市怀疑该厂家缺斤短两,随机抽取 10 包大米进行称重,得到下面的结果: 9.93 9.83 9.76 9.95 10.07 9.89 10.03 9.97 9.89 9.87

假定打包的大米重量服从正态分布。由于发生分歧,各方同意用这个数据进行检验。 H0 : = 10

H1 : < 10

( 1 )超市用全部数据进行 t 检验(拒绝)( 2 )大米加工厂的老板只用前两个数据进行 t 检验(接受)( 2 )大米加工厂老板的律师用全部数据进行符号检验(接受)

结论:如果针对同一个检验问题有多种检验方法,那么其中只要有一个拒绝,结论就是拒绝的!

不能拒绝假设,仅说明根据所使用的检验方法和当前的数据没有足够的证据拒绝假设。

Page 56: 第六章      非参数统计

练习:检验效率与样本容量的关系

有两个候选人的民意调查表示:候选人 A 有 50% 的支持率,而候选人 B 有 48% 的支持率。( 1 )那么是不是候选人 A 在整个选民中的支持率一定会大于候选人 B ?我们还缺乏什么信息?

( 2 )如果两个样本容量均为 5000呢,结论是什么?

如果零假设的均值和总体均值确实不一样,则只要样本容量充分大,就必然会拒绝零假设。

(假定 A 样本容量为 500 , B 样本容量为 1200 。)

0 1 2

1 1 2

: 0

: 0

H p p

H p p

Page 57: 第六章      非参数统计

频次 代别 答案 青年 中年 老年 可以 114 15 5

不知道 122 18 5

不可以 774 226 86

作 业 1.北京市婚姻家庭调查,对“你认为是否可以同时和几个人谈恋爱?”问卷调查的结果如下所示。问题:答案是否与代别有关?

Page 58: 第六章      非参数统计

2. 某小汽车经销商根据去年销售小汽车的颜色的百分率,认为今年顾客选择各颜色的数目仍将不变。他随机抽取了 150 名顾客询问:

color pi oi ei (oi-ei) (oi-ei)2/ei

yellow 0.2 35 30 5 0.83 red 0.3 50 45 5 0.55 green 0.1 30 15 15 15.00 blue 0.1 10 15 -5 1.67 white 0.3 25 45 -20 8.90 Total 1.0 150 150 0 26.96

488.9)15(205.0

又例 : 香皂的颜色 , 牙膏的包装等

Page 59: 第六章      非参数统计

6.2

6.3

采用手工计算方法,做符号检验方法;采用 SPSS 做符号检验和秩检验