《应用统计学》习题课

《应用统计学》习题课

北航经管学院 2011-2012 学年第二学期

同学。。。你是“表哥” 还是“表姐” ？？

这位同学，你的大名在哪里。。。

统计学：是一门关于数据资料的收集、描述、分析、解释的学科。

统计学：是一门关于数据资料的收集、描述、分析、解释的学科。

对数据 disc.sav 进行计算判别分析

Eigenvalues

Function

Eigenvalue

% of Variance

Cumulative %

Canonical Correlation

1 26.673a 99.0 99.0 .9822 .262a 1.0 100.0 .456

提取出两个非零特征根，其中，第一个特征根能解释 99% 的原始信息。

Canonical Discriminant Function Coefficients

Function

1 2is .035 .005se 3.283 .567sa .037 .041prr -.007 .012ms .068 .048msr -.023 .044cs -.385 -.159(Constant) -3.166 -4.384

8 个原始变量中，有 7 个变量进入了模型（变量 cp 未进入模型）。

两个判别函数的表达式如下：

(-6.296+0.154)/2=-3.071

(0.154+6.141)/2=3.1475

F1<-3.071 F1=-3.071 -3.071<F1<3.1475 F1=3.1475 F1>3.1475

Group 1 待判 Group 2 待判 Group 3

将新样本点的观测值带入线性判别函数，哪个函数的数值大，就将新样本点判为对应的那一类

如图所示，分类效果很好。

Classification Results

group Predicted Group Membership Total 1.00 2.00 3.00

Original

Count1.00 30 0 0 302.00 0 30 0 303.00 0 0 30 30

%1.00 100.0 .0 .0 100.02.00 .0 100.0 .0 100.03.00 .0 .0 100.0 100.0

Cross-validated

Count1.00 30 0 0 302.00 0 30 0 303.00 0 0 30 30

%1.00 100.0 .0 .0 100.02.00 .0 100.0 .0 100.03.00 .0 .0 100.0 100.0

模型的正判率达到了 100%

作业中普遍存在的一些问题…

盲点

下表给出 6 种精神治疗药物的 3 种临床测量指标数据，请利用谱系图做聚类分析（绝对值距离和最短距离法）

聚类分析

药物吸入量疗效依赖性

速可眠 5 9 20

LSD 6 11 2

安定 4 5 20

吗啡 6 9 46

仙人球毒碱 5 7 1

酒精 3 1 12

速可眠 LSD 安定吗啡仙人球

毒碱酒精

速可眠 0 21 5 27 21 18

LSD 0 26 46 6 23

安定 0 32 22 13

吗啡 0 48 43仙人球

毒碱 0 19

酒精 0

药物吸入量疗效依赖性

速可眠 5 9 20

LSD 6 11 2

安定 4 5 20

吗啡 6 9 46

仙人球毒碱 5 7 1

酒精 3 1 12

|5-6|+|9-11|+|20-2|=21

绘制谱系图的盲点：1 、横坐标标注（样本点可以不按照原始的顺序排列；排列的原则：保证谱系图中的线段不相互交叉）2 、纵坐标刻度（聚合指数）

主成分分析

管理期刊遴选

请分析以下内容：（ 1 ）指出主平面图的累计贡献率（ 2 ）利用因子载荷图给主成分（或主因子）命名（ 3 ）解释主平面图的含义

Initial EigenvaluesExtraction Sums of Squared

Loadings Rotation Sums of Squared

Loadings

Total% of

VarianceCumulative

%Total

% of Variance

Cumulative %

Total% of

VarianceCumulative

%

1 1.532 38.293 38.293 1.532 38.293 38.293 1.524 38.094 38.094

2 1.026 25.644 63.937 1.026 25.644 63.937 1.034 25.843 63.937

3 .886 22.150 86.087

4 .557 13.913 100.000

前两个主成分（主平面）的累积贡献率是63.937% ，对 4 个原始变量具有较好的代表性

Component1 2

BYCISHU .782 6.347E-02ZAIWENL -1.724E-02 .953YZQIKAN .827 -.147

NSFC .477 .316

第一个主成分与 “ 被引频次 ” 、 “ 引证期刊数”、“ nsfc 基金标注数 ” 这三个变量正相关，且相关性较高，可以命名为 “ 科学性和规范性”

第二个主成分主要由“ 载文量 ” 解释，可以命名为“信息量”

Rotation Sums of Squared Loadings

Total% of

VarianceCumulative

%

1 1.524 38.094 38.094

2 1.034 25.843 63.937

Component1 2

BYCISHU .782 6.347E-02ZAIWENL -1.724E-02 .953YZQIKAN .827 -.147

NSFC .477 .316

请写出第一主成分和第二主成分的函数表达式

jur hhjh xy ,

𝑭 𝟏=𝟎 .𝟕𝟖𝟐𝑿𝟏−𝟎 .𝟎𝟏𝟕𝟐𝟒𝑿𝟐+𝟎 .𝟖𝟐𝟕𝑿𝟑+𝟎 .𝟒𝟕𝟕𝑿𝟒

𝑭 𝟐=𝟎 .𝟎𝟔𝟑𝟒𝟕𝑿𝟏+𝟎 .𝟗𝟓𝟑𝑿𝟐−𝟎 .𝟏𝟒𝟕𝑿𝟑+𝟎 .𝟑𝟏𝟔𝑿𝟒

𝑭𝟏=𝟎 .𝟔𝟑𝑿𝟏−𝟎 .𝟎𝟏 𝑿𝟐+𝟎 .𝟔𝟕𝑿𝟑+𝟎 .𝟑𝟗𝑿𝟒

𝑭 𝟐=𝟎 .𝟎𝟔𝑿𝟏+𝟎 .𝟗𝟒𝑿𝟐−𝟎 .𝟏𝟒𝑿𝟑+𝟎 .𝟑𝟏 𝑿𝟒

回归分析

判断相关形态线性相关一元线性相关正相关

两个变量呈正相关关系，且线性关系比较明显

计算相关系数

F 检验

t 检验

方差分析

显著！检验通过。由于 p-value=0.2459>0.05 ，因此不能拒绝原假

设，即不能认为三种方法组装的产品数量是有显著差异的。

1 、某调查公司欲了解一居民区内看过某电视广告的家庭所占比重，需要从该区抽选多个家庭作样本。该小区居民共有 1050户，分析人员希望以 95% 的置信度对这个比重值做出估计，并使估计精度在 0.05 的范围内。在一个以前抽取的样本中，曾统计有 28% 的家庭看过该广告。试问应抽取多大容量的样本？

抽样调查

要求估计精度

有

ˆ ˆ1.96 0.05

pqD

n

若考虑不放回抽样，有

注意向上取整！

2

2

ˆ ˆ1.96309.8 310

pqn

D

𝒙± 𝒛 𝜶𝟐

𝒔√𝒏

𝒙± 𝒕 𝜶𝟐

(𝒏−𝟏 ) 𝒔√𝒏

参数估计

描述性统计

收益率的标准差或者方差

Ready?

预祝大家取得好成绩！

Go!!!

《应用统计学》习题课

Documents

Transcript of 《应用统计学》习题课

《 应用统计学 》 习题课

Documents

Transcript of 《 应用统计学 》 习题课

《应用统计学》习题课

Transcript of 《应用统计学》习题课