高校学生学习环境研究 - nies.net.cn€¦ · Web view课题名称:高校学生学习环境研究——基于学生的视角. 课题批准号:FEB070293. 课题级别:教育部规划课题.
《 应用统计学 》 习题课
description
Transcript of 《 应用统计学 》 习题课
《应用统计学》习题课
北航经管学院 2011-2012 学年第二学期
同学。。。你是“表哥” 还是“表姐” ??
这位同学,你的大名在哪里。。。
统计学 : 是一门关于数据资料的收集、描述、分析、解释的学科。
统计学 : 是一门关于数据资料的收集、描述、分析、解释的学科。
对数据 disc.sav 进行计算判别分析
Eigenvalues
Function
Eigenvalue
% of Variance
Cumulative %
Canonical Correlation
1 26.673a 99.0 99.0 .9822 .262a 1.0 100.0 .456
提取出两个非零特征根,其中,第一个特征根能解释 99% 的原始信息。
Canonical Discriminant Function Coefficients
Function
1 2is .035 .005se 3.283 .567sa .037 .041prr -.007 .012ms .068 .048msr -.023 .044cs -.385 -.159(Constant) -3.166 -4.384
8 个原始变量中,有 7 个变量进入了模型(变量 cp 未进入模型)。
两个判别函数的表达式如下:
(-6.296+0.154)/2=-3.071
(0.154+6.141)/2=3.1475
F1<-3.071 F1=-3.071 -3.071<F1<3.1475 F1=3.1475 F1>3.1475
Group 1 待判 Group 2 待判 Group 3
将新样本点的观测值带入线性判别函数,哪个函数的数值大,就将新样本点判为对应的那一类
如图所示,分类效果很好。
Classification Results
group Predicted Group Membership Total 1.00 2.00 3.00
Original
Count1.00 30 0 0 302.00 0 30 0 303.00 0 0 30 30
%1.00 100.0 .0 .0 100.02.00 .0 100.0 .0 100.03.00 .0 .0 100.0 100.0
Cross-validated
Count1.00 30 0 0 302.00 0 30 0 303.00 0 0 30 30
%1.00 100.0 .0 .0 100.02.00 .0 100.0 .0 100.03.00 .0 .0 100.0 100.0
模 型 的 正判 率 达 到了 100%
作业中 普遍存在的一些问题…
盲点
下表给出 6 种精神治疗药物的 3 种临床测量指标数据,请利用谱系图做聚类分析(绝对值距离和最短距离法)
聚类分析
药物 吸入量 疗效 依赖性
速可眠 5 9 20
LSD 6 11 2
安定 4 5 20
吗啡 6 9 46
仙人球毒碱 5 7 1
酒精 3 1 12
速可眠 LSD 安定 吗啡仙人球
毒碱酒精
速可眠 0 21 5 27 21 18
LSD 0 26 46 6 23
安定 0 32 22 13
吗啡 0 48 43仙人球
毒碱 0 19
酒精 0
药物 吸入量 疗效 依赖性
速可眠 5 9 20
LSD 6 11 2
安定 4 5 20
吗啡 6 9 46
仙人球毒碱 5 7 1
酒精 3 1 12
|5-6|+|9-11|+|20-2|=21
绘制谱系图的盲点:1 、横坐标标注(样本点可以不按照原始的顺序排列;排列的原则:保证谱系图中的线段不相互交叉)2 、纵坐标刻度(聚合指数)
主成分分析
管理期刊遴选
请分析以下内容:( 1 )指出主平面图的累计贡献率( 2 )利用因子载荷图给主成分(或主因子)命名( 3 )解释主平面图的含义
Initial EigenvaluesExtraction Sums of Squared
Loadings Rotation Sums of Squared
Loadings
Total% of
VarianceCumulative
%Total
% of Variance
Cumulative %
Total% of
VarianceCumulative
%
1 1.532 38.293 38.293 1.532 38.293 38.293 1.524 38.094 38.094
2 1.026 25.644 63.937 1.026 25.644 63.937 1.034 25.843 63.937
3 .886 22.150 86.087
4 .557 13.913 100.000
前 两 个 主 成 分 ( 主 平 面 ) 的 累 积 贡 献 率 是63.937% ,对 4 个原始变量具有较好的代表性
Component1 2
BYCISHU .782 6.347E-02ZAIWENL -1.724E-02 .953YZQIKAN .827 -.147
NSFC .477 .316
第 一 个 主 成 分 与 “ 被引 频 次 ” 、 “ 引 证 期刊数”、“ nsfc 基金标 注 数 ” 这 三 个 变 量正 相 关 , 且 相 关 性 较高 , 可 以 命 名 为 “ 科学性和规范性”
第 二 个 主 成 分 主 要 由“ 载 文 量 ” 解 释 , 可以命名为“信息量”
Rotation Sums of Squared Loadings
Total% of
VarianceCumulative
%
1 1.524 38.094 38.094
2 1.034 25.843 63.937
Component1 2
BYCISHU .782 6.347E-02ZAIWENL -1.724E-02 .953YZQIKAN .827 -.147
NSFC .477 .316
请写出第一主成分和第二主成分的函数表达式
jur hhjh xy ,
𝑭 𝟏=𝟎 .𝟕𝟖𝟐𝑿𝟏−𝟎 .𝟎𝟏𝟕𝟐𝟒𝑿𝟐+𝟎 .𝟖𝟐𝟕𝑿𝟑+𝟎 .𝟒𝟕𝟕𝑿𝟒
𝑭 𝟐=𝟎 .𝟎𝟔𝟑𝟒𝟕𝑿𝟏+𝟎 .𝟗𝟓𝟑𝑿𝟐−𝟎 .𝟏𝟒𝟕𝑿𝟑+𝟎 .𝟑𝟏𝟔𝑿𝟒
𝑭𝟏=𝟎 .𝟔𝟑𝑿𝟏−𝟎 .𝟎𝟏 𝑿𝟐+𝟎 .𝟔𝟕𝑿𝟑+𝟎 .𝟑𝟗𝑿𝟒
𝑭 𝟐=𝟎 .𝟎𝟔𝑿𝟏+𝟎 .𝟗𝟒𝑿𝟐−𝟎 .𝟏𝟒𝑿𝟑+𝟎 .𝟑𝟏 𝑿𝟒
回归分析
判断相关形态线性相关一元线性相关正相关
两个变量呈正相关关系,且线性关系比较明显
计算相关系数
F 检验
t 检验
方差分析
显著!检验通过。由于 p-value=0.2459>0.05 ,因此不能拒绝原假
设,即不能认为三种方法组装的产品数量是有显著差异的。
1 、某调查公司欲了解一居民区内看过某电视广告的家庭所占比重,需要从该区抽选多个家庭作样本。该小区居民共有 1050户,分析人员希望以 95% 的置信度对这个比重值做出估计,并使估计精度在 0.05 的范围内。在一个以前抽取的样本中,曾统计有 28% 的家庭看过该广告。试问应抽取多大容量的样本?
抽样调查
要求估计精度
有
ˆ ˆ1.96 0.05
pqD
n
若考虑不放回抽样,有
注意向上取整!
2
2
ˆ ˆ1.96309.8 310
pqn
D
𝒙± 𝒛 𝜶𝟐
𝒔√𝒏
𝒙± 𝒕 𝜶𝟐
(𝒏−𝟏 ) 𝒔√𝒏
参数估计
描述性统计
收益率的标准差或者方差
Ready?
预祝大家 取得好成绩!
Go!!!