第三章 数据整理
-
Upload
alika-tyler -
Category
Documents
-
view
112 -
download
5
description
Transcript of 第三章 数据整理
第三章 数据整理 按照研究的目的 , 将搜集到的原始数据进行整理加工 , 从中提取有用的信息,并搜索其中的数量规律性。
3.1 数据分组3.2 次数分配3.3 统计指标
3.4 统计表和统计图
3.1 数据分组 一、统计数据分组的目的及原则
分组是将总体所有单位按一定的标准区分为若干部分
分组前分组前 分组后分组后
25%
33%
42%
分组的目的:概括数据,清晰条理
分组时注意:
•将具有共性的个体归入同一组•将总体内部个体间的差异通过组别区分开来 分组的原则:保证总体中的任何一个个体或原始数据都能归于某一个组且仅能归于某一个组,即保证不重、不漏。
统计分组的关键是分组标志的选择
1 、按分组标志的多少不同分: 简单分组:分组仅按一个标志来进行 复合分组:分组按两个或两个以上的标志进行,并
且层叠在一起。
二、统计分组的种类
例如:对全国的工业企业进行简单分组:按经济类型分:全民所有制企业、集体所有制企
业、城乡个体企业按轻重工业分:重工业、轻工业按企业规模大小分:大型企业、中型企业、小型
企业复合分组:
全民所有制
集体所有制
重工业
轻工业
重工业轻工业
大型企业中型企业小型企业
2 、按分组标志的性质不同分: 品质分组:按品质标志进行的分组 如人口总体按性别分组、高校教师按职称
分组。 变量分组:按数量标志进行的分组 如企业按职工人数分 ------1000 人以
下、 1000-5000 人、 5000 人以上
三、分组标志与分组体系的选择
1 、根据统计研究的目的,在对现象进行分析的基础上,抓住具有本质性的区别及反映现象内在联系的标志来作为分组标志。
2 、在统计整理中,为了全面认识被研究现象总体,常常需要运用多个分组标志对总体进行分组,形成一系列相互联系、相互补充的分组体系。
四、统计分组方法
1 、品质分组的方法 分组标志一经确定,组名称和组数也就确定,不
存在组与组之间界限区分的困难。 复杂的情况下,各组界限不易划分,从这一组到
另一组存在各种过度状态,边缘不清。2 、变量分组的方法: 变量分组的目的并不是单纯确定各组在数量上的
差别,而是要通过数量上变化来区分各组的不同类型和性质。
单项式分组:是依次将每一个变量值作为一组。(适用于离散型变量且变量取值不多的情况) 例如,居民家庭人口数,其取值不可能很多,且每一个
取值都可视为一种类型。
按家庭人口数分组 1 人 2 人 3 人 4 人 5 人 6 人
组距式分组:把整个变量值依次划分为几个区间,各个变量值按其大小确定所归并的区间,区间的距离称组距。
包括等距分组和不等距分组 适用于连续型变量或虽为离散型变量但取值很多,不
便一一列举的情况。1 )连续型变量的组距式分组 如对商店按销售额进行分组 :
•按销售额分组 ( 万元 )
•50 以下; 50—200; 200—400; 400—600
•600—800; 800 以上
2 )离散型变量的组距式分组如对某企业的生产小组按人数分组:
生产小组按人数分组(人) 组数5—10
11—16
17—22
组距式分组中的有关问题:( 1 )组距和组中值 组距两端的数值称为组限,其中:每组的起点数
值称下限、每组的终点数值称上限。 离散型变量分组:各组的上下限都可以用确定的数
值(整数)表示。 连续型变量分组:相邻组的上限和下限无法用两个
确定的数值分别表示,因此上一组的上限同时也是下一组的下限。
例如:企业按工人工资对工人进行分组如下: 500—600 元 600---700 元 700---800 元如果某工人工资为 700 元,应将他归并到哪一组?“ 上组限不计入”原则:遇到某单位的标志值刚好等
于相邻两组上下限时,一般把此值归并到作为下限的那一组。
注意 EXCEL !
( 2 )全距:变量值中最大值与最小值的差数 组数 = 全距 / 组距 组距 = 上限—下限( 3 )组中值 = (上限 + 下限) /2
缺下限的开口组:组距数列的首组出现“ *** 以下”
邻组组距组中值=上限 -
2缺上限的开口组:组距数列的末组出现“ *** 以上”
邻组组距组中值=下限+
2
合理确定组中值例如:
第一组: 50 人以下
第二组: 50—200 人
按公式 (不合理)组中值 252
5020050
252/500 )(组中值应定下限为0
3.2 次数分配 数据观察值在各组中的个数称为次数,各组间的次数
称为次数分配。次数分配描述了总体的结构和特征。一、品质次数分配的编制
按品质标志进行分组,由总体各组的名称及各组的单位数(次数)组成。
某高校学生的性别分布
按性别分组 人数 比例( % )女生 5448 41.2
男生 7804 58.8
合计 13262 100.0
Excel演示
二、变量次数分配的编制1 、将原始资料按顺序排序2 、确定组数与组距( 1 )当 n 较大时, k取 10~20 ;当 n<50 时, k取 5~6 ;
( 2 )如果数据分布比较均匀、对称,即中间数值次数多,大小极端值次数少,考虑用以下公式来确定组数 : 组数= 1+3.322 log n 式中, n 表示总次数, log 表示以 10 为底的对数。组距=
(观察值中的最大数值-观察值中的最小数值) / 组数
3 、确定组限每组区间的界限称为组限。 离散型变量,分组时相邻组的组限必须间断。 如某省企业按职工人数分组,可分为: 0-
99, 100-199, 200-299, 300-399,…, 900-1000 等;
连续型变量,相邻组的上、下限采用重叠的方法分组界定。
如按职工工资分组, 0-500, 500-1000, 1000-1500, 1500-2000,…,等;
4 、将各个数据按其数值大小归入相应的组内。
某企业非熟练工人的周工资额(元)单位 : 元人员编号 周收入 人员编号 周收入 人员编号 周收入
1 106 11 99 21 85
2 84 12 94 22 106
3 111 13 119 23 101
4 91 14 87 24 105
5 109 15 118 25 96
6 91 16 97 26 105
7 111 17 103 27 107
8 107 18 103 28 128
9 121 19 95 29 111
10 105 20 106 30 101返回
分组计算 组数= 1+3.322 log n ( n=30)
=5.9 分 6 组 组距:每组区间的宽度 =(观察值中的最大数值- 观察值中的最小数值) / 组数 =(128-84)/6=7.3 84-91, 91-98, 98-105, 105-
112, 112-119, 119-126 ;未包含最大值
83-91, 91-99, 99-107, 107-115, 115-123, 123-131 ;
按 5 组, 10 元作为组距,计算次数。
求次数分配表和直方图
结合实际数据,组距为 10 比较好计算且方便,分组的组数相应从 6 减少为 5 。 最小值为 83 ,下限从 80 开 始,
次数分配表工资收入次数分配表
工资收入分组 次数
80-90 3
90-100 7
100- 110 13
110- 120 5
120- 130 2
合计 30
累计次数分布周工资 上组限 组次数 小于上组限的
累计次数小于上组限的累计百分比 %
80-90
90-100
100-110
110-120
120-130
90
100
110
120
130
3
7
13
5
2
3
10
23
28
30
10
33
77
93
100
作图
分配直方图
0
2
4
6
8
10
12
14
收入
人次
80 90- 90 100- 100 110- 110 120- 120 130-
如果分两组 工资收入次数分配表 工资收入分组 次数
80- 105 13
105-130 17
合计 30
反映不出观察值分布特征
次数
0
5
10
15
20
80- 105 105- 130
次数
Excel 作直方图
分组太细会出现什么问题?
020406080100120140
工资
1
人员编号
工资表
反映不出观察值的分布特征
前面分组都是等距分组 也有不等距分组
在不等距分组情况下,要比较各组次数或分析总体结构,要消除由组距不等造成的影响。为此需计算单位组距的次数,即频数密度。
每组单位组距次数=某组次数 / 该组组距
次数曲线 用直线线段连接直方图各组条形顶端中值,
形成一条平滑的曲线,即次数曲线。 常见的四种次数曲线:正态分布曲线,偏态
曲线, J 形曲线和 U 形曲线。
正态分布曲线 偏态曲线钟型分布
在客观实际中,许多社会现象的总体分布都趋向于正态分布,如农作物单位面积产量的分布、零件公差的分布等。
U 形曲线
J 形曲线
如人口按年龄死亡率的分布,在人口总体中,幼儿和老年人死亡率高,而中青年死亡率低。
自然界某一物种在理想条件下种群数量增长的形式,如果以时间做横坐标,种群数量做纵坐标画出来的曲线表示,曲线大致成 J 型曲线。
洛伦茨( Lorens )曲线 洛伦茨曲线是美国经济学家洛伦茨在二十世纪初提
出的,应用累积次数分配曲线描述一个国家或一个地区收入分配平均程度的一种图示方法 .
收入分配不平均的程度可以通过基尼系数来测算。
基尼系数 =A/( A+B )
G 的值在 0~1 之间。 联合国有关组织规定: G 小于 0.2 可认为收入绝对平等; G在 0.2~0.3 之间表示比较平等; G在 0.3~0.4 之间表示相对合理; G在 0.4~0.5 之间表示收入差距较大; G 大于 0.6 表示收入差距悬殊。 基尼系数 0.4 为国际警戒线,超过 0.4 则应采取措
施缩小收入差距
3.3 统计指标 统计指标是说明社会经济现象总体数量特征的名称和数
值,是统计活动对客观存在的种种社会经济现象,按其具体名称,在一定空间、时间条件下,进行科学计量的数字结果。
两个特征 : 可计量性 ( 具体性 ) 和总体性 ( 综合性 )
形成指标的现象特征必须是可以用数量来表现的
统计指标是由个体数量特征汇总或整理加工后得到的数值
一、统计指标的种类 1. 总量指标:反映总体现象的规模水平,以绝对数形
式表现,故也称为绝对指标。如总人口、国民生产总值等;
总量指标按其所说明的总体内容的不同,分为总体单位总量和总体标志总量
总体单位总量反映总体单位的总量指标,如企业数目、职工人数等;
总体标志总量反映总体各单位某一数量标志值总和的总量指标,如商品销售额、总工资总额等;
总量指标按其所反映的不同时间状况,分为时点总量和时期总量。
2. 平均指标:将总体标志总量指标除以总体单位总量,得到平均指标;
平均指标=总体标志总量 / 总体单位总量
3. 相对指标:两个有联系的指标对比所得到的指标都可以叫做相对指标。
( 1 )结构相对指标 将总体的部分标志总量与总体的标志总量相比较,
或将总体的部分单位总量与总体全部单位数相比较。
( 2 )比例相对指标
将总体内部的部分与部分对比所得到的指标
( 3 )动态相对指标
将同一内容的指标在不同时间上的数值进行对比。
说明现象在时间上的变化。
( 4 )强度相对指标
将同一时期内容不同、但有一定联系的两个总量指标对比。
强度相对指标常被用来说明现象的密度、普遍程度。
二、统计指标体系 由相互联系的若干统计指标组成的一个指标系统称为
指标体系。 按指标体系所反映的内容分为基本统计指标体系和专
题统计指标体系; 基本统计指标体系反映社会经济发展的基本情况,
如人口统计指标体系、科技统计指标体系。 专题统计指标体系是就某一专门问题而设立的。如
企业经济效益评价指标体系。 按统计指标体系所实施的范围分为国家统计指标体系、
地方统计指标体系、部门统计指标体系和基层统计指标体系;
三、 统计指标的应用
注意:1. 统计指标的内涵和可比性2. 多种指标结合应用
3.4 统计表和统计图
一个完整的统计表要求有:表号、表名、分组标志或说明、指标名称及数值; p55
统计图有条形图、线形图、圆形图、立体图、枝叶图等;
树茎 树叶
次数
8 4 8 5 3
9 1 1 9 4 7 5 6 7
10 6 9 7 5 3 6 6 6 1 5 5 7 1 13
11 0 1 9 8 1 5
12 1 8 2
某研究所研究人员月工资收入的茎叶图