第三章 统计数据整理.docx
《第三章 统计数据整理.docx》由会员分享,可在线阅读,更多相关《第三章 统计数据整理.docx(20页珍藏版)》请在冰豆网上搜索。
第三章统计数据整理
第三章统计数据整理
一、统计数据整理的内容与程序
(一)统计数据整理的概念及意义
1.概念
统计整理,就是根据统计研究的目的,对所搜集到的资料进行科学的加工,使之系统化,条理化的工作过程。
统计整理即包括对统计调查所得到的原始资料进行整理,也包括对加工过的综合资料,即次级资料进行再整理。
2.意义
统计整理在整个统计研究中占有重要的地位。
统计整理的正确与否,将直接影响和决定着能否完成整个统计研究的任务。
如果采用不科学不完整的整理方法,即使搜集到准确、全面的统计资料,也往往使这些资料失去应用价值,掩盖客观现象的本质,难以得出正确的结论。
因此,必须十分重视统计整理工作。
(二)统计数据整理的内容:
1、根据研究目的设计整理汇总方案
2、根据汇总方案,对各个调查项目的资料进行汇总,通过汇总计算各项指标
3、通过统计表或统计图的形式,描述整理的结果
(三)统计数据整理的程序
第一步,设计和制定统计整理方案。
第二步,对原始资料进行审核。
第三步,对经过审核的资料进行分组、并结合汇总,计算出总体总量指标。
第四步,将汇总计算的结果,以统计表或统计图的形式表现出来。
第五步,对统计资料妥善保存,系统积累。
二、统计分组
(一)统计分组的概念
统计分组就是根据统计研究的需要,将统计总体按照一定的标志分为若干个组成部分的一种统计方法。
例如,将某一班级的全体同学按照性别划分为男、女两个组;对某市100家大型零售商店按照零售额、职工人数进行分组等。
统计分组具有两个方面的含义:
对总体而言,是“分”,即将同质总体区分为性质有别的不同组成部分;
对总体单位而言,它是“组”,即将性质相同或相近的不同总体单位组合在一起,构成一个组。
例如,要了解我国人口状况,只知道总人口数量是不够的,而应将人口总体按照年龄、性别、民族、城乡、文化程度……等分组,才能进一步地深入地了解我国人口总体的年龄结构、性别比例、民族构成等。
(二)统计分组的作用
1.区分现象的不同类型
2.研究总体的内部结构
3.分析现象间的依存关系
(三)统计分组的原则
1、穷尽原则:
就是使总体中的每一个单位都应有组可归,或者说各分组的空间足以容纳总体中所有的单位。
2、互斥原则:
就是在特定的分组标志下,总体中的任何单位只能归属于某一组,而不能同时或可能归属于几个组。
(四)统计分组的种类
1、按分组标志的多少,可分为简单分组和复合分组。
将社会经济总体只选择一个标志分组称为简单分组。
复合分组是用两个或两个以上分组标志重叠起来对总体进行的分组。
例如,将人口先按“性别”分成男、女两组,然后在男性和女性两组中分别按照“文化程度”划分为大学生及大学以上、高中、初中、文盲及半文盲如下五组。
2、按分组标志的性质不同,分为品质分组(或称属性分组)和数量分组(或称变量分组)。
品质分组就是按品质标志进行分组。
一般地,对于以定类尺度或定序尺度计量的,采用品质分组。
数量分组就是按数量标志进行分组。
3、按分组的作用和任务不同,分为类型分组、结构分组和分析分组。
把复杂的现象总体划分为若干个不同性质的部分,就是类型分组。
在对总体分组的基础上计算出各组对总体的比重以研究总体各部分的结构,就是结构分组。
为研究对象之间的依存关系而进行的统计分组即分析分组。
(五)统计分组体系:
分组体系有下列形式:
1.平行分组体系
对同一总体选择两个或两个以上的标志分别进行简单分组,排列起来,即成为平行分组体系。
2.复合分组体系
如果多个复合分组组成的体系就形成了复合分组体系。
例如,为了认识我国高等院校在校学生的基本状况,可以同时选择学科、本科或专科、性别三个标志进行复合分组,并得到如下复合分组体系:
(六)统计分组的方法
统计分组的关键问题是正确地选择分组标志与划分各组界限。
前者主要是指品质标志分组,后者主要是指数量标志分组。
1.分组标志选择的原则
(1)要选择能够反映事物本质或主要特征的标志
(2)应根据研究的目的与任务选择分组标志
(3)根据现象所处的历史条件的变化选择分组标志
2.统计分组的方法
(1)按品质标志分组
按照品质标志分组就是用来反映事物的属性,性质的标志作为分组标志,就可以将总体单位划分为若干性质不同的组成部分。
例如,人口按性别、文化程度、民族、籍贯等标志分组;企业按经济类型、轻重工业、隶属关系,企业规模等标志分组等。
(2)按数量标志分组
按数量标志分组就是用反映事物数量差异的标志作为分组标志,将总体各单位划分为若干个组。
例如,地区经济按国内生产总值分组、企业按销售收入分组等。
A、单项式分组与组距式分组:
单项式分组就是用一个变量值作为一组形成的分组。
一般适用于离散型变量且变量变动范围不大的场合。
组距式分组就是将变量依次划分为几段区间,一段区间表现为从“。
。
。
到。
。
。
”距离,把一段区间内的作有变量值归为一组,形成组距式分组。
一般对于连续型变量或者变动范围较大的的离散型变量,适宜采用组距式分组。
B、间断组距式分组和连续组距式分组:
组距是上下限之间的距离,相邻两组的界限,称为组限。
凡是组限不相连的,称为间断组距式分组。
凡是组限相连(或称相重叠)的,即以同一数值作为相邻两组的共同界限,称为连续组距式分组。
统计上规定,凡是总体某一个单位的变量值是相邻两组的界限值,这一个单位归入作为下限值的那一组内,即所谓“上限不在内”原则。
C、等距分组与异距分组:
等距分组就是标志值在各组保持相等的组距,即各组的标志值变动都限于相同的范围。
异距分组即各组的组距不相等。
(七)组距式分组中相关指标的计算
1、组限
组限为组距式变量数列中,每组区间两端的极值称组限。
每一组的两个组限中,较大者叫上限,较小者叫下限,如果各组的组限都齐全,成为闭口组;组限不齐全,即最小组缺下限或最大组缺上限,称为开口组。
2、组距
组距为每组下限与上限之间的距离为组距。
即:
组距=上限-下限
组距式变量数列,有等距数列和不等距(异距)数列之分
计算公式:
d=R/n其中:
d—组距R—全距n—组数
开口组的组距是以相邻组的组距为本组的组距。
3、组数:
组数就是分组后各组的个数之和。
斯特杰斯经验公式:
n=1+3.3logN其中:
n—组数N—总体单位数
4、组中值:
上下限之间的中点数值称为组中值,计算公式入下:
组中值=
对于开口组中值的计算方式可以利用如下公式:
无下限组的组中值=
无上限组的组中值=
第三节频数分布
一、频数分布的基本概念
(一)频数分布的概念与种类
1、定义:
在统计分组的基础上,总体中的所有单位按其所属的组别归类整理,并且按照一定的顺序排列,形成总体单位数在各组分布的一系列数字,称为分配数列,又称次数分配或次数分布。
2、分配数列中,分布在各个组的总体单位数叫次数,又称频数。
3、如果将分组标志序列与各组相对应的频率按照一定的顺序排列,就形成频率分布数列。
4、分配数列有两个组成要求:
一是分组;另一个是次数或比率。
它可根据分组标志的性质不同,可以分为品质数列与变量数列。
(1)品质数列
它是按品质标志分组的数列,用来观察总体单位中不同属性的单位分布情况。
例如,
表2.12000年我国人口性别构成情况
人口性别分组
人口数(万人)
占人口的比重(%)
男
女
65355
61228
51.63
48.37
合计
126583
100
(分组名称)(次数)(频数)
品质数列的编制比较简单,但要注意分组时,应包括分组标志的所有表现,不能有遗漏,各种表现相互独立,不得相融。
(2)变量数列
变量数列是将总体按数量标志分组,将分组后形成的各组变量值与该组中所分配的单位次数或频数,按照一定的顺序相对应排列所形成的分配数列。
表2.2某班级统计学成绩分布表
考试分数
人数(人)
频率(%)
60以下
60——70
70—80
80—90
90—100
2
7
11
12
8
20.0
30.0
27.0
17.0
5.0
合计
40
100.0
(各组变量值)(次数)(频数)
二、变量数列的编制
1.单项式变量数列,可以直接将每一变量值作为一组,
表2.3某工厂生产车间工人按日产量分布
日产量
工人数
比率(%)
20
21
22
23
24
3
7
10
6
4
10.0
23.3
33.3
20.1
13.3
合计
30
100.0
(各组变量值)(次数)(频率)
单项式变量数列的编制比较明确、容易。
但是用连续变量分组来编制分配数列时,或者虽是离散变量,但数值很多,变化范围很大时,单项数列就不能适用,而应考虑采用组距数列的形式。
2.组距变量数列的编制
以下举例说明:
[例2.1]对某企业30个工人完成劳动定额的情况进行调查,某原始资料如下(%)
98819584938691102100103
105100104108107108106109112114
109117125115120119118116129113
第一步:
计算全距
将各变量值由小到大排序,确定某最大值,最小值,并计算全距。
变量的最大值是129%最小值是81%
全距=最大值-最小值=129%-81%=48%
第二步:
确定组数和组距
在等距分组时,组距与组数的关系是:
组距=
本例中根据一般将成绩分成优、良、中、及格和不及格的五档评分习惯,可以先确定组数为5。
在等距分组时,计算组距如下:
组距=
为了符合习惯和计算方便,组距近似地取10%。
第三步:
确定组限
关于组限的确定,应注意如下几点:
第一,最小组的下限(起点值)应低于最小变量值,最大组的上限(终点值)应高于最大变量值。
第二,组限的确定应有利于表现出总体分布的特点,应反映出事物质的变化。
第三,为了方便计算组限应尽可能取整数,最好是5或10的整倍数。
第四,由于变量有连续型变量和离散型变量两种,其组限的确定方法是不同的。
第四步:
编制频数(频率)分布表。
表2.4某企业30个工人劳动定额完成情况分布图表
劳动定额完成程度(%)
频数(人)
频数(%)
80—90
90—100
100—110
110—120
120—130
3
4
12
8
3
10.0
13.3
40.0
26.7
10.0
合计
30
100.0
三、计算累计频数和累计频率
为了更详细的认识变量的分布特征,还可以计算累计频数和累计频率,编制累计频数和累计频率数列。
累计频数和累计频率有向上累计频数(频率)和向下累计频数(频率)两种。
以变量值大小为依据,由变量值小的组向变量值大的组累计频数和频率,成为向上累计频数和向上累计频率。
向上累计数的意义是:
小于各组的该组上限的各组的频数或频率之和;相反,由变量值大的组向变量值小的组累计各组的频数或频率,称为向下累计频数或向下累计频数。
向下累计数的意义是:
大于及等于该组下限的各组的频数或频率之和。
根据上例:
某企业工人完成劳动定额的资料编制的向上累计频数(频率)和向下累计频数(频率)分布如表3—8。
表2.5某企业工人完成劳动定额累计分布表
劳动定额完成情况
(%)
频数
(人)
频率
(%)
向上累计
向下累计
频数
(人)
频率
(%)
频数
(人)
频率
(%)
80~90
90~100
100~110
110~120
120~130
3
4
12
8
3
10.0
13.3
40.0
26.7
10.0
3
7
19
27
30
10.0
23.3
63.3
90.0
100.0
30
27
23
11
3
100.0
90.0
76.7
36.7
10.0
合计
30
10.0
—
—
—
—
四、次数分布的主要类型
1.钟形分布
钟形分布的特征是“两头小、中间大”,即靠近中间的变量值分布的次数多,靠近两端的变量值分布的次数少,如果将变量值与其对应的频数在直角坐标系中对应的点连接起来绘制成曲线图,宛如一口钟,所以又称钟形分布。
在自然或社会经济现象中,有许多次数分布是属于钟形分布的。
例如,人体体重、身高,学生的成绩,居民货币收入,单位面积的农产品产量,市场价格等现象都属于钟形分布。
(a)(b)(c)
图2.1钟型频数分布示意图
2.U形分布
U形分布的特征是:
靠近中间的变量值分布的次数少,靠近两端的变量值分布的次数多,形成“两头大,中间小”的分布特征。
将这种分布绘成曲线,像英文字母“U”的形状,故称U形分布
例如,人口死亡率的分布,一般是婴幼儿死亡率和老年人死亡率均较高,而中年人死亡率最低,所以人口年龄分组的死亡率是呈U形分布的。
另外,失业人口按年龄的分布等均呈U形分布。
图2.2U型频数分布示意图
3.J形分布
J形分布的特征是“一边小,一边大”,即大部分变量值集中在某一端分布,有两种类型。
(1)正J形分布
正J形分布是次数随着变量值的增大而增多。
如投资额按利润率大小分布,一般是正J形分布。
(2)反J形分布
反J形分布是次数随着变量值的增大而减小。
如成年人数量按年龄大小分组,表现出年龄越高,人数越少。
图2.3型频数分布示意图
第四节统计表与统计图
一、统计表
(一)统计表的概念和结构
1、概念
统计表是表现统计资料的一种形式。
把经过大量调查得来的统计资料,经过汇总整理以后,按照一定的规定和要求填列在相应的表格内,就形成了一定的统计表。
2、作用
统计表对表现统计资料具有重要作用。
统计表是统计整理的重要形式。
它利用表格形式,合理地安排统计资料,清晰、简明地反映出现象总体的特征。
统计表通过科学、合理地表现统计资料,便于对统计资料进行对照比较和分析,有利于计算统计分析指标。
在统计分析报告中使用统计表,能节省文字叙述篇幅,达到简明易懂、紧凑有力的分析效果。
统计表还是汇总和积累统计资料,进行统计分析的重要工具。
3、结构
从外表形式上看,是由四部分构成:
A、总标题:
它是表的名称,用于概括统计表中要说明的内容。
B、横行标题:
它是各组的名称,反映总体各组成部分的。
C、纵栏标题:
它是分组标志或指标的名称,说明纵行所列各项资料的内容。
D、指标数值:
也称数字资料,它是统计表的具体内容,
从统计表的内容来看,由主词和宾词两个部分组成。
主词是统计表所说明的总体,总体的各组或各组的名称。
宾词是用于说明主词的各种指标。
通常,统计表的主词列在表的左方,宾词列在表的右方。
(二)统计表的种类
1、统计表按照总体分组情况不同,可分为简单表、分组表和复合表三类。
(1)简单表
是主词未经过任何分组,反映出总体各单位的名称或按时间顺序简单排列,或同时反映以上内容的统计表。
(2)分组表
分组表是主词按照一定标志分组的统计表,也称简单分组表。
它可以揭示出现象的不同类型的特征,研究现象的内部结构。
(3)复合表
复合表是主词按照两个或两个以上的标志层叠分组所形成的统计表。
如表3—13
2、按宾词设计分类,可分为宾词简单排列、分组平行排列和分组层叠排列。
宾词简单排列:
宾词不进行任何分组,按一定顺序排列在统计表上。
分组平行排列:
宾词栏中各分组标志彼此分开,平行排列。
分组层叠排列:
统计指标同时有层次地按两个或两个以上标志分组,各种分组层叠在一起,宾词的栏数等于各种分组的组数连乘积。
(三)统计表的设计:
1、线条的绘制;
2、合计栏的设置;
3、标题设计;
4、指标数值;
5、计量单位;
6、注解或资料来源。
二、统计图
1.统计图的概念
统计图是以图形形象地表现统计资料的一种形式。
用统计图表现统计资料,具有鲜明醒目,富于表现,易于理解的特点,因而绘制统计图是统计整理的重要内容之一。
统计图可以揭示现象的内部结构和依存关系,显示现象的发展趋势和分布状况,有利于进行统计分析与研究。
2.统计图的种类
常用的统计图主要有条形图、面积图、曲线图、象形图等。
(1)条形图
1.条形图(Bar)。
条形图可用于显示离散型变量的次数分布。
最主要是显示顺序数据和分类数据的频数分布。
条形图是用宽度相同的条形的高度或长短来表示数据的多少的图形。
条形图可以横置或纵置,纵置时也称为柱形图。
此外,条形图有单式、复式等形式。
在表示分类数据的分布时,用条形图的高度或长度来表示各类别数据的频数或频率。
绘制时,各类别可以放在纵轴,称为条形图;也可以放在横轴,称为柱形图。
例如,如图2.4所示。
条形图(Bar)用于显示离散型变量的次数分布,用条形的高度来表示变量值的大小,如图2.5所示。
图2.4类别数据条形图
图2.5离散型变量次数分布条形图
绘制条形图应注意以下几个问题:
A、在图形中条形的宽度、条形之间距离要相等;B、图形上的尺度必须以x轴或y轴为等线;C、图形中要注明相应的数字;D、各条形的排列应有一定的顺序,如比较现象在时间上的变动时,条形应按时间顺序排列。
2.直方图(Histogram)和折线图。
用于显示连续型变量的次数分布。
直方图是用矩形的宽度和高度(即面积)来表示频数分布的图形。
在平面直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,这样,各组与相应的频数就形成了一个矩形,即直方图。
在直方图中,实际上是用矩形的面积来表示各组的频数分布。
在直方图基础上添加趋势线,形成折线图。
例如根据表2—5资料绘制的直方图(图2.6所示)和折线图(图2.7所示)。
表2.6某生产车间50名工人日加工零件数原始资料(单位:
个)
图2.6某生产车间50名工人日加工零件频数分布直方图
图2.7某生产车间50名工人日加工零件频数分布折线图
直方图与条形图不同。
首先,条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此,其高度与宽度均有意义。
其次,由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。
最后,条形图主要用于展示分类数据,而直方图主要用于展示数值型数据。
3.圆形图(饼图Pie)。
用于显示定类变量的次数分布。
它是用圆形及圆内扇形的面积来表示数值大小的图形。
饼图主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用。
在绘制饼图时,总体中各部分所占的百分比用圆内的各个扇形面积表示,这些扇形的中心角度,是按各部分比占3600的相同比例确定的。
如图2.8(a)、(b)、(c)所示。
图2.8(a)饼图
图2.8(b)饼图
图2.8c)饼图
4.环形图。
环形图与饼形图类似,但又有区别。
环形图中间有一个“空洞”,总体或样本中的每一部分数据用环中的一段表示。
饼图只能显示一个总体和样本各部分所占的比例,而环形图则可以同时绘制多个总体或样本的数据系列,每一个总体或样本的数据系列为一个环。
因此环形图可显示多个总体或样本各部分所占的相应比例,从而有利于我们进行比较研究。
例如根据表2.7、表2.8资料绘制成的环形图,如图2.9所示。
表2.7甲城市家庭对住房状况满意程度的频数分布
表2—7乙城市家庭对住房状况满意程度的频数分布
表2.8乙城市家庭对住房状况满意程度的频数分布
图2.9环形图
5.线图(Line)。
线图是在平面坐标上用折线表现数量变化特征和规律的图形。
主要用于显示连续型变量的次数分布和现象的动态变化。
例如,根据表2—7资料绘制成的乙城市家庭对住房状况的评价线图,如图2.10(a)、(b)所示。
图2.10(a)乙城市向上累积频数分布图
2.10(b)乙城市向上累计频数分布图
6.散点图(Scatter)。
主要用来观察变量间的相关关系,也可显示数量随时间的变化情况。
如图2.11所示。
图2.11散点图
本章难点
1、抽样调查、重点调查与典型调查的比较;
2、统计调查方案的设计;
3、调查对象、调查单位、报告单位的内涵;
4、变量数列的内涵与外延;
5、统计分组的方法与技巧;
复习思考题
1、统计数据的来源渠道有哪些?
2、统计数据搜集方案包括哪几项内容?
3、简要解释调查对象、调查单位与报告单位的含义及它们之间的联系。
4、比较三种非全面调查的特点及应用场合。
5、何谓统计分组?
统计分组应遵循的基本原则是什么?
6、说明组距、组限、组数、全距与组中值的含义及其它们的计算方法。
7、统计整理及其意义。
8、品质型数据的显示方法主要有哪些?
9、数值型数据的显示方法主要有哪些?
10、论述统计整理的完整过程。