单变量描述统计.docx
《单变量描述统计.docx》由会员分享,可在线阅读,更多相关《单变量描述统计.docx(13页珍藏版)》请在冰豆网上搜索。
单变量描述统计
第十章单变量的描述统计
调查所得的原始资料经过审核、整理与汇总后,还需要进行系统的统计分析,才能揭示出调查资料所包含的众多信息,才能得出调查的结论。
根据变量数量的差别统计分析划分为单变量分析、双变量分析和多变量分析。
在这一讲中我们先介绍单变量的统计分析。
单变量统计分析可以分为两个大的方面,即描述统计和推论统计。
描述统计是用最简单的概括形式反映出大量数据资料所容纳的基本信息。
推论统计是用样本调查中所得到的数据资料来推断总体的情况。
这一讲我们讲解单变量的描述统计方法。
一、变量的分布(Distributions)
变量的分布分为两类,一类是频数分布,一类是频率分布。
频数分布就是变量的每一取值出现的次数;频率分布是用变量每一取值的频数除以总个案数,它是一个相对指标,可以用来比较不同样本。
频数分布与频率分布一般以统计表与统计图的形式表达。
1、统计表
(1)统计表就是以表格的形式来表示变量的分布。
如下表所示:
表9-1甲校学生的父亲职业
职业
f
p
?
工人
农民
干部
152
288
110
1.276
1.524
0.200
27.6
52.4
20.0
总数
550
1.000
100.0
数值中的小数的取舍:
通俗的做法是“四舍五入”。
“四舍”没有问题,但无原则的“五入”就会产生一定的误差。
例如数值、、、和的总合是。
如果对原数的最后一位小数作简单的四舍五入,原数就变成、、、,其总合是,把原来的总合变大了。
近代统计学有一项新原则,就是“前单五入”,即“五”前面是单数就进位,若是双数就舍掉(0也算双数)。
(2)对于定序及以上层次的变量我们更多的是使用累加频数和累加频率。
如下所示:
表9-2甲校学生之父亲教育水平
教育
fcf?
cf?
?
c?
?
c?
?
一级
二级
三级
四级
五级
6855068
90482158
106392264
193286457
9393550
12.4100.012.4
16.387.628.7
19.371.348.0
35.152.083.1
16.916.9100.0
总数
550
100.0
2、统计图
统计图是以图形表示变量的分布情况。
与统计表相比,统计图更直观、生动、醒目,但不够精确。
统计图有圆瓣图、条形图、直方图和折线图。
(1)圆瓣图:
多用于描述定类变量的分布,主要目的为显示各部分在整体中所占的比重,以及各部分之间的比较。
如表9-1的资料可用下图(图1)所示:
农民部分=360°×%=°
工人部分=360°×%=°
干部部分=360°×%=72°
(图一)甲校学生的父亲职业分布
(2)条形图:
多用于描述定类与定序变量的分布,它是以长条的高度表示变量不同取值的频数(率)分布的,其中长条的宽度没有意义,一般均画成等宽长条。
为求清楚,长条之间可以分开。
如表9-2的资料可用下图(图2)所示:
(图二)甲校学生的父亲教育水平
(3)直方图:
直方图是由紧挨着的长条构成的,但与长条图不同,它的条的宽度是有意义的,实际上它不是用长条的高度而是用长条的面积表示频数(率)的大小,长条的纵轴高度表示频数(频率)密度{密度=频数(率)/组距},长条的宽度表示组距。
直方图仅适用于定距变量。
如表9-3的资料可用下图(图3)所示:
表9-3甲校学生的家庭每月总收入
收入
fcf↑cf↓
1500~1899
1300~1499
1100~1299
900~1099
700~899
500~699
4055040
141510181
158369339
136211475
6575540
1010550
总数
550
组限(classlimits),就是每组的范围,包括上限(upperlimit)和下限(lowerlimit)。
例如表9-3中的“700~899”组,上限是899,下限是700。
但要注意,统计表上所标示的组限(statedlimits)是让读者容易领会,但不是真实的组限(reallimits)。
上表的真实组限是~、~、~、~等等。
如果某家庭的收入与真实组限之值相同,一般是采用四舍五入的原则,如把元归“700~899”组。
真实组限与标示组限的关系,可以下式表示:
真实下限=标示下限-
真实上限=标示上限+
组距(classwidth),就是组的真实上限与真实下限之差,如上表的“700~899”组的组距是:
-=200。
组中点(classmidpoint),就是真实上限与真实下限的平均数,如“700~899”组的中点是:
(+)÷2=。
(4)折线图:
折线图是用直线连接直方图中条形顶端的中点而成的。
二、集中趋势分析
集中趋势是从一组数据中抽象出一个代表值,代表现象的共性和一般水平。
这种方法有一个特殊意义,就是可以根据这个代表值(或称典型值)来估计或预测每个研究对象(即个案)的数值。
这样的估计或预测,当然会有错误,但由于所根据的数值最有代表性,故所发生之错误的总和理应是最小的。
集中趋势测量指标有三类:
众数、中位值、平均数。
1、众数
众数(M。
)就是出现频数或频率最多的变量值。
因为众数最有代表性,故此具有估计或预测的意义,长远来说,以众数作预测所犯的错误总数是最小的。
求众数的方法如下:
(1)对原始资料:
如下例:
1,2,3,5,5,5,6,6,7,9
其M。
=5
(2)对单值分组资料:
如下表9-3某实验小组成员的年龄分布:
表9-3某实验小组成员年龄分布
年龄数量
133
144
156
168
174
183
193
其M。
=16
(3)组距分组资料:
众数是频数最大的区间的组中值。
如对于表9-5所示的资料其M。
=350
2、中位数
中位数(Md)是最中间的数值。
它用于描述定序变量以上层次的变量。
长远来说,以中位数去估计定序变量的数值,所犯的错误总数是最小的。
求中位数的方法如下:
(1)对原始资料:
原始资料计算中位值的公式是:
Md位置=
例:
9个人的日工资分别如下:
47,42,50,51,92,112,71,83,108
首先,从小到大排列:
42,47,50,51,71,83,92,108,112。
其次,由中位值的位置公式可知Md=
=
=5
最后,求Md=71
如果n为偶数,则将位于最中央的两个数值的平均值作为中位值。
(2)对单值分组资料:
如下表9-4的资料:
表9-4学生的学业成绩
等级
fcf↓cf↑
甲
乙
丙
丁
5580
202575
305555
258025
总数
80
由公式可知Md位置=
=
=40.5从累加频数中可知这个位置的值在丙值内,故Md=丙。
(3)对组距分组资料:
组距分组资料的中位值公式为:
Md=L+
×i
其中L为中位数所在组的下限值,cf(m-1)为中位数所在组以上的累计频数,fm为中位数所在组的频数,i为中位数所在组的组距。
例:
表9-5某企业100名职工收入的分布
收入(元)职工数(人)累计频数组中值Xf
100—19910101501500
200—29910202502500
300—399406035014000
400—49920804509000
500—5992010055011000
合合计100
首先求出中间位置为(100+1)=50.5,再从累计频数栏中找到中位数所在组为“300—399”这一组,最后利用公式计算
Md=300+
×100=375
平均数:
仅适用于定距及定距以上变量,但有时也可用于定序变量,如求平均等级。
长远来说,以平均数估计定距变量的资料,错误最小。
(1)对原始资料:
平均数的公式为
=
其中∑x为各个个案数值之和,n表示全部个案数。
(2)对单值分组资料:
平均数的公式用加权平均数公式:
=
如对下表9-6中的资料求平均数:
表9-6某年级150名学生的年龄分布
年龄频数累积频数↓累积频数↑
171010150
182535140
195085115
204012565
212014525
2251505
合计150
平均年龄为:
=
=19.3
(3)对组距分组资料:
一般用组中值来代替变量值,然后按加权平均数公式来计算平均数。
总之,如要测量集中趋势,即找出一个最有代表性之值,定类变项的资料可用众数;定序变项可用众数,但以中位数较适宜,因为后者能够应用资料中所具有的等级数学特质。
定距变项可用众数,也可用中位数,但以均值最适宜,因为均值能应用资料中所具有的分组资料中的加减数学特质。
然而,有两种情况下不宜用均值:
一种是在分组资料中的极端没有组限时(如表9-的资料),不能求出均值,只能用中位值;另一种情况是变项中有个别的数值非常特殊(过高或过低),则均值的代表性就有疑问,用中位值较为合适。
表9-青年人阅读小说的数目
书数
fxfx
2~4
5~7
8~10
11~13
14~16
17本以上
236
4624
5945
31236
21530
11818
总数
17
三、离散趋势分析
离散趋势是要求出一个值来表示个案与个案之间的差异情况。
这种测量法,与集中趋势测量法有互补的作用。
资料的离散程度表明了集中趋势的代表性如何,凡离散程度愈大,则集中趋势的代表性就愈小,离散程度愈小,则集中趋势的代表性愈大。
1、异众比率:
异众比率(Vr)就是非众数的次数与全部个案数目的比率。
可见异众比率是对众数的补充,异众比率越小,说明众数的代表性越好;反之,异众比率越大,则说明众数的代表性越差。
公式如下:
Vr=
其中fmo为众数的次数。
如对于表9-1的资料其Vr=
=
2、极差:
极差又称全距,它是一组数据中最大值与最小值之差。
极差是对定序及以上尺度的变量离散程度的测量。
极差越小,表明资料越集中,集中趋势统计量的代表性越高。
但由于它的值是由端点的差决定的,因此个别远离群体的极值会极大改变极差,以至使它不能真实反映资料的分散程度。
例:
某校3个系各选5名同学,参加智力竞赛,他们的成绩分别如下:
中文系:
78、79、80、81、82
数学系:
65、72、80、88、95
英语系:
35、78、89、98、100
则三个代表队的全距分别为:
中文系:
82-78=4(分)
数学系:
95-65=30(分)
英语系:
100-35=65(分)
3、四分位差:
四分位差是对定序及定序以上测量尺度的变量离散程度的测量指标。
四分位差的计算方法是先将一组数据按大小排列成序,然后四等分,各段分界点上的数叫做四分位数,第一个四分位置的值(Q1)与第三四分位置的值(Q3)的差异,就是四分位差(Q)。
Q2就是中位值(Md),两边各有50%的个案,也就是在中位值两旁的Q1和Q3之间,共有50%的个案。
因此,四分位差越大,表示有50%的个案越远离中位值,因而中位值的代表性就越小。
计算四分位差时,先求出Q1和Q3的位置,然后计算在这两个位置上的差异。
Q1和Q3的位置公式是:
Q1位置=
Q3位置=
以下是计算四分位差的方法:
(1)对原始资料:
例:
调查11位同学的年龄如下:
17岁、18岁、18岁、19岁、19岁、20岁、20岁、21岁、21岁、22岁、。
首先,求出Q1和Q3的位置:
Q1的位置=
=
=3
Q3的位置=
=
=9
其次,从数序中找出Q1=18,Q3=21
则四分位差Q=Q3—Q1=21—18=3
例:
甲村有8户人家,每户人数如下:
2,3,4,7,9,10,12,12
首先,求出Q1位置=
=2.25
Q1=3+0.25(4—3)=3.25
Q3位置=
=6.75
Q3=10+0.75(12—10)=11.5
所以Q=11.5—3.25=8.25
(2)对单值分组资料:
如表9-4所示的学生学业成绩,据公式可知:
Q1位置=
=20.25
Q3位置=
=60.75
从累积次数分布表中,很易看到在这两个位置上的值分别是丁级和乙级,所以
Q=乙—丁=两个等级
(3)对组距分组资料:
对组距分组资料Q1和Q3的计算公式为:
Q1=L1+[
]w1
Q3=L3+[
]w3
其中L1=Q1属组之真实下限
L3=Q3属组之真实下限
f1=Q1属组之次数
f3=Q3属组之次数
cf1=低于Q1属组下限之累积次数
cf3=低于Q3属组下限之累积次数
w1=Q1属组之组距
w3=Q3属组之组距
n为全部个案数
如表9-5所示的资料,其Q1位置=
=
=25.25,所以Q1在300—399组内;Q3位置=
=
=75.75,所以Q3在400—499组内。
由公式可知:
Q1=300+
×100=312.5
Q3=400+
×100=475
所以Q=Q3-Q1=162.5
4、标准差:
分析定距变量的离散情况,最常用的方法是标准差,即将每一观察值与其均值之差的平方和除以全部个案数目,然后取其平方根。
公式如下:
S=
如果各个实际数值与均值之相差的总和很大,就表示变量数值的离散程度很大,即均值的代表性很小。
5、离散系数:
是标准差与平方数之百分比,记为CV,公式为:
CV=
×100%
离散系数是一种相对的离散量数统计量,它使我们能够对同一总体中的两种不同的离散量数统计量进行比较,或者对两个不同总体中的同一离散量数统计量进行比较。
例:
一项调查的结果如下,某市人均月收入为92元,标准差为17元,人均住房面积7.5平方米,标准差为1.8平方米。
试比较该市人均收入和人均住房情况哪一个差异程度比较大。
[解]人均收入的离散系数为CV=
×100%=
×100%=18.5%
人均住房面积的离散系数为CV=
×100%=
×100%=24%
可见人均住房面积的差异情况比人均收入的差异情况要大。
注意事项:
离散趋势测量法与集中趋势测量法是有互补作用的。
二法并用,就可以一方面知道资料的代表值,有助于估计或预测的工作,另一方面可以知道资料的差异情况,反映估计或预测时会犯的错误。
但要选哪一种方法就要视乎变量的测量层次,彼此的关系可以综合如表9-7:
定类变量
定序变量
定距变量
集中趋势
离散趋势
众值
异众比率
中位值
四分位值
均值
标准差