1、单变量描述统计第十章 单变量的描述统计 调查所得的原始资料经过审核、整理与汇总后,还需要进行系统的统计分析,才能揭示出调查资料所包含的众多信息,才能得出调查的结论。根据变量数量的差别统计分析划分为单变量分析、双变量分析和多变量分析。在这一讲中我们先介绍单变量的统计分析。 单变量统计分析可以分为两个大的方面,即描述统计和推论统计。描述统计是用最简单的概括形式反映出大量数据资料所容纳的基本信息。推论统计是用样本调查中所得到的数据资料来推断总体的情况。这一讲我们讲解单变量的描述统计方法。一、变量的分布 (Distributions) 变量的分布分为两类,一类是频数分布,一类是频率分布。频数分布就是变
2、量的每一取值出现的次数;频率分布是用变量每一取值的频数除以总个案数,它是一个相对指标,可以用来比较不同样本。频数分布与频率分布一般以统计表与统计图的形式表达。1、 统计表(1)统计表就是以表格的形式来表示变量的分布。如下表所示: 表9-1甲校学生的父亲职业 职业 f p ?工人农民干部 152 288 1101 2761 5240200 276524200总数 550 1000 1000数值中的小数的取舍: 通俗的做法是“四舍五入”。“四舍”没有问题,但无原则的“五入”就会产生一定的误差。例如数值、和的总合是。如果对原数的最后一位小数作简单的四舍五入,原数就变成、,其总合是,把原来的总合变大了
3、。近代统计学有一项新原则,就是“前单五入”,即“五”前面是单数就进位,若是双数就舍掉(0也算双数)。(2)对于定序及以上层次的变量我们更多的是使用累加频数和累加频率。如下所示:表9-2甲校学生之父亲教育水平教育 f cf ? cf? ? c ? ? c? 一级 二级 三级 四级 五级 68 550 68 90 482 158106 392 264193 286 45793 93 550124 1000 124163 876 287193 713 480351 520 831169 169 1000 总数55010002、 统计图统计图是以图形表示变量的分布情况。与统计表相比,统计图更直观、生动
4、、醒目,但不够精确。统计图有圆瓣图、条形图、直方图和折线图。(1)圆瓣图:多用于描述定类变量的分布,主要目的为显示各部分在整体中所占的比重,以及各部分之间的比较。如表9-1的资料可用下图(图1)所示:农民部分=360%=工人部分=360%=干部部分=360%=72(图一)甲校学生的父亲职业分布(2)条形图:多用于描述定类与定序变量的分布,它是以长条的高度表示变量不同取值的频数(率)分布的,其中长条的宽度没有意义,一般均画成等宽长条。为求清楚,长条之间可以分开。如表9-2的资料可用下图(图2)所示:(图二)甲校学生的父亲教育水平(3)直方图:直方图是由紧挨着的长条构成的,但与长条图不同,它的条的
5、宽度是有意义的,实际上它不是用长条的高度而是用长条的面积表示频数(率)的大小,长条的纵轴高度表示频数(频率)密度密度=频数(率)/组距,长条的宽度表示组距。直方图仅适用于定距变量。如表9-3的资料可用下图(图3)所示: 表9-3 甲校学生的家庭每月总收入收入 f cf cf15001899 13001499 11001299 9001099 700899 500699 40 550 40 141 510 181 158 369 339 136 211 475 65 75 540 10 10 550 总数 550组限(class limits),就是每组的范围,包括上限(upper limit)
6、和下限(lower limit)。例如表9-3中的“700899”组,上限是899,下限是700。但要注意,统计表上所标示的组限(stated limits)是让读者容易领会,但不是真实的组限(real limits)。上表的真实组限是、等等。如果某家庭的收入与真实组限之值相同,一般是采用四舍五入的原则,如把元归“700899”组。真实组限与标示组限的关系,可以下式表示: 真实下限=标示下限 真实上限=标示上限组距(class width),就是组的真实上限与真实下限之差,如上表的“700899”组的组距是:=200。组中点(class midpoint),就是真实上限与真实下限的平均数,如“
7、700899”组的中点是:()2=。 (4)折线图:折线图是用直线连接直方图中条形顶端的中点而成的。二、集中趋势分析集中趋势是从一组数据中抽象出一个代表值,代表现象的共性和一般水平。这种方法有一个特殊意义,就是可以根据这个代表值(或称典型值)来估计或预测每个研究对象(即个案)的数值。这样的估计或预测,当然会有错误,但由于所根据的数值最有代表性,故所发生之错误的总和理应是最小的。集中趋势测量指标有三类:众数、中位值、平均数。1、众数众数(M。)就是出现频数或频率最多的变量值。因为众数最有代表性,故此具有估计或预测的意义,长远来说,以众数作预测所犯的错误总数是最小的。求众数的方法如下:(1)对原始
8、资料:如下例:1,2,3,5,5,5,6,6,7,9其M。=5(2)对单值分组资料:如下表9-3某实验小组成员的年龄分布:表9-3某实验小组成员年龄分布 年龄 数量 13 3 14 4 15 6 16 8 17 4 18 3 19 3其 M。=16(3)组距分组资料:众数是频数最大的区间的组中值。如对于表9-5所示的资料其M。=3502、中位数 中位数(Md)是最中间的数值。它用于描述定序变量以上层次的变量。长远来说,以中位数去估计定序变量的数值,所犯的错误总数是最小的。求中位数的方法如下:(1)对原始资料:原始资料计算中位值的公式是:Md位置= 例:9个人的日工资分别如下:47,42,50,
9、51,92,112,71,83,108首先,从小到大排列:42,47,50,51,71,83,92,108,112。其次,由中位值的位置公式可知Md= =5最后,求Md=71如果n为偶数,则将位于最中央的两个数值的平均值作为中位值。(2)对单值分组资料:如下表9-4的资料: 表9-4学生的学业成绩等级 f cf cf甲乙丙丁 5 5 80 20 25 75 30 55 55 25 80 25 总数 80由公式可知Md位置= =405从累加频数中可知这个位置的值在丙值内,故Md=丙。(3)对组距分组资料:组距分组资料的中位值公式为:Md=L+i 其中L为中位数所在组的下限值,cf(m-1)为中位
10、数所在组以上的累计频数,fm为中位数所在组的频数,i为中位数所在组的组距。 例:表9-5某企业100名职工收入的分布收入(元) 职工数(人) 累计频数 组中值 Xf100199 10 10 150 1500200299 10 20 250 2500300399 40 60 350 14000400499 20 80 450 9000500599 20 100 550 11000合 合计 100首先求出中间位置为(100+1)=505,再从累计频数栏中找到中位数所在组为“300399”这一组,最后利用公式计算 Md=300+100=375平均数:仅适用于定距及定距以上变量,但有时也可用于定序变量
11、,如求平均等级。长远来说,以平均数估计定距变量的资料,错误最小。(1)对原始资料:平均数的公式为= 其中x为各个个案数值之和,n表示全部个案数。(2)对单值分组资料:平均数的公式用加权平均数公式: =如对下表9-6中的资料求平均数:表9-6某年级150名学生的年龄分布 年龄 频数 累积频数 累积频数 17 10 10 150 18 25 35 140 19 50 85 115 20 40 125 65 21 20 145 25 22 5 150 5 合计 150平均年龄为: =193(3)对组距分组资料:一般用组中值来代替变量值,然后按加权平均数公式来计算平均数。 总之,如要测量集中趋势,即找
12、出一个最有代表性之值,定类变项的资料可用众数;定序变项可用众数,但以中位数较适宜,因为后者能够应用资料中所具有的等级数学特质。定距变项可用众数,也可用中位数,但以均值最适宜,因为均值能应用资料中所具有的分组资料中的加减数学特质。然而,有两种情况下不宜用均值:一种是在分组资料中的极端没有组限时(如表9-的资料),不能求出均值,只能用中位值;另一种情况是变项中有个别的数值非常特殊(过高或过低),则均值的代表性就有疑问,用中位值较为合适。 表9- 青年人阅读小说的数目 书 数 f x fx 24 57 810 1113 1416 17本以上 2 3 6 4 6 24 5 9 45 3 12 36 2
13、 15 30 1 18 18总 数 17 三、离散趋势分析离散趋势是要求出一个值来表示个案与个案之间的差异情况。这种测量法,与集中趋势测量法有互补的作用。资料的离散程度表明了集中趋势的代表性如何,凡离散程度愈大,则集中趋势的代表性就愈小,离散程度愈小,则集中趋势的代表性愈大。1、异众比率:异众比率(Vr)就是非众数的次数与全部个案数目的比率。可见异众比率是对众数的补充,异众比率越小,说明众数的代表性越好;反之,异众比率越大,则说明众数的代表性越差。公式如下:Vr=其中fmo为众数的次数。如对于表9-1的资料其Vr =2、极差:极差又称全距,它是一组数据中最大值与最小值之差。极差是对定序及以上尺
14、度的变量离散程度的测量。极差越小,表明资料越集中,集中趋势统计量的代表性越高。但由于它的值是由端点的差决定的,因此个别远离群体的极值会极大改变极差,以至使它不能真实反映资料的分散程度。例:某校3个系各选5名同学,参加智力竞赛,他们的成绩分别如下:中文系:78、79、80、81、82数学系:65、72、80、88、95英语系:35、78、89、98、100则三个代表队的全距分别为:中文系:82-78=4(分)数学系:95-65=30(分)英语系:100-35=65(分)3、四分位差:四分位差是对定序及定序以上测量尺度的变量离散程度的测量指标。四分位差的计算方法是先将一组数据按大小排列成序,然后四
15、等分,各段分界点上的数叫做四分位数,第一个四分位置的值(Q1)与第三四分位置的值(Q3)的差异,就是四分位差(Q)。Q2就是中位值(Md),两边各有50%的个案,也就是在中位值两旁的Q1和Q3之间,共有50%的个案。因此,四分位差越大,表示有50%的个案越远离中位值,因而中位值的代表性就越小。计算四分位差时,先求出Q1和Q3的位置,然后计算在这两个位置上的差异。Q1和Q3的位置公式是:Q1位置= Q3位置=以下是计算四分位差的方法:(1)对原始资料:例:调查11位同学的年龄如下:17岁、18岁、18岁、19岁、19岁、20岁、20岁、21岁、21岁、22岁、。首先,求出Q1和Q3的位置: Q1
16、 的位置=3 Q3的位置=9其次,从数序中找出Q1=18,Q3=21则四分位差Q= Q3Q1=2118=3例:甲村有8户人家,每户人数如下: 2,3,4,7,9,10,12,12首先,求出Q1位置= =225 Q1=3+025(43)=325Q3 位置= =675Q3=10+075(1210)=115 所以Q=115 325=825(2)对单值分组资料:如表9-4所示的学生学业成绩,据公式可知:Q1位置= =2025 Q3位置= =6075从累积次数分布表中,很易看到在这两个位置上的值分别是丁级和乙级,所以 Q=乙丁=两个等级(3)对组距分组资料:对组距分组资料Q1和Q3的计算公式为: Q1=
17、L1+w1Q3=L3+w3其中 L1=Q1属组之真实下限L3= Q3属组之真实下限f1=Q1属组之次数f3= Q3属组之次数cf1=低于Q1属组下限之累积次数cf3=低于Q3属组下限之累积次数w1=Q1属组之组距w3=Q3属组之组距n为全部个案数如表9-5所示的资料,其Q1位置= = =2525,所以Q1在300399组内;Q3位置= = =7575,所以Q3在400499组内。由公式可知: Q1=300+100=3125 Q3=400+100=475所以Q=Q3-Q1=16254、标准差:分析定距变量的离散情况,最常用的方法是标准差,即将每一观察值与其均值之差的平方和除以全部个案数目,然后取
18、其平方根。公式如下: S=如果各个实际数值与均值之相差的总和很大,就表示变量数值的离散程度很大,即均值的代表性很小。5、离散系数:是标准差与平方数之百分比,记为CV,公式为: CV=100%离散系数是一种相对的离散量数统计量,它使我们能够对同一总体中的两种不同的离散量数统计量进行比较,或者对两个不同总体中的同一离散量数统计量进行比较。例:一项调查的结果如下,某市人均月收入为92元,标准差为17元,人均住房面积75平方米,标准差为18平方米。试比较该市人均收入和人均住房情况哪一个差异程度比较大。解 人均收入的离散系数为CV=100%=100%=185%人均住房面积的离散系数为CV=100%=100%=24%可见人均住房面积的差异情况比人均收入的差异情况要大。注意事项:离散趋势测量法与集中趋势测量法是有互补作用的。二法并用,就可以一方面知道资料的代表值,有助于估计或预测的工作,另一方面可以知道资料的差异情况,反映估计或预测时会犯的错误。但要选哪一种方法就要视乎变量的测量层次,彼此的关系可以综合如表9-7:定类变量定序变量定距变量集中趋势离散趋势众值异众比率中位值四分位值均值标准差
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1