第2章 数据的描述.docx
《第2章 数据的描述.docx》由会员分享,可在线阅读,更多相关《第2章 数据的描述.docx(29页珍藏版)》请在冰豆网上搜索。
第2章数据的描述
第2章数据的描述
2.1数据的计量与分类
对不同事物能够给予计量或测度的程度是不同的。
有的现象能够用数值计量和描述,而有的现象却只能用文字进行分类描述。
按照对现象计量程度的不同,可以将数据计量尺度分为四种。
数据的计量尺度:
定类尺度、定序尺度、定距尺度、定比尺度
一、定类尺度
1.也称类别尺度或列名尺度,是把事物按属性或类别分组;
2.计量结果表现为某种类别,对各类间其他差别无法测度;
3.各类是平等的、并列的,没有先后顺序;
4.计量结果形成分类数据。
[例]人口按性别分为男、女;
企业按经济类型分为国有企业、
集体企业、独资企业等。
二、定序尺度
1.也称顺序尺度,是对事物之间等级差别或顺序差别的测度;
2.对事物分类的同时给出各类的顺序或优劣;
3.计量结果形成顺序数据;
[例]学生的考试成绩分为优、良、
中、及格、不及格;人的受教育
程度分为小学、初中、高中、大
学及以上。
三、定距尺度
1、也称间隔尺度,是对事物间的类别或次序间的间距的测度;
2、计量结果表现为数值;
3、可以具体计算各类的差值,并进行加减运算;
4、“零”值是有意义的,表示一个具体数值。
【例】学生成绩可以表现为
0-100之间的任意一个整数。
四、定比尺度
1、也称比率尺度,与定距尺度处于同一层次;
2、计量结果表现为数值;
3、不仅可以计算各类的差值,还可以进行加减乘除运算;
4、“零”值无意义,表示没有或无。
【例】甲乙丙三人的日工资分别为
20、30、40元,则丙比甲日收入多
20元,是甲的2倍。
不同尺度的计量结果是不同的,形成了三种数据:
◆分类数据
◆顺序数据
◆数值型数据
分类数据和顺序数据合称为定性数据。
数值型数据通常称为定量数据
2.2数据的收集
一、间接获取的数据
在科学研究和管理决策中,要善于利用各种“现成的数据”。
这种数据既可以从报刊、图书、杂志、统计年鉴、网络等渠道获得,也可以从调查公司或数据库公司等处购买。
近年来,互联网已经成为“数据来源”的重要渠道,几乎所有的政府机构和大公司都有自己的网站并提供公共访问端口,访问者可以从中获得有用的数据。
二、直接获取的数据
在进行科学研究和管理决策时,如果没有现成的数据可以利用,就必须专门组织调查或进行科学试验获取。
对于社会经济管理和决策而言,主要是通过“统计调查”的方式直接获取数据,如:
电视收视率调查、家庭收支情况调查、居民闲暇时间利用调查等。
1、统计报表
统计报表——是按照国家有关法规的规定,自上而下地统一布置,自下而上地逐级提供基本统计数据的一种调查方式。
但统计报表中间环节多,易受人为因素干扰,因此目前是一种搜集数据的重要方式,但已不是主要方式。
2、普查
普查——是为某一特定目的而专门组织的一次性全面调查。
普查是一种摸清国情、国力的重要调查方法。
比如人口普查、工业普查、农业普查等。
普查比统计报表所提供的资料更详细,主要是表明现象在某一时点上的情况,时间要求很强。
◆通常是一次性或周期性的,即只能间隔较长时间进行一次;
◆需要规定统一的标准时间,以避免调查数据的重复或遗漏;
◆普查的数据一般较为准确,规范化程度较高;
◆适用对象较窄,只能调查一些最基本、最一般及特定的现象。
3、抽样调查
抽样调查——是从研究对象的总体中随机抽取一部分个体作为样本进行调查,并根据调查结果来推断总体数量特征的一种非全面调查方法。
抽样调查是实际中应用最为广泛的一种调查方法。
因为它是非全面调查中最完善、最有科学根据的方法。
4、重点调查
重点调查——是从调查对象的全部单位中选择少数重点单位进行调查。
这里的重点单位是指在所要调查的数量特征上占有较大比重的单位。
5、典型调查
典型调查——是从调查对象的全部单位中选择一个或几个有代表性的单位进行全面深入的调查。
典型调查的目的是通过典型单位来描述或揭示事物的本质和规律
2.3统计数据的整理
一、分类数据和顺序数据的整理
对分类数据和顺序数据,我们可以计算出每一类别出现的频数或频率,通过频数分布表和图形来展示。
频数分布表——又称次数分布表,是用表格的形式将分类数据或顺序数据各分组及其相应的频数全部罗列出来。
◆频数——也叫次数,是分布在各组的单位数
◆频率——也叫比重,是各组次数与总次数之比
◆一组资料中,各组频率之和等于100%(或1)
将分类数据和顺序数据通过图形来展示会更形象、直观。
适合分类数据和顺序数据的图形有条形图、饼图、环形图等。
◆条形图——是用相同宽度条形的高度来表示数据多少的图形。
◆饼图——又称圆图,是以整个圆代表总体,按总体各部分占总体比重的大小将圆面积分割成若干扇形,从而用圆内扇形面积来直观反映各部分在总体中的比例。
◆环形图——是指图中间有一个空洞,总体或样本中的每一部分数据用环中的一段来表示的图形。
二、数值型数据的整理
对数值型数据,不仅可以计算出每一组的数据出现的频数或频率,还可以计算其特征值,如均值、方差、标准差等。
因此,数值型数据的整理方法除了有频数分布表、各种图形等,还可以计算相应的特征值。
1、用频数分布表展示数值型数据
数值型数据通过统计分组,就可以形成频数分布表。
◆单变量值分组——把一个变量值作为一组。
适用于离散型变量,且变量值变动幅度不大时;
◆组距式分组——将全部变量值一次划分为若干个区间,把每个区间的变量值作为一组。
适用于变量值较多、且变动范围较大的离散型或连续型变量。
(1)组距分组中的几个基本概念
◆组限——每个组两端的数值。
可以分为上限和下限。
◆组距:
一个组的上限与下限两端的距离。
◆全距:
所有变量值中最大值与最小值之差。
◆组中值:
每个组的上限与下限的中点值。
(2)组距分组的步骤
第一步:
确定组数。
组数是分组的个数。
组数的确定应以能够显示数据的分布特征和规律为目的。
◆斯特格斯经验公式:
对结果用四舍五入的办法取整数即为组数。
这只是一个经验公式,实际应用时,可根据数据的多少和分析的要求,灵活确定组数。
第二步:
确定各组的组距。
可根据全部数据的最大值和最小值及所分的组数来确定。
为便于计算,组距宜取5或10的倍数;
第三步:
根据分组整理成次数分布表
(3)组距分组的六条原则
(A)分组时,需要保证“不重不漏”的原则,即任一个变量值应分在且只能分在一个组中;为了保证所有数据不被遗漏,应使第一组的下限低于全部数据的最小变量值,最后一组的上限大于全部数据的最大变量值;
(B)组距分组时,组数既不能太多,也不能太少。
如果组数太少,数据太集中,其规律性反映不出来;如果组数太多,特别是当数据并不是很多时,反映出来的大多是偶然性差异
(C)若全部数据的最大值和最小值悬殊较大,且数量又较少时,为避免出现空白组或某个极端值被遗漏,一般应采用“××以下”或“××以上”;
开口组——是指只有上限而无下限或只有下限而无上限的组。
(D)当第一组上限与第二组下限相同时,应遵循“上组限不在内”的原则。
即当相邻两组的上下限相叠时,上组限数值不算在该组内。
当所有数据都不存在小数点的问题时,为了解决“不重”问题,组限也可以这样确定,即70—79分,80—89分,等等。
(E)在组距分组时,如果各组的组距相等,则称为等距分组。
有时对于某些特殊现象或为了特定研究的需要,各组的组距也可以不相等,称为不等距分组。
等距分组由于各组的组距相等,各组频数的分布不受组距大小的影响,因此可以直接根据绝对频数来观察频数分布的特征和规律。
不等距分组因各组组距不同,各组频数的分布受组距大小的影响也不同,因此,各组绝对频数的多少并不能反映频数分布的实际状况。
为了消除组距不同对频数分布的影响,需要计算频数密度,才能准确的反映频数分布的实际状况。
(F)组距分组掩盖了各组内的数据分布状况,为了反映各组数据的一般水平,我们通常用组中值作为该组数据的一个代表值。
(4)累积次数分配表
为了统计分析的需要,有时需要观察某一数值以下或以上的次数之和,这就需要在分组的基础上计算出累积次数。
包括:
◆向上累积——把各频率数或频率由变量值小的组向变量值大的组顺序逐组累积,截至各组的累积次数或频率表示小于该组变量值上限的次数或频率合计有多少;
◆向下累积——把各频率数或频率由变量值大的组向变量值小的组顺序逐组累积,截至各组的累积次数或频率表示大于该组变量值下限的次数或频率合计有多少。
2、用图示展示数值型数据
数值型数据通过分组后形成频数分布表,可以更加形象和直观的反映出数据分布的特征和规律。
适合数值型数据的图形有直方图、箱线图、线图、茎叶图等。
(1)直方图
直方图——用矩形的宽度和高度来表示频数分布的图形。
◆若是等距数列,用横坐标表示数据分组,用纵坐标表示各组次数;
◆若是不等距数列,按频数密度绘制直方图。
条形图和直方图的区别:
◆条形图是用条形的长度表示各类别频数的多少,其宽度通常是固定的;条形图一般是分开排列的;
◆直方图是用高度和宽度一起来表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度表示各组的组距,因此其高度和宽度均有意义;直方图的各矩形通常是连续排列的。
(2)折线图
折线图——也称为频数多边形图,是指在直方图的基础上,把直方图顶部的中点用直线连接起来,再把原来的直方图抹掉所形成的图形。
在实际画图时,折线图的两个终点要与横轴相交,具体做法:
将第一个矩形的顶部中点通过竖边中点连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴。
(3)频数分布曲线
当我们对数据所分的组数很多时,组距会越来越小,这时所绘制的折线图就会越来越光滑,逐渐形成一条光滑的曲线,这就是频数分布曲线。
分布曲线在统计学中有着十分广泛的应用,是描述各种统计量和分布规律的有效方法。
1)钟形分布
钟形分布——是一种“两头小,中间大”的形状,即靠近中间变量值分布的次数多,靠近两端的变量值分布的次数少。
钟形分布又分为正态分布、右偏分布、左偏分布。
如农作物的单位面积产量、学生的考试成绩、零件的公差、纤维的强度、人的身高、体重、智商等均服从正态分布。
◆右偏分布
右偏分布——又称为正偏分布,分布曲线尾巴向右延伸。
如人均收入分配,低收入的人多,高收入人少,且越高越少。
◆左偏分布
左偏分布——又称为负偏分布,分布曲线尾巴向左延伸。
如学生的考试成绩,中等偏高分数的人数较多,低分数人数较少,且分数越低人数越少。
2)J形分布
J形分布图象像英文字母J,包括正J形分布和反J形分布两种类型。
◆正J形分布——是指随着横轴的增加,纵轴相应增加的分布。
如供给曲线,随着价格的提高,供给量相应增加。
◆反J形分布——是指随着横轴的增加,纵轴相应减少的分布。
如需求曲线,随着价格的上升,需求量相应减少。
3)U形分布
U形分布——特征是两头大,中间小,即靠近中间的变量值分布的次数少,靠近两端的变量值分布的次数多。
如人和动物按不同年龄的死亡率分布就属于U型分布,婴幼儿时期和老年时期死亡率最高,而中青年时期的死亡率较低。
(4)箱线图
箱线图——是由一组数据的最大值、最小值、中位数和两个四分位数共五个特征值绘制而成的,用以反映原始数据分布的图形。
◆对于未分组数据,可以绘制简单箱线图。
◆对于分组数据,可以绘制批比较箱线图。
通过箱线图,不仅可以反映一组数据的分布特征,还可以进行多组数据分布特征的比较。
形象地说,箱线图是由一个箱子和两条线段组成的。
其绘制方法是:
①找出一组数据的最大值、最小值、中位数、两个四分位数等5个特征值。
②连接两个四分位数画出箱子。
③将两个极端点(最大值和最小值)与箱子相联接。
(5)线图
线图——是用线条的延伸和波动来表明现象变动情况的图形。
它主要适用用于表示现象在不同时间上的变化趋势。
(6)茎叶图
茎叶图——又称为枝叶图,是将数组中的数按位数进行比较,将变化不大的高位数作为一个茎,将变化大的低位数作为叶,列在茎的后面,即按照一定的间隔将数组中的每个变化的数一一列出来,像一条茎上抽出的叶子一样。
◆如果不是以10作为组距分组,而是以5为组距,就可以形成扩展的茎叶图。
扩展茎叶图——是指每个树茎重复两次,用记号“*”表示树叶的个位数为0~4,用“•”记号表示个位数为5~9。
2.4集中趋势的度量
集中趋势——是指大多数数据集中表现出聚集在中心点附近的明显趋势。
对于特定的一组数据的集中趋势,可以用分布集中趋势测度值来描述,主要是指用平均数来测度。
平均数——是用以反映和代表总体各单位一般水平的统计指标。
◆平均数的类型
一、算术平均数
算术平均数——又称为均值,是指全部数据的算术平均。
在统计学中具有十分重要的地位,是集中趋势最主要的测度值。
通常用或µ来表示。
通常,有简单均值和加权均值两种计算形式。
1、简单均值的计算
主要适用于未分组的原始数据的计算。
设一组数据为:
x1,x2,…,xn,则简单均值的计算公式为:
2、加权均值的计算
适用范围:
分组整理的数据。
其均值的大小,不仅受到各组变量值的影响,而且受到各组变量值出现次数的影响。
若某一组变量值出现的次数较多,则该组数据的大小对均值的影响就较大。
反之,就较小。
权数——各组变量值出现的次数对均值的大小起着权衡轻重的作用。
★特别地,由于组距分组中,没有具体的每一个变量值,因此,要计算均值,只能用各组的组中值近似地代表各组的变量值,所以计算出来的均值只是一个近似值。
3、均值的数学性质
A.各数值与其均值的离差之和等于0。
即均值能将各数据值与均值的正负误差全部抵消。
B.各数值与其均值的离差平方和为最小。
另:
各数值与中位数离差的绝对值之和最小
二、几何平均数
几何平均数——是n个变量值乘积的n次方根。
分为简单几何平均数、加权几何平均数。
适用范围:
变量值本身是比率或速度,而且各比率或速度的乘积等于总的比率或速度,需要计算平均比率或平均速度。
[注意]只要有一个变量值X≤0,就无法计算几何均值。
1、简单几何平均数
2、加权几何平均数
[例1]某厂有4个流水作业车间,某月它们的产品合格率分别为:
98%、97%、95%和90%,问4个车间产品的平均合格率是多少?
因为这4个合格率是分别通过不同车间合格产品数与总产品数计算出来的,即分母不同,因此应该用几何平均数的方法。
三、调和平均数
调和平均数——也称倒数平均数,它是对变量值的倒数求平均,然后再取倒数而得的平均数,记作。
根据资料不同,分为简单调和平均与加权调和平均两种计算形式。
适用范围:
某些经济现象由于数量未知而无法直接计算加权均值的时候
1、简单调和平均数计算公式:
2、加权调和平均数计算公式:
【例】菜场上有一种蔬菜,价格分别为:
早市2.5元/公斤;午市2元/公斤;晚市1元/公斤。
若早、中、晚各花1元钱买蔬菜,则一天中买到蔬菜的平均价格为:
【例】沿用例2.17资料,若早、中、晚分别花7.5元、4元和1元钱买蔬菜,则一天中买到蔬菜的平均价格为:
四、切尾平均数
切尾平均数——是指去掉大小两端的若干数值后,再用中间数据计算的均值。
这种新的集中趋势测度方法在电视大奖赛、体育比赛及需要人们进行综合评价的比赛项目中已经得到广泛应用。
式中:
n表示变量值个数;是数据经过排队后由小到大形成的顺序统计量值。
α表示切尾系数,其取值范围为:
切尾系数α具体的取值办法:
◆如果分别去掉一个最高值和最低值,则α=1/n;
◆如果分别去掉两个最高值和最低值,则α=2/n;
以此类推……
◆如果一个极端值都没有去掉,则α=0
★数值平均数的弊端
均值、几何平均数、调和平均数是根据全部变量值计算的,通称为数值平均数。
数值平均数计算时,容易受到极端值的影响,解决办法有两个。
◆去掉极端值后,再求均值;
◆采用位置平均数来测定集中趋势。
五、众数
众数——是一组数据中出现次数最多的那个变量值,它能够鲜明地反映数据分布的集中趋势,用M0来表示。
如日常生活中,类似最佳、最受欢迎、最满意等都与众数有关系,反映了一种最普遍的倾向,既简便又富有代表性。
1、未分组数据计算众数
只需要找出出现次数最多的那个数,就是众数。
[例]已知某英语学习小组10个学生的英语口试成绩的排序为:
2334444455
则因为4分出现次数最多,
所以众数M0=4分
2、组距分组数据计算众数
对于组距分组数据,首先要找出众数所在的组;然后利用比例插值法推算众数的近似值:
其中,L为众数组的下限;U为众数组的上限;Δ1为众数组次数与前一组次数之差;Δ2为众数组次数与后一组次数之差;i为众数组的组距;
3、众数小结
◆众数是一个位置平均数。
◆众数的优点:
计算简便、意义明显,不受极端值的影响。
◆众数的缺点:
未使用所有变量值计算,因而灵敏度比较低。
◆众数通常只适宜于变量数列的分布次数比较多,而且具有明显集中趋势的总体。
六、中位数
中位数——是将数据从小到大进行排序后,处在中间位置上的那个数值,记为Me。
实质上,中位数是将全部数据等分成了两半:
一半数据的值比它大,一半数据的值比它小,因此中位数与众数一样,也可以反映数据的平均水平。
1、未分组数据计算中位数
未分组数据计算中位数时,首先要对数据进行排序;
◆如果数据个数为奇数,中位数位置可以直接由(n+1)/2来确定;
◆如果数据个数为偶数,先用(n+1)/2计算,再求一次均值。
[例](n为奇数)某教研室9位教师年龄分别为:
243032394042455258
问中位数是多少?
中位数位置=(9+1)/2=5
即中位数处在第5位上,即Me=40(岁)
2、组距分组数据计算中位数
在组距数列中求中位数时,先根据N/2确定中位数的位置,找出中位数所在组,然后用比例插值法计算中位数的近似值。
L为中位数组的下限;U为中位数组的上限,N/2为中位数的位置;Sm-1为中位数所在组前面各组的累积次数;Sm+1为中位数所在组后面各组的累积次数,fm为中位数组的次数;i为中位数组的组距
3、中位数小结
中位数的优点:
计算简便、意义明显,当数据的分布为偏态时,中位数不受极端值的影响,它是一个位置代表值(位置平均数),具有较高的稳健性。
中位数缺点:
中位数不是根据所有变量值计算出来的,因此它作为一般水平的代表值灵敏度也较差。
七、四分位数
四分位数——是将一组数据由小到大(或由大到小)排序后,用三个点将全部数据分为四等份,每份有25%的数据,每个点上的数值称为四分位数。
处于第50%位置的数值就是中位数,处于第25%位置的数值称为下四分位数,记为Q1,处于第75%位置的数值称为上四分位数,记为Q3。
1、未分组数据计算四分位数
设n为数据个数,则两个四分位数位置的计算公式为:
下四分位数上四分位数
2、组距分组数据计算四分位数
和中位数类似,首先要确定Q1和Q3的位置。
然后通过计算累积次数,找到Q1和Q3所在组。
最后用公式确定四分位数的值。
令L1和L3分别表示Q1和Q3所在组的下限;f1和f3分别表示Q1和Q3所在组的次数;i1和i3分别表示Q1和Q3所在组的组距;SQ1-1和SQ3-1分别表示Q1和Q3所在组前面各组的累积次数;N表示总次数;
八、众数、中位数和均值的比较
1、区别
◆众数是一组数据分布的最高点所对应的变量值
◆中位数是处于一组数据中间位置上的变量值
◆均值是由全部数据计算出来的算术平均值
前两者属于位置平均数,不受极端值影响;而后者属于数值平均数,会受到极端值的影响。
2、联系
①若数据分布属于对称分布,则众数=中位数=均值
②若数据分布为右偏分布,数据存在极大值,则众数<中位数<均值
③若数据分布为左偏分布,数据存在极小值,则均值<中位数<众数
3、众数、中位数和均值的应用场合
◆当数据呈对称分布或接近对称分布时,选择用均值比较好;
◆当数据为偏态分布时,特别是当偏斜的程度较大时,应选择众数或中位数;
◆当数据为定距尺度时,如商品(服装、鞋类)等的规格,用众数是较好的选择。
2.5离散程度的度量
一、离散趋势的含义
集中趋势只是数据分布的一个特征,它所反映的是一组数据的一般水平或中心位置。
而要想全面的了解一组数据的分布特征,还需要知道这组数据的各变量值之间的差异状况如何,这就需要考察数据的分散程度。
因此可以说,集中趋势和离散趋势分别从两个不同的方面描述了数据分布的特征。
一般来说,一个总体不可能只有集中趋势而无离散趋势,或只有离散趋势而无集中趋势。
并且,当一组数据的集中趋势越强时,其离散趋势就越弱;当一组数据的离散趋势越强时,其集中趋势就越弱。
离散趋势——是指各个变量值远离其中心值的程度,或围绕中心值分布的离散与差异程度。
对数据分布的离散趋势,可以用一组变异指标来描述。
常用的变异指标有极差、四分位差、方差、标准差、变异系数等。
一、极差
极差——又称为极值或全距,是一组数据的最大值与最小值之差,反映数据的最大变动范围。
[优点]计算简单,容易理解。
[缺点]指标很粗略,容易受极端值的影响,未考虑全部数据的分布情况,有片面性。
1、未分组数据计算极差
[例]某班男女同学统计学测验成绩分别为
男同学:
50627074828895959797
女同学:
73777880818184848587
问两组同学中,哪组离散程度高?
[解]首先,可以得出两组平均成绩相等,即
说明其集中趋势相同。
离散程度大
离散程度小
即
∴女生的平均成绩的代表性好于男生。
2、组距分组数据计算极差
[例]某青年班组月工资分组(元)为:
500-600600-700700-800
800-900900-1000
二、四分位差
四分位差——又称为内距,就是上四分位数Q3与下四分位数Q1之差,是用来衡量中位数代表性高低的离散程度测度值。
用IQR表示。
公式为:
IQR=上四分位数-下四分位数=Q3-Q1
◆对于一组数据而言,四分位差就是舍去数据中最低的1/4的数据和最高的1/4的数据,仅反映集中于中间50%的数值的差异程度。
◆通常:
四分位差越大,表明Q1与Q3之间变量值分布就越远离中位数Me,即中位数的代表性就越差。
反之,四分位差越小,说明中间数据越集中,中位数的代表性就越好。
1、未分组数据计算四分位差
[例](N为奇数)某数学补习小组11个人的年龄(岁)为:
1922242528343536373839
求该小组11人年龄的四分位差。
[解]由前面相应例题的分位数计算可知下四分位数Q1=24,上四分位数Q3=37,于是:
四分位差=37-24=13(岁)
计算结果表明:
该小组有一半人的年龄集中在24—37岁之间,且他们之间的最大差异为13岁。
[例]