统计学教案第5章数据分布特征的测度.docx
《统计学教案第5章数据分布特征的测度.docx》由会员分享,可在线阅读,更多相关《统计学教案第5章数据分布特征的测度.docx(18页珍藏版)》请在冰豆网上搜索。
统计学教案第5章数据分布特征的测度
统计学教案(第5章数据分布特征的测度)
统计学
授课题目
第5章数据分布特征的测度
课次
第6-7次
授课方式
讲授
课时安排
第6教学周-第7教学周,共4课时
教学目的:
通过本章的学习,了解集中趋势、离散程度的含义,标志变异指标的概念和作用、极差的特点和作用;掌握数据分布的总体分布集中趋势的测度方法的特点、应用条件及应用场合,能利用所学的方法对统计数据作各种统计描述;掌握标志变异指标的种类和计算,原点矩和中心距的计算;熟练掌握分布偏态和峰度的测度
教学重点及难点提示:
重点:
数值平均数和位置平均数的计算
难点:
几何平均数的计算;原点矩和中心距的计算;偏态和峰度的测度
案例导入:
平均数无法体现工资增长全貌
统计资料经过加工整理形成分布数列后,我们对数据分布的类型和特征有了一个直观的了解。
然而,要作进一步的统计分析仅靠这些直观了解是远远不够的,我们还需要使用代表性的数量特征值来准确地描述统计数据的分布,以便对不同的研究对象进行分析研究。
描述指标的分类:
描述数据分布集中趋势的指标——反映各数据向其中心值靠拢或聚集的程度;
描述数据分布离散程度的指标——反映各数据远离其中心值的趋势;
描述分布偏斜程度的指标——反映数据分布的形状。
第一节总体分布集中趋势的测度
总体分布集中趋势是指总体中各单位的次数分布从两边向中间集中(靠拢)的趋势。
在分布数列中,越靠近中心值,标志值出现的次数越多,而远离中心值的次数较少。
由于对大多数统计总体来说,其总体单位的数值分布是以平均数为中心的,因此平均数反映了总体分布的集中趋势。
所以,对集中趋势进行测度,就是寻找总体一般水平的中心值或代表值,就是计算总体的平均数(平均指标)。
一、平均指标的概念和作用
㈠概念:
平均指标是指在同质总体内将各单位的数量差异抽象化,反映总体一般水平的代表值。
㈡特点
⒈将数量差异抽象化;
⒉必须具有同质性;
⒊反映总体变量值的集中趋势。
㈢作用:
⒈可用于同类现象在不同空间的比;
⒉可用于同类现象在不同时间的比。
二、数值平均数与位置平均数
(一)数值平均数的计算
1.算术平均数
(1)简单算术平均数
x=(Σx/n)
(2)加权算术平均数
x=(Σxf/Σf)
2.调和平均数
调和平均数是标志值倒数的算术平均数的倒数。
所以又叫倒数平均数,调和平均数也有简单调和平均数和加权调和平均数两种。
(1)简单调和平均数
如果掌握的资料是未分组的总体各单位的标志值和标志总量,则用简单调和平均数计算平均指标。
其计算公式为:
式中,
代表调和平均数,
代表标志总量,其余符号与前相同。
例:
某商品在淡季、平季、旺季的价格分别是100元、116元、140元,假设分别以淡季、平季、旺季的价格购买一元的这种商品,求该商品的平均价格。
从形式上看,调和平均数和算术平均数有明显的区别,但从计算内容上来看,两者是一致的,均为总体标志总量与总体单位总量的对比。
(2)加权调和平均数
如果掌握的资料是各组的标志值和标志总量,而未掌握各组单位数,则用加权调和平均数计算平均指标。
其计算公式为:
式中,
代表各组标志总量,其余符号与前相同。
例:
某食堂购进某种蔬菜,相关资料如下,求这种蔬菜的平均价格。
4-13某种蔬菜价格资料及其计算表
早午晚
价格(元/千克)
购买金额(元)
购买量(千克)
1.00
1.20
1.10
10.0
15.0
20.0
10.0
12.5
18.2
合计
-
45.0
40.7
根据上表计算食堂购进这种蔬菜的平均价格为:
通过上例计算,可以看出,加权平均数实质上是加权算术平均数的一种变形式。
其变换形式如下:
3.几何平均数
(1)概念
几何平均数是n个比率乘积的n次方根。
(2)几何平均数的计算
社会经济统计中,几何平均法适用于计算平均比率和平均速度。
①简单几何平均数的计算公式为:
G表示几何平均数;x表示变量值;n表示变量值个数。
②加权几何平均数的计算公式为
关于几何平均数的具体计算及应用将在第七章发展速度部分讲述。
(二)位置平均数的计算
1.众数
(1)概念
众数是总体中出现次数最多的标志值。
用字母M表示。
(2)计算
根据变量数列的不同种类,确定众数可采用不同的方法。
①单项式数列确定众数
②组距数列确定众数
下限公式
上限公式
Mo:
表示次数;L:
表示众数所在组的下限;U:
表示众数所在组的上限;△1:
表示众数所在组次数与前一组次数之差;△2:
表示众数所在组次数与后一组次数之差;d:
表示众数所在组的组距。
2.中位数
(1)概念
中位数是将总体各单位的标志值按大小顺序排列,处于数列中点位置的标志值为中位数。
中位数将数列分为相等的两部分,一部分的标志值小于中位数,另一部分的标志值大于中位数。
在许多情况下,不易计算平均值时,可用中位数代表总体的一般水平。
例如,人口年龄中位数,可表示人口总体年龄的一般水平。
(2)计算
①由未分组资料确定中位数
根据未分组资料确定中位数时,首先将标志值按大小顺序排列,然后根据公式(n+1)/2确定中位数的位置,再根据中位数的位置找出对应的标志值。
②单项式分组资料确定中位数
直接可用公式
确定中位数的位次,再根据位次用较小累计次数或较大累计次数的方法将次累计次数刚超过中位数位次的组确定为中位数组,该组的标志值即为中位数。
③组距分组资料确定中位数。
组距资料确定中位数与单项式资料不同的是需要采用公式计算。
下限公式:
上限公式:
式中:
L:
表示中位数组的下限,U表示中位数组的上限,fm:
表示中位数组的次
数,Sm-1表示中位数所在组以前各组的累计次数,Sm+1表示中位数所在组以后各组的累计次数,∑f:
表示总次数,d:
表示中位数所在组的组距。
第二节总体分布离散程度的测度
一、标志变动指标概念
标志变动度就是说明总体单位标志值的差异大小和程度的指标。
在统计研究中,一方面要计算平均数,用以反映总体各单位标志值的一般水平,另一方面也要测定标志变动度,用以反映总体各单位标志值的差异程度。
同时,平均数的代表性还必须用标志变动度指标来测量,标志变动度大,平均数的代表性就小,相反,标志变动度小,平均数的代表性就大,如果标志变动度等于零,则说明平均数具有完全的代表性。
所以,为了全面准确地反映出总体特征,在计算了平均数之后,还要进一步计算标志变动指标,以便对平均数作出补充说明。
二、标志变动指标的作用
1.衡量平均数代表性大小,标志变动度与平均数成反比关系。
2.衡量经济活动过程的节奏性、均衡性。
例如:
有两个乡的水稻平均单产都是400公斤,甲乡的水稻单产在350—450公斤之间的地块,只占播种面积的60%,而乙乡在350—450之间的地块,只占播种面积的30%,试问:
哪个乡具有比较稳定而又可靠的收获量?
显然,在这种情况下,甲乡的收获量是比较稳定可靠的。
所以,在计算平均数之后,还应该测定标志的变动度。
三、测定标志变动指标的指标
(一)极差与四分位差
1.极差(也称全距)
极差就是总体单位中最大值与最小值之差,它说明标志值的变动范围,是标志变动度中最简单的一种方法。
极差优点(特点):
说明总体中两个极端标志值的变异范围,其计算方法简便、易懂、容易被人掌握。
缺点:
受极端值影响很大,不能全面反映各单位标志值的差异程度。
所以,在实际应用上有一定的局限性。
2.四分位差
(二)平均差
平均差就是总体各单位的标志值与算术平均数的离差绝对值的平均,它能综合反映总体中各单位标志值的差异程度。
计算公式:
在分组资料的情况下只须加权就可以了
平均差系数就是平均差除以算术平均数,它说明标志值差异的相对程度,还可以用来比较平均数不同的各个标志变动度的大小。
计算公式:
优点:
计算简便,意义明确,能反映各标志值的大小和程度。
缺点:
采用绝对值,不适于数理统计中的数字处理,使用受限制。
(三)方差与标准差(也叫均方差)
标准差是测定标志变动度最重要的指标,它的意义与平均差的意义基本相同,但在数学性质上比平均差要优越,由于各标志值对算术平均数的离差的平方和为最小,所以,在反映标志变动度大小时,一般都采用标准差。
标准差是反映标志变动度的最重要的指标,是指总体各单位的标志值与算术平均数离差的平方平均数的均方根。
计算公式:
分组情况下,需要加权
(四)变异系数
主要有全距系数、平均差系数和标准差系数,其中标准差系数是标准差除以算术平均数,也叫离散系数。
计算公式:
级差、平均差和标准差都是说明总体某一数量标志差异大小和程度的指标,用来说明不同数值平均数的代表性大小。
(五)是非标志的标准差
在社会经济现象中,有时把某种社会经济现象的全部单位分为具有某一标志的单位和不具有某一标志的单位。
例如:
全部产品中,分为合格产品和不合格产品两组,全部农作物播种面积分为受灾面积和非受灾面积两组,全部人口中分为男性和女性两组等,我们把划分出的这两部分分别用“是”或“否”,“有”或“无”表示,这种用“是”与“非”或“有”与“无”表示的标志称为是非标志或交替标志。
如果用1表示具备所研究标志的标志值,用0表示不具备所研究标志的标志值,全部单位数用N表示。
具有所研究标志的单位数用N1表示,不具有所研究标志的单位数用N0表示,则
为具有所研究标志的单位数在全部单位中所占的比重即成数,用P表示;
为不具有所研究标志的单位数在全部单位中所占的比重也即成数,用q表示。
两个成数之和等于1,即p+q=1。
是非标志的标准差
第三节总体分布偏态与峰度的测度
一、原点矩与中心矩
(一)原点矩
以标志值0点为原点或支点,以各组标志值
为力臂的距离,以
为作用力的大小,则构成统计的一阶原点矩,即:
如果将作用力臂分别采用各变量值的不同次方,如
则构成k阶原点矩,其一般式为:
(二)中心矩
把原点移到算术平均数处,以
的各次方为力臂的距离,以为各作用力的大小,则构成统计的k阶中心矩,即:
集中趋势和离散程度是数据分布的两个重要特征,但要全面了解数据分布的特点,还需要掌握数据分布的形状是否对称、偏斜的程度以及扁平程度等。
反映这些分布特征的测度值有两个:
(1)偏态;
(2)峰度。
二、分布的偏态
(一)偏态的含义
偏态(Skewness)是对分布偏斜方向和程度的测度。
在客观实际生活中,一些现象变量的次数分配往往是非对称型的,如收入分配、市场占有份额、资源配置等等,这些变量经分组后,总体各单位在不同的分组变量值下分布并不均匀对称,而呈现出偏斜的分布状况,统计上将其称为偏态分布。
(二)偏态的测度
利用众数、中位数和平均数之间的关系就可以判断分布是对称、左偏还是右偏。
显然,判断偏态的方向并不困难,但要测度偏斜的程度则需要计算偏态系数。
统计分析中测定偏态系数的方法很多,一般采用动差概念计算。
由公式可知:
当算术平均数大于众数时,偏态系数为正值,属于正偏(右偏);当算术平均数小于众数时,偏态系数为负值,属于负偏(左偏)
经验:
在分布适度偏斜的情况下,算术平均数与众数的距离约等于算术平均数和中位数之间距离的三倍,即有如下近似的等式关系:
因此,偏态也可用算术平均数与中位数之间的关系来测定,即:
可知,偏态系数的变动范围为
,当SK=0时,表示对称分布;当SK=3时,表示极右偏态;当SK=-3时,表示极左偏态。
例题5.19P124
(三)采用矩的概念测定分布偏态
偏态系数的计算公式为三阶中心矩与标准差的三次方之比:
当高于平均数的离差之和与低于平均数的离差之和相等时,全部离差之和等于0,分布为对称分布;当这两种离差之和不相等,经正、负相互抵消之后,结果便可显示出分布的偏斜程度。
一阶中心矩恒为0,而偶数阶离差不能正、负消减,惟独奇次阶的中心矩能满足正负离差和的比较,其中又以三阶中心矩为最简单。
从公式可以看到,当a=0分布是对称的,
当a>0(为正值)时,为正偏或右偏;反之,a<0(为负值)时,为负偏或左偏。
偏态系数a的数值一般在0与±3之间,a越接近0,分布的偏斜度越小;越接近±3,分布的偏斜度越大。
三、分布的峰度
在变量数列的分布特征中,常常以正态分布为标准,观察变量数列分布曲线顶峰的尖平程度,统计上称之为峰度测度。
如果分布的形状比正态分布更高更瘦,则称为尖峰分布,如果分布的形状比正态分布更矮更胖,则称为平峰分布。
峰度的测度
它以四阶中心矩为测量标准,除以
是为了消除单位量纲的影响,而得到以无名数表示的相对数形式,以便在不同的分布曲线之间进行比较。
峰态系数β=0扁平峰度适中
峰态系数β<0为扁平分布
峰态系数β>0为尖峰分布
例5.21P126
教法提示:
多媒体教学
案例教学
列举法