第5章数据分布特征描述.docx

上传人:b****5 文档编号:28382753 上传时间:2023-07-10 格式:DOCX 页数:33 大小:282.55KB
下载 相关 举报
第5章数据分布特征描述.docx_第1页
第1页 / 共33页
第5章数据分布特征描述.docx_第2页
第2页 / 共33页
第5章数据分布特征描述.docx_第3页
第3页 / 共33页
第5章数据分布特征描述.docx_第4页
第4页 / 共33页
第5章数据分布特征描述.docx_第5页
第5页 / 共33页
点击查看更多>>
下载资源
资源描述

第5章数据分布特征描述.docx

《第5章数据分布特征描述.docx》由会员分享,可在线阅读,更多相关《第5章数据分布特征描述.docx(33页珍藏版)》请在冰豆网上搜索。

第5章数据分布特征描述.docx

第5章数据分布特征描述

第5章数据分布特征的描述

【学习目标】

本章主要介绍了数据分布特征的描述的基本理论,包括平均指标和变异指标的基本概念、种类以及各种计算方法,计算和应用平均指标应注意的问题等。

通过学习,使学习者能够掌握数据分布的集中趋势和离散特征,为经济管理服务。

【学习要求】

通过本章的学习,要求理解并掌握平均指标和变异指标的基本概念,熟练掌握各种计算方法,明确计算和运用平均指标应注意的问题等等。

【学习内容】

统计数据分布的特征,可以从三个方面进行测度和描述:

一是分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度,如算术平均数;二是分布的离中趋势,反映各数据远离其中心值的程度,如标准差;三是分布的偏态和峰度,反映数据分布的形状。

这三个方面分别反映了数据分布特征的不同侧面,第一、二方面是主要的。

本章重点讨论第一、第二两方面代表值的计算方法、特点及其应用场合。

5.1集中趋势——数值平均数

集中趋势是指一组数据向其中心值靠拢的倾向,测度集中趋势也就是寻找数据一般水平的代表值或中心值。

取得集中趋势代表值的方法通常有两种:

一是从总体各单位变量值中抽象出具有一般水平的量,这个量不是各个单位的具体变量值,但又要反映总体各单位的一般水平,这种平均数称为数值平均数。

数值平均数有算术平均数、调和平均数、几何平均数等形式。

二是先将总体各单位的变量值按一定顺序排列,然后取某一位置的变量值来反映总体各单位的一般水平,把这个特殊位置上的数值看作是平均数,称作位置平均数。

位置平均数有众数、中位数、四分位数等形式。

5.1.1算术平均数

算术平均数,是集中趋势测度中最重要的一种,它是所有平均数中应用最广泛的平均数。

因为它的计算方法是与许多社会经济现象中个别现象与总体现象之间存在的客观数量关系相符合的。

例如,企业职工的工资总额就是各个职工工资额的总和,职工的平均工资必等于职工的工资总额与职工总人数之比。

所以,算术平均数的基本公式应该是:

算术平均数=

算术平均数一般就称为平均数(mean)。

其定义是:

观察值的总和除以观察值个数的商。

在已知研究对象的总体标志总量及总体单位总量时,可直接利用上式计算。

例如,某企业某月的工资总额为680000元,职工总数为1000人,则:

该企业职工月平均工资=

=680(元)

利用上式计算时,要求各变量值必须是同质的,分子与分母必须属于同一总体,即公式的分子是分母具有的标志值,分母是分子的承担者。

在实际工作中,就手工计算而言,由于所掌握的统计资料的不同,利用上述公式进行计算时,可分为简单算术平均数和加权算术平均数两种。

1.简单算术平均数(SimpleArithmeticMean)

根据未经分组整理的原始数据计算的均值。

设一组数据为x1,x1,…xn,则简单算术平均数的计算公式如下:

(5–1)

例5–1据南方人才服务中心调查,从事IT行业的从业人员年薪在40000-55000元之间,表5–1的数据是IT从业人员年薪的一个样本:

表5–124名IT从业人员年薪资料表

49100

49300

48700

48600

51200

50300

49950

51000

49000

48800

49400

49800

47200

51400

48900

49900

51800

48650

51350

49600

51300

54600

53400

51900

计算IT从业人员的平均年薪。

根据公式计算如下:

2.加权算术平均数(WeightedArithmeticMean)

根据分组整理的数据计算的算术平均数。

其计算公式为:

(5–2)

式中:

f代表各组变量值出现的频数。

例5–2以表5–2为例,计算人均日产量。

计算表见表5–2。

解:

表5–2某企业50名工人加工零件均值计算表

按零件数分组

组中值x

频数f

xf

105~110

110~115

115~120

120~125

125~130

130~135

135~140

107.5

112.5

117.5

122.5

127.5

132.5

137.5

3

5

8

14

10

6

4

322.5

562.5

940.0

1715.0

1275.0

795.0

550.0

合计

––

50

6160.0

平均日产量=

这种根据已分组整理的数据计算的算术平均数就称为加权算术平均数。

这时,算术平均数的大小,不仅取决于研究对象的变量值,而且受各变量值重复出现的频数(f)或频率(f/∑f)大小的影响,如果某一组的频数或频率较大,说明该组的数据较多,那么该组数据的大小对算术平均数的影响就大,反之则小。

可见各组频数的多少(或频率的高低)对平均的结果起着一种权衡轻重的作用,因而这一衡量变量值相对重要性的数值称为权数。

这里所谓权数的大小,并不是以权数本身值的大小而言的,而是指各组单位数占总体单位数的比重,即权数系数(f/∑f)。

权数系数亦称为频率,是一种结构相对数。

当然,利用组中值作为本组平均值计算算术平均数,是在各组内的标志值分布均匀的假定下。

计算结果与未分组数列的相应结果可能会有一些偏差,应用时应予以注意。

在统计分析过程中,如果搜集到的是经过初步整理的次级数据,或数据要求不很精确的原始数据资料可用此法计算均值。

如果要求结果十分精确,那么需用原始数据的全部实际信息,如果计算量很大,可借助计算机的统计功能。

如果是计算相对数的平均数,则应符合所求的相对数本身的公式,将分子视为总体标志总量,分母视为总体单位总量。

例5–3某季度某工业公司18个工业企业产值计划完成程序资料如表5–3,计算平均产值计划完成程度。

表5–3某工业公司产值完成情况表

产值计划完成程度(%)

组中值

(%)

x

企业数(个)

计划产值

(万元)

f

实际产值

(万元)

xf

80~90

90~100

100~110

110~120

85

95

105

115

2

3

10

3

800

2500

17200

4400

680

2375

18060

5060

合计

-

18

24900

26175

计划完成相对数的计算公式是实际完成数与计划任务数之比,因此,平均计划完成程度的计算只能是所有企业的实际完成数与其计划任务数之比,不能把各个企业的计划完成百分数简单平均。

3.算术平均数性质

算术平均数在统计学中具有重要的地位,它是进行统计分析和统计推断的基础。

首先,从统计思想上看,它是一组数据的重心所在,是数据误差相互抵消后的必然性结果。

比如对同一事物进行多次测量,若所得结果不一致,可能是由于测量误差所致,也可能是其他因素的偶然影响,利用算术平均数作为其代表值,则可以使误差相互抵消,反映出事物必然性的数量特征。

其次,它具有下面一些重要的数学性质,这些数学性质在实际工作中有着广泛的应用(如在相关性分析和方差分析及建立回归方程中),同时也体现了算术平均数的统计思想。

1.各变量值与其算术平均数的离差之和等于零,即∑

=0;

2.各变量值与其算术平均数的离差平方和最小,即∑

=min。

4.利用计算工具求算术平均数

(1).利用计算器计算

对于未整理的原始数据或已整理分组的数列,均可利用计算器的统计功能计算算术平均数。

需要特别注意的是,当资料为变量数列时,一定要遵循以下输入顺序:

先输入变量值,然后输入乘号键,接下来输入频数值,绝对不能颠倒次序。

(2).利用计算机计算

运用计算机技术,不但能使人们从大量繁杂的手工处理数据的工作中解脱出来,而且还可能大大提高对统计数据的利用率。

虽然功能强大的统计软件包在一般人使用的电脑上没有安装,但使用“office”软件的用户超过90%,而用“office”软件中的“excel”组件足可以及时、准确、完整地将有关统计常用的基本统计量(如本章的算术平均数)等迅速提供给人们。

下面举一个简单的例子说明利用“excel”计算算术平均数的步骤。

如,计算某班上学期期末考试各科平均成绩。

方法一:

第一步打开“excel”,输入全班每位同学各科考试成绩(一般以每行记录一名学生的各科成绩,也可以每列记录一名学生的各科成绩);

第二步选择(单击)“工具”下拉菜单;

第三步选择(单击)“数据分析”选项;

第四步从弹出的“分析工具”中选择(单击)“描述统计”并单击“确定”;

第五步在对话框中的“输入区域”框内键入要计算的单元格区域(如果包括字段行,则须选中“标志位于第一行”复选框。

若分组方式为逐行,则该复选框选定标志位于第一列);在“输出选项”中选择输出区域;选择“汇总统计”(该选项给出全部描述统计量);单击“确定”。

方法二:

第一步打开“excel”,输入全班每位同学各科考试成绩(一般以每行记录一名学生的各科成绩,也可以每列记录一名学生的各科成绩);

第二步在适当的单元格内输入计算公式(以每行记录一名学生的各科成绩为例,假设第一行依次为姓名及各考试科目名称,最后一名学生第一科的成绩所在单元格为B45,则可在B46单元格输入计算公式“:

average(b2:

b45)”),然后回车;或者在适当的单元格内插入函数(选择“插入”下拉菜单,然后选择“函数”,接下来从弹出的对话框左边的函数类别中选择“统计”,再从对话框右边的函数名中选择“Average”,最后单击“确定”);

第三步选定第二步计算结果所在单元格,复制其他考试科目的平均成绩。

5.1.2调和平均数(HarmonicMean)

1.调和平均数的计算方法

与算术平均数类似,调和平均数也有简单的和加权的两种形式,其计算公式分别为:

(5–3)

(5–4)

由于调和平均数也可以看成是变量x的倒数的算术平均数的倒数,故有时也被称作“倒数平均数”。

例5–4假定有A、B两家公司员工的月工资资料如表5–4的前三列。

试分别计算其平均工资。

表5–4两公司员工工资情况表

月工资x(元)

工资总额m(元)

员工人数f=m/x(人)

A公司

B公司

A公司

B公司

800

1000

1600

合计

48000

70000

32000

150000

40000

40000

40000

120000

60

70

20

150

50

40

25

115

在这里,平均工资作为“单位标志平均数”仍然必须是标志总量(工资总额)与单位总数(员工总数)之比。

依据给出的月工资水平和工资总额的分组资料,可以首先用前者来除后者,得到各组的员工人数,进而加总得到全公司的员工总数(表中后两列),这样就很容易计算出两个公司各自的平均工资。

将这些计算过程归纳起来,就是运用了调和平均数的公式。

现在,我们计算A公司的平均工资,得到:

对于B公司,固然也可以采用加权调和平均数公式来计算其平均工资:

然而在这里,由于各组的权数(工资总额)相同,实际上并没有真正起到加权的作用。

我们采用简单调和平均数的公式来计算,可以得到完全相同的结果,而计算过程却大大简化了:

2.由相对数或平均数计算平均数

例5–5设有某行业150个企业的有关产值和利润资料如表5–5。

表5–5某行业产值和利润情况表

产值利润率(%)

一季度

二季度

企业数(个)

实际产值(万元)

企业数(个)

实际利润(万元)

5-10

10-20

20-30

30

70

50

5700

20500

22500

50

80

20

710

3514

2250

合计

150

48700

150

6474

表中给出的是按产值利润率分组的企业个数、实际产值和实际利润资料。

应该注意,产值利润是一个相对指标,而不是平均指标。

为了计算全行业的平均产值利润率,必须以产值利润率的基本公式为依据:

并选择适当的权数资料,适当的平均数形式,对各组企业的产值利润率进行加权平均。

容易看出,计算第一季度的平均产值利润率,应该采用实际产值加权,进行算术平均,即有:

而计算第二季度的平均产值利润率,则应该采用实际利润加权,进行调和平均,即有:

由上例可见,对于同一问题的研究,算术平均数和调和平均数的实际意义是相同的,计算公式也可以相互推算,采用哪一种方法完全取决于所掌握的实际资料。

一般的做法是,如果掌握的是基本公式中的分母资料,则采用算术平均数,如果掌握的是基本公式中的分子资料,则采用调和平均数的计算公式。

3.调和平均数特点

(1)调和平均数易受极端值的影响,且受极小值的影响比受极大值的影响更大。

(2)只要有一个变量值为零,就不能计算调和平均数。

(3)当组距数列有开口组时,其组中值即使按相邻组距计算了,假定性也很大,这时,调和平均数的代表性就很不可靠。

(4)调和平均数应用的范围较小。

5.1.3几何平均数(GeometricMean)

几何平均数也称几何均值,它是n个变量值乘积的n次方根。

根据统计资料的不同,几何平均数也有简单几何平均数和加权几何平均数之分。

1.简单几何平均数(SimpleGeometricMean)

直接将n项变量连乘,然后对其连乘积开n次方根所得的平均数即为简单几何平均数。

它是几何平均数的常用形式。

计算公式为:

(5–5)

式中:

G代表几何平均数,

代表连乘符号

例5–6某流水生产线有前后衔接的五道工序。

某日各工序产品的合格率分别为95%、92%、90%、85%、80%,整个流水生产线产品的平均合格率为:

2.加权几何平均数(WeightedGeometricMean)

与算术平均数一样,当资料中的某些变量值重复出现时,相应地,简单几何平均数就变成了加权几何平均数。

计算公式为:

(5–6)

式中:

fi代表各个变量值出现的次数。

例5–7某工商银行某项投资年利率是按复利计算的。

20年的利率分配如表5–6,计算20年的平均年利率。

表5–6投资年利率分组表

年限

年利率(%)

本利率(%)xi

年数(个)fi

第1年

5

105

1

第2年至第4年

8

108

3

第5年至第15年

15

115

11

第16年至第20年

18

118

5

合计

20

按公式计算20年的平均年利率:

即20年的平均年利率为114.14%-1=14.14%

3.几何平均数特点

(1)几何平均数受极端值的影响较算术平均数小。

(2)如果变量值有负值,计算出的几何平均数就会成为负数或虚数。

(3)它仅适用于具有等比或近似等比关系的数据。

(4)几何平均数的对数是各变量值对数的算术平均数。

5.2集中趋势——位置平均数

位置平均数,就是根据总体中处于特殊位置上的个别单位或部分单位的标志值来确定的代表值,它对于整个总体来说,具有非常直观的代表性,因此,常用来反映分布的集中趋势。

常用的众数、中位数。

5.2.1众数(Mode)

1.众数的含义

某制鞋厂要了解消费者最需要哪种型号的男皮鞋,调查了某百货商场某季度男皮鞋的销售情况,得到资料如表5–7。

表5–7某商场某季度男皮鞋销售情况

男皮鞋号码/厘米

销售量/双

24.0

12

24.5

84

25.0

118

25.5

541

26.0

320

26.5

104

27.0

52

合计

1200

从表5–7可以看到,25.5厘米的鞋号销售量最多,如果我们计算算术平均数,则平均号码为25.65厘米,而这个号码显然是没有实际意义的,而直接用25.5厘米作为顾客对男皮鞋所需尺寸的集中趋势既便捷又符合实际。

统计上把这种在一组数据中出现次数最多的变量值叫做众数。

用Mo表示。

它主要用于定类(品质标志)数据的集中趋势,当然也适用于作为定序(品质标志)数据以及定距和定比(数量标志)数据集中趋势的测度值。

上面的例子中,鞋号25.5厘米就是众数。

2.众数计算

由品质数列和单项式变量数列确定众数比较容易,哪个变量值出现的次数最多,它就是众数,如上面的两个例子。

若所掌握的资料是组距式数列,则只能按一定的方法来推算众数的近似值。

计算公式为:

(5–7)

式中:

L——众数所在组下限;

U——众数所在组上限;

Δ1——众数所在组次数与其下限的邻组次数之差;

Δ2——众数所在组次数与其上限的邻组次数之差;

d——众数所在组组距。

例5–8根据表5–2的数据,计算50名工人日加工零件数的众数。

解:

从表5–2中的数据可以看出,最大的频数值是14,即众数组为120~125这一组,根据公式(5–7)得50名工人日加工零件的众数为:

或:

众数是一种位置平均数,是总体中出现次数最多的变量值,因而在实际工作中有时有它特殊的用途。

诸如,要说明一个企业中工人最普遍的技术等级,说明消费者需要的内衣、鞋袜、帽子等最普遍的号码,说明农贸市场上某种农副产品最普遍的成交价格等,都需要利用众数。

但是必须注意,从分布的角度看,众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的数值即为众数。

当然,如果数据的分布没有明显的集中趋势或最高峰点,众数也可能不存在;如果有两个最高峰点,也可以有两个众数。

只有在总体单位比较多,而且又明显地集中于某个变量值时,计算众数才有意义。

3.众数特点

(1)众数是以它在所有标志值中所处的位置确定的全体单位标志值的代表值,它不受分布数列的极大或极小值的影响,从而增强了众数对分布数列的代表性。

(2)当分组数列没有任何一组的次数占多数,也即分布数列中没有明显的集中趋势,而是近似于均匀分布时,则该次数分配数列无众数。

若将无众数的分布数列重新分组或各组频数依序合并,又会使分配数列再现出明显的集中趋势。

(3)如果与众数组相比邻的上下两组的次数相等,则众数组的组中值就是众数值;如果与众数组比邻的上一组的次数较多,而下一组的次数较少,则众数在众数组内会偏向该组下限;如果与众数组比邻的上一组的次数较少,而下一组的次数较多,则众数在众数组内会偏向该组上限。

(4)缺乏敏感性。

这是由于众数的计算只利用了众数组的数据信息,不象数值平均数那样利用了全部数据信息。

5.2..2中位数(Median)

1.中位数的含义

中位数是将数据按大小顺序排列起来,形成一个数列,居于数列中间位置的那个数据就是中位数。

中位数用Me表示。

从中位数的定义可知,所研究的数据中有一半小于中位数,一半大于中位数。

中位数的作用与算术平均数相近,也是作为所研究数据的代表值。

在一个等差数列或一个正态分布数列中,中位数就等于算术平均数。

在数列中出现了极端变量值的情况下,用中位数作为代表值要比用算术平均数更好,因为中位数不受极端变量值的影响;如果研究目的就是为了反映中间水平,当然也应该用中位数。

在统计数据的处理和分析时,可结合使用中位数。

2.中位数的计算

确定中位数,必须将总体各单位的标志值按大小顺序排列,最好是编制出变量数列。

这里有两种情况:

(1)对于未分组的原始资料,首先必须将标志值按大小排序。

设排序的结果为:

则中位数就可以按下面的方式确定:

(5–8)

例如,根据例5–2的数据,计算50名工人日加工零件数的中位数。

中位数的位置在(50+1)/2=25.5,中位数在第25个数值(123)和第26个数值(123)之间,即Me=(123+123)/2=123(件)。

(2)由分组资料确定中位数

由组距数列确定中位数,应先按

的公式求出中位数所在组的位置,然后再按下限公式或上限公式确定中位数。

(5–9)

式中:

Me——中位数;

L——中位数所在组下限;

U——中位数所在组上限;

fm——为中位数所在组的次数;

——总次数;

d——中位数所在组的组距;

Sm–1——中位数所在组以下的累计次数;

Sm+1——中位数所在组以上的累计次数。

例5–9根据例5–2的数据,计算50名工人日加工零件数的中位数。

解:

表5–8某企业50名工人加工零件中位数计算表

按零件数分组(个)

频数(人)

向上累计(人)

向下累计(人)

105~110

110~115

115~120

120~125

125~130

130~135

135~140

3

5

8

14

10

6

4

3

8

16

30

40

46

50

50

47

42

34

20

10

4

由表5–8可知,中位数的位置=50/2=25,即中位数在120~125这一组,L=120,Sm–1=16,U=125,Sm+1=20,fm=14,d=5,根据中位数公式得:

3.中位数特点

(1)中位数是以它在所有标志值中所处的位置确定的全体单位标志值的代表值,不受分布数列的极大或极小值影响,从而在一定程度上提高了中位数对分布数列的代表性。

(2)有些离散型变量的单项式数列,当次数分布偏态时,中位数的代表性会受到影响。

(3)缺乏敏感性。

5.2.3众数、中位数和算术平均数的比较

1.众数、中位数和算术平均数的关系

算术平均数、众数和中位数之间的关系与次数分布数列有关。

在次数分布完全对称时,算术平均数、众数和中位数都是同一数值,见图5–1;在次数分布非对称时,算术平均数、众数和中位数不再是同一数值了,而具有相对固定的关系。

在尾巴拖在右边的正偏态(或右偏态)分布中,众数最小,中位数适中,算术平均数最大,见图5–2;在尾巴拖在左边的负偏态(或左偏态)分布中,众数最大,中位数适中,算术平均数最小,见图5–3。

 

图5–1

 

图5–2

 

图5–3

在统计实务中,可以利用算术平均数、中位数和众数的数量关系判断次数分布的特征。

此外还可利用三者的关系进行相互之间估算。

根据经验,在分布偏斜程度不大的情况下,不论右偏或左偏,三者存在一定的比例关系,即众数与中位数的距离约为算术平均数与中位数的距离2倍,用公式表示为:

,由此可以得到三个推导公式:

2.应用

众数、中位数和算术平均数各自具有不同的特点,掌握它们之间的关系和各自的特点,有助于我们在实际应用中选择合理的测度值来描述数据的集中趋势。

众数是一种位置代表值,易理解,不受极端值的影响。

任何类型的数据资料都可以计算,但主要适合于作为定类数据的集中趋势测度值;即使资料有开口组仍然能够使用众数。

众数不适于进一步代数运算;有的资料众数根本不存在;当资料中包括多个众数时,很难对它进行比较和说明,应用不如算术平均数广泛。

中位数也是一种位置代表值,不受极端值的影响;除了数值型数据,定序数据也可以计算,而且主要适合于作为定序数据的集中趋势测度值,而且开口组资料也不影响计算。

中位数不适于进一步代数运算,应用不如算术平均数广泛。

算术平均数的含义通俗易懂,直观清晰;全部数据都要参加运算,因此它是一个可靠的具有代表性的量;任何一组数据都有一个平均数,而且只有一个平均数;用统计方法推断几个样本是否取自同一总体时,必须使用算术平均数;具有优良的数学性质,适合于代数方法的演算。

算术平均数是实际中应用最广泛的集中趋势测度值,主要适合于作为定距和定比数据的集中趋势测度值;最容易受极端值的影响;对于偏态分布

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 法律文书 > 辩护词

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1