第三章描述统计.docx

资源描述

第三章描述统计.docx

《第三章描述统计.docx》由会员分享，可在线阅读，更多相关《第三章描述统计.docx（26页珍藏版）》请在冰豆网上搜索。

第三章描述统计.docx

第三章描述统计

教学目标：

本章介绍对数据进行基本统计描述的有关方法，教学目标在于帮助学生理解各种常用的描述统计方法，并能够创造性地在实践中加以使用。

学习本章需要大量结合案例进行操作，熟悉各种方法。

本章重点：

本章的重点是平均指标和离散指标。

讲义内容：

第一节数据预处理

一．缺失值处理

缺失值是指在数据采集与整理过程中丢失的内容。

一般情况下，数据都是以关系型表的方式采集的，如下表是某次调查中一些受访者的基本情况：

姓名

年龄

性别

职业

收入

张三

－

护士

1500

李四

女

医生

2000

王五

男

医生

3000

赵六

－

女

护士

1000

如果在表格中，某一个数据采集时无法获得，就会出现缺失值，例如在上表中“张三”的性别和“赵六”的年龄就出现了缺失。

缺失值的处理一般有两种方式，一是删除对应的记录，例如在上例中，如果张三的性别没有记录，出现缺失，则将张三的所有信息全部从数据库中删掉。

这种方式在数据缺失非常少的情况下是可行的，但如果各个项目中都有少数的数据缺失存在，对所有缺失的记录都进行删除可能就会使总样本量变得非常小，从而损失许多有用信息。

缺失值处理的第二种方式是进行插值处理，所谓插值，是指人为地用一个数值去替代缺失的数值。

插值处理根据插值的不同，有如下一些方法：

1．随机插值

根据缺失值的各种可能情况，等概率地进行插值。

例如在上例中，“张三”的性别有两种可能性，一是“男”，二是“女”，可以简单地掷一枚硬币，如果正面朝上，则赋值为“男”，如果反面朝上，则赋值为“女”。

2．依概率插值

随机插值是假定各种一个变量取各种值的可能性是相等的，但有些情况下，我们可以事先知道一个变量取各种值的概率，例如，我们知道在上述的单位中，女性占的比例是75％，男性的比例是25％，则在对“张三”的性别进行赋值时，不是按50％概率赋为“女”，而是按75％概率赋为“女”。

3．就近插值

就近插值是指根据缺失记录附近的其他记录的情况对缺失值进行插值，例如在上例中，“张三”的性别出现缺失，此时可以用其邻近的“李四”的性别数据替代“张三”的性别数据，由于“李四”的性别为“女”，所以将“张三”的性别也赋为“女”。

就近插值是依概率插值的一种简化处理，设想在整个单位的职工中，女性占的比例是75％，则在一般情况下，与张三邻近的记录性别为“女”的概率也应当为75％，就近插值实际上就是依概率插值。

使用就近插值时，需要对抽样过程进行必要的了解，如果抽样时性别有交叉的情况，例如经常是调查完一名男性后就调查一名女性，则使用就近插值就会出现较多的错误。

4．分类插值

依概率插值是将记录置于总体的背景上进行插值，没有充分利用记录的其他信息。

如果在记录的其他信息中有某些项目与缺失项目存在相关性，则可以根据这些辅助信息对总体进行分类，在每一类内部进行插值处理。

例如在上例中，“张三”的职业是“护士”，假定该单位中95％的“护士”性别为“女”，则在进行插值是，就不是使用全单位的女性比例75％，而是使用“护士”中的女性比例95％对“张三”的性别进行赋值。

二．数据分组

数据采集中的要求是尽可能完整地保留原始状况，但在进行数据处理时，可能需要对数据进行一定的归类，以便于分析。

这种数据归类的过程，称为数据分组。

例如在调查中，受访者的年龄是按实际年龄进行记录的，但在数据分析时，需要将其分为20岁以下、20－30岁、30－40岁、40－50岁、50岁以上等若干个组。

数据分组中需要考虑的内容包括

1．分组标志

一批数据可以按不同的标志进行分组，选择分组标志要根据研究目的进行。

例如要研究受教育程度对收入的影响，则分组应当按学历和月收入两个标志进行，而没有必要再使用身高、体重等标志进行分组。

2．组数

按同一标志，可以将数据分成不同数量的组，例如按年龄分组，可以分为儿童、成年人两组，也可以分为青少年、中年、老年三个组，也可以按10年或者5年为一段分为更多的组。

组数的确定受研究目的和样本量两个因素影响。

研究目的不同，对于分组的细化程度也会有所不同。

例如研究目的是分析不同年龄段的就业状态，则分组应当按就业身份进行细分，例如需要按5年为一段将就业人口分为6－7个组，因为在现实经济生活中，25岁与30岁年龄人群的就业状态是存在差异的。

但如果要了解的是消费观念等问题，则可以将组分得粗一些，按青年、中年、老年划分就可以了。

组数的确定还受到样本量的影响，样本量较大时，组数也可以更大一些，反之则组数应当小一些。

例如当拥有10000个样本时，将总体分为10个组也是可以的，但如果只有30个样本，分为2－3个组就已经足够了，再进一步细分后，每一组的样本量太小，就很难做出推断了。

初接触统计分析的工作人员往往倾向于将数据分组分得很细，以求保留更多的原始信息，例如在按学历进行分组时，希望将两年制大专和三年制大专分开。

需要提醒的是，数据分组过细后，最终的统计结果会表现为一个较大的表格，有时反而不利于阅读和判断。

数据分组可以采用“试错”的方法，即“错了再试”，先按某种方式分组，然后进行分析，如果发现分析中存在问题，再调整分组方法。

3．组距

组距是指每个组的范围跨度。

例如按年龄20－30岁分为一组，则该组的组距为10岁。

各组的平均组距是受组数影响的，组数越多，组距越小，反之则越大。

但具体落实到每一个组，则情况还有所不同。

例如按年龄将人口分为未成年、就业人口和退休人口三组时，三个组的范围分别是16岁以下，16－65岁和65岁以上，三个组的组距显然是不同的。

组距的确定受自然和社会规律以及样本结构两个因素影响。

从自然和社会规律方面来说，组距的确定是客观的，例如上例中人口的分组，是按就业身份进行划分的，这种划分方法不能被改变。

按样本结构确定组距是针对一些没有客观标准的标志进行分组时采用的方法，例如按收入进行分组时，组距的确定并没有客观标准。

此时，可以根据样本的结构划分组距，以使每一组的样本数大致接近。

4．组限

组限指组与组之间的界限，组限与组距是一对相互影响的关系，组距调整了，组限也就发生了变化，反之，组限一旦确定下来，组距也就确定了，组距等于组的上限与下限之差。

组限的确定有时是客观的，需要根据实际研究的内容进行调整。

例如前面的例子中未成年人与成年人的分组界限是16岁，这是按国际标准的就业人口界限确定的。

但如果分组的目的是研究样本的民事行为能力，则这一分组界限就需要调整为18岁。

有些时候，一个组可能会缺失上限或者缺失下限，例如年龄中的“60岁以上组”，就无法获得一个确定的上限，在人的身高项目中，“150厘米以下组”就是一个缺下限组。

对于连续型的变量来说，相邻组的上限和下限会是同一的，例如在对收入进行分组时，“500－1000元”和“1000－1500元”就出现了重合，此时，统计惯例是将重合的值计入后一组。

即上述两组的划分为“500－1000元（不含）”，和“1000元－1500元（不含）”。

5．组中值

组中值是一个组中处于中间位置的值，往往用以代表一个组的平均状况。

对于缺上限或者缺下限的组，组中值的计算有几种不同的情况

（1）根据邻近组组距推算

（2）对于缺下限组而言，当邻近组组距过大时，使用上限的一半计算。

例如，关于收入的两个组是“500元以下”、“500－1500元”，此时，计算第一组的组中值为500的一半，即250元。

（3）根据现实情况人为确定

有些情况下，一个组的上下限虽然不能确定，但可以进行模糊地判断，此时就可以利用这种模糊判断的结果，确定该组的组中值。

例如在收入数据中，“5000元以上组”的组中值可以根据城市中高收入人群的平均收入情况确定为“8000元”，这种确定的依据是现实的社会经济经验数值。

三．次数分配

次数分配是指观察值按分组标志分配在各组内的记录数。

各组中观察值的数量称为次数，也称频数。

各组次数与总次数的比例，称为频率。

有时候，出于统计分析的目的，需要对高于或低于某一组的所有观察值的次数进行统计，这样形成的次数分配表，称为累积次数分配表。

例：

累积次数分配表

组别

次数

向下累积次数

500元以下

500－1500元

1500－2500元

2500元以上

四．分布曲线

1．概念

在平面直角坐标系上，以分组标志为横轴，次数或者频率为纵轴，可以画出次数分配的直方图。

例如上例中的次数分配情况可以表示为

将直方图的顶端用折线连接，可以获得次数分配的折线图，折线图的含义与直方图是一致的，均反映不同组的次数分配情况，折线越高的地方，反映该组的次数越多，反之则越少。

当样本量较大，组距较小时，折线图会越来越平滑，直至成为一条曲线。

这种曲线称为次数分布曲线，反映出数据的分布规律。

2．分布曲线的类型

数据的分布特征不同，形成的分布曲线也表现出各种不同的类型，常见的分布曲线的类型有下列各种

（1）钟形分布

钟形分布是社会经济现象中最常见的分布形式，具体表现为中间隆起，两侧逐渐降低。

钟形分布表明数据具有集中的趋势，大多数数据集中在中间，越往两端，数据越少。

在远离中心的位置，只有极少数的数据。

钟形分布的中间隆起部分称为峰，两侧称为尾。

以下是一个典型的钟形分布的例子。

由于两侧的数据不对称，因此这种钟形分布称为偏态的钟形分布。

根据较长的尾所指的方向不同，将偏态又可分为正偏（右偏）和负偏（左偏）两种，下图中较长的尾部指向左方，即数据的负方向，所以称为负偏态，或者左偏态。

左右对称的钟形分布是一种特殊情况，因为自然现象中严格呈现出左右对称的是非常少见的。

对称的钟形分布大多数是属于数据经过处理后的分布形式。

其中最典型的对称钟形分布是正态分布（NormalDistribution）。

例如将1万人分成250组，每组40人，每组计算一个平均身高，根据数理统计理论中的中心极值定理，我们可以知道250个组平均身高数值将表现为一种近似于正态分布的情况。

正态分布的概率密度函数公式为：

尽管正态分布的名称看上去象是一种常规（Normal）的分布形式，但实际上自然现象恰好表现为正态分布的情况是非常少的。

例如成年男性的身高，虽然具有钟形分布的特征，但往往表现为一种偏态的钟形，而非对称的钟形，更不可能恰好是正态分布。

（2）J形分布

J形分布一般是累积分布的表现形式，在图形上表现为一条从下向上单调变化的曲线。

根据J形分布的方向，又可分为正J形和反J形。

所谓反J形，是指曲线单调递减的情况，一般是用于描述向上累积的现象。

（3）U形分布

U形分布是指中间凹陷，两端翘起的分布形式，反映出某一个社会经济现象在开始和结束时某项活动比较频繁，而在中间则相对比较稳定。

U形曲线一般用于描述具有生命或者质量特征的现象，例如人和动物的死亡率数据，人和动物一样，在幼年和老年的死亡率都比较高，中年的死亡率较低，从而表现为U形曲线。

产品的故障率也具有这样的特征，产品使用初期和老化期的故障率都比较高，中间阶段则故障率比较低。

U形曲线因形状象浴缸，又称为浴缸曲线。

是两个不同的因素同时对一个社会经济现象起作用的结果。

如产品故障率，同时受产品自身缺陷和老化两个因素影响，在使用初期，自身缺陷造成的故障率较高，在使用后期，则老化引起的故障率较高，中间阶段则正好处于两个故障率均较低的阶段。

（4）多峰分布

多峰分布是指超过一个隆起部分的分布，数列有若干个隆起部分，反映出影响数据的主要因素有若干个不同的水平，受不同水平影响的数据分别以不同的中心点聚集，从而形成若干个峰值。

例如如果将某次调查中男女受访者的身高数据放在一起观察，就会发现数据表现出两个峰值，男性的平均身高和女性的平均身高分别为175CM和162CM。

第二节总量指标和相对指标

一．总量指标和相对指标

总量指标是反映社会经济现象总体规模或水平的指标，又称为绝对数。

例如一个国家一定时期内的人口数、一个地区的土地面积等等。

相对指标是两个有联系的总量指标对比计算的比率，又称为相对数。

根据相比较的总量指标之间的关系不同，相对指标可以划分为若干种类型：

1．结构相对指标

例如：

一个班级中有学生100人，其中男生60人，用男生人数除以总人数为60％，即为结构相对指标。

2．比例相对指标

例如：

一个班级中有学生100人，其中男生60人，女生40人，用男生数与女生数进行比较，男生数为女生数的150％，即为比例相对指标，比例相对指标也可以用比例式写成1.5:

1。

3．强度相对指标

例如：

某地有人口100万人，土地面积100平方公里，人口数和土地面积分别是同一总体的两个不同方面，用人口数除以土地面积得人口密度为1万人／平方公里，即为强度相对指标。

4．比较相对指标

例如：

甲地2001年GNP为100亿元，乙地2001年GNP为120亿元，甲地的GNP为乙地的5／6，该数值即为比较相对指标。

与比例相对指标不同的是，比较相对指标涉及到的两个主体并不属于同一个总体的两个部分，而是两个独立的总体。

5．动态相对指标

例如：

甲地2001年的GNP为100亿元，2000年的GNP为80亿元，2001年为2000年的125％，该指标即为动态相对指标。

二．描述总量指标和相对指标的一些常用术语

1．静态比较与动态比较

将同一时期的统计指标放在一起进行比较，称为静态比较。

如果是用不同单位的同一时期指标进行相互比较，则可称为横向比较。

同一单位或者不同单位的同一时期数据，称为横断面数据，表示按某一时间进行拦腰截断后，所观察到的数据。

将不同时期的统计指标放在一起进行比较，称为动态比较。

将同一单位的不同时期指标进行相互比较，又称为纵向比较。

2．基期与报告期

在进行动态比较时，有时会用当前的数据与过去某一时间的数据进行对比。

此时，将当前的数据称为报告期数据，将用于比较的过去的数据称为基期数据。

如果观察的是若干个时期的数据，每个时期的数据均与同一个基期数据进行对比，则这种比较方法，称为定基比较。

例如，将某一时期1970年、1980年、1990年和2000年的GNP数值与1949年进行比较，所获得的4个比例，称为定基增长率。

如果在观察若干个时期的数据时，每一数据均与前一时期进行对比，则这种比较方法称为环比比较。

例如，观察1996年至2000年的GNP增长情况，其中1996年与1995年进行比较，1997年与1996年进行比较，……，2000年与1999年进行比较，则获得的一组增长率数据，称为环比增长率。

3．时期和时点

时期是指两个时间点之间的一段时间，时点是指某一特定的时刻。

时期指标往往是具有动态特征的指标，例如在连续的一段时间内所进行的生产活动，要进行统计时，就必须采用时期指标。

时点指标是具有静态特征的指标，反映的是过去所有活动的结果，例如某一时点上的国民财富积累情况，等等。

第三节平均指标

平均指标指同类社会经济现象在一定时间、地点条件下所达到的一般水平。

平均指标是数据描述中最基本的指标之一。

常用的平均指标包括下列七类：

一．算术平均数（ArithmeticMean）

算术平均数也称均值，是所有数的总和与数量之商。

用公式表示如下：

对于分组数据，计算算术平均数时，可使用加权算术平均数方法。

加权算术平均数适用于三种不同的场合

1．分组频数数列

在分组数列中，已知每一组的平均水平和频数，直接进行计算。

对于数列是组距式的情况，每一组的水平使用组中值代替。

2．分组频率数列

在分组数列中，已知每一组的平均水平及频率，将频率作为权重进行计算。

尤其是当各组的频率之和为100％时，加权算术平均数的分母为1。

3．具有不同权重的变量求平均。

涉及到不同重要性的因素之间的加和问题。

例如，对同一个社会经济现象有若干名专家进行评分，但由于专家的威望不同，所以评分的权威性也不同。

对各位专家的评分结果，不能直接进行平均计算，而应当将威望值作为权重，进行加权平均计算。

二．调和平均数（HarmonicMean）

调和平均数是根据标志值的倒数计算出来的平均指标，其意义与算术平均数一致。

可以这样理解，调和平均数是在数据来源不同的情况下计算算术平均数的一种方法，调和平均数都可以通过数据转换，调整成算术平均数进行计算。

例如：

已知某人分几次购买苹果的情况如下：

序号

苹果价格（元／公斤）

购买金额（元）

4.5

3.5

使用调和平均数计算苹果的平均价格，方法如下

此例也可转化为算术平均数进行计算，根据“购买数量＝购买金额／苹果价格”，可以计算出所购买苹果的总数量，如下表：

序号

苹果价格（元／公斤）

购买金额（元）

购买数量（公斤）

2.5

4.5

3.11

3.5

5.14

根据算术平均数的计算公式，也可计算苹果的平均价格，即3.91元／公斤。

根据本例也可以看出，调和平均数实际上只是将进行数据转换的步骤综合在计算公式中而已，实际上所计算的，仍然是算术平均数。

三．几何平均数（GeometricMean）

几何平均数是在数列具有连乘积特征的情况下所计算的平均数。

算术平均数的特征是各个参与平均的变量之间是平行的关系，变量之间可以直接相加，获得总和。

例如，三个人的收入分别为1000元、2000元和3000，则计算三个数的和，可得到三个人的总收入值为6000元。

几何平均数的特征是参与平均的变量之间是连续的关系，变量之间是通过相乘的方式来获得累积效果的。

例如，某人在银行存款，本金为1000元，三年的存款利息率分别为10％，15％和20％，则三年后此人的银行存款本息之和为

1000元×（1＋10％）×（1＋15％）×（1＋20％）＝1518元

这种具有连乘积特征的变量关系，在进行平均计算时，需采用几何平均数的方式。

几何平均数的计算公式为

其中符号

表示连乘的意思。

以上述的某人存款的数据为例，此人存款三年的平均利息率为

几何平均数也有加权形式，加权几何平均数的计算公式为

四．众数（Mode）

众数是一组数据中出现次数最多的变量值。

对于轻微偏态的单峰分布数据来说，众数反映的是数据的集中趋势位置，因此可以反映一组数据的平均状态。

相对于算术平均数，众数更注重大多数的特征，而不关注极端数据的特征，这样，众数就是一个较为稳健的统计量。

在分组式数列中，众数的计算公式如下：

其中：

L表示众数组的下限；

表示众数组与前一组的次数之差；

表示众数组与后一组的次数之差；

表示众数组的组距。

五．中位数（Median）

中位数是位于统计数列中间位置上的数。

在数列中，有一半的数据大于中位数，一半的数据小于中位数，因此中位数可以反映数列的一般水平。

中位数的位置计算公式为

中位数不容易受到极端值的影响，数列中有个别数值出现异常，一般不会影响到中位数的大小。

因此，中位数是一个比较稳健的统计量。

对于分组数列的情况，中位数的计算公式为：

其中：

L表示中位数组的下限；

N表示总体单位数；

表示中位数所在组之前的累积次数；

表示中位数组的次数。

六．分位数

分位数是指将一列数据K等分的各种数。

计算第一K分位数的方法是：

最常见的分位数包括四分位数（Quartile）、十分位数（Decile）和百分位数（Percentile）。

七．截尾均值

截尾均值是指在一个数列中，去掉两端的极端值后所计算的算术平均数，也称为切尾均值。

最常见的截尾均值的例子是在一些比赛中，计算选手的最终得分需要“去掉一个最高分，去掉一个最低分”，这种处理方法，即为计算截尾均值的方法。

截尾均值由于去掉了数列中影响数据稳定性的极端值，从而具有较好的稳健性，不易受到极端值的干扰。

在数据序列本身存在少量错误的情况下，通过有效地判定极端值，并将极端值去掉来计算算术平均数，可以获得较为真实地反映数据情况的平均指标。

极端值的判定根据分析目的的不同，可以有下列各种不同的方法：

1．确定两端或者一端固定数量的值为极端值

例如确定最大值和最小值为极端值，而不去观察这两个值本身是多少。

2．确定一个固定范围外的数值为极端值

在数据处理时，人为地确定一个取值范围，超出这范围内的数值一律被当作极端值。

例如在计算平均收入时，将10000元以上的收入值统一判定为极端值，不进行平均计算。

3．根据数据的统计结果来确定极端值

这种方法的特点是不事先确定极端值的范围，而是根据数据的实际数值，来推算极端值的范围。

例如在计算收入数据时，约定以中位数的3倍作为极端值的范围，这样，对于不同的工资水平的地区，极端值的范围也就有所不同了。

四．离散程度指标

1．极差（Range）

极差是数据的最大值与最小值之差，用公式表示如下：

极差反映出数据在空间上的分布范围，一般情况下，分布范围越大，表明数据整体越离散。

极差是一个不够稳健的统计量，个别极端值的存在，可能会对极差造成很大的影响。

2．内距（Inter-QuartileRange）

内距也称四分位差，是指第三四分位数与第一四分位数之差。

用公式表示如下

内距由于使用的是第三四位位和第一四分位的差，受两端的极端值影响较小，因此更为稳定。

内距反映的处于中间位置的一半数据的分布范围，该范围的大小，可以反映整个数列的离散程度。

3．平均绝对差（MeanAbsoluteDeviation）

极差和内距都是根据数据所处的位置来进行计算的离散指标，未能充分利用所有数据的信息。

平均绝对差是指各个标志值对其算术平均数的平均离差。

4．方差（Variance）和标准差

平均绝对差使用绝对值来消除离差的正负号，在数学处理中，具有一些不方便之处。

方差是使用求平方的方式来消除正负号，便于数学处理。

方差的计算公式为

方差的平均根称为标准差

方差的简捷计算方法：

（1）

（2）

其中，C是

与

之差，

是x对

的方差。

5．离散系数（CoefficientofVariation）

当几组数据的平均水平不同时，标准差的含义也有所不同。

为了对水平不同的数据进行离散程度的比较，需要计算标准差相对于平均数的大小，称为离散系数。

五．数据变换

数据变换是为了更好地显示数据，以便于分析人员对数据的特征进行掌握。

数据变换原则上应当是单调的，也就是说，经过变换后的数据顺序，与变换前没有发生改变。

1．原点变换

对于数据绝对值比较大，远离原点的情况，可以通过这种方式，将数据调整到原点附近，以便于观察。

2．尺度变换

对于数据差异较大或者较小，普通坐标系无法容纳的情况，通过这种变换，能够使之尺度发生变化，适应常规尺度。

3．一般线性变换

是原点变换与尺度变换同时作用的结果。

4．中心化变换

将数据批调整到以平均值为中心。

5．极差变换

将数据批调整至最大值为1，最小值为0的区间。

6．标准化变换

将数据批进行原点和尺度的同时变换，使之与标准正

展开阅读全文