第二章资料的描述统计分析Word文档下载推荐.docx

资源描述

第二章资料的描述统计分析Word文档下载推荐.docx

《第二章资料的描述统计分析Word文档下载推荐.docx》由会员分享，可在线阅读，更多相关《第二章资料的描述统计分析Word文档下载推荐.docx（21页珍藏版）》请在冰豆网上搜索。

第二章资料的描述统计分析Word文档下载推荐.docx

1.76

2.80

3.11

1.89

1.97

2.82

3.13

2.02

2.14

2.84

3.15

2.13

2.27

2.86

3.17

2.21

2.39

2.88

3.18

2.29

2.48

2.89

3.19

2.34

2.56

2.91

3.20

2.41

2.64

2.92

3.25

2.46

2.70

2.94

3.27

2.51

2.95

3.29

2.55

2.81

2.97

3.30

2.59

2.85

2.98

3.32

2.62

2.99

3.33

2.65

2.93

3.00

3.34

2.68

3.01

3.36

2.71

3.03

3.37

2.73

3.04

3.38

2.2资料的分类

统计资料是指反应事物、现象或过程的数据资料，包括原始资料和次级资料。

与一般资料相比，统计资料有如下特点：

（1）数字性：

一般资料有数字形式，也有文字形式，但统计资料都应是数字形式（或可转换为数字形式）；

（2）大量性：

统计资料是大量相象或对同类相象观察所取得的数据资料，而不是个别相象的少量或个别数据；

（3）具体性：

统计资料是已经实现事实的记载，而不是拟议中的数据资料，故各种质量标准或技术规范等资料不是统计资料。

资料的分类是统计归纳的基础，根据资料的收集方法及数据的取值特性，通常可将资料分为以下类型。

2.2.1连续性资料

连续性资料（continuousdata）是指在一定范围内可取任何实数值的数据资料，例如动物个体的体重、奶牛的产奶量、羊的产毛量等指标（变量）进行测定所得到的数据，它们通常是用度量衡等计量工具测量后得到的，因而也称为计量资料。

连续性资料的连续性受实际测定规模和测量工具精度的限制，实际得到的资料并不是完全连续的，也就是说这种连续性只是理论上的。

2.2.2离散性资料

离散性资料（discretedata）是在一定范围内只取有限种可能值的数据资料。

又可进一步分为

（1）计数资料（countingdata）：

是用计数的方式得到的数据资料，它们必须用整数来表示，如对猪的产仔数、鸡的产蛋数等指标（变量）的记录数据。

（2）分类资料（categoricaldata）：

可自然地或人为地分为两个或多个不同类别的资料，主要的分类形式有：

公称尺度（nominalscale）不同类别之间没有等级之分，例如对性别（公、母），基因型（AA、Aa、aa），毛色（红、白、黑等）等的分类，这类资料虽然本来是用文字表示的，但可将它们转换为数字，例如对于性别可用1代表公，0代表母；

反之亦可，用0代表公，1代表母。

等级尺度（rankedscale）不同类别之间有内在的等级之分，例如产品的分级（一级、二级，三级等），成绩的分级（优、良、中等），体高的分级（高、中、矮），等等。

这类资料通常用自然数1、2、3等来表示。

要注意的是当我们将用文字表示的分类资料转换为数字表示后，不同数字仅代表不同的类型，而不代表大小，例如2（代表二级）并不意味是1（代表一级）的2倍。

2.3数据的频率分布

频率分布反映一组数据中不同观测值的出现频率。

不同的资料类型其频率分布有不同的计算和表示方式，下面分别介绍。

2.3.1离散性资料的频数（率）分布

对于分类资料，其频数（率）分布（frequencydistribution）就是属于不同类别的观测值出现的次数（频数）和所占的比例（频率）。

对于计数资料，也采用同样的方法，以每个自然值代表一类，计算各类中观察值出现的频数和频率。

表2-1和表2-2分别给出了70头经产母猪窝产仔数资料及其频数（率）分布。

表2-170头经产母猪窝产仔数资料单位：

头

表2-270头经产母猪窝产仔数资料的频数（率）分布表

产仔数

频数

累计频数

频率（%）

7.14

12.86

28.57

24.29

11.43

10.00

总和

100.00

2.3.2连续性资料的频数（率）分布

连续性资料的频率分布计算相对复杂一些，首先要将资料进行分组，然后将各个观测值分别纳入相应的组内，计算各组中观测值的频数和频率。

现以表2-3中所列200头金华猪二月龄体重资料为例，说明其方法与步骤。

表2-3200头金华猪二月龄体重资料单位：

17.0

11.0

14.3

13.0

15.5

10.0

13.5

16.0

11.5

14.5

12.0

16.5

12.8

9.0

11.8

19.3

14.0

15.0

12.3

14.8

17.5

9.5

10.3

12.5

18.0

8.5

15.3

10.5

8.9

17.9

19.0

9.3

11.3

8.8

13.3

16.6

15.8

16.8

16.3

18.8

9.8

（1）数据分组

将观测值的值域划分为若干个两两不相交的长度（间距）相同的区间，每个区间为一组。

分组的步骤如下：

求全距全距又称范围或极差（range）是样本资料中变数的最大值与最小值之差，用R表示。

表2-3中，带有下划线的数据19.3和8.5分别为最大值和最小值。

由此求得全距为R=19.3-8.5=10.8。

确定组数组数的多少取决于样本中数据的多少（样本含量），通常是参考表2-4而人为确定的，对于本例可初步确定为12组。

表2-4样本含量与组数的关系

样本含量

组数

30~60

6~8

200~500

12~17

60~100

7~10

500以上

17~30

100~200

9~12

确定组距每组的最大值与最小值之差称为组距，各组的组距是相同的，通常用i表示。

组距的大小是根据全距等于组数与组距之积的关系计算所得，为方便进一步的分组可以将计算得到的小数化为整数（不管小数点后有几位小数）。

本例i=10.812=0.9，取整数1作为组距。

求组中值与组限各组的两个极限值称作组限，最小值称为组下限，最大值称为组上限，它们的平均数就是组中值，即组中值=（组下限+组上限）/2，因而组下限=组中值0.5×

组距。

一般是先人为确定第一组的组中值，然后依次计算其他各组的组中值（等于上一组的组中值加组距）以及各组的组限。

在确定第一组的组中值时，为避免将资料中的最小值排除在第一组之外，一般选第一组的组中值接近或等于资料中的最小值，本例的最小值为8.5，因此可确定第一组的组中值为8.5，根据已确定的组距为1可以得出第一组的组下限为8，然后加上一个组距就为第二组的组下限，依次类推，一直至最后一组的组上限包括资料中的最大值为止。

于是分组如下：

8-9、9-10、、19-20。

为避免前一组的组上限等于后一组的组下限所引起该数值分组时的归属问题，通常采用将该数值向后一组靠的原则，这样分组就更改如下：

7-7.9、8-8.9、、19-19.9，或采用开口式分组，即只给出组下限：

7—、8—、、19—。

（2）计算频数（率）分布

在确定各组的组限后就可以将各个观测值划归到各组中去，然后计算各组中观测值的频数和频率。

该资料的频率分布计算结果见表2-5。

表2-5200头金华猪二月龄体重的频数（率）分布

组别

组中值

8—

8.5

1.5

9—

9.5

7.0

10—

10.5

11—

11.5

17.5

12—

12.5

101

13—

13.5

131

15.0

14—

14.5

152

15—

15.5

173

16—

16.5

185

6.0

17—

196

5.5

18—

18.5

198

1.0

19—

19.5

200

2.3.3百分位数

百分位数（Percentile）又叫百分位点，将一组n个数据由小到大排序，如果小于某数值的数据个数为全体数据个数的x%，则称该数为第x百分位数，或x%分位数。

常用的百分位数有25%分位数，50%分位数和75%分位数，25%分位数为第0.25n个数的后一个数，也称为下四分位数（lowerquartile），50%分位数为第0.50n个数的后一个数，也称为中位数（见2.5.4），75%分位数为第0.75n个数的后一个数，也称为上四分位数（upperquartile）。

2.4统计表

统计表是统计资料的基本表现形式之一，其主要作用是使数据资料具有条理性、清晰易懂、便于比较和分析。

在形式上，统计表由标题、纵标目、横标目、表体和表注组成。

标题，即表的名称，位于表的外部上方，简明扼要地说明表的内容。

纵标目，位于表的上部，给出各列的标题，说明该列所含内容。

横标目，位于表的左方，说明各横行的内容。

表体，即由各纵列和横行组成的含有具体数字的部分。

注是对表内特殊符号等的说明，如方差分析多重比较用标记字母法表示结果时其含义。

统计表通常可分为简单表和复合表。

简单表由一组横标目和一组列标目组成的表格，表2-2和表2-5就是一种简单表。

复合表是将二组或二组以上以上横标目和一组列标目结合起来，或一组横标目和二组及二组以上列标目结合起来组成的表格。

有时我们需要用两个或两个以上标志对数据进行复合分组，以反应变量同时受几种因素的共同影响而发生的变化，揭示不同类型现象的不同特征，更深刻地分析现象的规律性，对这种复合分组的数据就需要用复合表来表示。

简单表通常用三线表表示，即在表的最上、最下端以及第一行纵标目下各有一条横线外，其余不再有划线。

有时，当表的列数较少，而行数较多时，为了美观和充分利用文本的宽度，一般制成回头表，回头表中间用双实线，如表2-4。

2.5统计图

统计图是根据统计资料所绘制图形，它借助点、线、面和体形象、直观、生动地表示统计资料的基本特征和变化趋势，便于人们理解和记忆。

2.5.1常用的统计图的类型：

（1）条形图（barchart）条形图是用若干平行柱形的长短来表示绝对数或相对数大小，适用于分类资料和离散性数据资料的频数（率）分布，作图时，各条形拄间留有一定的空隙以示非连续性。

①单式条形图：

只涉及一个测定指标的分类资料和离散性数据资料。

例如对表2-2中的频数分布可用图2-1表示。

②复式条形图：

涉及两个或两个以上的指标的分类资料和离散性数据资料。

如图2-2四个不同猪场不同类型猪存栏数分布图。

（2）直方图（histogram）直方图是用矩形的面积来表示各组中数据出现的频数（率），适用于连续性资料的频数（率）分布，例如表2-5中的频数（率）分布可用图2-3表示。

（3）饼图（piechart）对于类别不多的分类资料的频率分布，可用饼图表示。

图2-4，给出了200头金华猪的在某个基因座上的基因型频率分布。

圆的总面积为所有类别频率之和，其值为100%，各扇形面积表示不同类别的频率，可用不同的色彩以示区别。

（4）动态变化趋势图或线形图（dynamiccurvegraph）趋势图主要用于表示数据的动态变化趋势。

如要在一张图上反映多个指标，可以分别用实线“”、断线“”、点线“…”，横点线“”等来表示区别。

图2-5显示了在1950至1966年间某地区人口不同疾病死亡率的下降情况。

图2-170头经产母猪窝产仔数的频数分布图2-2不同猪场各类型猪存栏情况比较

图2-3200头金华猪二月龄体重的频数分布图2-4200头金华猪基因型频率分布

图2-5不同年份两种疾病死亡率变化趋势图

2.5.2统计图绘制基本要求

（1）标题简明扼要，位于统计图的下方；

（2）应注明纵、横轴的标题内容及单位；

（3）图形的高宽比约为（4~5）：

（5~6）；

（4）当用不同颜色或线条代表不同事物时，应有图例说明；

（5）条形图、直方图左右只留0.5~1个柱形宽度。

2.6集中趋势的度量

在统计分析中，我们往往首先希望知道的是一组数据的集中趋势，即变量分布的中心位置。

统计上描述变量集中趋势的特征数叫平均数（mean）。

常用的度量指标如下。

2.6.1算术平均数

（1）定义与计算

一组资料中，所有观测值的总和被观测值个数除所得的商数，称为算术平均数（arithmeticmean），简称平均数或均数，它是最常用的一种集中趋势的度量指标。

计算公式为

（2-1）

其中n代表观测值个数，

代表各个观测值，为求和符号，其下方的i=1和上方的n分别表示求和变量（这里为Xi）下标的起始值

（1）和终止值（n）。

在不至造成混淆不清的情况下，也可将它们省略掉，即将上式表示为

。

【例2-1】现有某一只鸡一年中各月的产蛋记录：

18、20、21、22、23、23、24、25、25、25、26、26，求该母鸡各月的平均产蛋数。

对于分类资料，如果同一类别的个体在某个指标上都取相同的数值，则可用加权法来计算平均数，计算公式为

（2-2）

其中k为类别数，Xi为第i类个体在该指标上的取值，fi为第i类中的频数，即Xi的权重，pi为第i类个体出现的频率。

【例2-2】假设商品肉猪的收购价格与猪的评定登记有关，一级猪、二级猪和三级猪的价格分别为5.5元/千克，5.0元/千克和4.5元/千克，现有200头猪，其中一级猪30头，二级猪120头，三级猪50头，问这200头猪的平均收购价是多少？

对于已构建了频数分布表的计数资料和连续性资料，也可以采用加权法来计算平均数。

例如利用表2-2可得表2-1中70头母猪的平均产仔数为

利用表2-5可得表2-3中的200头金华猪的二月龄体重平均数为

要注意的是，对于连续性资料，用频数分布数据计算的平均数与用式（2-1）计算的平均数会有微小的差别，因而它是一个近似值。

（2）算术平均数的性质

①离均差之和为零一个样本中各个观察值与算术平均数之差的和为零，即

（2-3）

②离均差平方和最小一个样本中各个观察值与算术平均数之差的平方之和比各个观察值与任意其它数之差的平方之和为小，即

（2-4）

其中a为不等于

的任意实数。

2.6.2几何平均数

资料如有n个观察值，其相乘积开n次方所得的根，即为几何平均数（geometricmean），用G表示。

（2-5）

当变数个数超过3个时，为了计算方便，可利用对数运算来简化计算，即先求G的对数lgG，再求1gG的反对数：

（2-6）

由上式可看出，几何平均数实际上就是将原数据转换成对数，求对数值的算术平均数，然后再取反对数还原成原来的尺度。

几何平均数主要用于以百分率、比例表示的数据资料，如增长率、利率、药物效价、抗体滴度等。

它能削弱数据中的个别过分偏大值的影响。

【例2-3】某奶牛场在1995年有100头奶牛，已知在1996、1997和1998年的奶牛头数分别是前一年的2、3和4.5倍，求其年平均增加率。

对于该平均增加率可以进行验算，首先用各年的增加率进行计算，可得1998年该场的奶牛头数为：

用年平均增加率进行计算，可得：

类似于算术平均数的计算，对于分类资料或已得出频数分布的计数和连续性资料，也可用加权法计算几何平均数，计算公式为

（2-7）

其中k为类别数，fi为第i类（组）中的频数，xi为第i类（组）个体的取值（组中值），

为总观测值个数。

将其转化为对数形式，可得：

（2-8）

【例2-4】对一注射了鸡新城疫疫苗的鸡群测定血球凝集抑制滴度，其抗体滴度分布情况见表2-6。

表2-6鸡新城疫的血球凝集抑制滴度分布表

ND-HI滴度

鸡数（f）

lgX

f×

lgX`

1：

1.0000

8.0000

1.3010

49.4391

1.6021

70.4906

1.9031

89.4452

160

2.2041

63.9195

320

2.5052

37.5773

640

2.8062

5.6124

合计

183

324.4841

求该群鸡的平均抗体滴度。

代入公式（2-8）：

即该群鸡的平均抗体滴度为1：

59.31。

2.6.3调和平均数

调和平均数（harmonicmean）为各观察值倒数的平均数的倒数，即：

简单调和平均数：

（2-9）

加权调和平均数：

（2-10）

调和平均数可理解为先将原数据作倒

展开阅读全文

第二章 资料的描述统计分析Word文档下载推荐.docx

第二章资料的描述统计分析Word文档下载推荐.docx