试验资料的整理与特征数.docx

上传人:b****7 文档编号:9204910 上传时间:2023-02-03 格式:DOCX 页数:19 大小:214.99KB
下载 相关 举报
试验资料的整理与特征数.docx_第1页
第1页 / 共19页
试验资料的整理与特征数.docx_第2页
第2页 / 共19页
试验资料的整理与特征数.docx_第3页
第3页 / 共19页
试验资料的整理与特征数.docx_第4页
第4页 / 共19页
试验资料的整理与特征数.docx_第5页
第5页 / 共19页
点击查看更多>>
下载资源
资源描述

试验资料的整理与特征数.docx

《试验资料的整理与特征数.docx》由会员分享,可在线阅读,更多相关《试验资料的整理与特征数.docx(19页珍藏版)》请在冰豆网上搜索。

试验资料的整理与特征数.docx

试验资料的整理与特征数

第四章实验资料的整理与特征数

实验中通过观察、测量获得大量的数据,如何从这些数据中获得有价值的信息,就要对其进行初步整理,找出内在规律、特征,这对于做好实验结果统计分析有重要意义。

第一节常用的统计术语

一、资料、观察值、变数

实验中需要对实验的生物体进行一系列的观察和记载。

经过调查和记载得到该生物体各种性状的大量的数据,这些数据称为资料。

由于同一生物各不同个体在相同性状上有差异,表现出变异。

例如,调查某地某一小麦品种100个麦穗的每穗小穗数,由于受许多偶然因素的影响,可能每穗小穗数不一样。

“每一个体的某一性状的测定数值叫观察值。

组成总体或样本的一群观察值的集合称为变数。

由于个体间属性相同,但受随机影响造成观察值或表现上的变异,因此变数又称为随机变数。

b5E2RGbCAP

二、总体与样本

总体指的是具有共同性质的个体所组成的集团。

总体又分为有限总体和无限总体。

有限总体指的是总体中包含的个体数是有限的,可以计数。

无限总体指的是总体中包含的个体是无限的,数不清的,只是表示包括的个体数大到无限。

例如小麦品种冀麦23的总体,指的是冀麦23这一品种在多年多地的种植中所有的个体,它是无法计数的,这一总体称为无限总体。

对某一块地的小麦株数,虽然多但是可数,这样的总体称为有限总体。

统计上有关取样误差的计算大多数假设来自无限总体。

用N表示总体容量。

p1EanqFDPw

样本指的是从总体内抽样取出来的若干个个体,或者说是总体的一部分个体。

样本是用来研究总体的。

生产实验研究中常用样本的事实来反映总体的情况,因为总体太大,不可能也不允许我们对其逐个研究。

例如,对于某一小麦品种的穗分化情况调查,我们不能把这一品种的每一株都拔来放在显微镜下观察,同时也不允许这样做。

因此,一般用样本来研究总体。

用n表示样本容量。

DXDiTa9E3d

样本有大有小。

一般n≥30为大样本,n<30为小样本。

三、参数与统计数

由总体的全部观察值计算得到的总体特征数为参数,它是该总体真正的值,是固定不变的。

由样本观察值计算得到的样本特征数为统计数,它因样本不同常有变动。

它是估计值,根据样本不同而不同。

例如水稻品种南优2号的株高,其总体平均值为95cm,它是一个真值,为参数,而从中抽取出来的样本的平均数为91.4cm,它是估计值,为统计数。

RTCrpUDGiT

因为总体参数不易获得,我们通常用统计数来估计参数,一般的参数用希腊字母表示,统计数用拉丁字母表示。

如平均数,总体平均数用μ表示,样本平均数用

表示,用

估计μ。

5PCzVD7HxA

第二节资料的整理

一、实验资料的类别

实验中观察记载所得数据,因所研究的性状不同而有不同的性质,一般可以分为数量性状资料和质量性状资料两大类。

jLBHrnAILg

(一>数量性状资料

指能够以测量、称量、度量或计数的方法所获得的资料,这类资料有两种。

1、连续性变数资料指由称量、度量或测量等方法得到的资料,各个观察值不限于整数,在两个相邻数值之间,可以有微量差异。

例如树高、株高、产量、千粒重等。

xHAQX74J0X

2、非连续性变数资料也称间断性变数资料,指用计数的方法得到的资料,各个观察值必须以整数表示,如株数、籽粒数、叶片数等。

LDAYtRyKfE

(二>质量性状资料

指能观察不能测量的性状,又称属性性状,如花色、叶色、品种的抗病性等。

从这类

性状获得资料,一般可采用两种方法统计。

1、统计次数的方法在一定的总体内,统计具有某性状的个体数目及具有不同性状的个体数目,按类别统计其次数或相对次数。

例如,在200株豌豆中,有140株紫花占70%,60株白花占30%,这类资料称为次数资料。

Zzz6ZB2Ltk

2、给予每类性状相当数量的方法例如小麦籽粒颜色有白有红,可令白色为0,红色为1,再如红星苹果果实的色泽,按着色面积的大小分5、4、3、2、1级。

这类资料可以与间断性变数资料一样处理。

dvzfvkwMI1

二、资料的整理

田间实验或调查研究得到的资料,未经整理之前是杂乱无章的,很难找出其规律。

所以对于资料处理的第一步是进行整理,把观察值的数据按大小加以整理后,便可以看到资料的集中和变异情况,对资料有一个初步的认识。

资料的整理有两种常用方法。

rqyn14ZNXI

(一>次数分布表

将观察值按大小进行分组统计次数,编制成表格形式即为次数分布表。

次数分布表因资料的类别不同而有差异。

1、非连续性变数资料的整理现以某种小麦品种的每穗小穗数为例来说明这类资料的整理方法。

随机抽取100个麦穗,计数每个麦穗的小穗数,其资料如表4-1。

EmxvxOtOco

上述资料是非连续性变数资料,每穗小穗数的变动范围在15~20之间,把所有的观察值按每穗小穗数多少加以归类,共分6组,组与组之间相差1个小穗,这一小穗称为组距。

每一个观察值按其大小归到相应的组内,每增加1个画一横道,一般用“正”字表示。

用“f”表示每组出现的次数。

这样就可得到表4-2形式的次数分布表。

SixE2yXPq5

从表4-2中看出,原本杂乱无章的资料,经初步整理后,就可以看出其大概情况,如每穗小穗数以17个为最多,以20、15个为最少。

经过整理的资料也有利于进一步分析。

但是有些非连续性变数资料,观察值较多,变异幅度大,不可能如上例那样按每一观察值归一组的方法进行整理。

例如研究某早稻品种的每穗粒数,共观察200个稻穗,每穗粒数变异幅度为27—83粒,相差56粒。

如果以每一观察值为一组,则组数太多(57组>,其规律性显示不出来。

如每组包含若干粒数的幅度,例如以5粒为一组,则可以使组数适当减少。

经初步整理后分为12组,资料的规律性较明显,如表4-3。

6ewMyirQFL

从表4-3看到,约半数稻穗的每穗粒数在46~60粒间,大部分稻穗的每穗粒数在41~70粒之间,但也有少数稻穗少到26~30粒,多到81~85粒。

kavU42VRUs

2、连续性变数资料的整理连续性变数资料不可能按间断性变数的归组方法来进行整理,而必须先确定组数、组距、组限,然后按大小来归组。

现以表4-4的100行(行长2m>大豆产量资料为例,说明其整理方法。

y6v3ALoS89

①求全距。

观察值中最大值与最小值的差数即为全距,要确定组数必须先求出全距。

也是整个样本变异幅度,一般用R表示。

从表4-4中看出,最大的观察值为185g,最小值为22g,全距为185-22=163g。

M2ub6vSTnP

②确定组数和组距。

根据全距分为若干组,每组距离相等,组与组之间的距离称为组距。

组数和组距是相互决定的,组距小,组数多,反之组距大,组数少。

在整理资料时,既要保持真实面目,又要使资料简化,认识其中的规律。

在确定组数时应考虑观察值个数的多少,极差的大小,以及是否便于计算,能否反映出资料的真实面目等方面。

一般样本适宜的分组数如表4-5所示。

组数确定后,再决定组距。

组距二全距/组数。

表4-4100行(行长2m>的大豆产量的样本容量为100,假定分为11组,则组距应为163/11=14.8g为方便起见,可用15g作为组距。

0YujCfmUCw

表4-5不同容量的样本适宜的分组数

样本容量

适宜分组数

50

100

200

300

500

1000

5~10

8~16

10~20

12~24

15~30

20~40

③确定组限和组中值(中点值>。

每组应有明确的界限,才能使观察值对号入座。

组中值最好为整数,或与观察值位数相同,便于计算。

一般第一组组中值应以接近最小观察值为好,其余的依次而定。

这样避免第一组次数过多,不能正确反映资料的规律。

组限要明确,最好比原始资料的数字多一位小数,这样可使观察值归组时不致含糊不清。

上下限为组中值±1/2组距。

本例第一组组中值定为20g,它接近资料中最小的观察值。

第二组的组中值为20+15=35g。

第三组为50g,余类推。

每组有两个组限,数值小的为下限,大的为上限。

本例中第一组的下限为20-15/2=12.5(g>,上限为20+15/2=27.5(g>,所以第一组的组限为12.5—27.5g。

第二组和以后各组的组限可以以同样的方法算出。

eUts8ZQVRd

④原始资料的归类。

按原始资料中各个观察值的次序,把逐个数值归于各组。

一般用“正”划记数。

待全部观察值归组后,即可求出各组次数,制成次数分布表,如本例将表4-4资料整理后制成表4-6。

sQsAEJkW5T

3、质量性状变数资料的整理质量性状资料可用类似次数分布的方法来整理,整理前,把资料按各种质量性状分类。

分类数等于组数,然后根据各个体在质量性状上的具体表现分别归人相应的组中,即可得到质量性状分布的规律性认识。

GMsIasNXkA

例如,红星苹果经处理后的果实着色情况,归纳于表4-7。

表4-7红星苹果果实着色性状的次数分布表

级别

次数

5

4

3

2

1

14

36

97

53

7

合计

207

注:

果实着色面积分五级:

5级为全红;4级为2/3以上果面红色;3级为2/3以下1/3以上红色;2级为1/3以下红色;1级为绿色果。

TIrRGchYzg

(二>次数分布图

实验资料除用次数分布表表示外,还可以用次数分布图表示。

用图形表示资料的分布隋况叫做次数分布图。

次数分布图可以更形象更清楚地表明资料的分布规律。

7EqZcWLZNX

次数分布图有柱形图、多边形图、条形图等。

其中柱形图和多边形图是表示数量性状变数的图形;条形图则是表示质量性状资料的图形。

但无论哪种图形,关键是建立直角坐标系,横坐标用“X”表示,它一般表示组距或组中值;纵坐标用“Y”表示,它一般表示各组的次数,横坐标与纵坐标的比例为6:

5或5:

4。

画图时要注明单位。

lzq7IGf02E

1、柱形图现以表4-6100行大豆产量的次数分布为例加以说明。

该表有12组,在横轴上分13个等分,因为第一组的下限不为0,故第一份应离开原点远一些或划折断号,每一等分代表一组,第一组的上限为第二组的下限,如此类推。

在Y轴上标次数,查100行大豆产量次数分布表最多一组的次数为19,故纵坐标分为20等分,、在图上表明0、5、10、15、20即可,代表次数。

根据实际数画出其图形时,横坐标上第一等分的两界限即为第一组的上限和下限,查表4-6第一组含有次数为2,所以两界处绘两条纵线,高度等于2个单位,再画一横线连接两纵线顶端,即为第一组的柱形图,其余组可依次绘制,即可制成柱形次数分布图,见图4-1。

zvpgeqJ1hk

2、多边形图它也是表示连续性变数资料的一种方法,是以其组中值为代表,其优点可比较两组以上的资料,以表4-6100行大豆产量为例,说明其具体做法。

画出直角坐标横坐标表示组中值,纵坐标表示次数。

然后以组中值为代表在横坐标第一等分的中点向上至纵坐标2个单位处标记一个点,表示第一组含次数2个单位,以后依次类推。

把各点依次连接,最后把折线两端各延伸半个组距,与横轴相交。

如图4-2。

NrpoJac3v1

3、条形图条形图适用于非连续性变数资料和质量性状资料,一般横轴标出非连续性变数资料的中点值或质量性状的分类性状,纵轴标出次数,现以表4-7红星苹果果实着色情况为例。

在横轴上按等距离分别标定5个等级的着色性状,在纵轴上标定次数(f>。

查表4-7,第一组为5级,其次数为14次,在此组标定点向上,相当于14处画一垂直于横坐标的狭条形,表示第一组的次数。

其他类推,即画成红星苹果果实着色的5种情况于图4-3。

1nowfTG4KI

第三节平均数

一、平均数种类

平均数是数量资料的代表值,表示整个资料的集中趋势,并且作为资料的代表值与另一组资料相比较,以明确二者之间的差异。

因此,平均数在工农业生产和科学研究中应用非常广泛。

fjnFLDa5Zo

统计上平均数有好多种,其中主要有算术平均数、中数、众数和几何平均数。

(一>算术平均数

一个数量资料各个观察值的总和除以观察值个数所得的商称为算术平均数。

它是我们日常工作和生活中应用最广泛的平均数。

tfnNhnE6e5

(二>中数

将资料中的观察值由小到大依次排列,居于中间位置的观察值称为中数。

如果观察值的次数为偶数,则以中间两个观察值的算术平均数作为中数。

HbmVN777sL

(三>众数

资料中出现次数最多的观察值称为众数,或者是次数最多一组的中点值。

(四>几何平均数

以n个观察值相乘开n次方所得的数值为几何平均数。

一般用G表示。

二、算术平均数计算方法

由于算术平均数取决于资料中所有的观察值,用它作为资料的代表值,其代表性较全面。

所以算术平均数是统计上应用最多的平均数,通常简称平均数或均数。

算术平均数的计算根据资料是否分组等情况,采用不同的计算方法。

V7l4jRB8Hs

(一>未分组资料计算方法

资料所含观察值不多,即小样本时,一般采用直接法计算,其公式为:

<4-2)

上式中,x代表各个观察值,n代表观察值的个数,

代表平均数,∑为希腊字母,表示总和。

表示从xl积加到xn83lcPA59W9

[例4.1]在水稻品比实验中,湘早4号的5个小区产量(kg>分别为20、19、21、17.5、18.5,求该品种的小区平均产量。

mZkklkzaaP

由公式4-2有:

(二>分组资料计算法

观察值较多的资料采用上述方法计算平均数较麻烦并易出现错误,一般用加权法计

算,其公式为:

或简写成

(4-3>

式中:

x为各组观察值或组中值,f为各组次数,p为组数,n为总次数。

[例4.2]从100行大豆产量次数分布求平均数。

如果采用直接法计算,

=95.2(g>,两者结果十分相近。

三、算术平均数的性质

算术平均数有两个基本性质。

(一>各个观察值与平均数的差数总和等于零,即离均差总和等于零。

<4-4)

(二>样本中各个观察值与其平均数差数平方的总和为最小,即离均差的平方总和为最小即:

=最小<4-5)

第四节变异数

平均数作为数量资料的代表值,只是说明了观察值分布的集中趋势,其代表性如何,取决于观察值的变异程度。

表示变异程度的变异数较多,但常用的有极差、方差、标准差和变异系数等。

AVktR43bpw

一、极差

极差是资料中最大观察值与最小观察值的差数,亦称全距,用R表示。

[例4.3]调查两个水稻品种的单株分蘖数,资料整理如表4-8。

表4-8两个水稻品种单株分蘖数

品种

单株分蘖数

总和

平均

黄壳早

3344444555

44

4

老来表

2233444567

44

4

表4-8资料中,黄壳早单株分蘖数最少3个,最多5个,R=5-3=2个分蘖,老来青最少2个,最多7个,R=7-2=5个。

由此说明,两个品种的单株分蘖数的平均值都是4个,但老来青品种的极差大,其变异范围大,平均数的代表性差;黄壳早品种的极差小,变异浮动小,其平均数的代表性好。

ORjBnOwcEd

极差虽然对资料的变异有所说明,简单明了,但是它只是由两个极端观察值决定,没有充分利用资料的全部信息,而易受到资料中不正常的极端值影响。

因此,用极差值代表整个样本的变异度是有缺陷的,但在n小于10个时,仍可采用。

2MiJTy0dTT

二、方差

为了正确反映资料的变异度,比较理想的方法是根据全部观察值来度量资料的变异度。

这样就要求选出一个数值作为共同的比较标准。

平均数是样本的代表值,用它作为标准比较合理。

含有n个观察值的样本,其各个观察值为x1、x2、x3、…xn,每个值与互相减,即可得到离均差。

如果相加,其总和等于零,不能反映变异度的大小。

如把各个离均差平方相加得离均差的平方和,简称平方和,用SS表示,定义如下:

gIiSpiue7A

样本

(4-6>

总体

(4-7>

式中x为观察值,

为样本平均数,

为总体平均数。

如果SS大,变异度大。

因此,可以度量资料的变异度。

但是也有缺点,在比较两组资料时,如果观察值的个数越多,平方和越大,反之则小。

这样两组相比,观察值的个数将影响变异度的大小。

所以,平方和除以观察值的个数,就不受观察值个数的影响而成为平均平方和,简称均方或方差。

样本均方用s2表示,总体方差用

表示。

其定义为:

uEh0U1Yfmh

上式n-1为自由度,N为有限总体所含的个数,均方和方差两个名词,习惯上样本的s2称为均方,总体的

称为方差。

IAg9qLsgBX

三、标准差

标准差表示资料的变异度,是方差的平方根值,其单位与观察值单位相同。

由样本资料计算标准差的公式为:

<4-10)

由总体资料计算标准差的公式为:

<4-11)

(一>自由度的意义

自由度是观察值的独立值的数目,或者说是能够自由活动的观察值的数目。

在公式4-10和4-12中,样本标准差不以样本容量n而以n—1作为除数,这是因为,我们所研究的是总体,但总体

一般不知道,用样本平均数

去估计总体

但是,

,前面已经证明,

=最小,即

,如果用样本的标准差估计总体标准差,则数值偏低。

若以n—1去除,则数值变大,纠正了偏差。

从自由度的定义看,对于一个有n个观察值的样本,在每一个x与

比较时,受

的限制,其样本观察值只能有n—1个是自由的。

例如,有5个观察值,样本平均数王为5,假定4个数值为6、4、3、7,那么第五个值只能是5;假如4个值为8、4、6、5,则第五个值只能是2,这样才符合离均差总和等于零的特性。

因此,样本的自由度等于观察值个数减去约束条件的个数,如果约束条件有1个,其自由度为n—1,如果有是个约束条件,则自由度为n—k。

WwghWvVhPE

自由度用DF表示,具体的数值用

表示。

在应用时,小样本一定要用自由度来估算标准差;如果是大样本,可以不用自由度。

但大小样本的界限不统一,因此一般样本的资料在估算标准差时都用自由度。

asfpsfpi4k

(二>标准差的计算

标准差的计算方法可分为小样本未分组资料的计算方法和大样本分组资料的计算方法。

1、小样本未分组资料计算标准差的方法一般可直接用公式4-10计算,也可转化得:

<4-12)

式中

为矫正数,记作C。

故也称为矫正数法。

这样在利用计算器计算时,比较方便。

[例4.4]测定10株泰山1号小麦的株高,结果列于表4-9,试计算其标准差。

表4-910株泰山1号小麦的株高标准差计算表

序号

株高

)2

x2

1

113

0

0

12769

2

121

8

64

14641

3

113

0

0

12769

4

114

1

1

12996

5

113

0

0

12769

6

114

1

1

12996

7

115

2

4

13225

8

106

-7

49

11236

9

111

-2

4

12321

10

110

-3

9

12100

合计

1130

0

132

127822

将表4-9的数值代入公式4-10:

如果利用4-12式,则

两种方法计算结果相同。

2、大样本分组资料计算标准差方法凡大样本已分组的资料可用加权法计算标准差。

<4-13)

式中,

是从大样本计算的标准差,x是次数分布表中每组的组中值,

是样本平均数,f是每组的组次数;n为总次数。

ooeyYZTjj1

计算时一般转化为矫正数法计算,其公式为:

<4-14)

[例4.5]以100行大豆产量的次数分布表为例,计算其样本标准差。

由表4-6计算得:

n=100,

=1037200,

=9640,代入公式4-14得:

=33.01

四、变异系数

标准差应用较广泛,但是它是有单位的,如果比较两个或两个以上变数的分布,由于研究的性状不同,单位也就不同。

例如比较小麦穗长的分布和小麦穗重的分布,它们之间的变异程度是不能用标准差比较的,因为穗长单位以cm表示,而穗重是以g表示的。

所以在比较这些不同性状的变异程度时,需要有一个相对变异数,最普遍采用的是变异系数。

其公式为:

BkeGuInkxI

(4-15>

CV为变异系数,用%表示。

是标准差。

是平均数。

[例4.6]某大豆品种有关产量因素各性状的平均数与标准差列于表4-10。

在此例中,只从标准差看每株节数和百粒籽重的变异相等,但进一步看两者平均数相差很大,单位也不同,不能进行比较。

变绝对变异为相对变异后,成为不带单位纯数,则可看出,每株节数的变异度比百粒籽重小。

PgdO0sRlMo

表4-10某大豆品种产量因素各性状的变异系数

产量因素

单位

平均数

标准差<

变异系数

植株高度

每株节数

每节荚数

每荚粒数

百粒籽重

不发育籽粒百分数

cm

g

%

51.6

22.5

2.69

2.36

15.4

14.9

10.8

1.2

0.31

0.14

1.2

6.1

20.9

5.3

11.6

5.9

7.8

40.9

申明:

所有资料为本人收集整理,仅限个人学习使用,勿做商业用途。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 工程科技 > 电力水利

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1