试验资料的整理与特征数.docx-资源下载

试验资料的整理与特征数.docx

1、试验资料的整理与特征数第四章实验资料的整理与特征数实验中通过观察、测量获得大量的数据，如何从这些数据中获得有价值的信息，就要对其进行初步整理，找出内在规律、特征，这对于做好实验结果统计分析有重要意义。第一节常用的统计术语一、资料、观察值、变数实验中需要对实验的生物体进行一系列的观察和记载。经过调查和记载得到该生物体各种性状的大量的数据，这些数据称为资料。由于同一生物各不同个体在相同性状上有差异，表现出变异。例如，调查某地某一小麦品种100个麦穗的每穗小穗数，由于受许多偶然因素的影响，可能每穗小穗数不一样。“每一个体的某一性状的测定数值叫观察值。组成总体或样本的一群观察值的集合称为变数。由

2、于个体间属性相同，但受随机影响造成观察值或表现上的变异，因此变数又称为随机变数。b5E2RGbCAP二、总体与样本总体指的是具有共同性质的个体所组成的集团。总体又分为有限总体和无限总体。有限总体指的是总体中包含的个体数是有限的，可以计数。无限总体指的是总体中包含的个体是无限的，数不清的，只是表示包括的个体数大到无限。例如小麦品种冀麦23的总体，指的是冀麦23这一品种在多年多地的种植中所有的个体，它是无法计数的，这一总体称为无限总体。对某一块地的小麦株数，虽然多但是可数，这样的总体称为有限总体。统计上有关取样误差的计算大多数假设来自无限总体。用N表示总体容量。p1EanqFDPw样本指的是从总

3、体内抽样取出来的若干个个体，或者说是总体的一部分个体。样本是用来研究总体的。生产实验研究中常用样本的事实来反映总体的情况，因为总体太大，不可能也不允许我们对其逐个研究。例如，对于某一小麦品种的穗分化情况调查，我们不能把这一品种的每一株都拔来放在显微镜下观察，同时也不允许这样做。因此，一般用样本来研究总体。用n表示样本容量。DXDiTa9E3d样本有大有小。一般n30为大样本，n30为小样本。三、参数与统计数由总体的全部观察值计算得到的总体特征数为参数，它是该总体真正的值，是固定不变的。由样本观察值计算得到的样本特征数为统计数，它因样本不同常有变动。它是估计值，根据样本不同而不同。例如水稻品种南

4、优2号的株高，其总体平均值为95cm，它是一个真值，为参数，而从中抽取出来的样本的平均数为91.4cm，它是估计值，为统计数。RTCrpUDGiT因为总体参数不易获得，我们通常用统计数来估计参数，一般的参数用希腊字母表示，统计数用拉丁字母表示。如平均数，总体平均数用表示，样本平均数用表示，用估计。 5PCzVD7HxA第二节资料的整理一、实验资料的类别实验中观察记载所得数据，因所研究的性状不同而有不同的性质，一般可以分为数量性状资料和质量性状资料两大类。jLBHrnAILg(一数量性状资料指能够以测量、称量、度量或计数的方法所获得的资料，这类资料有两种。1、连续性变数资料指由称量、度量或

5、测量等方法得到的资料，各个观察值不限于整数，在两个相邻数值之间，可以有微量差异。例如树高、株高、产量、千粒重等。xHAQX74J0X2、非连续性变数资料也称间断性变数资料，指用计数的方法得到的资料，各个观察值必须以整数表示，如株数、籽粒数、叶片数等。LDAYtRyKfE(二质量性状资料指能观察不能测量的性状，又称属性性状，如花色、叶色、品种的抗病性等。从这类性状获得资料，一般可采用两种方法统计。1、统计次数的方法在一定的总体内，统计具有某性状的个体数目及具有不同性状的个体数目，按类别统计其次数或相对次数。例如，在200株豌豆中，有140株紫花占70%，60株白花占30%，这类资料称为次数资

6、料。Zzz6ZB2Ltk2、给予每类性状相当数量的方法例如小麦籽粒颜色有白有红，可令白色为0，红色为1，再如红星苹果果实的色泽，按着色面积的大小分5、4、3、2、1级。这类资料可以与间断性变数资料一样处理。dvzfvkwMI1二、资料的整理田间实验或调查研究得到的资料，未经整理之前是杂乱无章的，很难找出其规律。所以对于资料处理的第一步是进行整理，把观察值的数据按大小加以整理后，便可以看到资料的集中和变异情况，对资料有一个初步的认识。资料的整理有两种常用方法。rqyn14ZNXI(一次数分布表将观察值按大小进行分组统计次数，编制成表格形式即为次数分布表。次数分布表因资料的类别不同而有差异。1、

7、非连续性变数资料的整理现以某种小麦品种的每穗小穗数为例来说明这类资料的整理方法。随机抽取100个麦穗，计数每个麦穗的小穗数，其资料如表4-1。EmxvxOtOco上述资料是非连续性变数资料，每穗小穗数的变动范围在1520之间，把所有的观察值按每穗小穗数多少加以归类，共分6组，组与组之间相差1个小穗，这一小穗称为组距。每一个观察值按其大小归到相应的组内，每增加1个画一横道，一般用“正”字表示。用“f”表示每组出现的次数。这样就可得到表4-2形式的次数分布表。SixE2yXPq5从表4-2中看出，原本杂乱无章的资料，经初步整理后，就可以看出其大概情况，如每穗小穗数以17个为最多，以20、15个为

8、最少。经过整理的资料也有利于进一步分析。但是有些非连续性变数资料，观察值较多，变异幅度大，不可能如上例那样按每一观察值归一组的方法进行整理。例如研究某早稻品种的每穗粒数，共观察200个稻穗，每穗粒数变异幅度为2783粒，相差56粒。如果以每一观察值为一组，则组数太多(57组，其规律性显示不出来。如每组包含若干粒数的幅度，例如以5粒为一组，则可以使组数适当减少。经初步整理后分为12组，资料的规律性较明显，如表4-3。6ewMyirQFL从表4-3看到，约半数稻穗的每穗粒数在4660粒间，大部分稻穗的每穗粒数在4170粒之间，但也有少数稻穗少到2630粒，多到8185粒。kavU42VRUs2、连

9、续性变数资料的整理连续性变数资料不可能按间断性变数的归组方法来进行整理，而必须先确定组数、组距、组限，然后按大小来归组。现以表4-4的100行(行长2m大豆产量资料为例，说明其整理方法。y6v3ALoS89求全距。观察值中最大值与最小值的差数即为全距，要确定组数必须先求出全距。也是整个样本变异幅度，一般用R表示。从表4-4中看出，最大的观察值为185g，最小值为22g，全距为185-22=163g。M2ub6vSTnP确定组数和组距。根据全距分为若干组，每组距离相等，组与组之间的距离称为组距。组数和组距是相互决定的，组距小，组数多，反之组距大，组数少。在整理资料时，既要保持真实面目，又要使资

10、料简化，认识其中的规律。在确定组数时应考虑观察值个数的多少，极差的大小，以及是否便于计算，能否反映出资料的真实面目等方面。一般样本适宜的分组数如表4-5所示。组数确定后，再决定组距。组距二全距/组数。表4-4 100行(行长2m的大豆产量的样本容量为100，假定分为11组，则组距应为16311=14.8g为方便起见，可用15g作为组距。0YujCfmUCw表4-5 不同容量的样本适宜的分组数样本容量适宜分组数501002003005001 0005108161020122415302040确定组限和组中值(中点值。每组应有明确的界限，才能使观察值对号入座。组中值最好为整数，或与观察值位数相同，

11、便于计算。一般第一组组中值应以接近最小观察值为好，其余的依次而定。这样避免第一组次数过多，不能正确反映资料的规律。组限要明确，最好比原始资料的数字多一位小数，这样可使观察值归组时不致含糊不清。上下限为组中值1/2组距。本例第一组组中值定为20g，它接近资料中最小的观察值。第二组的组中值为2015=35g。第三组为50g，余类推。每组有两个组限，数值小的为下限，大的为上限。本例中第一组的下限为20-15/2=12.5(g，上限为20+15/2=27.5(g，所以第一组的组限为12.527.5g。第二组和以后各组的组限可以以同样的方法算出。eUts8ZQVRd原始资料的归类。按原始资料中各个观察值

12、的次序，把逐个数值归于各组。一般用“正”划记数。待全部观察值归组后，即可求出各组次数，制成次数分布表，如本例将表4-4资料整理后制成表4-6。sQsAEJkW5T3、质量性状变数资料的整理质量性状资料可用类似次数分布的方法来整理，整理前，把资料按各种质量性状分类。分类数等于组数，然后根据各个体在质量性状上的具体表现分别归人相应的组中，即可得到质量性状分布的规律性认识。GMsIasNXkA 例如，红星苹果经处理后的果实着色情况，归纳于表4-7。表4-7 红星苹果果实着色性状的次数分布表级别次数次数分布图实验资料除用次数分布表表示外，还可以用次数分布图表示。用图形表示资料的分布隋况叫做次数分布图

13、。次数分布图可以更形象更清楚地表明资料的分布规律。7EqZcWLZNX次数分布图有柱形图、多边形图、条形图等。其中柱形图和多边形图是表示数量性状变数的图形；条形图则是表示质量性状资料的图形。但无论哪种图形，关键是建立直角坐标系，横坐标用“X”表示，它一般表示组距或组中值；纵坐标用“Y”表示，它一般表示各组的次数，横坐标与纵坐标的比例为6：5或5：4。画图时要注明单位。lzq7IGf02E1、柱形图现以表4-6 100行大豆产量的次数分布为例加以说明。该表有12组，在横轴上分13个等分，因为第一组的下限不为0，故第一份应离开原点远一些或划折断号，每一等分代表一组，第一组的上限为第二组的下限，如

14、此类推。在Y轴上标次数，查100行大豆产量次数分布表最多一组的次数为19，故纵坐标分为20等分，、在图上表明0、5、10、15、20即可，代表次数。根据实际数画出其图形时，横坐标上第一等分的两界限即为第一组的上限和下限，查表4-6第一组含有次数为2，所以两界处绘两条纵线，高度等于2个单位，再画一横线连接两纵线顶端，即为第一组的柱形图，其余组可依次绘制，即可制成柱形次数分布图，见图4-1。zvpgeqJ1hk2、多边形图它也是表示连续性变数资料的一种方法，是以其组中值为代表，其优点可比较两组以上的资料，以表4-6 100行大豆产量为例，说明其具体做法。画出直角坐标横坐标表示组中值，纵坐标表示次

15、数。然后以组中值为代表在横坐标第一等分的中点向上至纵坐标2个单位处标记一个点，表示第一组含次数2个单位，以后依次类推。把各点依次连接，最后把折线两端各延伸半个组距，与横轴相交。如图4-2。NrpoJac3v13、条形图条形图适用于非连续性变数资料和质量性状资料，一般横轴标出非连续性变数资料的中点值或质量性状的分类性状，纵轴标出次数，现以表4-7红星苹果果实着色情况为例。在横轴上按等距离分别标定5个等级的着色性状，在纵轴上标定次数(f。查表4-7，第一组为5级，其次数为14次，在此组标定点向上，相当于14处画一垂直于横坐标的狭条形，表示第一组的次数。其他类推，即画成红星苹果果实着色的5种情况于

16、图4-3。1nowfTG4KI第三节平均数一、平均数种类平均数是数量资料的代表值，表示整个资料的集中趋势，并且作为资料的代表值与另一组资料相比较，以明确二者之间的差异。因此，平均数在工农业生产和科学研究中应用非常广泛。fjnFLDa5Zo统计上平均数有好多种，其中主要有算术平均数、中数、众数和几何平均数。(一算术平均数一个数量资料各个观察值的总和除以观察值个数所得的商称为算术平均数。它是我们日常工作和生活中应用最广泛的平均数。tfnNhnE6e5(二中数将资料中的观察值由小到大依次排列，居于中间位置的观察值称为中数。如果观察值的次数为偶数，则以中间两个观察值的算术平均数作为中数。HbmVN7

17、77sL(三众数资料中出现次数最多的观察值称为众数，或者是次数最多一组的中点值。(四几何平均数以n个观察值相乘开n次方所得的数值为几何平均数。一般用G表示。二、算术平均数计算方法由于算术平均数取决于资料中所有的观察值，用它作为资料的代表值，其代表性较全面。所以算术平均数是统计上应用最多的平均数，通常简称平均数或均数。算术平均数的计算根据资料是否分组等情况，采用不同的计算方法。V7l4jRB8Hs(一未分组资料计算方法资料所含观察值不多，即小样本时，一般采用直接法计算，其公式为：分别为20、19、21、17.5、18.5，求该品种的小区平均产量。mZkklkzaaP由公式4-2有：分组资料计算

18、法观察值较多的资料采用上述方法计算平均数较麻烦并易出现错误，一般用加权法计算，其公式为：或简写成 (4-3式中：x为各组观察值或组中值，f为各组次数，p为组数，n为总次数。例4.2从100行大豆产量次数分布求平均数。，两者结果十分相近。三、算术平均数的性质算术平均数有两个基本性质。 (一各个观察值与平均数的差数总和等于零，即离均差总和等于零。样本中各个观察值与其平均数差数平方的总和为最小，即离均差的平方总和为最小即：=最小总体(4-7式中x为观察值，为样本平均数，为总体平均数。如果SS大，变异度大。因此，可以度量资料的变异度。但是也有缺点，在比较两组资料时，如果观察值的个数越多，平方和越大

19、，反之则小。这样两组相比，观察值的个数将影响变异度的大小。所以，平方和除以观察值的个数，就不受观察值个数的影响而成为平均平方和，简称均方或方差。样本均方用s2表示，总体方差用表示。其定义为：uEh0U1Yfmh上式n-1为自由度，N为有限总体所含的个数，均方和方差两个名词，习惯上样本的s2称为均方，总体的称为方差。IAg9qLsgBX三、标准差标准差表示资料的变异度，是方差的平方根值，其单位与观察值单位相同。由样本资料计算标准差的公式为： 4-10）由总体资料计算标准差的公式为：自由度的意义自由度是观察值的独立值的数目，或者说是能够自由活动的观察值的数目。在公式4-10和4-12中，样本标准

20、差不以样本容量n而以n1作为除数，这是因为，我们所研究的是总体，但总体一般不知道，用样本平均数去估计总体。但是，前面已经证明，=最小，即，如果用样本的标准差估计总体标准差，则数值偏低。若以n1去除，则数值变大，纠正了偏差。从自由度的定义看，对于一个有n个观察值的样本，在每一个x与比较时，受的限制，其样本观察值只能有n1个是自由的。例如，有5个观察值，样本平均数王为5，假定4个数值为6、4、3、7，那么第五个值只能是5；假如4个值为8、4、6、5，则第五个值只能是2，这样才符合离均差总和等于零的特性。因此，样本的自由度等于观察值个数减去约束条件的个数，如果约束条件有1个，其自由度为n1，如果有是

21、个约束条件，则自由度为nk。WwghWvVhPE 自由度用DF表示，具体的数值用表示。在应用时，小样本一定要用自由度来估算标准差；如果是大样本，可以不用自由度。但大小样本的界限不统一，因此一般样本的资料在估算标准差时都用自由度。asfpsfpi4k(二标准差的计算标准差的计算方法可分为小样本未分组资料的计算方法和大样本分组资料的计算方法。 1、小样本未分组资料计算标准差的方法一般可直接用公式4-10计算，也可转化得： 4-12）式中为矫正数，记作C。故也称为矫正数法。这样在利用计算器计算时，比较方便。例4.4测定10株泰山1号小麦的株高，结果列于表4-9，试计算其标准差。表4-9 10株

22、泰山1号小麦的株高标准差计算表序号株高x cm）x-）x-）2x211130012 769212186414 64131130012 76941141112 99651130012 76961141112 99671152413 2258106-74911 2369111-2412 32110110-3912 100合计1 1300132127 822将表4-9的数值代入公式4-10：cm）如果利用4-12式，则cm）两种方法计算结果相同。2、大样本分组资料计算标准差方法凡大样本已分组的资料可用加权法计算标准差。 4-13）式中，是从大样本计算的标准差，x是次数分布表中每组的组中值，是样本平

23、均数，f是每组的组次数；n为总次数。ooeyYZTjj1计算时一般转化为矫正数法计算，其公式为： 4-14）例4.5以100行大豆产量的次数分布表为例，计算其样本标准差。由表4-6计算得：n=100，=1 037 200，=9 640，代入公式4-14得：=33.01CV为变异系数，用表示。是标准差。是平均数。例46某大豆品种有关产量因素各性状的平均数与标准差列于表4-10。在此例中，只从标准差看每株节数和百粒籽重的变异相等，但进一步看两者平均数相差很大，单位也不同，不能进行比较。变绝对变异为相对变异后，成为不带单位纯数，则可看出，每株节数的变异度比百粒籽重小。PgdO0sRlMo表4-10 某大豆品种产量因素各性状的变异系数产量因素单位平均数x）标准差）变异系数CV）%植株高度每株节数每节荚数每荚粒数百粒籽重不发育籽粒百分数cm节荚粒g%51.622.52.692.3615.414.910.81.20.310.141.26.120.95.311.65.97.840.9申明：所有资料为本人收集整理，仅限个人学习使用，勿做商业用途。

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？