生物统计学复习资料.docx

资源描述

生物统计学复习资料.docx

《生物统计学复习资料.docx》由会员分享，可在线阅读，更多相关《生物统计学复习资料.docx（16页珍藏版）》请在冰豆网上搜索。

生物统计学复习资料.docx

生物统计学复习资料

生物统计学是应用数理统计的原理和方法来分析和解释生物界数量现象的科学

生物统计学的研究内容包括统计原理、统计方法和实验设计统计原理，阐述统计理论和有关公式生物统计学从本质来看，实际上是研究如何从样本推断总体的一门科学。

总体（population）是我们研究的全部对象。

总体又分为无限总体（infinitepopulation）和有限总体（finitepopulation）。

构成总体的每个成员称为个体（individual）

从总体中抽取的一部分个体则构成样本（sample）。

样本内包含的个体数目称为样本容量（samplesize）

统计分析的核心在于由样本的信息推断总体的信息。

因此，获得样本仅是一种手段，而推断总体才是真正的目的。

从总体中获得样本的过程称为抽样（samlping）。

样本应该是一个总体的缩影。

为达到这个目的，需要用随机抽样（randomsampling）方法获得样本。

放回式抽样非放回式抽样

生物统计学中经常遇到的数据有两种类型：

即连续型数据和离散型数据。

用量测方式所得到的数据称为连续型数据（continuousdata），又称为度量数据（measurementdata）。

例如，

长度、时间、质量、OD值、血压值等。

用计数方式所得到的数据称为离散型数据（discretedata），又称为计数数据（countdata）。

例如，某一类别动物的头数，具有某一特征的种子粒数，血液中不同类型的细胞数目等

频率，即将某一类别的数目除以总数所得到的分数。

一）连续型数据的频数（率）表的编制

1计算极差原始数据表中找出最大值和最小值。

2决定划分的组数分组数是由数据的多少决定的。

在数据较少时，

如50～100个数可以分7～10组。

数据较多时，可分为15～20组。

3确定组距（classinterval）每组最大值与最小值之差，等组距分

组时，组距计算公式为：

组距i=极差（全距）/组数

4确定组限根据极差与决定划分的组数。

5组限、组界及中值在频数表中列出全部组限、组界及中值。

6计算出各组的频数和频率将原始数据表中数据，用唱票的方式填

入频数表中。

极差（range）：

数据中最大值和最小值之差，又称全距。

组限（classlimit）：

各组的最大值与最小值称为组限，最小值称为下限，最大值称为上限。

中值（midvalue）：

每一组的中点值，一般是每一组的两个组限的平均值

研究频数（率）分布的意义

从频数（率）表或频数（率）图可明显地看出数据的三个重要特征：

1看出数据的集中情况。

一般来说，不论是离散型数据，还是连续型

数据都有聚集于某一范围内的趋势，常常用平均值表示全部数据的

集中点。

2直观地看出数据的变异情况。

这群数据是集中在平均数附近，还是

分散在平均数的两侧。

3看出图形的形状。

例如，有些分布从零频数开始平稳地上升，直到

最高频数，然后平稳地下降直到零频数。

结果得到一个对称的直方

图或多边形图。

。

数据集中点的度量——平均数，用来表明资料中各观测值相对集中较多的中心位置。

算术平均数是指资料中各观测值的总和除以观测值个数所得的商，简称平均数或均数

算术平均数的重要特性

1样本各观察值与其平均数的差数（简称离均差，deviationfrommean）的总和等于0

2样本各观察值与其平均数的差数平方的总和，较各个观察值与任意其他数值的差数平方的总和为小，亦即离均差平方的总和最小。

离均差（deviationfromaverage）每个数与它们平均数离差称离均差。

当所获得的数据资料呈偏态分布时，中位数的

代表性优于算术平均数。

三、众数

具有最高频数的组值或中值称为众数。

数据变异程度的度量——极差、方差、标准差和变异系数。

这

些数字是描述样本频率分布特征的，称为样本数字特

征或简称为样本特征数（samp1echaracteristic

自由度（DF）的意义指样本内独立而能自由变动的离均差个数，

标准差的计算方法3种

变异系数（coefficientofvariation）是样本的标准差对平均数的百分数。

变异系数是一个不带单位的纯数，可用以比较两个事物的变异度大小。

作业一P20-1.10P22-1.13P23-1.16

第2章理论分布与抽样分布

二项分布是最重要的离散型分布之一，它在理论与实践应用上都有重要的地位，产生这种分布的重要实践源泉是贝努利试验（Bernoullitrials）。

二项分布记为B（n，p）

二项总体（binarypopulation）是由非此即彼的两项构成的总体。

例如：

事情成功和失败

新生儿男孩和女孩应用二项分布的重要条件是：

每一种结果在每次试验中都有恒定的概率，试验之间应是独立的

、服从二项分布的随机变量的特征数

1平均数以频数表示

μ=nφ

2平均数以比率表示

μ=φ

随着样本含量的增加，二项分布逐渐接近于正态分布，特别是当φ在0.5附近时，这种接近来得最快例题p42，43

在二项分布中，当某事件出现的概率特别小（φ→0），而样本含量又很大（n→∞）且nφ＝µ时，二项分布就变成泊松分布（Poissondistribution）。

因此，泊松分布的概率函数可以由二项分布的概率函数推导出来。

服从泊松分布的随机变量的特征数

泊松分布的一个特点是，在概率函数内的μ，不但是它的平均数，而且是它的方差。

正态分布是一种很重要的连续型随机变量的概率分布。

1平均数以频数表示

μ=nφ

2平均数以比率表示

μ=φ

随着样本含量的增加，二项分布逐渐接近于正态分

布，特别是当φ在0.5附近时，这种接近来得最快

一、泊松分布的概率函数

在二项分布中，当某事件出现的概率特别小

（φ→0），而样本含量又很大（n→∞）且nφ＝µ时，

二项分布就变成泊松分布（Poissondistribution）。

因

此，泊松分布的概率函数可以由二项分布的概率函数推

导出来。

二项分布的概率函数

有一个平均数，数据大部分集中在平均数附近，

并且在平均数的两侧成对称分布（两头少，中间多，

两侧对称），数据的这种分布规律称为正态分布

（normaldistribution）。

（三）标准正态分布的密度曲线特征

1在u=0时，φ（u）达到最大值。

2当u不论向哪个方向远离0时，e的指数都变成

一个绝对值愈来愈大的负数，因此φ（u）的

值都减小。

3曲线两侧对称，即φ（u）=φ（-u）。

4曲线在u=-1和u=1处有两个拐点。

5曲线下的面积等于1。

P（0＜U＜u）＝Φ（u）-1/2

P（U＞u）=Φ（-u）Φ（-u）=1-Φ（u）

P（｜U｜＞u）=2Φ（-u）

P（｜U｜＜u）＝1-2Φ（-u）

随机变量Y服从正态分布N（μ，σ

），将其

标准化（standardization），使其变为标准正态

分布，再按查附表2得到概率。

标准化公式：

P523.10

1中心极限定理（centrallimittheorem）

假设被研究的随机变量Y可以表示为许多相互独立的随机变量Y的和，如果Yi的数量很大，而且每一个别的Yi对于Y所起的作用很小，则Y可以被认为服从或近似地服从正态分布。

研究随机变量和的极限分布是正态分布的一类定理称为中心极限定理

若己知总体平均数为µ，方差为σ2，那么不论该总体是否正态分布，对于从该总体所抽取的含量为n的样本，当n充分大时，其平均数渐近服从正态分布。

从一个已知的总体中独立随机地抽取含量为n的样本，研究所得样本的各种统计量的概率分

布称为抽样分布。

一、样本平均数的分布

（一）方差已知时的平均数的分布

从平均数为μ，方差为σ2的正态总体中，独立随机地抽取含量为n的样本样本平均数是服从正太分布的随机变量

如果变量是正态的或近似正态的，则标准化的变量服从或近似服从N（0，1）分布；如果总体是非正态的，当样本含量n充分大时（n≥30），其样本平均数亦服从正态分布。

（二）方差未知时的平均数的分布----t分布

若σ2是未知的，可以用样本标准差代替总体标准差，标准化变量并不服从正态分布，

而服从具n-1自由度的t分布。

自由度独立观测值的个数。

随着自由度的增加，t分布愈来愈接近于标

准正态分布。

t分布曲线下总的面积等于1，即t值落入区间（-∞，∞）内的概率为1。

t值落入任一区间（t1，t2）内的概率等于该区间所夹曲线下面积。

样本方差的分布

从方差为σ2的正态总体中，随机抽取含量为n的样本，计算出样本方差s2。

在讨论样本方差的分布时，通常并不直接谈s2的分布，而是将它标准化，得到一个不带有任何单位的纯数，讨论标准化之后的变量分布卡方分布

例如，自由度df=9，概率α=0.05的χ2值等于16.919，就是说χ2大于16.919的概率为0.05或写为P（χ2≥16.919）=0.05。

若查下侧临界值，只要查出1-α时的临界值即可。

例如，查df=9，概率α＝0.05的下侧临界值，只要查自由度df=9行与概率α＝1-0.05＝0.95列，得χ2=3.325因为χ2分布是不对称的，所以这两个值并不以自由度df=9的χ2平均数为轴对称。

从两个正态总体中抽取的样本统计量的分布

方差已知时，两个平均数的和与差的分布

标准化的变量服从标准正态分布。

利用这个公式可以推断在方差己知时，两个样本平均数的差异是否显著。

方差未知但相等时两个平均数的和与差的分布

三、两个样本方差比的分布----F分布（F-distribution）

从平均数和方差分别为（μ1，σ12）和（μ2，σ22）的两个正态总体中，抽出含量分别为n1和n2的样本，并分别求出它们的样本方差s1和s2。

标准化的样本方差之比称为F。

F分布是由一对自由度df1和df2确定的。

第3章统计推断与参数估计

总体与样本之间的关系：

由已知总体研究样本的分布规律--抽样分布。

由样本去推断未知的总体--统计推断。

统计推断（statisticalinference）

统计假设检验：

首先对所估计的总体提出一个假设，例如假设这个总

体的平均数µ等于某个值µ0

（µ=µ0），然后，通过样本数据去推断这个假设是否可以接受。

如果可以接受，样本很可

能抽自这个总体；否则，样本可能不是抽自这个总体。

总体参数估计：

通过样本统计量估计总体参数

统计假设检验（testofstatisticalhypothesis）

由样本的差异去推断所在总体是否存在差异的统计方法。

、统计假设检验的基本原理

统计假设检验，首先对研究总体提出假设，在此假设下构造合适的统计量，并由该统计量的

抽样分布估计样本统计量的概率，根据概率值的大小做出接受或拒绝假设的判断。

三、统计假设检验的步骤

（一）建立假设。

对样本所属总体提出统计假设，包括无效假设H0和备择假设HA

（双侧检验或单侧检验）。

（二）确定显著性水平α。

常用α=0.05或α=0.01。

（三）计算检验统计量。

即从无效假设H0出发，根据样本提

供的信息计算检验统计量（如t，u等），进而根据检验统计

量的分布，估计表面效应仅由误差造成的概率。

（四）统计推断。

根据估计的概率值的大小来推断无效假设

是否正确，从而决定接受还是拒绝H0

拒绝不拒绝是根据小概率原理来的，小概率事件再一次实验几乎不发生。

若根据一定的假设条件计算出来该事件发生的概率很小，而在一次实验中它竟然发生了，可以认为假设条件不正确，从而否定假设。

。

根据小概率原理建立起的检验方法为显著性检验。

生物统计工作规定5%或1%以下为小概率/5%或1%为显著性水平记o_O统计量u，t，F为检验统计量

单个样本的统计假设检验

一、单个样本平均数的假设检验

这是检验某一样本平均数与一已知总体平

均数是否有显著差异的方法，即是检验无效假设H0：

μ=μ0，对备择假设HA：

μ≠μ0

的问题。

具体方法有u检验和t检验两种。

（一）σ2己知时单个平均数的显著性检验--u检验（u-test）

1检验条件

（1）从σ2己知的正态总体或近似正态总体中独立随机地抽取含量为n的样本。

（2）对于非正态分布的总体，σ2未知，n≥30的大样本

）σ2未知时单个平均数的显著性检验

--t检验（t-test）

1检验条件

总体方差σ2未知总体中独立随机地抽取含量为n的样本（n<30）。

参数估计

用由样本数据所计算出来的单个数值，对总体参数所做的估计称为点估计（pointestimate）。

一般来说，一个好的估计量应该满足以下三个条件，即无偏性，有效性和相容性

如果一个统计量的理论平均数，即它的数学期望等于总体参数，这个统计量就被称为无偏估计量（unbiased

在样本含量相同的情况下，如果一个统计量的方差小于另一个统计量的方差，则前一个统计量是更有效的估计量（efficientestimator

若统计量的取值，任意接近于参数值的概率随样本含量n的无限增加而趋于1，则该统计称为参数的相容估计量（consistentestimator）。

样本平均数是总体平均数的相容估计量，样本方差s2也是σ2的相容估计量。

样本平均数和方差都符合无偏性、最小方差和相容性。

因此，样本平均数和样本方差分别为µ和σ2的最优估计（optimumestimate）。

由样本平均数推断总体平均数所得到的结果

不是单一的值，而是一个区间。

只要标准化的样

本平均数落在-u

0.05（双侧）

和u

0.05（双侧）

区间内，所

有的H

都将被接受，于是得到一个包含总体平均

数的区间，用这种方法对总体参数所做的估计称

为区间估计（intervalestimate）。

（二）区间估计的一般做法

从一个正态总体N（µ，σ2）中抽取含量为n的样本，样本平均数Y服从正态分布N（µ，σ2/n）。

标准化的平均数服从N（0，1）分布。

u落在任一区间内的概率可以从正态分布表中查出。

如u落在区间（-1.96，1.96）内的概率从正态分布表中可以查出：

y-称为置信下限，y+称为置信上限。

本章要点

1基本概念、统计量计算公式

2假设检验的原理与步骤

3u检验与t检验的使用条件

4成组数据与配对数据的区别

5区间估计方法

拟合优度检验（goodnessoffittest）是用来检验实际观测数与依照某种假设，或者模型计算出来的理论数之间的一致性，以便判断该假设，或者模型是否与观测数相配合。

独立性检验（testofindependence）用于检验事件间的独立性或者检验处理之间的差异显著性。

二项分布拟合优度检验是一种适合性检验（testforgoodnessoffit），是利用样本信息对总体分布做出推断，检验总体是否服从二项分布。

1掌握χ2检验的基本方法

2熟悉拟合优度检验的方法

3熟悉独立性检验的方法

方差分析法是一种在若干能相互比较的资料组中，把产生变异的原因加以区分开来的方

法与技术”，方差分析实质上是关于观测值变异原因的数量分析。

）因素（factor）

实验中所研究的主题叫因素。

如研究如何提高猪的日增重时，饲料的配方、猪的品种、

当实验中考察的因素只有一个时，称为单因素实验；

若同时研究两个或两个以上的因素时，称为两因素或多因素实验。

实验因素所处的某种特定状态或数量等级称为处理。

单因素实验中，例如品种（系）比较实验，每个品种就是实验因素的一个处理（水平）。

在实验中，将一个处理实施在两个或两个以上的实验单位上，称为处理的重复；一个处理实施的实验单位数称为处理的重复数。

方差分析的基本原理与步骤

一、方差分析的基本原理与方法

方差分析（analysisofvariance）是a（a≥3）个样本平均数的假设测验方法，是将总变异分解为各个变异来源的相应部分，从而发现各变异原因在总变异中相对重要程度的一种统计分析方法。

方差分析的基本步骤

（一）整理数据列表

（二）线性统计模型

固定（效应）模型

处理固定因素所用的模型称为固定效应模型（fixe

处理随机因素所用的模型称为随机效应模型（random

effectmodel）或者简单地称为随机模型（

（三）平方和与自由度的分解

1平方和分解

（1）单因素实验平方和分解

总平方和=处理间平方和+误差平方和（处理内平方和）

SST=SSA+SSE

两因素实验平方和分解

总平方和=处理A+处理B+AB互作+随机误差

SST=SSA+SSB+SSA×B+SSE

2自由度分解

（1）单因素实验

总自由度=处理间自由度+误差自由度

总自由度DFT=an-1

处理间自由度DFA=a-1

误差自由度DFE=an-a=a（n-1）

（2）两因素实验

总自由度=处理A+处理B+AB互作+随机误差3均方计算

（1）处理均方

（2）误差均方

（四）均方期望与F检验

（五）多重比较

多重比较方法主要有LSD检验和Duncan检验

（六）实验结论

单因素实验资料的方差分析

单因素实验是实验中只考察一个因素的实验。

完全随机实验设计的单因素实验资料的方差分

析可分为组内观察值数目相等和组内观察值数目不等两种分析方法。

随机区组实验设计的单因素实验资料的方差分析。

§5.2.1组内观察值数目相等的单因素

完全随机实验设计方差分析

例5.1以A、B、C、D4种药剂处理水稻种子，其中A为对照，每处理各得4个苗高观察值（cm），其结果如表5-5，试做方差分析。

两因素实验资料的方差分析

§5.3.1主效应与交互作用

主效应（maineffect）

由于因素水平的改变而造成因素效应的改变，称为该

因素的主效应。

交互作用（interaction）

在多因素实验中，一个因素的作用要受到另一个因素

的影响，表现为某一因素在另一因素的不同水平上所产生

的效应不同，这种现象称为该两因素存在交互作用

可加性（additivity）

每个处理效应与误差效应是可加的，xij=μ+αi+εij。

αi为处理效应，εij为误差效应。

由于有这一假定，不同的效应才能被分解，才能最终判断处理效应是否比误差效应更显著。

（2）正态性（normality）

实验误差应当是服从正态分布N（0，σ2）的独立随机变量。

因此被检验的每一个总体也应该是正态分布的。

（3）方差齐性（homogeneity）

各处理的误差方差应具备齐性，它们有一个公共的总体方差σ2。

方差分析应满足三个条件

1理解方差分析的基本原理

2掌握方差分析的基本方法

3熟悉单因素试验资料方差分析方法

两个随机变量X和Y对于任一随机变量的每一个可能的值，另一个随机变量都有一个确定的分布与之相对应，则称这两个随机变量间存在相关（correlation）关系。

如果对于变量X的每一个可能的值xi，都有随机变量Y的一个分布相对应，则称随机变量Y

对变量X存在回归（regression）关系。

X称为自变量（independentvariable），Y称为因变量

回归分析的任务是揭示出呈因果关系的相关变量间的联系形式，建立它们之间的回归方

程，利用所建立的回归方程，由自变量（原因）来预测、控制依变量（结果）。

相关系数是指由于回归因素所引起的变差与总变差之比的平方根。

由回归因素所引起的变差，在总变差中的比率越大，回归的成份就越大，这两个变量间的相关越密切。

相关系数r是线性回归程度的标志。

在配曲线时，用r2作为曲线配合程度的指标，称为相

关指数（correlationindex）也称为决定系数

1理解回归与相关的意义及基本概念

2掌握一元线性回归、简单相关的分析方法

实验设计（experimentdesign）是指整个研究课题的设计，主要包括课题的确定、试验

方案的拟定、试验材料的选择和分组，资料收集和统计分析方法等。

实验设计的基本原则是：

重复（replication）、随机化（randomization）和局部控制（localcontrol）。

重复（replication）就是将一基本实验重做一次或几次。

每种处理至少进行2次以上。

随机化（randomization）是指实验材料的配置和实验处理的顺序都是随机确定的。

局部控制（localcontrol）指在实验时采取一定技术措施方法减少非实验因素对实验结果的影响。

掌握实验设计的基本原则

2了解实验计划书的编制方法

3熟悉常用实验设计方法

7.3常用实验设计方法

一、统计假设检验实验的设计方法

成组实验设计、配对实验设计

二、方差分析实验的设计方法

单因素完全随机实验设计、随机区组实

验设计、两因素完全随机实验设计等

展开阅读全文