生物统计学总结.docx

资源描述

生物统计学总结.docx

《生物统计学总结.docx》由会员分享，可在线阅读，更多相关《生物统计学总结.docx（23页珍藏版）》请在冰豆网上搜索。

生物统计学总结.docx

生物统计学总结

绪论

统计工作的四大步骤：

设计、搜集、整理、分析

统计资料的三大类型：

e计量资料：

对每个观察值单位用定量方法测得每项指标量的大小所得的资料

e计数资料：

将观察单位按照某种属性类别分组，所得的观察单位数

e等级资料：

将观察单位按某种属性的不同程度分组所得的资料

同质与变异

同质：

除研究因素外，其他因素相同或相近为同质

变异：

观测值的不齐性

总体与样本：

总体：

根据研究目的所确定的同质观察单位的全体=所有研究对象

性质相同的全体观察单位某项变量值的集合

总体含量：

总体中所包含的观察单位数

有限总体：

总体观察单位数可数

无限总体：

总体观察单位数不可数

样本：

从总体中随机抽取的部分观察单位

样本含量：

样本中所包含的观察单位数

抽样：

从总体中获得样本的过程

放回式抽样

不放回式抽样

抽样误差：

因个体变异的存在，由抽样而导致的样本指标与总体指标之差

统计量：

有样本所得指标或数

参数：

由总体所得指标，关于特征的表征

频数：

完全相同的观察只出现的次数

频率：

某一观察值出现的次数与样本含量的比值

概率：

描述某事物发生可能性大小的一个度量

样本空间：

一次实验所有可能的结果的集合

基本事物：

样本空间每一个可能的结果

小概率事件：

P<=0.05或P<=0.01的事件

小概率原理：

小概率事件在一次抽样中不可能发生

计量资料的统计描述

集中趋势的指标：

平均数

定义：

描述一组同质计量资料的集中趋势，反映某一组观察值的平均水平或某一分布的平均位置的指标

作用：

作为一组资料的代表值，可用于组间的分析比较

均数的两个重要特征✍代表性

1.离均差和等于0

2.离均差平方最小小于

常用平均数指标：

1.算术均数

（1）定义：

全部观察值相加之和除以观察值个数所得的商

总体均数样本均数

（2）算法：

1）直接法：

2）加权法：

3）缩减法

（3）注意事项：

1）只有在合理分组的基础上对同质数据取均数才有意义

2）均数用于近似正态分布的对称分布，尤其是正态分布

2.几何均数G（不能用算术均数时）

（1）定义：

几个观察值相乘之积，开几次方所得根

（2）计算

1）直接法

2）

（3）应用注意：

1）几何均数适用于观察值相差很大，甚至呈倍数关系（等比或几何级数资料）或用于对数正态分布资料

2）观察值不能有零，不能同时有正负，

若都为负，去符号最后加符号，

观察值比较小或有零，可加1，最后减去

3）同一资料求得的几何均数小于均数

中位数M

（1）定义：

把一组观察值按大小顺序排列，位次居中的

（2）计算：

1）直接法

2）频数表法：

（3）注意事项

1）适用场合：

偏态，开口（一端或两端无界限），分布不清的

2）特性：

只代表了居中观察值的特性，敏感性低，不受特小特大值的影响

3）对于正态分布资料，理论上，中位数=均数（数值上）

百分位数

（1）定义：

将n个观察值由小到大排列，编上秩次，将n个秩次100等分，与X%秩次相对应的数值，即X的百分位数，是一个位置指标，以Px表示（x代表百分秩次）

Px将整个数列分为两半，X%比Px小，1-X%比Px大

（2）计算：

（3）应用注意

1）百分位数常用于描述一组资料（样本或总体）在某百分位数上的水平和分布特征，多个百分位数结合使用，可全面描述观察值分布特征，包括位置的大小和变异度

2）一般分布中部的百分位数相当稳定，代表性好，

靠近两端的百分位数，只在样本含量足够大（>120个）才足够稳定，

所以当样本含量不够大时，不宜取两端百分位数

3）用百分位数确定正常值范围，习惯上95%

离散趋势的描述

1.极差R：

样本资料中最大值和最小值之差

在一定程度上能说明样本波动幅度的大小，但它只受样本中两个极端个体数值大小的影响，不能反映样本中各个观测值的变异程度，稳定性差

2.四分位数间距：

是上四分位数与下四分位数之差,用四分位数间距可反映变异程度的大小.

稳定性好，灵敏度不够

3.标准差：

1）定义：

描述一组同质计量资料离散程度大小的指标

反映了均数对一组观察值的代表性

说明了观察值围绕均数分布的离散程度，个体变异

2）计算：

3）应用：

1.表示变量分布的离散程度

2.结合均数描述正态分布特征

3.结合均数计算变异系数

4.结合样本含量计算标准误

4）注意：

（1）不同单位，相同标准差，不能比较

（2）大个体差异大，变异度大，小个体则变异度小

4.变异系数CV

1）定义：

标准差与均数之比，用百分数表示

2）计算：

3）应用：

单位不同的几组资料变异度及均数相差悬殊的几组资料的变异度的比较，不单独使用

自由度ν

泛指可以自由取值的变量的个数

正常值：

正常动植物解剖生理生化等各种数据的波动范围

1）必要性

1.区分正常和异常

2.看不同种群在不同时间地域上某一指标的差异

2）选取

1.极差中的一部分

2.单侧或双侧正常值之分，由指标实际情况及实验要求确定

3.方式之一为正常值范围的百分位数，习惯上95%

双侧：

确定P2.5或P97.5

单侧：

P5或P95，看实验需要

计量资料的统计推断

统计推断

用样本信息推断总体特征

参数估计：

由样本结果对总体参数在一定概率水平下所做出的估计

假设检验

正态分布

1）概念：

一种连续型随机变量的概率分布

密度函数：

分布函数：

2）特征：

1.在横轴上均数处最高

2.以均数为中心，左右对称

3.有两个参数

4.曲线下的面积分布有一定的规律F（x）

3）应用：

1.以曲线下的面积反映频率及概率分布

2.估计正常值范围或正常值范围的正态分布法✍双侧正常值范围

3.质量控制

4.正态分布是很多种统计方法的理论基础

标准正态分布，u分布

Uα与面积的关系

对数正态分布

原观察值x呈偏态（正偏），取对数后，lgX呈正态分布✍x服从对数正态分布

均数的抽样误差

1.定义：

平均数与总体均数之差

2.均数抽样误差大小的度量

标准误

1）定义：

样本均数的标准差

2）意义：

反映抽样误差的大小

是样本均数围绕总体均数分布的离散程度，衡量了样本均数的可靠程度

3）计算：

一般一次抽样估计

总体没有标准误，只针对样本

4）用途：

（1）计算可信区间（参数估计）

（2）用于统计推断（假设检验）

t分布

1.t变换与t变量

2.t分布的特征

1）单峰，一0为中心，左右对称

2）曲线中间比正态分布低，两端翘得比正态分布高

3）有无数根，中间越低，两端越翘

t分布与自由度有关，自由度越小，中间越低，两端越翘

当自由度趋向无穷时，t分布趋向标准正态分布，t✍u

3.概率密度函数与分布函数

4.t介值与t介值表

tα,ν：

给定自由度为ν，两侧双尾面积之和为α时，相应t值。

5.t分布原理：

P（-tα,ν<=t<=tα,ν）=1-α

方差分析

方差分析又叫变量分析，俗称F检验

用途：

1.两个或多个均数的比较

2.分离各有关因素，并分别估计其对变异的作用

3.分析两个或多个因素的交互作用

4.方差齐性检验

适用条件（用于多个均数比较时）

1.个样本是相互独立的随机样本

2.小样本要求正态方差齐

基本思想：

把全部观察值之间的变异，总变异，按设计需要，分为两个或多个组成部分再作分析

计算

总体均数的估计

1.总估计

2.区间估计：

1）定义：

按一定的概率估计总体均数在什么范围内

可信区间：

按一定的概率估计总体均数的可能范围

2）方式：

1.t分布法：

按t分布的原理估计总体均数在什么范围内适用于总体标准差未知且n<50的情形

总体均数在可信区间的概率1-α

可信度：

1-α

置信水平：

通常，我们取95%或99%作可信区间

2.正态分布法

适用于总体标准差已知或n>50

总体标准差已知：

n>50：

假设检验

为什么做假设检验

检验差别是否由抽样误差造成的

基本思想

假定差别是由抽样误差引起的

然后计算由抽样误差引起这么大，甚至比这更大的差别的概率P

根据小概率原理，作出拒绝或者接受假设的判断

步骤

1.建立假设，确定检验水准

先确定是单侧还是双侧的

若考虑u，u0有误差别✍双侧

若不仅考虑差别，还关注u，u0大小✍单侧

一般认为双侧

无效假设H0：

从反证法的基础上提出的，无论何时，假设差别是由抽样误差造成的，但具体问题具体分析

备择假设H1：

与H0相对立的假设，是依H0而产生的，一旦H0不成立，只能接受H1，现在H0不成立✍非H0

✍体现单双侧之分

检验水准α：

界定小概率事件的一个标准（有单双侧之分）

通常α=0.05

2.选定检验方法，计算统计量

3.确定P值，做出统计推断

P值：

指由H0所规定的总体中做随机抽样，获得等于大于或小于现有统计量的概率。

若P<=α，拒绝H0；若P>α，接受H0

第一类错误和第二类错误

♏第一类：

拒绝实际上成立的H0

♏第二类：

不拒绝实际上不成立的H0

客观实际

拒绝H0

不拒绝H0

H0成立

第一类错误（α）

推断正确（1-α）

H0不成立

推断正确（1-β）

第二类错误（β）

e可信度1-α

e把握度β：

未知，只能估计，不能单独存在，只有与H1结合才有意义

e检验效能1-β：

计量总体却有差别，按α水准，能够发现他们有差别的能力

注意

1.样本的代表性✍组间的均衡性✍资料的可比性

2.选用的假设检验方法一定要符合其适用条件

3.正确理解差别有无显着性的含义（显着、极显着不意味着差别的大小）

4.结论不能绝对化

5.报告要规范化

检验方法

一、完全随机设计

（一）样本均数与已知总体均数比较的假设检验

1.小样本，总体标准差σ未知✍t检验（要求取自正态总体）

2.大样本，总体标准差σ未知：

1）t检验（严格）✍法2无需来自正态总体

2）u检验（ν✍∞，t✍u）✍法1

3.大样本，总体标准差σ已知✍u检验

（二）两个样本均数比较的假设检验

1.小样本（有一个就算），总体标准差σ未知，正态方差齐✍t检验

A.先求合并方差

B.再求两样本均数差的标准误

C.计算t值

2.小样本（有一个就算），总体标准差σ未知，方差不齐（非正态）

1）采用适当的变量变换使达到方差齐性的要求

2）采用不要求方差齐的方法比较✍非参数统计

3）采用近似的t‘检验

3.大样本✍u检验（不考虑正态方差齐的情况下，仍可用t检验）

（三）两个样本几何均数比较的假设检验

对x取反对数，用t检验或者u检验

（四）多个样本均数的比较（单因素方差分析）

条件：

1.个样本是相互独立的随机样本

2.小样本要求正态方差齐

*多个样本均数间的两两比较✍q检验

二、配对设计

（一）配对设计的计量资料的比较

小样本，t检验✍

三、配伍组设计

（一）多个样本均数的比较（两因素方差分析）

多个性质相同的配伍，同一配伍组中的N个受试对象分别接受k种处理

作用：

1.可改善处理组间的均衡性

2.可分析配伍因素的的影响

3.提高设计效率，分析两个因素

*多个样本均数间的两两比较✍q检验

正态性检验

一、为什么做正态性检验

特定统计方法要求的

描述统计平均数、标准差

正常值范围的正态统计法

统计推断t检验

F检验

二、定义

判定资料是否服从正态分布或样本是否来自正态总体的一类检验方法

三、何时用？

1.为了说明资料是否服从正态分布✍一定要做

2.为了

展开阅读全文