生物统计复习资料.docx
《生物统计复习资料.docx》由会员分享,可在线阅读,更多相关《生物统计复习资料.docx(8页珍藏版)》请在冰豆网上搜索。
生物统计复习资料
生物统计复习资料
1.总体:
具有相同性质或属性的个体所组成的集合称为总体,它是指研究对象的全体。
总体又分为有限总体和无限总体:
含有有限个个体的总体称为有限总体;包含有极多或无限多个体的总体称为无限总体.(生物学一般研究无线总体,有限总体较少)
2.样本:
从总体中抽出若干个体所构成的集合称为样本。
3.计数资料:
指用计数方式获得的数量性状资料。
在这类资料中,它的各个观察值只能以整数表示,在两个相邻整数间不得有任何带小数的数值出现,因此各观察值是不连续的,所以该类资料也称为非连续变量资料或间断变量资料或离散变量资料。
例如:
统计不同城市80岁以上高龄人数。
4.计量资料:
指用测量或度量法获得的数量性状资料,即用度、量、衡等计量工具直接测定获得的数据资料。
其数据是用长度、重量、容积、温度、浓度等来表示,要带单位。
这种资料的各个观测值不一定是整数,两个相邻的整数间可以有带小数的任何数值出现,其小数位数的多少由度量工具的精确度而定,它们之间的变异是连续性的,因此计量资料也称为连续变量资料。
例如:
测量不同地区10岁儿童身高。
5.编制频数表列组段时注意事项:
1,求全距:
R=Max(x)-Min(x)2、确定组数:
组数的多少视样本含量及资料的变动范围大小而定,一般以达到既简化资料又不影响反映资料的规律性为原则。
组数要适当。
分组越多所求得的统计量越精确,但增大了运算量;若分组过少,资料的规律性就反映不出来,计算出的统计量的精确性也较差。
3、确定组距:
分组时要求各组的组距相等。
组距(i)=全距/组数4、确定组限及组中值每一组的中点值称为组中值,它是该组的代表值。
当第一组的组中值确定以后,加上组距就是第二组的组中值,其余类推。
组距确定后,首先要选定第一组的组中值。
在分组时为了避免第一组中观察值过多,一般第一组的组中值以接近或等于资料中的最小值为好。
最末一组的上限应大于资料中的最大值。
为了使恰好等于前一组上限和后一组下限的数据能确切归组,约定将其归入后一组。
通常将上限略去不写。
如:
第一组记为36.0,第二组记为39.0,5、归组划线计数,作次数分布表分组结束后,将资料中的每一观测值逐一归组,划线计数,然后制成次数分布表。
在归组划线时应注意,不要重复或遗漏,归组划线后将各组的次数相加,结果应与样本含量相等。
在分组后所得实际组数,有时和最初确定的组数不同,如第一组下限和资料中的最小值相差较大或实际组距比计算的组距为小,则实际分组的组数将比原定组数多;反之则少。
6.累积频数(cumulativefrequencies):
各类别频数的逐级累加
7.累积频数图概念:
8.累积频数图特征:
1.数据分布的范围?
2.数据最集中的区间?
3.分布形态?
9.系统误差:
有一定原因引起的误差,也称偏差。
也叫片面误差。
这是由于试验条件控制不一致、测量仪器不准、试剂配制不当、试验人员粗心大意使称量、观测、记载、抄录、计算中出现错误等人为因素而引起的。
系统误差影响试验的准确性。
只要以认真负责的态度和细心的工作作风是完全可以避免的。
例如:
仪器故障、标准尺有误……
10.测量误差:
在测量时,测量结果与实际值之间的差值叫误差。
11.抽样误差:
抽样方法本身所引起的误差。
这是由于试验中无法控制的内在和外在的偶然因素所造成。
如试验动物的初始条件、饲养条件、管理措施等尽管在试验中力求一致,但也不可能达到绝对一致,所以随机误差带有偶然性质,在试验中,即使十分小心也是不可避免的。
如果通过良好的试验设计、正确的试验操作,增加抽样或试验次数,随机误差可能减小,但不可能完全消灭。
统计上的试验误差一般都指随机误差。
随机误差越小,试验精确性越高。
12.精确性:
(precision),也叫精确度,指调查或试验中同一试验指标或性状的重复观测值彼此接近的程度。
13.准确性:
也叫准确度,指在调查或试验中某一试验指标或性状的观测值与其真值接近的程度。
(系统误差使数据偏离了其理论值,影响数据的准确性。
偶然误差使数据相互分散,影响了数据的精确性。
)
14.变异系数:
coefficientofvariability,CV样本的标准差除以样本平均数,所得到的比值就是变异系数。
特点:
是样本变量的相对变异量,不带单位。
CV=s/x×100%
15.变异系数应用情况:
可以比较不同样本相对变异程度的大小。
1.度量衡单位不同的多组资料的变异度。
2.比较均数相差悬殊的多组资料的变异度
16小概率事件:
P≤0.05(5%)或P≤0.01(1%)称为小概率事件(习惯),统计学上认为不大可能发生。
17.二项分布有哪些参数:
n:
试验次数(或样本含量)X:
在n次试验中事件A出现的次数P:
事件A发生的概率(每次试验是恒定的)p:
事件A不发生的概率p(x):
X的概率函数P(X=x)
18.泊松分布:
是一种可以用来描述和分析随机地发生在单位空间或时间里的稀有事件的概率分布,也是一种离散型随机变量的分布泊松分布变量X只取零和正整数:
0,1,2…,其概率函数为
19.泊松分布的平均数
20.泊松分布的方差和标准差
21.正态分布:
定义若连续型随机变量x的概率分布密度函数为
x服从正态分布,记为x~N(μ,σ2)。
例如:
X~N(120,8.22)相应的概率分布函数为
f(x)为正态分布的概率密度函数,表示某一定x值出现的概率密度函数值。
μ总体平均数σ总体标准差π圆周率,e为自然对数底,2.71828
22.正态分布曲线特征:
1.集中性中等大小的数据居多,较大的和较小的数据少些,即观测值集中在中等大小的数据附近。
2.对称性以均数为中心,大于它和小于它的观测值是对称的。
3.均匀变动性观测值由少增多或由多减少的过程是逐渐变化的,即均匀分布的。
在分析数据时,均匀性是一个很重要的特点。
23.正态分布正,负偏态:
若分布不对称就是偏态,长尾拖向右侧(变量值较大的一侧)叫做正偏态,或右偏态;长尾拖向左侧(变量值较小的一侧)叫做负偏态,或左偏态。
24.在μ±σ、μ±1.96σ、μ±2.58σ的区间内的总面积%,当n相当大时逼近正态分布,σ和u大小对正态曲线的影响;
25.标准正态分布:
定义:
将这种具有平均数为μ=0,标准差σ=1的正态分布称为标准正态分布。
标准正态分布变量记为U,写作U~N(0,1)。
26.标准正态分布特性:
1、在u=0时φ(u)达到最大值。
2、当u不论向哪个方向远离0时,φ(u)的值都减小。
3、曲线两侧对称。
4、曲线在u=-1和u=1处有两个拐点。
5、曲线与横轴所夹面积等于1。
6、累积分布曲线围绕点(0,0.5)对称。
27.F分布与正态分布区别:
28.F分布特征:
1.F分布的平均数μF=1,F的取值区间为[0,+∝)2.F分布密度曲线的形状仅决定于df1和df2。
3.曲线不对称,在df1=1或2时,F分布曲线呈严重倾斜的反向J型,当df1≧3时,转为左偏曲线。
当df1和df2增大时,曲线趋于对称。
29.正态分布特征:
1.正态分布密度曲线是单峰、对称的悬钟形曲线,x=μ时,f(x)值最大,正态分布曲线以平均数μ为中心的分布。
2.x-μ的绝对值相等时,f(x)也相等,正态分布密度曲线以x=μ为中心向左右两侧对称。
3.f(x)是非负函数,以x轴为渐近线,x的取值区间为(-∞,+∞)。
4.正态分布由参数μ和σ确定。
μ是位置参数,当σ不变时,μ越大,则曲线沿横轴越向右移动;反之,μ越小,曲线沿横轴越向左移动。
σ是变异度参数,当μ不变时,σ越大,表示数据越分散,曲线越平坦;σ越小,表示数据越集中,曲线越陡峭。
或者说σ愈大则曲线愈“胖”;反之则愈瘦。
5.正态分布曲线在x=μ±σ处各有一个拐点,曲线通过拐点时改变弯曲度。
即曲线在(-∞,μ-σ)和(μ+σ,+∞)区间上是下凸的,在[μ-σ,μ+σ]区间内是上凸的6.分布曲线与x轴围成的全部面积为1。
30.两个样本平均数差的标准误差与样本标准差之间关系:
31.假设检验:
又称显著性检验,就是根据总体的理论分布和小概率原理,对未知或不完全知道的总体提出两种彼此对立的假设,然后由样本的实际原理,经过一定的计算,作出在一定概率意义上应该接受的那种假设的推断。
32.区间估计:
就是在一定的概率下指出总体参数的可能范围。
这个可能的范围称为置信区间;相应的概率保证称为置信水平或置信度1-。
33.假设检验中,接受和拒绝域,什么情况下差别有统计学意义:
34.双侧检验和单侧检验效果哪个好些:
同一资料双侧检验与单侧检验所得的结论不一定相同。
双侧检验显著,单侧检验一定显著;但单侧检验显著,双侧检验未必显著。
单侧检验的Uα=双侧检验的U2α,即在双侧检验2a水平上显示的差异显著,而单侧检验可在a水平上表现显著。
所以要尽量利用已知条件,做单侧检验。
35.关于χ值与P值的关系:
χ2值与概率P成反比,χ2值越小,P值越大,说明实际值与理论值之差越小,样本分布与假设的理论分布越相一致;χ2越大,P值越小,说明两者之差越大,样本分布与假设理论分布越不一致。
36.在什么条件下需要进行连续性矫正:
在自由度=1时,需进行连续性矫正,其矫正的X^2*c为:
37.方差分析又称变异数分析或F检验,应该满足的三个条件及其影响:
条件:
(1)随机性各处理条件下的样本是随机的。
(2)独立性各处理条件下的样本是相互独立的,否则可能出现无法解析的输出结果。
(3)正态性各处理条件下的样本分别来自正态分布总体,否则使用非参数分析。
(4)齐效性各处理条件下的样本方差相同,即具有齐效性。
38.组内变异:
记为SSR,反映了由于回归关系引起的变异。
39.组间变异:
称为误差平方和,或者剩余平方和;记为SSe,反映了随机误差引起的变异。
40.处理效应和随机效应如何分解?
41.相关系数检验的无效假设:
42.相关系数检验的备择假设:
简单计算和问答
1.第一,三分位数,中位数计算:
2.变异系数计算:
样本的标准差除以样本平均数,所得到的比值就是变异系数。
CV=s/x×100%
例:
某地20岁男子100人,其身高均数为166.06cm,标准差为4.95cm;其体重均数为53.72kg,标准差为4.96kg。
比较身高与体重的变异情况。
解:
身高:
CV=2.98%体重:
CV=9.23%
该地20岁男子体重的变异大于身高的变异。
3.方差。
标准差计算:
4.概率计算:
5.假设检验(重点):
6.假设检验会犯哪些错误,有何联系和区别,如何减小错误,与α水平的关系?
假设检验选用的显著性水平应根据实验的要求而定。
如果试验中难以控制的因素较多,试验精度不是很高,试验误差可能较大,则显著水平可选低些,即α值取大些。
反之,如果实验的精度本来就很高,真实差异不容易被误差所掩盖,处理的作用容易被检验出来,这时显著性水平α可适当取小些。
如试验耗费较大,对精确度的要求较高,不容许反复,或者试验结论的应用事关重大,则所选显著水平应高些,即α值应该小些。
对于容易产生严重后果的实验,如一些药物的毒性实验,α要定得严些。
显著水平α对假设检验的结论是有直接影响的,α的值必须在实验开始前就已经确定下来。
假设检验时选用的显著水平,除α=0.05和0.01为常用外,也可选α=0.10或α=0.001等等。
数值越小,显著水平越高,要求越严格。
其含义是:
H0发生的概率在什么样的水平上应当被拒绝或接受。
计算分析题
1.统计推断:
对于平均数:
σ已知的时,用U检验σ未知的时,用t检验对于标准差:
用x2检验对于s2的比,用F检验
(重点考查统计推断,注意在什么条件下利用何种分布,其统计量计算公式是什么?
)
2.课本5.09题---样本与已知平均数的差异性比较
解:
3.5.11题---两个样本差异性比较(注意n1≠n2时t值公式)
解:
4.置信区间的计算(注意标准差的计算)