生物统计学复习资料17页精选文档.docx
《生物统计学复习资料17页精选文档.docx》由会员分享,可在线阅读,更多相关《生物统计学复习资料17页精选文档.docx(17页珍藏版)》请在冰豆网上搜索。
生物统计学复习资料17页精选文档
第一章
1.“师”之概念,大体是从先秦时期的“师长、师傅、先生”而来。
其中“师傅”更早则意指春秋时国君的老师。
《说文解字》中有注曰:
“师教人以道者之称也”。
“师”之含义,现在泛指从事教育工作或是传授知识技术也或是某方面有特长值得学习者。
“老师”的原意并非由“老”而形容“师”。
“老”在旧语义中也是一种尊称,隐喻年长且学识渊博者。
“老”“师”连用最初见于《史记》,有“荀卿最为老师”之说法。
慢慢“老师”之说也不再有年龄的限制,老少皆可适用。
只是司马迁笔下的“老师”当然不是今日意义上的“教师”,其只是“老”和“师”的复合构词,所表达的含义多指对知识渊博者的一种尊称,虽能从其身上学以“道”,但其不一定是知识的传播者。
今天看来,“教师”的必要条件不光是拥有知识,更重于传播知识。
生物统计学(Biostatistics)是数理统计在生物学研究中的应用,它是应用数理统计的原理和方法来分析和解释生物界各种现象和试验调查资料的一门学科。
属于应用统计学的一个分支。
是一门应用数学。
2.一般说来,“教师”概念之形成经历了十分漫长的历史。
杨士勋(唐初学者,四门博士)《春秋谷梁传疏》曰:
“师者教人以不及,故谓师为师资也”。
这儿的“师资”,其实就是先秦而后历代对教师的别称之一。
《韩非子》也有云:
“今有不才之子……师长教之弗为变”其“师长”当然也指教师。
这儿的“师资”和“师长”可称为“教师”概念的雏形,但仍说不上是名副其实的“教师”,因为“教师”必须要有明确的传授知识的对象和本身明确的职责。
统计学(Statistics)是把数学的语言引入具体的科学领域,将所研究的问题抽象为数学问题的过程,是收集、分析、列示和解释数据的一门科学。
3.课本、报刊杂志中的成语、名言警句等俯首皆是,但学生写作文运用到文章中的甚少,即使运用也很难做到恰如其分。
为什么?
还是没有彻底“记死”的缘故。
要解决这个问题,方法很简单,每天花3-5分钟左右的时间记一条成语、一则名言警句即可。
可以写在后黑板的“积累专栏”上每日一换,可以在每天课前的3分钟让学生轮流讲解,也可让学生个人搜集,每天往笔记本上抄写,教师定期检查等等。
这样,一年就可记300多条成语、300多则名言警句,日积月累,终究会成为一笔不小的财富。
这些成语典故“贮藏”在学生脑中,自然会出口成章,写作时便会随心所欲地“提取”出来,使文章增色添辉。
生物统计学是研究生命过程中以样本推断总体的一门学科。
4.生物统计学的基本类容:
①试验设计:
如何合理地进行调查或试验设计
②统计分析:
如何科学地整理、分析所收集来的具有变异的资料,揭示出隐藏其内部的规律性。
5.生物统计学的基本作用:
①提供整理和描述数据资料的科学方法,确定某些性状和特性的数量特征。
②运用显著检验,判断试验结果的可靠性或可行性。
③提供由样本推断总体的方法。
④提供试验设计的的一些重要原则。
6.常用的统计学术语:
一.总体与样本
具有相同性质的个体所组成的集合称为总体;总体有分为有限总体和无限总体。
组成总体的基本单元称为个体
从总体中抽出若干个体所构成的集合称为样本(sample);(总体中的一部分)
构成样本的每个个体称为样本单位;样本中所包含的个体数目叫样本容量或样本大小,样本容量常记为n。
一般在物学研究中,通常n<30的样本叫小样本,n≥30的样本叫大样本。
2、参数与统计数
描述总体特征的数量称为参数,也称参量。
常用希腊字母表示参数,例如用μ表示总体平均数,用σ表示总体标准差;
描述样本特征的数量称为统计数,也称统计量。
常用英文字母表示统计数,例如用X-表示样本平均数,用S表示样本标准差。
3、变量与常数
变量,或变数,指相同性质的事物间表现差异性或差异特征的数据。
常数,表示能代表事物特征和性质的数值,通常由变量计算而来,在一定过程中是不变的。
变量包括定量变量和定性变量,定性变量又可分为连续变量(可以有任何小数出现)和非连续变量(只有整数出现)。
4、效应与互作
通过施加试验处理,引起试验差异的作用称为效应。
效应有正效应与负效应之分。
互作,又叫连应,是指两个或两个以上处理因素间相互作用产生的效应。
互作也有正效应(协同作用)与负效应(拮抗作用)之分。
5、误差与错误
效应
随机误差,抽样误差,偶然误差
变异
误差系统误差,片面误差
随机误差,也叫抽样误差,是由于试验中无法控制的内在和外在的偶然因素所造成的试验结果与真实结果之间的差异。
是不可避免的。
统计上的试验误差一般都指随机误差。
随机误差越小,试验精确性越高。
系统误差,也叫片面误差,是由于试验处理以外的其他条件控制不一致所产生的带有倾向性的或定向性的偏差。
系统误差主要由一些相对固定的因素引起的,如仪器调校的差异、各批药品间的差异、不同操作者操作习惯的差异等。
系统误差影响试验的准确性。
只要试验工作做得精细,系统误差是可以克服的。
错误(mistake),是指在试验过程中,由于人为作用引起的差错。
如测量仪器不准、试剂配制不当、试验人员粗心大意使称量、观测、记载、抄录、计算中出现错误等人为因素而引起的,只要以认真负责的态度和细心的工作作风,在试验中是完全可以避免的。
原则上,试验中是不允许出现错误的。
6、准确性与精确性
准确性(accuracy),也叫准确度,指在调查或试验中某一试验指标或性状的观测值与其真值接近的程度。
设某一试验指标或性状的真值为μ,观测值为x,若x与μ相差的绝对值|x-μ|越小,则观测值x的准确性越高;反之则低。
精确性(precision),也叫精确度,指调查或试验中同一试验指标或性状的重复观测值彼此接近的程度。
若观测值彼此接近,即任意二个观测值xi、xj相差的绝对值|xi-xj|越小,则观测值精确性越高;反之则低。
准确性不等于精确性。
准确性是说明测定值对真值符合的程度大小,而精确性是说明多次测定值的变异程度大小。
调查或试验的准确性、精确性合称为正确性。
7.因素与水平
8.处理与重复
章节小测验
1.变量按其性质可以分为___定量__变量和__定性____变量。
2.样本统计数是总体______的估计值。
3.生物统计学是研究生命过程中以__样本___来推断_总体____的一门学科。
4.生物统计学的内容包括______、______。
5.生物学研究中,一般将样本容量______称为大样本。
6.试验误差可以分为____、____两类。
1.对于有限总体不必用统计推断方法。
()
2.资料的精确性高,其准确性也一定高。
()
3.在试验设计中,随机误差只能减小,而不可能完全消除。
()
4.统计学的试验误差,通常指随机误差。
()
第二章
1.在生物学试验及调查中,通过对某种具体事物或现象观察获得的结果称为资料。
2.变量:
相同性质的事物间表现差异性的某项特征或性状。
3.定量变量:
通过测量所获得的,用具体的数值与特定计量单位表达的数据。
连续变量:
表示在变量范围内可抽出某一范围的所有值,变量之间是连续,无限的,可以有任何小数出现。
非连续变量:
表示在变量数列中仅能取得固定数值,并且通常是整数。
4.定性变量:
也称为分类变量,名义变量,其变量值是定性的,表示某个体属于几种互不相容的类型中的一种。
5.数量性状是指能够以计数和测量或度量的方式表示其特征的性状。
观察测定数量性状而获得的数据就是数量性状资料。
数量性状资料的获得有计数和测量两种方式,因而数量性状资料又分为计数资料和计量资料两种。
6.计数资料指用计数方式获得的数量性状资料。
该类资料也称为非连续变量资料或间断变量资料或离散变量资料。
7.计量资料指用测量或度量法获得的数量性状资料,即用度、量、衡等计量工具直接测定获得的数据资料。
其数据是用长度、重量、容积、温度、浓度等来表示,要带单位。
两个相邻的整数间可以有带小数的任何数值出现,其小数位数的多少由度量工具的精确度而定,计量资料也称为连续变量资料。
8.质量性状资料:
质量性状是指能观察到而不能直接测量的性状。
观察质量性状而获得的数据就是质量性状资料,也称为属性性状资料。
这类性状本身不能直接用数值表示,要获得这类性状的数据资料,须对其观察结果作数量化处理,其方法有以下两种:
统计次数法;评分法
9.资料收集的方法:
调查;试验。
调查是对已经存在的事情的资料按某种方案进行收集的方法。
资料的调查又可以分为两种:
普查和抽样调查。
普查是对研究对象的全部个体逐一进行调查的方法。
抽样调查是根据一定的原则从研究对象中抽取一部分具有代表性的个体进行调查的方法。
试验是对已有的或没有的事物加以处理的方法。
10.试验设计须遵循的三大原则是:
随机、重复和局部控制。
11.常见的试验设计方法有:
对比设计、随机区组设计、平衡不完全区组设计、裂区设计、拉丁方设计、正交设计、正交旋转设计等。
12.检查和核对原始资料的目的:
确保原始资料的完整性和正确性。
13.计量资料的整理一般采用组距式分组发
全距→组数→组距→组限→归组→制表
全距:
样本数据资料中最大观测值与最小观测值之间的差值。
R=Xmax-Xmin
组数:
是根据观测值的多少及组距的大小来确定的。
组距:
组距=全距/组数
组限:
是指每个组变量值的起止界限。
包括上限和下限。
组中值:
是指每个组变量值的起止界限。
第一组的组中值最好接近于资料的最小值。
临界值就高不就低。
分组是计数的方法:
卡片法和唱票法(画正字法和画川字法。
)。
14.变量的分布具有两种明显的基本特征:
集中性和离散性。
集中性:
是变量在趋势上有着向某一中心聚集,或者说以某一数值为中心而分布的性质。
离散性:
是变量有着离中分散变异的性质。
表示集中性的特征数:
平均数(算术平均数,中位数,众数,集合平均数,调和平均数)
表示离散性的特征数:
极差,方差,标准差,变异系数
①算术平均数总体或样本资料中所有观测数的总和除以观测数的个数所得的商,简称平均数、均数或均值。
总体:
样本:
②中位数Md
资料中所有观测数依大小顺序排列,居于中间位置的观测数称为中位数或中数。
1、当观测值个数n为奇数时,(n+1)/2位置的观测值,即Md=x(n+1)/2为中位数
2、当观测值个数为偶数时,n/2和(n/2+1)位置的两个观测值之和的1/2为中位数
③众数M0
资料中出现次数最多的那个观测值或次数最多一组的组中值或中点值。
注意:
(1)对于某些数据而言,如均匀分布,并不存在众数;
(2)对于某些数据存在两个或两个以上的众数;
(3)主要用来描述频率分布。
④极差:
是数据分布的两端变异的最大范围,即样本变量值最大值和最小值之差,用R表示。
一定程度上说明样本波动幅度,但只受两个极端值大小的影响,不能反映样本中各个观测值的变异程度.
⑤离均差:
各个观测值与平均数的离差。
离均差可以反映出一个观测值偏离平均数的性质和程度。
平方和(SS)
估计量必须符合一个特性:
无偏性
15.算术平均数的重要性质
离均差之和等于零。
离均差平方和最小。
16.自由度:
指当以样本的统计量来估计总体的参数时,样本中可以自由变动的变量的个数。
自由度=样本个数-样本数据受约束条件的个数df=n-k
17.方差:
刻画了随机变量的取值对于其数学期望的离散程度方差越大,离散程度越大
样本:
总体:
18:
标准差
样本:
总体:
标准差特性
标准差的大小,受多个观测数影响,如果观测数与观测数间差异较大,则离均差也大,因而标准差也大,反之则小
各观测数加上或减去一个常数,其标准差不变;
各观测数乘以或除以一个常数a(不为0),其标准差扩大或缩小a倍。
标准差作用
表示变量分布的离散程度。
可以概括估计出变量的次数分布及各类观测数在总体中所占的比例。
估计平均数的标准误。
进行平均数的区间估计和变异系数计算。
19.变异系数
定义:
样本的标准差除以样本平均数,所得到的比值就是变异系数。
CV=s/x×100%
特点:
是样本变量的相对变异量,不带单位。
可以比较不同样本相对变异程度的大小。
自我测验
资料按生物的性状特征可分为______和______。
直方图适用于表示______资料的次数分布。
变量的分布具有两个明显基本特征,即______和_______。
反映变量集中性的特征数是_______,反映变量离散性的特征数是______.
样本标准差的计算公式s=_________
计数资料也称连续性变量资料,计量资料也称非连续性变量资料。
资料中出现最多的那个观测值或最多一组的中点值,称为众数。
变异系数是样本变量的绝对变异量
下面变量中属于非连续性变量的是_____
A.身高B.体重C.血型D.血压
对某鱼塘不同年龄鱼的尾数进行统计分析时,可作成_____图来表示。
A.条形B.直方C.多边形D.折线
第三章
1.事件
必然事件(U):
一定条件下必然出现。
不可能事件(V):
一定条件下必然不出现。
随机事件(A):
一定条件下可能出现。
2.频率
设事件A在n次重复试验中发生了m次,其比值m/n称为事件A发生的频率,记为:
W(A)=m/n。
3.概率
事件A在n次重复试验中,发生了m次,当试验次数n不断增大时,事件A发生的频率W(A)就越来越接近某一确定值p,于是定义p为事件A发生的概率(probability),记为
P(A)=p=
4.大数定律:
概率论中用来阐述大量随机现象平均结果稳定性的一系列定律的总称。
样本容量越大,样本统计数与总体参数之差越小。
5.简单的概率计算。
第四章
1.统计推断:
把试验的表面效应与误差大小相比较并由表面效应可能属误差的概率而作出推论的方法。
由一个样本或一系列样本所得的结果来推断总体的特征。
2.统计推断的任务:
分析误差产生的原因
确定差异的性质
排除误差干扰
对总体特征做出正确判断
3假设检验
又叫显著性检验,是根据总体的理论分布和小概率原理,对未知或不完全知道的总体提出两种彼此对立的假设,然后由样本的实际结果,经过一定的计算,作出在一定概率意义上应该接受的那种假设的推断。
4.小概率原理
概率很小的事件在一次抽样试验中实际是几乎不可能发生的。
5.假设检验的步骤:
分析问题→提出假设→确定显著水平→计算检验统计量→做出推断
6.双尾检验与单尾检验
7.成组数据:
将试验单位完全随机分为两组,再随机各实施一处理,这样得到的数据称为成组数据,以组的平均数作为比较的标准。
成组数据平均数比较的假设检验和配对数据平均数比较的假设检验都是检验两个样本平均数和。
所属总体平均数和是否相等的检验方法。
成组数据两个样本抽自不同总体,两个样本之间的变量没有任何关联。
这样,不论两样本的容量是否相同,所得数据皆为成组数据。
8.将性质相同的两个样本(供试单位)配成对,每一对除随机地给予不同处理外,其他试验条件应尽量一致,以检验处理的效果,所得的观测值称为成对数据。
9.点估计:
以样本统计量直接估计总体的相应参数。
估计总体参数的统计量称为估计量
一般来说,一个好的估计量应满足以下三个条件:
无偏性、有效性和相容性。
10.区间估计
按一定的概率估计总体参数在哪个范围。
11.具体区间估计与点估计看书和ppt。
第五章
1.
所谓
2卡方,是指相互独立的多个正态离差平方值的总和,
O为观察次数,E为理论次数,i=1,…,k为计数资料的分组数,自由度为df=k-1,依分组数及其相互独立的程度决定。
2.独立性测验是测验两个变数之间是相互独立还是彼此相关的统计方法,是次数资料的一种相关研究。
3.独立性检验:
测验实际结果与理论比例是否符合;测验产品质量是否合格;测验实验结果是否符合某一理论分布。
应用卡方进行独立性测验的无效假设是:
H0:
两个变数相互独立,对HA:
两个变数彼此相关。
计算过程:
(1)将所得次数资料按两个变数作两向分组,排列成相依表;
(2)根据两个变数相互独立的假设,算出每一组格的理论次数;
(3)由
(基本公式)或者变形公式算得卡方值。
(4)这个x2的自由度随两个变数各自的分组数而不同,设横行分r组,纵行分c组,则df=(r-1)(c-1)。
当观察的时,便接受H0,即两个变数相互独立;当观察的
时,便否定H0,接受HA,即两个变数相关。
根据以上判断写统计结论。
(第五章ppt28)
2×2列联表的x2(卡方)独立性测验
2×2表的一般形式:
结果1 结果2
合计
处理1
处理2
O11 O12
O21 O22
R1
R2
合计
C1 C2
T
df=(2-1)(2-1)=1
(1)基本公式,需连续矫正
(ppt30页补充)
(2)变形公式
二、2×C表的独立性测验
2×C表是指横行分为两组,纵行分为C≥3组的相依表资料。
在作独立性测验时,其=(2-1)(c-1)=c-1。
由于c≥3,故不需作连续性矫正。
第六章
1.试验因素:
试验中所研究的影响试验指标的原因或原因组合
2.因素水平:
每个试验因素的不同状态(处理的某种特定状态或数量上的差别)简称为水平。
3.试验处理对受试对象给予的某种外部干预或措施,是试验实施因子水平的一个组合
单因素处理
处理多因素处理
4.试验单位:
在试验中能接受不同试验处理的独立的试验载体。
实际上就是根据研究目的而确定的观测总体。
5.重复:
在试验中,将一个处理实施在两个或两个以上的试验单位上。
处理实施的试验单位数即为处理的重复数。
第七章
1.抽样需遵循的总的原则是:
样本必须来自于所研究的总体
样本必须能代表所研究的总体
抽样方法必须与抽样目的相一致
2.试验、调查的目的不同,试验、调查的方法不同、抽样的方法也不同
随机抽样
简单随机抽样
整群抽样
分层抽样
双重抽样
顺序抽样
典型抽样
3.
(一)随机抽样法
总体比较整齐、变异程度小、群体分布均匀,可用随机抽样法
随机抽样法的原则是:
总体内每一个体(数据)都有同等的机会进入样本
样本中每一个体(数据)进入任何一个组的机会也是相等的
随机抽样法可以完全排除个人的主观性
随机抽样法是最简单、最常用的抽样方法
4.随机抽样法有以下几种方法:
抓阄法
随机数字法
伪随机数字法
通过随机抽样法得到样本后,一般需计算样本的特征数,用以估计总体参数。
几乎所有调查和试验都可以采用随机抽样法进行抽样。
5.整群抽样和多层次抽样法
从总体中抽取数个样本单位群,对单位群内的全部个体作全面调查,或用整个单位群进行试验
样本单位群的抽取既可以用随机抽样法得到,也可以有选择地取得
5.在整群抽样的基础上,对抽得的样本单位群不作全面调查,或不是整个样本单位群进入试验,而是在样本单位中继续抽取一定量的个体(数据)组成样本,这就是二级抽样
如果二级抽样得到的不是个体(或数据),而是更小的单位群,再从中进行抽样,这就是三级抽样
以此类推
二级及二级以上的抽样就称为多层次抽样
多层次抽样方法适合于资源调查、传染病(寄生虫病)调查、流行病学调查、经济学调查、遗传学试验、育种学试验,等
6.双重抽样法
当所研究的性状比较复杂,或所需经费较多,或须将试验动物宰杀后才能测定,因而不大可能进行重复性试验,或采用直接抽样试验,或试验有较大的难度,可采用双重抽样法
7.采用双重抽样法,首先需将所需要进行研究的性状定为目标性状(或称为靶性状),用y表示,然后根据文献或其他方法确定一个或几个简单易测、不具破坏性、与靶性状相关性比较紧密的性状,这些性状称为辅助性状,用xi表示。
从总体中抽取两个样本,一个大样本,一个小样本
先对小样本进行调查,或先用小样本进行试验,对这一小样本既测y性状,同时也测xi性状,获得n对y和xi,并建立xi与y的回归方程,最简单的回归方程就是只有一个xi的简单回归方程,也可以是曲线回归方程,也可以建立多元回归方程
建立回归方程的原则是其r(或其绝对值)或R必须很大,以表明用x或xi估测y其效果比较好。
而较大的样本在调查或试验中仅测xi性状,并将这一样本中所有被测个体的xi代入上述回归方程中以求得相应的y估计值,这样获得的较大样本y的估计值,能达到一定的精度,这一抽样方法即为双重抽样法。
8.双重抽样法的适用范围:
遗传学试验、育种学试验、繁殖学试验、生理生化学试验、疾病防治试验,等
双重抽样法的优点是:
对于复杂性状的调查或试验仅需破坏较小的样本即能获得较大样本的精确性
当目标性状为破坏性性状时,这是唯一行之有效的方法