医学统计学复习资料最终版Word格式.docx
《医学统计学复习资料最终版Word格式.docx》由会员分享,可在线阅读,更多相关《医学统计学复习资料最终版Word格式.docx(19页珍藏版)》请在冰豆网上搜索。
③非系统误差:
又称过失误差,是指在实验过程中由于研究者偶然失误而造成的误差,可以消除。
7.概率(P):
描述随机事件发生可能性大小的值,其取值为0≤P≤1。
其中,P=1为必然事件,P=0为不可能事件,0<
P<
1为随机事件。
习惯上将P≤0.05的随机事件称为小概率事件,表示在一次实验或观察中该事件发生的可能性很小,可视为可能不发生。
概率与频率的关系:
设在相同条件下,独立重复n次试验,随机事件出现f次,则称f/n为随机事件出现的频率;
当n逐渐增大时,f/n始终在一个常数左右作微小摆动,则称该常数为随机事件的概率。
8.医学统计工作的基本步骤:
①设计(是影响研究能否成功的最关键环节,是提高观察或实验质量的重要保证);
②收集资料(统计报表+经常性工作记录+专题调查或实验研究+统计年鉴和统计数据专辑);
③整理资料(是将原始数据净化、系统化和条理化,以便为下一步计算和分析打好基础的过程);
④分析资料/统计分析(统计分析包括统计描述和统计推断,统计学的主要任务是进行统计推断,包括参数估计和假设检验)。
第2章计量资料的统计描述
1.频数:
计量资料经分组后清点出的各组例数。
频数分布:
指各组频数的分配情况。
频数分布表:
将分组和各组的频数以及频率编制成的表。
频数分布图:
即直方图,以直方的面积大小表示各组频数的多少,比频数表直观形象。
2.频数分布表:
①对于连续变量,频数分布为n个变量值在各变量值区间内的变量值个数的分配;
②对于离散变量,频数分布为n个变量值(或各几个)变量值处的变量值个数的分配。
编制步骤:
①找极值;
②求极差(全距),即最大值和最小值之差R;
③确定组段数和组距;
④根据组距写出组段;
⑤分组划记并统计频数;
⑥列表并求出频率、累计频数、累计频率。
3.频数分布的用途:
①描述频数分布的类型:
频数分布分为对称分布和偏态分布。
各组段的频数以频数最多组段为中心左右两侧大体对称,就认为该资料是对称分布。
右侧的组段数多于左侧的组段数,频数向右侧拖尾,称右偏态分布,也称正偏态分布。
左侧的组段数多于右侧的组段数,频数向右侧拖尾,称左偏态分布,也称负偏态分布。
②描述频数分布的特征;
③便于发现一些特大或特小的离群值;
④便于进一步做统计分析和处理。
4.集中趋势:
统计学用平均数这一指标体系来描述一组变量值的集中位置或平均水平,常用的平均数有算术均数、几何均数和中位数。
算术均数:
简称均数,可用于反映一组呈对称分布的变量值在数量上的平均水平P17。
几何均数:
反映一组经对数转换后呈对称分布的变量值在数量上的平均水平,常适用于免疫学的指标P18,如抗体滴度资料。
中位数:
是将n个变量值从小到大排列,位置居于中间的那个数。
N为奇数时取位次居中的变量值,n为偶数时取位次居中的两个变量值的均数。
适用于各种分布类型的资料,尤其是偏态分布资料和一端或两端无确切数值的资料P19。
百分位数:
百分位是一种位置指标,用Px来表示,读作第X百分位数。
一个百分位数Px将全部变量值分为两部分,在不包含Px的全部变量值中有X%的变量值小于或等于它,(100-X%)变量值大于或等于它。
百分位数是一个界值,其重要用途是确定医学参考值范围。
中位数实际上是第50百分位数。
5.离散趋势:
描述数据变异大小的常用指标有极差、四分位数间距、方差、标准差、变异系数。
极差:
即一组变量值的最大值与最小值之差,可用于任何分布资料。
仅用极差来描述数据的变异程度也不全面,且受样本含量n的影响较大。
四分位数间距:
是把全部变量值分为四部分的分位数,即第1四分位数(QL=P25)、第2四分位数(M=P50)、第3四分位数(QU=P75)。
四分位数间距QR=QU﹣QL,一般和中位数一起描述偏态分布资料的分布特征。
方差:
也称均方差,反映一组数据的平均离散水平,总体方差用σ2表示,样本方差记为S2。
标准差:
是方差的正平方根,其单位与原变量值相同,总体标准差用σ表示,样本标准差记为S。
方差和标准差用于描述正态分布计量资料的离散程度。
均数和标准差结合用于全面描述正态分布计量资料的集中趋势与离散趋势。
变异系数:
记为CV,CV=S/V×
100%,是一个相对变异指标,无单位,多用于观察指标单位不同时,或均数相差较大时。
6.正态分布:
德国数学家德莫阿弗尔于1733年提出,德国数学及高斯使正态分布广为人知。
特征:
①在直角坐标的横轴上方呈钟型曲线,两端与X轴永不相交,且以X=μ为对称轴,左右完全对称。
②在X=μ处f(X)取最大值,其值为f(X)=;
X越远离μ,f(X)值越小。
③正态分布有两个参数,即位置参数μ和形态参数σ。
若固定σ,改变μ值,曲线沿着X轴平行移动,其形状不变。
若固定μ,σ越小,曲线越陡峭;
反之,σ越大,曲线越平坦。
④正态曲线下的面积分布有一定的规律:
正态分布曲线下面积为1,X±
1.96S的面积为95%,X±
2.58S的面积为99%。
标准正态分布:
通过u=(X﹣μ)/σ将X~N(μ,σ2)的正态分布转换为u~N(0,12)的标准正态分布,u称为标准正态变量,P27。
7.医学参考值:
是指包括绝大多数正常人的人体形态、功能和代谢产物等各种生理及生化指标常数,也称正常值。
由于存在个体差异,生物医学数据并非常数而是在一定范围内波动,故采用医学参考值范围作为判定正常和异常的参考标准。
通常使用的医学参考值范围有90%,95%,99%,最常用的是95%。
医学参考值范围制定方法:
①正态分布法:
数据服从或近似服从正态分布;
②百分位数法:
偏态分布资料,样本含量不低于100,P29。
第3章总体均数的估计与假设检验
1.抽样误差:
由个体差异产生的,随机抽样造成的样本统计量之间或样本统计量与总体参数之间的差异,用标准误来衡量,抽样误差是不可避免的,其产生的根本原因是生物个体的变异性,其分布有一定的规律性。
样本均数的抽样分布特点:
①各样本均数未必等于总体均数;
②各样本均数间存在差异;
③样本均数的分布很有规律,围绕总体均数中间多,两边少,左右基本对称,也服从正态分布;
④样本均数间相差较小,其变异范围较之原变量的变异范围大大缩小。
2.标准误:
样本统计量的标准差,描述统计量与总体参数的接近程度,是衡量抽样误差大小的指标。
用途:
①表示抽样误差的大小;
②估计参数的可信区间;
③假设检验。
均数标准误:
样本均数的标准差,反映样本均数间的离散程度,也反映样本均数与相应总体均数间的差异,说明了均数抽样误差的大小。
均数标准误与标准差成正比,与样本含量n的平方根成反比。
若标准差不变,可通过增加样本含量n来减小均数的标准误,从而降低抽样误差。
3.标准差与标准误的区别:
①标准差是衡量观察值离散趋势(即变异程度)的指标,其越大,表示观察值越分散,样本均数的代表性越差;
反之样本均数的代表性越好;
而标准误是描述样本统计量的变异程度,表示抽样误差的大小,其越大,表示抽样误差越大,样本统计量(样本均数)的可靠性越小,反之样本统计量(样本均数)的可靠性越大。
②标准差可用于描述正态(近似正态)分布资料的频数分布和医学参考值范围的估计;
而标准误用于总体均数的区间估计和两个样本统计量(样本均数)间的比较即t检验。
标准差与标准误的联系:
二者都是变异指标,标准误的大小可由标准差的大小来估计。
在样本含量一定时,标准差越大,标准误也越大,即在抽取相同例数的前提下,标准差越大,样本的抽样误差也越大。
4.t分布:
通过u=(X﹣μ)/σ可以将X~N(μ,σ2)的正态分布转换为u~N(0,12)的标准正态分布,同理样本含量为n的样本均数X可通过u=(X﹣μ)/σX将N(μ,σX2)的正态分布转化为标准正态分布,但实际工作中,由于σX常常未知,用SX代替,则(X﹣μ)/SX不再服从标准正态分布,而是服从t分布。
t分布为抽样分布,参数只有一个即自由度ν=n﹣1。
①单峰分布,以0为中心,左右对称;
②t分布的曲线形态取决于自由度ν的大小,ν越小,则t值越分散,t分布的峰部越矮而尾部翘得越高;
③当ν逼近无穷大,Sx逼近σx,t分布逼近u分布,标准正态分布是t分布的特例。
t分布主要用于总体均数的区间估计和t检验。
在相同自由度时,∣t∣值越大,概率P越小;
在相同∣t∣值时,同一自由度的双尾概率为单尾概率的两倍。
5.参数估计:
是指用样本统计量推断总体参数,有点(值)估计和区间估计两种方法。
点估计:
用相应样本统计量直接作为其总体参数的估计值。
区间估计:
是按预先给定的概率(1﹣α)所确定的包含未知总体参数的一个范围。
该范围称为参数的可信区间或置信区间;
预先给定的概率1﹣α称为可信度或置信度,一般取双侧95%。
6.可信区间:
又称置信区间,通常是两个数值即可信限/置信限构成的一范围,较小值称可信下限,较大值称可信上限。
可信区间的确切含义:
从固定样本含量的已知总体中进行重复随机抽样试验,根据每个样本可算得一个可信区间,则平均有1﹣α(如95%)的可信区间包含了总体参数,而不是总体参数落在该范围的可能性为1﹣α。
两个要素:
①准确度:
反映在可信度1﹣α的大小,越接近1越好;
②精密度:
反映在区间的宽度,越窄越好。
两者是矛盾的,一般情况下常用95%可信区间。
在可信度确定的情况下,增加样本含量可减小区间宽度。
7.总体均数可信区间的计算:
根据总体标准差σ是否已知,以及样本含量n的大小而异,通常有t分布和u分布两类方法。
①单一总体均数的可信区间:
σ未知按t分布;
σ已知或σ未知,但n足够大(如n≥60)时按u分布。
②两总体均数之差的可信区间P41。
8.总体均数可信区间与参考值范围的区别:
区别点
总体均数的可信区间
参考值范围
含义
按预先给定概率所确定的位置参数μ的可能范围。
实际上一次抽样算得的可信区间要么包含了总体均数,要么不包含。
但可以说:
当α=0.05时,95%CI估计正确的概率为0.95,估计错误的概率为0.05,即有95%的可能性包含了总体均数
总体均数的可能范围
“正常人”的解剖、生理、生化某项指标的波动范围
个体值的波动范围
计算公式
σ未知:
X±
tα/2,νSX*
σ已知或σ未知但n>
60:
uα/2,νσX或X±
uα/2,νσX**
正态分布:
uα/2,νS**
偏态分布:
PX~P100﹣X
用途
总体均数的区间估计,也可间接进行假设检验
绝大多数(如95%)观察对象某项指标的分布范围
样本量作用
样本量越大,可信区间越小
样本量越大,参考值范围越稳定
*tα/2,ν也可用于tα,ν(对应于单尾概率时);
**uα/2,也可用于uα,(对应于单尾概率时)。
9.假设检验:
又称显著性检验,是利用小概率反证法思想,从问题的对立面(H0)出发间接判断要解决的问题(H1)是否成立,然后在H0成立的条件下计算检验统计量,最后获得P值来判断。
基本思想:
①小概率思想:
小概率事件在一次试验中认为基本上不发生,其概率是相对的,在进行统计分析时要事先规定,即检验水准α。
②反证法思想:
首先提出一个假设,用适当的统计方法确定当假设成立时,获得现在样本的概率大小,如果是小概率事件,则推断假设是假的,拒绝它;
如果不是小概率事件,则不能认为假设是假的,不能拒绝它。
10.假设检验的基本步骤:
1)建立检验假设,确定检验水准:
①μ=μ0:
即检验假设,常称无效假设或零/原假设,用H0表示;
②μ≠μ0:
即备择假设,常称对立假设,用H1表示;
③α:
即检验水准,也称显著性水准,属于Ⅰ型错误的范畴,是预先规定的概率值,确定了小概率事件的标准。
2)计算检验统计量:
根据变量或资料类型、设计方案、统计推断的目的、方法的适用条件等选择检验统计量,所有检验统计量都是在H0成立的前提条件下计算出来的。
3)确定P值,做出推断结论:
P的:
是指从H0规定的总体随机抽样,抽得等于及大于或(和)等于及小于现有样本获得的检验统计量值(如t、u等)的概率。
(当样本含量n较大时,t值近似和u值相等,有人将其称为u检验或Z检验,实际是t检验的特例。
)对于检验假设须注意:
①检验假设是针对总体而言,而不是针对样本;
②H0和H1是相互联系、对立的假设;
③H0为无效假设,其假定通常是:
某两个总体参数相等,或某两个总体参数之差等于0,或…无效,或某一资料服从某一特定分布;
④H1的内容直接反映了检验的单双侧。
11.t检验(方差相等):
①单样本t检验:
即已知样本均数与已知总体均数的比较,要求样本取自正态总体(样本均数与已知总体均数不等,原因有二:
a.非同一总体即μ≠μ0;
b.虽为同一总体即μ=μ0,但有抽样误差)。
②配对样本t检验:
简称配对t检验,也称成对t检验,适用于配对设计的计量资料,要求差值服从正态分布。
(配对设计是将受试对象按照某些重要特征配成对子,每对中的两个受试对象随机分配到两处理组。
主要有以下情形:
a.两同质受试对象配成对子分别接受两种不同的处理;
b.同一受试对象分别接受两种不同处理;
c.同一受试对象接受一种处理前后。
)③两样本t检验:
又称成组t检验,适用于完全随机设计两样本均数的比较,要求样本来自正态总体,且两总体方差齐性。
当两样本含量较小,且均来自正态总体时,要根据两总体方差是否不同而采用不同检验方法。
t′检验(方差不等):
①Cochran&
Cox近似t检验——对临界值校正;
②Satterthwaite近似t检验——对自由度校正;
③Welch近似t检验——对自由度校正。
12.Ⅰ型错误:
拒绝了实际上成立的H0,即“弃真”,其概率大小用α表示,检验水准就是预先规定的允许犯Ⅰ型错误概率的最大值,α可取单尾也可取双尾。
Ⅱ型错误:
“接受”了实际上不成立的H0,即“取伪”,其概率用β表示,β只取单尾。
把握度:
又称检验效能,是指1﹣β。
其意义是当两总体确有差异,按规定检验水准α所能发现该差异的能力。
13.假设检验应注意的问题:
1)要有严密的研究设计——假设检验前提。
2)不同类型的资料应选用不同检验方法。
3)正确理解“显著性”一词的含义,一般假设检验结果并不指差异的大小,只能反映两者是否有差异,采用“有无统计学意义”表达。
4)因结论具有概率性质,故结论不能绝对化,报告结论时最好列出检验统计量的值,尽量写出具体的P值或P值的确切范围。
5)统计“显著性”与医学/临床/生物学“显著性”:
若统计结论和专业结论一致,则最终结论就和这两者一致;
若统计结论和专业结论不一致,则最终结论需根据实际情况。
当统计结论有意义,而专业结论无意义时,可能是由于样本含量过大或设计存在问题,那么结论最终无意义。
当统计结论无意义,而专业结论有意义,则应当检查设计是否合理、样本含量是否足够。
6)可信区间与假设检验的区别和联系:
①可信区间用于说明量的大小即判断总体均数的范围,而假设检验用于推断质的不同即判断两总体均数是否不等;
②可信区间可回答假设检验的问题,算得的可信区间若包含了H0,则按α水准不拒绝H0;
若不包含H0,则按α水准拒绝H0接受H1。
③可信区间不但能回答差别是否具有统计学意义,而且能比假设检验提供更多的信息,即提示差别有无实际的专业意义。
④可信区间只能在预先规定的概率——检验水准α的前提下进行计算,而假设检验能够获得一个较为确切的概率P值。
⑤验证一个假设时,可选择假设检验,而只是对总体参数做一个估计时,可选用区间估计,两者结合可对问题进行更全面的说明。
14.正态性检验:
①图示法:
概率图(P-P图)和分位数图(Q-Q图);
②计算法:
a.对峰度和偏度各用一个指标来评定,以矩法效率最高。
偏度指分布不对称的程度和方向,样本偏度系数g1,总体偏度系数r1。
(r1=0对称,r1>
0正偏态,r1<
0负偏态)峰度则指分布于正态曲线相比的冒尖程度或扁平程度,样本峰度系数g2,总体峰度系数r2。
(r2=0正态峰,r2>
0尖峭峰,r1<
0平阔峰)b.仅用一个指标来综合评定。
15.两样本方差比较的F检验:
即方差齐性检验,目的是判断两样本所代表的两总体方差是否不等,资料要求服从正态分布。
若方差齐,采用一般的t检验;
若方差不齐,则采用近似t检验。
16.变量变换:
是将原始数据作某种函数转换,如转换为对数值等。
它可使各组方差齐同、稳定,亦可使偏态资料正态化,以满足t检验或其它统计分析方法对资料的要求。
方法:
①对数变换:
适用于a.对数正态分布资料,即原始数据的效应是相乘时;
b.各样本标准差与均数成比例或变异系数是常数或接近某一常数的资料。
②平方根变换:
即将原始数据开算术平方根。
③平方根反正弦变换。
④倒数变换。
第4章多个样本均数比较的方差分析
1.方差分析:
由fisher首创,又称F检验。
(F分布有两个参数:
两个自由度)基本思想:
根据试验设计的类型,将全部观测值总的离均差平方和及其自由度分解为两个或多个部分,除随机误差作用外,每个部分的变异可由某个因素的作用(或某几个因素的交互作用)加以解释,如组间变异SS组间可由处理因素的作用加以解释。
方差分析是综合的F检验。
实验数据有三个不同的变异:
①总变异:
全部观测值大小不同,这种变异称为总变异,其大小可以用离均差平方和表示SS总;
②组间变异:
各处理组由于接受处理的水平不同,各组的样本均数也大小不等,这种变异称为组间变异,记为SS组间;
③组内变异:
在同一处理组中,虽然每个受试对象接受的处理相同,但观测值仍各不相同,这种变异称为组内变异(误差),记为SS组内。
SS总=SS组间+SS组内,ν总=ν组间+ν组内。
变异程度与离均差平方和和自由度有关。
各部分离均差平方和除以相应的自由度,其比值称为均方差,简称均方(MS)。
应用条件:
①各样本是相互独立的随机样本;
②均来自正态分布总体;
③相互比较的各样本的总体方差相等,即具有方差齐性。
2.完全随机设计资料的方差分析:
完全随机设计是采用完全随机化的分组方法,将全部试验对象分配到g个处理组(水平组),各组分别接受不同的处理,实验结束后比较各组均数间的差别有无统计学意义,推论处理因素的效应。
变异分解:
分析步骤:
略。
3.随机区组设计资料的方差分析:
随机区组设计又称配伍组设计,是配对设计的扩展,先按影响试验结果的非处理因素将受试对象配成区组,再分别将各区组的受试对象随机分配到各处理组或对照组。
随机分配的次数要重复多次,每次随机分配都对同一个区组内的受试对象进行,且各个处理组受试对象数量相同,区组内均衡。
区组内各试验对象具有较大的差异为好,利用区组控制非处理因素的影响,并在方差分析时将区组间的变异从组内变异中分解出来。
误差比完全随机设计小,试验效率高。
SS总=SS处理+SS区组+SS误差,ν总=ν处理+ν区组+ν误差。
4.拉丁方设计资料的方差分析:
拉丁方设计是在随机区组设计的基础上发展的,实验涉及一个处理因素和两个控制因素,将两个控制因素分别安排在拉丁方设计的行和列上,每个因素的类别数或水平数相等,增加了均衡性,减少了误差,提高了效率。
SS总=SS处理+SS行+SS列+SS误差,ν总=ν处理+ν行+ν列+ν误差。
5.两阶段交叉设计资料的方差分析:
二阶段交叉设计是A、B两种处理先后以同等的机会出现在两个试验阶段中,不仅平衡了处理顺序的影响,而且能把处理方法间的差别、时间先后之间的差别和受试者间的差别分开来分析。
但是前一个试验阶段的处理效应不能持续作用到下一个试验阶段,故在两阶段之间设计洗脱阶段以消除残留效应。
多用于止痛、镇静、降压等药物或治疗方法间疗效的比较。
分析方法:
SS总=SS处理间+SS阶段间+SS受试者间+SS误差。
6.多个样本均数间的多重比较:
当方差分析的结果为拒绝H0,接受H1时,只说明g个总体均数不全相等。
样本均数间的多重比较不能用两样本均数比较的t检验,否则会加大犯Ⅰ型错误的概率,即假阳性。
①LSD-t检验,即最小显著差异检验,适用于一对或几对在专业上有特殊意义的样本均数之间的比较;
②Dunnett-t检验,适用于g—1个实验组与一个对照组均数差别的多重比较;
③SNK-q检验,亦称q检验,适用于多个样本均数两两之间的全面比较,最常用。
7.多样本方差比较的Bartlett检验和Levene检验:
Levene检验法在用于对多总体方差进行齐性检验时,所分析的资料可不具有正态性。
第5章计数资料的统计描述
1.计数资料的常见数据形式是绝对数,但绝对数不具有可比性,所以需计算相对数,常用的相对数指标包括比,比例,率。
根据研究目的不同,比例又分为强度相对数(率)和结构相对数(即构成比)。
2.率:
说明某现象发生的频率或强度,常用百分率,千分率,万分率等表示。
某一分率改变不影响其他分率变化。
3.构成比:
表示事物内部某一部分的个体数与该事物各部分个体数的总和之比,用来说明各构成部分在总体中所占的比重或分布。
某一部分构成比的改变将影响其他构成比的变化。
4.相对比:
简称比,是两个有关指标之比,说明两指标之间的比例关系。
两个指标可以是绝对数、相对数或平均数。
5.应用相对数的注意事项:
①结构相对数不能代替强度相对数:
构成比用以说明事物内部某种构成所占比重或分布,并不说明某现象发生的频率或强度②计算相对数应有足够数量,否则会使相对数波动较大③正确计算合计率:
对分组资料计算合计率或称平均律时,不能简单地由各组率相加或平均而得,而应用合计的有关实际数字进行计算④注意资料的可比性:
a.观察对象是否同质,研究方法是否相同,观察时间是否相等,以及地区、周围环境、风俗习惯和经济条件是否一致或相近等;
b.观察对象内部结构是否相同;
⑤对比不同时期资料应客观条件是否相同;
⑥样本率(或构成比)的抽样误差:
不能仅凭数字表面相差大小下结论,而应进行样本率(或构成比)差别的假设检验。
6.率的标准化法:
采用某影响因素的统一标准构成以消除构成不同对合计率的影响,使通过标准化后的标准化合计率具有可比性。
标准化法只适用于某因素两组内部构成不同,并有可能影响总率比较的情况(两个率不具有可比性)。
标准化率只表示相互比较的资料间的相对水平,不再反映实际水平;
此外标准化率表示样本值,存在抽样误差。
第6