研究生医学统计学考点总结精心整理.docx
《研究生医学统计学考点总结精心整理.docx》由会员分享,可在线阅读,更多相关《研究生医学统计学考点总结精心整理.docx(33页珍藏版)》请在冰豆网上搜索。
研究生医学统计学考点总结精心整理
医学统计学
基本概念:
1.医学统计学Statistics:
医学统计学是以医学理论为指导,应用概率论与数理统计的有关原理和方法,研究医学资料的搜集、整理、分析和推断的一门科学。
2.同质和异质:
具有相同性质的事物称为同质(homogeneous)。
否则称为异质的或者间杂的(heterogeneous)。
不同质的个体不能笼统地混在一起分析,同质和异质是相对的概念。
3.变异:
同质事物之间的差别称为变异(variation),亦称个体变异。
变异的两个方面:
个体与个体间的差别
同一个体重复测量值间的差别
结果是随机的,不可预测的;
一种或多种不可控因素(已知的或未知的)作用下的综合表现;
个体变异是普遍存在的;
个体变异是有规律的;
没有个体变异,就没有统计学。
4.总体和样本:
总体(population):
根据研究目的所确定的同质观察单位的全体;分为有限总体和无限总体。
个体(individual):
是构成总体的最基本观察单位。
样本(sample):
是从总体中按照一定的目的随机抽取的一部分具有代表性的个体集合。
样本含量(samplesize):
样本中包含的个体个数。
5.参数和统计量:
Ø总体参数(parameter):
描述某总体特征的指标,简称参数,一般用希腊字母表示,如:
、、π。
Ø
统计量(statistic):
描述某样本特征的指标,一般用拉丁字母表示,如:
、s、p。
Ø在总体被确定之后,总体参数就是一个常数,是不会变化的,不管你是否确切知其大小;而统计量是几乎总是随着样本而变的。
6.随机(random):
是指机会均等,目的是保证样本对总体的代表性、可靠性。
7.概率和频率:
频率(relativefrequency):
在n次随机试验中,事件A发生了m次,则比值m/n称为事件A在这n次试验中出现的频率。
概率(probability):
是随机事件发生可能性大小的一个度量,是一种参数,常用P表示,0≤P≤1。
8.小概率事件和小概率原理:
小概率事件:
医学研究中,将概率小于等于0.05或0.01的事件称为小概率事件。
小概率原理:
小概率事件并不表示不可能发生,但在某一次试验中,是不会发生的。
9.变量的分类:
Ø按照取值的特性:
⏹数值变量numericalVariable定量变量:
既有顺序的意义,又有间隔的意义,可以认为是连续的;往往有单位;取值间的差异是可以度量的。
⏹分类变量categoricalVariable定性变量:
取值是是分散、定性的,表现为互不相容的类别和属性。
•无序分类unorderedcategorics:
无顺序,无间隔,仅有分类
–二项分类
–多项分类
•有序分类orderedcategorics等级变量:
仅有顺序,无单位;取值间
的差异是不可度量的
Ø不同分类的互相转化
⏹数值变量→无序分类变量
⏹数值变量→有序分类变量
⏹有序分类变量→无序分类变量
信息量只有减少,不可增加
统计描述指标,呈现方式可分为两种
统计图:
直观,但精确度稍差
统计报表:
能尽量详细,精确,但不够直观
统计推断:
从样本信息外推到总体,以最终获得对所感兴趣问题的解答
参数估计:
样本→所在总体特征
假设检验:
该指标可能的影响因素分析
频数分布
1.频数表编制步骤
求极差:
R=Xmax-Xmin
选定适当的组段数后估计组距:
组段数的选取以能反映资料的分布特征为宜,一般取8~12组
列出组段:
组段的含义:
包括组段的下限而不含组段的上限。
如:
3.2~等价于[3.2,3.5)。
划记归组获得频数
求频率,完成频数表:
相应的频数除以总数即为频率,各组段的频率总和为1或者100%。
2.频数分布所提供的信息
Ø频数分布图用以表示数据的分布规律。
Ø观察有无可疑值。
Ø考察分布的类型。
⏹对称分布
⏹非对称分布(偏态分布)
•左偏态(负偏态):
指分布的长尾在峰的左侧。
•右偏态(正偏态):
指分布的长尾在峰的右侧。
Ø考察分布的特征
⏹集中位置(CentralTendency):
描述指标有平均数(算术均数(Mean)、几何均数(GeometricMean)、中位数(Median)、百分位数(Percentile))。
⏹离散趋势(TendencyofDispersion):
描述指标有极差(Range)、四分位数间距(interquartilerange)、方差(Variance)、标准差(StandardDeviation)、变异系数(coefficientofvariation)。
3.平均数应用的注意事项:
Ø同质的资料计算平均数才有意义。
Ø均数适用于:
单峰对称分布的资料。
Ø几何均数适用于:
对数变换后单峰对称的资料。
等比资料、滴度资料、对数正态分布资料。
计算几何均数时:
⏹变量值中不能有0
⏹同一组变量值不能同时存在正、负值,若变量值全为负值,可先将负号除去,算出结果后再冠以负号
Ø中位数:
理论上可用于任何分布资料,常用于描述偏态资料,开口资料,有不确定值的资料的集中位置。
但当资料适合计算均数或几何均数时,不宜用中位数。
中位数和百分位数在样本含量较少时不稳定,越靠两端越不稳定;
中位数在抗极端值的影响方面,比均数具有较好的稳定性,但不如均数精确。
不同质的资料应考虑分别计算平均数。
Ø百分位数:
样本含量较少时不宜计算靠近两端的百分位数。
Ø平均数要与变异指标结合使用。
4.变异度指标:
四分位数间距(inter-quartilerange):
QU-QL=P75-P25,即中间一半观察值的极差。
方差及标准差:
变异系数(coefficientofvariation,CV):
为标准差和均数的比值,排除了平均水平的影响,并取消了单位。
因此变异系数常用于:
⏹比较度量衡单位不同的两组或多组资料的变异度
⏹比较均数相差悬殊的两组或多组资料的变异度
5.变异度的正确应用:
Ø极差不稳定,不灵敏
Ø标准差的基本内容是离均差,它显示一组变量值与其均数的间距,故标准差直接地、总结地、平均地描述了变量值的离散程度。
Ø在同质的前提下,标准差大表示变量值的离散程度大,即变量值的分布分散、不整齐、波动较大;反之,标准差小表示变量值的离散程度小,即变量值的分布集中、整齐、波动较小。
Ø变异系数派生于标准差,其应用价值在于排除了平均水平的影响,并消除了单位。
6.总结:
Ø每个观察指标均有其特定的变异规律;
Ø描述变异:
⏹图形描述
⏹统计量描述
✓平均数:
均数、几何均数、中位数和百分位数
✓变异度:
极差、方差、标准差、四分位数间距、变异系数
✓不同分布的指标,用不同的统计量描述;
Ø用平均数与变异度共同描述。
正态分布
1.公式:
如果随机变量X的概率密度函数为(-∞<X<+∞)
则称X服从正态分布,记作X~N(,2),其中,为分布的均数,为分布的标准差。
为总体均数,为总体标准差。
π为圆周率,e为自然对数的底,X为变量,代表横轴的数值,f(X)为纵轴数值。
2.正态分布的特征(重要):
}单峰分布;高峰在均数处;
}以均数为中心,均数两侧完全对称。
}正态分布有两个参数(parameter),即位置参数(均数)和变异度参数(标准差)。
}有些指标本身不服从正态分布,但经过变换之后可以服从正态分布。
}正态曲线下的面积分布有一定的规律。
X轴与正态曲线所夹面积恒等于1,对称区域面积相等。
-1.64~+1.64内面积为90%;
-1.96~+1.96内面积为95%;
-2.58~+2.58内面积为99%。
正态分布曲线下的面积与标准正态分布曲线下的面积对应(以标准正态离差为单位)。
3.标准正态分布:
标准正态分布(standardnormaldistribution)是均数为0,标准差为1的正态分布。
记为N(0,1)。
标准正态分布是一条曲线。
概率密度函数为:
(-∞<u<+∞)
正态分布转换为标准正态分布:
若X~N(,2),作变换:
则u服从标准正态分布,u称为标准正态离差(standardnormaldeviation)
4.正态分布的应用:
估计频数分布、质量控制、确定临床参考值范围
参考值范围:
1.参考值范围(referenceinterval):
是绝大多数正常人的某观察指标所在的范围,绝大多数:
90%,95%,99%等等。
确定参考值范围的意义:
用于判断正常与异常。
“正常人”的定义:
排除了影响所研究的指标的疾病和有关因素的同质的人群。
2.参考值范围确定的原则:
}选定足够例数的同质的正常人作为研究对象:
例数过少,代表性差;例数过多增加成本,且易导致正常标准把握不严,影响数据的可靠性
}控制检测误差
}判断是否分组(性别,年龄组)
}单、双侧问题(onesidedortwosided)
}选择百分界值(90%,95%)
}确定可疑范围
3.参考值范围的估计方法:
正态分布法、百分位数法
抽样误差
1.概念:
由于个体变异的存在,在抽样研究中产生样本统计量和总体参数之间的差异,称为抽样误差(samplingerror)。
抽样误差的表现:
样本均数和总体均数间的差别、样本均数和样本均数间的差别。
2.中心极限定理(centrallimittheorem):
Ø
从均数为μ,标准差为σ的正态总体中随机抽样,样本均数服从均数为μ,标准差为的正态分布。
Ø
从均数为μ,标准差为σ的任意总体中随机抽样,当样本含量足够大时,样本均数近似服从均数为μ,标准差为的正态分布。
3.标准误(standarderror):
用样本统计量的标准差来反映抽样误差的大小,又称标准误。
其中,σ为总体标准差,n为抽样的样本例数
在研究工作时,由于总体标准差常常未知,可以利用样本标准差近似估计
4.标准误的意义:
Ø反映了样本统计量(样本均数,样本率)分布的离散程度,体现了抽样误差的大小。
Ø标准误越大,说明样本统计量(样本均数,样本率)的离散程度越大,即用样本统计量来直接估计总体参数越不可靠。
Ø标准误的大小与标准差有关,在例数n一定时,从标准差大的总体中抽样,标准误较大;而当总体一定时,样本例数越多,标准误越小。
说明我们可以通过增加样本含量来减少抽样误差的大小。
t分布
1.根据中心极限定理的内容,当样本含量足够大时,对从均数为μ,标准差为σ的任意总体中随机抽样所得的样本均数进行标准化变换,有
2.由于总体标准差往往是未知的,此时往往用样本标准差代替总体标准差:
这里,ν为自由度,取值为n-1
3.t分布的性质:
Øt分布为一簇单峰分布曲线,高峰在0的位置上,说明从正态总体中随机抽样所得样本计算出的t值接近0的可能性较大。
Øt分布以0为中心,左右对称。
Ø分布的高峰位置比u分布低,尾部高。
Øt分布与自由度有关,自由度越小,t分布的峰越低,而两侧尾部翘得越高;自由度逐渐增大时,t分布逐渐逼近标准正态分布;当自由度为无穷大时,t分布就是标准正态分布。
Ø每一自由度下的t分布曲线都有其自身分布规律。
t界值表。
可信区间
1.统计推断(statisticalinference):
是指如何抽样,以及如何用样本性质推断总体特征,分为参数估计(parameterestimation)、假设检验(hypothesistesting)。
2.参数估计:
点估计(PointEstimation):
用样本统计量作为总体参数的估计。
区间估计(IntervalEstimation):
3.可信区间定义:
按一定的概率或可信度(1-α)用一个区间来估计总体参数所在的范围,该范围通常称为参数的可信区间或者置信区间(confidenceinterval,CI),预先给定的概率(1-α)称为可信度或者置信度(confidencelevel),常取95%或99%。
可信区间(CL,CU)是一开区间CL、CU称为可信限。
4.可信区间的计算:
样本含量较小时(n≤100):
下限:
上限:
样本含量较大时(n>100):
下限:
上限:
5.均数之差可信区间的计算:
均数之差”与“均数之差的标准误”之比,服从自由度=n1+n2-2的t分布。
样本含量较大时,服从标准正态分布。
合并方差:
均数之差的标准误:
6.可信区间的两个要素:
Ø可信度(Confidence):
准确性,可靠性,即1-α。
一般取90%,95%,可人为控制。
Ø精确性(Precision):
区间的大小,越小越好。
Ø必须二者兼顾
7.可信区间的宽度:
Ø可信度越大,可信区间越宽,说明用该区间来估计总体参数(总体均数)越可靠。
Ø标准差越小,可信区间就越窄,意味着如果总体内变异程度较小时,在相同的可信度下,只需要一个比较窄的可信区间就可以估计总体均数。
Ø随着样本含量的增加,可信区间逐渐变窄。
8.正确理解可信区间:
Ø可信度为95%的CI的涵义:
每100个样本,按同样方法计算95%的CI,平均有95%的CI包含了总体参数。
Ø这里的95%,指的是方法本身!
而不是某个区间!
Ø总体参数虽未知,但却是固定的值,而不是随机变量值。
假设检验
1.假设检验的目的:
基本目的就是分辨两个样本是否属一个总体或两个不同的总体,并对总体作出适当的结论。
2.假设检验的一般步骤:
步骤1:
建立假设,在假设的前提下有规律可寻
⏹零假设(nullhypothesis),记为H0,表示目前的差异是由于抽样误差引起的。
⏹备择假设(alternativehypothesis),记为H1,表示目前的差异是主要由于本质上的差别引起。
步骤2:
确立检验水准α(significancelevel),用于确定何时拒绝H0,一般取0.05。
步骤3:
计算检验统计量和P值
计算检验统计量,即计算样本与所假设总体的偏离;样本均数与总体均数0间的差别可以用统计量t来表示
统计量t表示,在标准误的尺度下,样本均数与总体均数0的偏离。
这种偏离称为标准t离差(standardtdeviation)。
根据抽样误差理论,在H0的假设前提下,统计量t服从自由度为n-1的t分布,即t值在0的附近的可能性大,远离0的可能性小,离0越远可能性越小。
步骤5:
界定P值并作结论
3.假设检验应用的注意事项:
A.I型错误和II型错误:
第一类错误(TypeIError):
拒绝了实际上是成立的H0;
第二类错误(TypeIIError):
不拒绝实际上是不成立的H0。
B.检验水准的选择:
检验水准有单双侧之分。
选择要有专业背景。
检验水准大小的选择要慎重。
选择要在计算检验统计量之前。
C.双侧检验与单侧检验:
在相同的检验水准下,正确地选择单侧检验将比双侧检验得到更多的检验效能。
D.P和的涵义:
P值意义:
从H0总体中随机获得等于或大于现有统计量值的概率。
拒绝H0时所冒的风险。
的意义:
犯第一类错误的概率;在假设检验之前人为规定;说明拒绝H0所冒的风险不可超过。
E.正确对待统计结论和专业结论
专业上有差别,假设检验拒绝H0:
结果有效,可以下专业结论;
专业上无差别,假设检验不拒绝H0:
下无差别的结论;
专业上有差别,假设检验不拒绝H0:
增大样本含量,减少二类误差;
专业上无差别,假设检验拒绝H0:
改进试验,减少误差。
F.Significant的意义
4.假设检验和可信区间的区别:
在相同的α之下,若假设检验拒绝H0(p<=α),那么可信度为(1-α)的可信区间必然不包括总体参数;反之成立。
可信区间和假设检验是对同一问题所作的不同结论,效果等价。
t检验
1.成组设计计量资料比较的t检验:
合并方差(方差的加权平均):
均数之差的标准误:
自由度=n1+n2-2
2.两组资料比较的u检验:
当随机抽样的样本例数足够大时,t检验统计量的自由度逐渐增大,t分布逐渐逼近于标准正态分布,可以利用近似正态分布的原理进行u检验。
3.配对计量资料的t检验:
配对t检验的实质就是检验样本差值的总体均数是否为0。
4.均数的假设检验应用条件:
独立性、正态性、方差齐性
与应用条件有关的一些内容:
正态性检验、方差齐性检验、方差不齐时的近似t检验、大样本时,均数比较的u检验
5.两个方差的齐性检验:
Levene法:
从同一总体随机抽取的样本之两方差,其方差比(大方差/小方差)的分布服从F分布:
6.方差不齐时两样本均数比较的近似t检验:
7.大样本时均数比较的u检验:
Ø
单样本u检验
Ø两样本u检验
方差分析(ANOVA)AnalysisofVariance
t检验的局限性—单因素两水平
1.因素和水平:
Ø因素(factors):
将试验对象随机分为若干个组,加以不同的干预,称为处理因素。
方差分析中所要检验的对象。
Ø在相同的因素下的不同干预,称为不同的水平(level)。
方差分析中因素的不同表现。
2.假如每次t检验犯第一类错误的概率是0.05,那么要完全地进行比较,犯第一类错误的概率是1-(1-)k。
此为多组间不能进行t检验的原因。
3.单因素方差分析:
研究的是一个处理因素的不同水平间效应的差别。
4.完全随机设计资料的方差分析:
完全随机设计是医学科研中最为常用的一种实验设计方法,它是将受试者随机地分配到各实验组(可包括对照组)中,进行实验并观察实验效应。
该设计适用面广,可用于两组或多组实验研究,且各组的样本含量可不相等。
证明:
5.随机区组(配伍组)设计的方差分析(两因素多个样本均数的比较):
概念:
随机区组设计又称配伍组设计,是配对设计的扩展,也可看作1:
X的配对设计。
它是将几个条件相同的受试者划为一个区组(block)或配伍组,然后再按随机的原则,将同一区组的受试者随机分配到各实验组中。
实质:
两因素方差分析。
变异分解,N为总样本含量,k为水平数,n为区组数;
6.多个样本均数的两两比较:
又叫多重比较,MultipleComparison;分类:
事先计划好的多个试验组与一个对照组之间的比较,多个组与一个特定组间的比较或者特定组间的比较;(PlannedMultipleComparison)
方差分析得到有差别的结论后多个组之间的相互比较的探索性研究(PostHoc);
ØStudent-Newman-Keuls法(SNK法)
ØLSD法
ØDunnet法:
7.两两比较的注意事项:
Ø对于方差分析后的两两比较均应以方差分析拒绝相应的H0为前提,且结论均不应与方差分析的结论相悖;
Ø出现模糊结论,下结论应该谨慎;
Ø
方差分析拒绝H0,但两两比较得不出有差异的结论,因为方差分析效率高。
两种错误的说法:
X2所来自的总体位于X1所来自的总体和X3所来自的总体之间;
X1和X2来自同一总体,X2和X3来自同一总体。
只能说明无法判断样本2来自于何总体!
Ø不能用t检验代替方差分析,也不能用t检验代替两两比较。
Ø无论是SNK法还是Dunnett法,用于两组比较时,结果与t检验等价。
8.方差分析的要求:
Ø独立随机抽样(Independence);正态性(Normality);方差齐性(Homoscedascity)
9.方差齐性检验:
Ø两个方差的齐性检验:
Levene法
Ø多个方差的齐性检验:
Bartlett法
10.方差分析小结:
A.均数、方差的比较
Ø样本均数与总体均数的比较(t检验)
Ø配对设计样本均数的比较(配对t检验)
Ø两样本均数的比较
(t检验,u检验,F检验,SNK,Dunnett)
☐多样本均数的比较(F检验,ANOVA)
⏹各组间的比较(SNK法);
⏹各试验组与某一对照组间的比较用(Dunnett法)
☐两个方差的比较(F检验)
B.两个方差的比较(Bartlett检验)
Ø分析单因素多水平间的比较或多个因素对结果的影响;
Ø要求数据满足正态性、独立性、方差齐性
Ø单因素方差分析两因素方差分析
Ø两两比较
Ø变量变换
Ø方差分析应用于两组资料的比较时,等价于t检验。
11.变量变换(VariableTransformation)
Ø方差齐性是一个很strong的假设,如果不齐,就一般不能直接进行方差分析;
Ø变量变换:
目的:
方差齐性化,正态化,线性化
常用方法:
对数变换、平方根变换、倒数变换、平方根反正弦变换
分类资料的统计描述statisticaldescriptionforcategoricaldata
1.常用的相对数:
作用:
第一,表示事物出现的频度。
第二,便于比较。
率:
说明某现象发生的频率与强度
构成比:
说明某一事物内部各组成部分所占比例。
比:
说明A是B的多少倍,或百分之几。
2.相对数应用的注意事项:
}计算相对数时,分母不宜太小
}对两个或多个相对数指标进行比较时,要考虑抽样误差,进行假设检验,并不能凭相对数的数值大小轻易做出结论。
}区分构成比和率
}合计率的计算不是直接求率的平均
}两合计率的比较需注意两者的内部构成是否相同
3.标准化率
标准化法就是用统一的标准对内部构成不同的各组频率进行调整和对比的方法。
⏹不同的标准,所得标准化率不同;
⏹标准化率是相对的,其作用仅在于比较,而不表示实际水平;
⏹标准化率不代表总率,也不能完全代替分组比较。
二项分布及其应用Binomialdistributionanditsapplication:
1.概率分布:
随机变量的概率分布:
离散分布和连续分布,依赖于相应的随机变量是离散的还是连续的。
2.概念:
令x为n次试验中的二项随机变量,成功的概率P(成功)=p,则x的取值为0,l,2,…,n,其联合概率分布为二项分布。
3.二项分布的概率
设事件A出现的概率为。
则在n次独立试验中,事件A恰好出现k次的概率为:
4.二项分布的均数和方差
如果X~B(n,),则
若均数与标准差不用绝对数而用率表示时,
二项分布的累计概率:
5.二项分布的图形:
}当=0.5,分布对称;当0.5,分布呈偏态;
}当<0.5时分布呈正偏态;当>0.5时分布呈负偏态;特别是当n值不是很大时,偏离0.5愈远,分布愈偏。
}随着n的增大,二项分布逐渐逼近正态分布。
}一般地说,如果n或n(1-)大于5时,常可用正态近似原理处理二项分布问题。
6.二项分布的应用条件:
}①各观察单位只能有互相对立的一种结果,如阳性或阴性,生存或死亡等。
}②已知发生某一结果(如阴性)的概率不变,其对立结果(如阳性)的概率则为1-。
}③n次试验在相同条件下进行,且各观察单位的结果互相独立。
7.二项分布的应用
}率的抽样分布及其性质
}总