医学研究中统计方法的选择和应用.docx
《医学研究中统计方法的选择和应用.docx》由会员分享,可在线阅读,更多相关《医学研究中统计方法的选择和应用.docx(55页珍藏版)》请在冰豆网上搜索。
医学研究中统计方法的选择和应用
医学研究中统计分析方法的选择与应用
一般人认为统计学在医学研究中的应用就是资料的统计分析,这是因为这部分工作容易被人觉察到,并且也是统计学中非常重要的一部分,然而这是一种不太全面的看法。
因为统计学在医学科研中的作用不仅仅是资料的统计分析,它的应用贯穿于整个研究过程之中,包括计划、设计、实施、资料处理与分析,到结果的展示和解释,直至到最后论文发表,都需要统计学知识的支持。
因此,学好统计学基本理论,掌握每一种统计方法的适用条件及其使用技巧,对每一位医学研究人员来讲是必须具备的基本功之一。
第1节临床科研中研究变量的类型
在进行资料统计分析之前,必须辨别清楚将要统计分析的研究变量的性质和在研究中所起的作用。
因为不同类型的资料所选用的统计量和统计方法不同,在病因学科研中研究变量所起的作用以及研究其目的不同,对它们的处理也不一样。
以下按测量单位和病因学研究的目的对研究变量的类型加以介绍。
一、按测量尺度分类
1.计量资料
对每个观察单位用定量的方法测定某项指标的大小,所得的资料称为计量资料(measurementdata),一般有度量衡等单位。
例如在研究血压与身高、体重等身体型态指标的关系时,以人为观察单位,测得的身高(cm)、体重(kg)和血压(mmHg)属于计量资料。
又如在环境污染与人体健康关系的研究时,以每个采样点为观察单位,测量不同采样点空气中二氧化碳、氮氧化物、悬浮颗粒等的浓度(mg/L)。
再如临床实验室检验中,血脂的浓度、血糖的含量、血清中肌酸磷酸激酶浓度(IU)等也属于计量资料。
计量资料又可分为离散型和连续型资料两种。
离散型资料往往是一种计数,如每名儿童口腔中的龋齿个数、单位面积内细菌菌落的个数、显微镜下每个方格中的红细胞数。
这种计数只能是0和正整数,不可能是负数,也不会有小数点。
连续型资料,理论上在任何两个数值之间都会有无穷多个数据,如身高,在175厘米与176厘米之间理论上存在无穷多个数据。
2.计数资料
将观察单位按某种属性或类别分组,然后清点各组观察单位的个数所得的资料称为计数资料(enumerationdata)。
例如调查某人群的血型分布,按A、B、AB、O型分四组,计数各血型组的人数。
再如吸烟/不吸烟、高血压/血压正常等均属计数资料。
计数资料根据所分类别是两个或多于两个,分别称为二分类变量和多分类变量。
计数资料与计量资料的主要区别在于观察单位的某一标志能否观察到一个具体数值。
人的身高、体重、血压,空气中二氧化碳的浓度、显微镜下每个方格中的红细胞数等指标均可测量到一个具体数值。
而人的血型、职业等指标,只能用文字表示,按照特征分组后,清点各特征的个数,而没有单位。
所以又被称为类别变量(categoryvariable)或名义变量(nominalvariable)。
3.等级资料
将观察单位按照某种属性的不同程度分组,然后清点各组包含的观察单位的个数所得的资料,称为等级资料(rankeddata),或称有序资料(ordinaldata)。
例如评价疗效中的治愈、好转和无效,症状的重、中、轻和无,化验时的++++、+++、++、+、、-等。
又如健康自评时的备选答案,很好、好、一般、差、很差。
这类资料兼备计量和计数资料的特点,比如治疗效果这一标志只能用文字表示,分为治愈、好转和无效,但取值又具有部分量化的特点,治愈>好转>无效。
在资料分析时,根据需要可以对以上三种资料进行转化。
如血压,当舒张压达到95mmHg时被认为是高血压,低于这个值被确认为血压正常,再清点两组的人数,这样就将计量资料转化为计数资料。
进一步将舒张压值介于90~94mmHg之间定义为临界高血压,60~90mmHg之间定义为正常血压,低于60mmHg被认为是低血压,这样又将计量资料转化为等级资料。
又如将评价疗效中的治愈、好转合并为一组称为有效,无效保持不变,这样将等级资料转化为计数资料。
再如将性别中的男、女分别以0,1表示则计数资料变成了"计量资料",在统计学中称为指示变量(indicativevariable)或伪变量(dummyvariable)。
但这里的“0”和“1”并无数值意义,不表示女大于男,“0”用来指示男,“1”用来指示女。
二、按研究因素间的因果联系分类
连接变量
疾病
病因
自变量应变量
混杂变量
图13-1病因关系中的变量类型
在流行病学病因研究中,根据研究变量在疾病发生过程中所起的作用大致分为四个类型(图13-1)。
⒈自变量(independentvariable),它的变化可以引起某一现象或情况发生相应变化。
⒉应变量(dependentvariable)或结果变量(outcomevariable),它因自变量变化而引发的效应或结果。
⒊由病因(自变量)至疾病(应变量)的过程中,往往需先引发一个或多个中间变化,最终才能发病。
这些中间现象称为连接变量(con-nectingvariable)。
⒋混杂变量(confoundingvariable),它与研究的病因(自变量)和研究的疾病(应变量)均有关,它能缩小或夸大病因与疾病间的真正联系。
第2节统计方法的选择
医学研究中资料统计分析的目的有三:
①估计变量间相互联系的强度或不同处理组间某指标差异的大小;
②由样本统计量推论总体参数;
③在估计和推论统计分析中控制混杂因素。
研究人员在分析资料之前首先要对将要分析的变量有所认识,即认清所要分析变量的类型和特征,以及变量在研究中所起的作用。
待分析变量是连续性变量、等级变量、还是名义变量;如为连续性变量,它的分布情况怎样;如为名义变量,是二分类还是多分类。
变量在研究中属于自变量、应变量,还是混杂变量或连接变量。
一旦理清变量的类型和特征,以及在研究中的关系后,再根据研究目的选择恰当的统计方法分析研究资料。
确定应变量以后,自变量的数量和类型决定选择那一种统计方法。
例如研究人员只想估计人群中高血压的发生率,而不关心研究对象的其他特征,如吸烟、年龄、性别等。
即通过样本统计量估计总体的情况,这时所执行的统计分析称为单变量分析(univariableanalysis)。
单变量分析适合于只有一个应变量,而没有自变量的研究资料。
如果研究人员的目的是探讨吸烟与人群冠心病发病率的关系,此时所执行的双变量分析(bivariableanalysis)。
双变量分析适合于含有一个应变量和一个有自变量的研究资料。
如果研究人员除了对吸烟与人群中冠心病发病率的影响外,同时还考虑研究对象的年龄、性别等特征的作用,此时要做的统计分析为多变量分析(multivariableanalysis)。
以下内容就单变量分析、双变量分析、多变量分析中,按照不同类型(连续性变量、等级变量、名义变量)和特征(正态与偏态、二分类与多分类)的应变量与不同类型、特征的自变量的组合(图13-2),介绍如何正确选择统计方法。
应变量
无自变量一个自变量多个自变量
单变量分析双变量分析多变量分析
计量资料等级资料计数资料计量资料等级资料计数资料计量资料等级资料计数资料
图13-2医学研究中统计方法选择流程图
一、单变量分析
对不含有自变量,仅有应变量的研究资料所进行的统计分析称为单变量统计分析。
单变量分析的应用主要有三个方面:
1单样本的描述性分析。
2估计总体参数。
3样本统计量与总体参数的比较,因为检验中未涉及到自变量,检验假设是样本来自于同一总体,即样本统计量等于总体参数。
4此外配对t检验也可以看作是单变量分析,因为在该检验中应变量是两处理组观察值的差,也未涉及自变量的问题。
(一)计量资料
应变量为计量资料的单变量分析有以下内容:
1描述研究变量的集中趋势和变异程度;
2利用样本统计量估计总体均数和均数的可信限;
3样本均数与总体均数的比较;
4配对t检验。
应变量为计量资料
描述性分析总体均数估计总体均数与样配对t检验
本均数的比较
均数
正态分布偏态分布标准误
n<30n>30
均数中位数、众数t检验u检验
标准差四分位数间距
图13-3计量资料单变量分析统计方法选择流程图
在计量资料描述统计分析中采用那一统计指标和统计检验方法则取决与研究变量的分布和样本大小,选择原则如图13-3。
1.描述性分析
描述性分析就是对资料作出数字性总结,并可利用统计图表的形式将分析结果表达出来,使之醒目、易懂、便于交流。
计量资料的描述性分析就是选择适当的统计指标表示一组观察变量的集中趋势和离散程度。
常用反映集中趋势的统计指标有算术均数(arithmeticmean)、中位数(median)、众数(mode);反映离散程度的统计指标有标准差(standarddeviation)、四分位数间距、级差(range)和变异系数(coefficientofvariation)。
(1)集中趋势的描述
1)算术均数:
简称均数(mean),是统计学中最为常用的统计指标。
它是将总体或样本某一标志的各个数值相加的总和除以这些数值的总个数的结果,用表示。
该指标充分利用了每一数据所提供的信息,便于作进一步统计分析。
但较易受到极端值(极大值、极小值)的影响,使之失去代表性。
均数适用于描述对称分布,特别是正态分布的资料。
当资料中存在极端值时,不宜选用该指标。
注意只有同质性的事物求平均数才有实际意义,才能反映事物的特征。
2)中位数:
即将数据按由小到大的顺序排序后,居于中间位置的那个数,用M表示。
在该组数据中有一半比它大,有一半比它小。
中位数适用于呈偏态分布的计量资料,或等级资料。
因中位数不是由全部观察值综合计算出来,所以不受个别极大值或极小值影响。
因此,它也有不能充分利用每一数据提供信息的缺点,同时进一步的统计分析也不如均数来的方便。
因中位数只与一组数据中位次居中的数值大小有关,故当观察例数较少时,中位数作为描述集中趋势指标的稳定性较差。
在对称分布中,中位数和均数在理论上应该相同。
3)众数:
在一组数据中出现频次最多的观察值称为众数,用M0表示。
通常观察值数量大的情况下选用众数表达集中趋势。
它具有通俗易懂,不受极端值影响的特点。
但难以作进一步的统计分析。
众数主要描述呈双峰分布的计量资料,或等级资料。
4)几何均数:
n个数据连乘的积开n次方所得的根称为几何均数(geometricmean),用G表示。
几何均数常被用于等比级数资料的平均水平,如抗体的平均滴度和平均效价;也可用于描述观察值称对数正态分布资料的平均水平;另外,当数据中有少数数据过大或过小时也可用几何平均数描述集中趋势。
(2)离散程度的描述指标
1)极差:
又称全距,是一组观察值中最大值与最小值之差。
是衡量变异程度的最简单的指标,它反映个体的变异范围。
用R表示。
极差多用在特别强调极端值的情况下。
极差的计算只考虑最大、最小值,因此不能反映其它数据的变异情况。
因受到极端值的影响,表现出较差的稳定性。
当比较样本含量相差悬殊的两组数据的变异程度时,因样本量大而同时抽中最大、最小值的机会大,因而比小样本得到大极差的可能性大,故不宜用极差作为比较变异程度的指标。
2)四分位数间距:
将一组观察值由小至大排位,然后分为四个等份,其中有三个点,即第25百分位数(第一四分位数),第50百分位数(第二四分位数),第75百分位数(第三四分位数)。
四分位数间距就是第75百分位数值与第25百分位数值之差。
其间包括了全部观察值的一半。
四分位数间距常用描述分析等级资料或偏态资料的离散程度。
四分位数间距作为变异程度指标,比极差稳定,不受极端值影响;但仍未充分应用每一个观察值提供的变异信息。
3)标准差:
是表示一组变量离散程度的统计指标。
它常用于呈正态分布或对称分布的资料。
它与均数结合起来,能更全面地说明一组观察值的分布情况。
4)变异系数:
又称离散系数,用CV表示。
计算方式为标准差与均数之比用百分数表示,即:
CV=(SD/)×100%。
变异系数反映的是资料的相对变异程度,因没有单位,便于资料间的相互比较。
它常用于比较均数相差悬殊的几组资料的变异程度,以及比较间度量衡单位不同的几组资料的变异程度。
(3)集中趋势指标、离散程度指标间的联合使用
1)均数与中位数的联合使用:
通过对比均数与中位数估计观察值的频数分布形态。
①如果均数与中位数相等,观察值通常呈对称分布;②如果均数大于中位数,观察值分布偏向右侧,为正偏态分布;③如果均数小于中位数,观察值分布偏向左侧,为负偏态分布。
2)标准差与均数的联合使用:
主要反映观察值围绕均数的分布情况,标准差越大,说明观察值围绕均数的分布越分散,均数的代表性就越差;标准差越小,说明观察值围绕均数的分布就越集中,均数的代表性就越好。
此外,在医学中常用“均数1.96标准差”求正常值的范围(或参考值范围),统计学中称为95%可信限(confidencelimit,CL),它的含义是在该区间内包含了95%的观察值,即95%的正常人某指标在这个范围内。
3)四分位数间距与中位数联合使用:
常用来对等级资料或偏态资料进行描述分析,描述它们的集中趋势和离散程度。
2.总体均数估计
由于抽样误差的原因,样本的结果一般都不正好等于总体的结果,因此有必要用样本结果(称为统计量)来推论总体结果(称为参数)。
这种用样本统计量推论总体参数的过程就是参数估计。
参数估计分点估计和区间估计两种。
点估计就是用样本结果代表总体结果的一种推断方法。
区间估计就是对总体参数作出一个范围估计,并说明该范围包含总体均数的可能性有多大,在统计学中该范围被称为可信区间或置信区间(confidenceintervalCI)。
常用的有95%或99%可信区间。
在计算可信区间之前,必须先计算标准误(standarderror),它是描述样本统计量与总体参数离散程度的指标,表示所得样本统计量的可靠程度。
标准误越小,样本统计量(样本均数、样本率)对总体参数(总体均数、总体率)的代表性就越好,反之代表性就差。
总体均数可信区间的计算方法,因是否知道总体标准差而不同。
已知时按正态分布的原理计算,不知时按t分布的原理计算。
当已知时,可用下式计算:
(13-1)
式中X为样本均数,n为样本含量,为总体标准差,/n为标准误,如计算95%可信区间,0.05=1.96,如计算99%可信区间,0.01=2.58。
当不知时,可用下式计算:
(13-2)
式中为样本均数,n为样本含量,s为样本标准差(代替总体标准差),s/n为标准误,t,是按自由度=n-1,由t界值表查得。
3.总体均数与样本均数的比较
通过比较样本均数与已知总体均数0(大量观察所得的稳定值或标准值)之间的差异,来推断样本均数所代表的未知总体均数是否与已知总体均数相等。
当样本量较小时用t检验,要求样本取自于正态分布的总体。
当样本量较大时,如30,特别是50以上,无论样本所来自的总体是否为正态分布,都可用u检验。
t检验、u检验公式如下:
(13-3)
(13-4)
4.配对样本均数的t检验
临床研究中,即同一受试对象接受某项处理的前后或接受两种不同的处理;或者先将条件相同或相近的实验对象进行配对,然后再用随机的方法将其中的一组定为实验组,另一组为对照组。
由此类研究而获得的资料称为配对资料。
对于配对资料,人们感兴趣的是每对观察值差异的平均水平和变异程度,而不是受试对象间的差异。
且可视两次结果的差值为一个样本,因此可以用样本均数与总体均数比较的方法,进行统计处理。
如果处理无影响,理论上差值d的总体均数应为0。
所以可将这类问题看成是样本均数d与总体均数0的比较。
通过对每对实验结果差值的平均数的分析来推断某处理因素对实验结果有无影响或两种处理因素的效果有无区别。
在配对设计中,因观察值的差值被认为是一个样本,要求这些差值接近正态分布,但不要求每组观察值为正态分布。
配对样本均数的t检验公式:
(13-5)
当配对计量资料不具备参数检验条件时,可用符号秩和检验-Wilcoxon配对法进行检验。
具体过程读者可参考相关的统计学书籍。
(二)计数资料
在临床医学研究中,应变量为计数资料时,是指样本中某事件的发生和存在与否,如发病/未发病、死亡/存活、患病/未患病等。
应变量为计数资料的单变量分析就是统计研究样本中具备某种状态的个体占总人数的比例(proportion)。
同应变量为计量资料类似,应变量为计数资料的单变量分析中主要涉及以下内容:
1单个样本某事件发生或存在情况的描述性分析;
2利用样本率估计总体率;
3样本率与总体率的比较。
应变量为计数资料的单变量统计指标和统计方法的选择取决于应
变量的发生是否受时间因素的影响、事件发生频率的高低及观察样本的大小。
选择原则见图13-4。
应变量为计数资料
描述性分析总体率估计总体率与样
本均率的比较
率、比、构成比
二项分布泊松分布二项分布泊松分布
图13-4应变量为计数资料时的单变量分析统计方法选择流程图
1.单个样本描述性分析
计数资料单个样本的描述性统计分析中,常用的统计指标主要有率、比例和比三大类;在临床流行病学研究中根据应变量所反应的事件性质和事件是否受时间影响,进一步区分为发病率、患病率、死亡率等。
有关这些指标的定义、含义、应用范围等已在前面相关章节中介绍,这里不再重复。
2.总体率的估计
总体率的估计包括点估计和可信区间估计。
点估计是用样本率来估计总体率,区间估计是求出总体率的可能范围。
当样本某事件的发生率不太接近0或靠近1时,当样本量n足够大时(n>50),使得np和n(1-p)均大于5,p的分布接近正态分布,可用下式计算总体率的可信区间:
13-6
113-7
式中p为样本率,Sp为率的标准误,为常量,求95%可信区间用1.96,99%可信区间用2.58。
当样本含量较小(n50),特别是p很接近0或1时,可按二项分布原理计算,但计算过程复杂,应用时可直接查相关的统计表得总体率的可信区间。
如果某事件的发生率或(1-)很小(小于0.05),而每次的观察样
本量很大时,可用泊松分布的原理求总体率的可信区间,计算公式如下:
13-8
3.总体均率与样本率的比较
当样本率服从二项分布,n及n(1-)均>5时,可用正态近似原理作u检验。
13-9
式中p为样本率,0为总体率,n为样本数。
如果资料服从二项分布,但n<5时,用二项分布概率函数直接求出累积概率,然后与规定的作比较。
当研究样本事件的发生率服从泊松分布,样本均数X与总体均数0比较的目的就是推断该样本所代表的未知总体均数是否等于0。
常用方法有两种,一为直接概率法,基本思想与二项分布的直接概率法完全相同;其二为正态近似法,当20时,泊松分布逼近正态分布,可用u检验,u值的计算用公式13-10。
13-10
(三)等级资料
与计量和计数资料不同,等级资料的统计分析不涉及总体分布的前提(如正态分布、二项分布),该类资料的统计分析方法被称为“任意分布”(distributionfree)统计法。
总体分布不确定则与参数无关,所以应变量为等级资料的单变量分析,就不存在总体参数估计。
分析内容主要包括:
单样本描述性分析,分析指标可用构成比,也可用中位数或众数。
当使用中位数描述应变量为等级资料的数据时,可用符号等级检验(Wilcoxon法)对配对资料进行假设检验,原理同配对t检验类似。
选择原则见图13-5。
应变量为等级资料
描述性分析配对资料(中位数)
构成比、中位数、众数符号等级检验(Wilcoxon法)
图13-5应变量为等级资料时的单变量分析统计方法选择流程图
二、双变量分析
双变量分析涉及一个应变量和一个自变量。
因此双变量统计分析方法的选择,不仅要考虑应变量的类型,还要考虑自变量的类型。
有关自变量类型的分类标准同应变量类似,故可分为计量资料、计数资料和等级资料三个类型。
双变量分析主要是进行假设检验,检验两变量间是否存在关系(relationship)。
通常,无效假设是应变量与自变量无关。
(一)应变量为计量资料
图13-6展示了应变量为计量资料的双变量统计方法选择流程图。
图中无自变量为等级资料一项,其原因是计量资料与等级资料组合的双变量分析无可供选择的统计方法,除非将计量资料转换为等级资料。
应变量为计量资料
自变量为计量资料自变量为计数资料
简单直线相关简单直线回归二分类变量多分类变量
t检验F检验正态分布偏态分布正态分布偏态分布
t检验Mann-Whitney法F检验Kruskal-Wallis法
图13-6应变量为计量资料时的双变量分析统计方法选择流程图
1.自变量为计量资料
(1)简单直线相关
简单直线相关(Simplelinercorrelation)又称直线相关(linercorrela-tion),用于描述呈正态分布的两连续性变量间的相关关系,其相关程度与方向可用相关系数(correlationcoeeficient)表示,符号为r,计算公式如下:
13-11
相关系数没有单位,其值介于-1~+1之间。
r值为正值表示正相关,r值为负值表示负相关,r值为0表示不相关,r值为1表示完全相关。
r值的绝对值越接近1,说明相关关系越密切。
r值的绝对值0.7,表示相关程度较强;0.4r值的绝对值0.7,表示中等程度相关;r值的绝对值0.4,表示相关程度较弱。
相关系数的假设检验
由样本计算的相关系数,是总体相关系数的估计值。
要判断X、Y间是否有相关关系,要作r所来自的总体相关系数是否为零的检验假设。
如果P值小于或等于a,则拒绝从,可以认为总体相关系数P0,即两变量间有相关关系;反之,如果P>a,则不能认为有相关关系。
检验方法为t检验,统计量t值的计算公式为:
13-12
式中分母为相关系数r的标准误,自由度=n-2。
求得t值后,查t界值表得P值。
也直接查r界值表得P值。
(2)简单直线回归
经相关分析,认为X与Y间存在直线相关(linearcorrelation)关系,并需进一步由X值估计或推测Y值,此时可通过简单直线回归(simplelinearregression)或直线回归(linearregression)分析,找出描述一个变量随着另一变量变化而变化的直线方程,用来确定一条最接近各散点的直线。
统计上称这个方程为直线回归方程(linearregressionequation),称这条直线为回归直线(regressionlinear)。
一般采用最小二乘法找出一条各实测点与它的纵向距离的平方和为最小的直线回归方程:
13-3
式中x,y为相应的两个变量;a为截距,即X为零时,Y的数值;b为直线的斜率,这里称为回归系数(regressioncoefficient),即X每变化一个单位时,Y平均变化多少个单位。
回归系数的计算用下式:
13-14
13-15
同相关系数一样,由样本计算的回归系数,求得的回归方程存在抽样误差,故也需作假设检验,判断回归系数b的值是否是由总体回归系数=0的总体抽得。
可用t检验或方差分析的方法来检验。
在实际应用时,如果已对r进行了假设检验,对b的假设检验可省去