完整版第18章样本含量的估计docx.docx
《完整版第18章样本含量的估计docx.docx》由会员分享,可在线阅读,更多相关《完整版第18章样本含量的估计docx.docx(33页珍藏版)》请在冰豆网上搜索。
完整版第18章样本含量的估计docx
第十八章样本含量估计
无论是调查研究还是实验性研究,医学研究大都是抽样研究,最终目的在于利用实际观测得到的样本信息推断未知的总体特征,即统计推断。
抽样研究设计
时需要回答一个非常关键的问题:
样本中包含多少个研究对象(人、动物、生物学材料等)才能既满足统计学要求,完成有效的统计推断,又照顾研究的可行性、伦理学等实际问题,从而最大限度控制研究成本和研究风险,提高研究效率。
这就是样本含量估计(estimationofsamplesize)。
本章将从统计推断的目的出发,介绍样本含量估计意义及常用的计算公式,并在此基础上介绍检验效能的估计(poweranalysis)。
第一节样本含量估计的意义及方法
一、样本含量估计的意义
由于抽样研究中抽样误差不可避免,样本统计量与其所对应的总体参数间总是存在一定差异。
因此,尽量减小抽样误差是提高统计推断精度的必然要求。
在总体变异性确定的条件下,样本中所含的研究对象数越多,抽样误差必然越小,样本统计量的稳定性肯定越高,总体参数的估计精度越好,假设检验中的检验效
能(power=1-)亦会越高,从而避免出现假阴性的结论。
同时在实验性研究中,只有在研究对象数量足够大时才能使随机分组更加有效,从而保证组间均衡性。
但在实际研究中,除了要考虑抽样误差外,还需考虑研究的可行性、结论的时效性、医学伦理以及非随机误差的影响等实际问题,并非研究对象数越多越好。
比如在改良肩周炎贴膏临床试验中,如果片面地追求大样本,研究中所需的人力、物力、财力等物质支持必然增大,研究的可行性下降。
由于需纳入更多病例,可
能会延长产品研发周期,影响新药投产上市;若增加医院或临床实验中心参与该研究,又增加了组织协调的工作量和工作难度。
同时增加各种混杂、偏倚发生的机会,比如由于肩周炎发病、预后与季节、气候密切相关,临床病例接收时间太长,组内病例同质性差;测量仪器增多导致测量误差增大,观察疗效的医院、医生增多,研究结果的一致性降低等现实问题,使得试验结果难于分析或者难以合理解释,影响研究结论的科学性。
另外,由于所施加干预措施可能存在的不良事件反应尚属未知,让过多的临床病例面临风险,亦有悖医学伦理原则。
因此,恰当的样本含量应该是满足医学科研统计学要求,保证一定推断精度
和检验效能的前提下的最少研究对象数。
二、样本含量估计的方法
样本含量的估计方法目前主要有两种:
一是公式法,可根据研究目的、设计
类型、已知条件等选择合适的公式进行估算,是目前使用最广泛的方法。
二是查
表法,统计学家利用公式法获得样本含量后编制成工具表,使用者只需根据已知
条件查表即可获得相应的样本含量,省去了繁杂的计算过程,但较为局限。
本章
将主要介绍公式法样本含量的估计。
第二节调查设计中样本含量估计
调查研究的目的在于描述健康相关状态、事件在研究当时某特定群体中的分布,并在此基础上通过不同群体分布的比较,探索可能的关联或影响因素。
但其主要目的仍在于描述分布,如考察某地菜农钩虫感染率、医学生的吸烟率、某地健康男性居民血红蛋白的含量等。
若研究方式为抽样研究,便需要利用已知的样本信息推断总体参数,如总体均数、总体率的估计等。
因此本节将根据所估计的参数不同,介绍样本含量估计的基本条件,及总体均数、总体率估计中的样本含量估计方法。
一、样本含量估计的基本条件
采用公式计算样本含量,必须有一些先决条件和基本信息,下面以例
18.1
为例简单介绍总体参数估计中样本含量估计的基本条件。
例18.1拟采用单纯随机抽样的方法调查某地区男性成年人群血红蛋白含
量(g/L)的平均水平。
根据文献,中国男性成人血红蛋白含量为(140±30)g/L,要
求所获得允许误差不超过5g/L,取0.05,问需要调查多少位该地区成年男性?
此研究为调查研究,目的在于利用抽样获得的样本均数X估计该地区成年
男性血红蛋白含量(g/L)的总体均数。
假定该地区成年男性血红蛋白含量X服从
正态分布,以文献中中国男性成人的血红蛋白含量信息进行替代(140g/L,
30g/L),则该地区成年男性的血红蛋白含量X~N(140,302)。
题意要求允许误差不超过5g/L,=0.05,可解释为样本均数X与总体均数
之间的差距(X)不超过5g/L,且X落在135~145g/L之间的概率为
1-=0.95。
由于总体服从正态分布,样本均数的分布亦服从正态分布,当抽样方
式为单纯随机抽样,且总体为无限总体时,标准误X
X~N(,x2)。
可用图18.1表示。
n,X的分布记为
图18.1样本均数的抽样分布示意图
结合图18.1,根据正态分布的原理可得:
X
Z2(18.1)
nn
上式反推即可获得单纯随机抽样研究中总体均数估计中的样本含量公式:
Z
2
/2
(18.2)
n
式中,为总体标准差;为允许误差;
Z/2为标准正态分布
下双尾Z值。
如例18.1中
=30g/L,=5g/L,
Z/2Z0.05/21.96,代入式
得:
(18.2)
1.96
30
2
n
138.3
5
所以至少需要调查139人才能达到所要求的精度。
由公式(18.2)可知,在总体服从正态分布且为无限总体、抽样方式为单纯随
机抽样的前提下,其所需基本信息包括:
1.置信度1-
置信度越高,需要的样本含量越大,常取
=0.05。
2.允许误差(allowableerror)是指研究者要求的样本统计量与其对应的总
体参数之间的最大差距,其既可以用绝对误差(X或p),也
可以用相对误差来表示,其中X或p,则绝对误差
或。
根据前面章节置信区间的估计,即区间长度的一半。
允许误差越小,
所需样本含量越大。
3.总体变异度常用总体标准差刻画,总体率估计中的1。
总体的变异程度越高,所需样本含量越大。
二、单纯随机抽样的样本含量估计
(一)估计总体均数时的样本含量估计
调查研究中利用抽样获得的样本均数
X估计总体均数
。
例18.1即为估计
总体均数时的样本含量估计,这里不再赘述。
需指出的是,式
(18.2)适用于无限
总体抽样时的样本含量估计,对个体数为
N的有限总体中进行单纯随机抽样时,
需在式(18.2)计算出样本含量n的基础上利用式(18.3)进行校正:
nc
n
(18.3)
1
nN
若抽样比nN很小,如小于0.05或0.1,这种校正可省略。
同时,实际工作中总体标准差
常常未知,可首先通过小规模预调查获得的
样本标准差S估计。
此时,若继续采用式(18.2)估计样本含量,往往造成样本
量的低估,尤其当样本量较小时,实际上难以达到总体均数估计的精度要求。
需
用式(18.4)进行校正:
t/2
2
S
n
(18.4)
式(18.4)中t/2表示自由度n1时t分布界值,在估计出样本含量前其未
知,可先用Z/2计算出初步的样本含量n
(1),并以自由度v
(1)n
(1)1获得t/2,
(1),代入式(18.3),求出更近似的n
(2),依次类推,直至样本例数稳定。
但在实际应用中,如果样本估计量较大(如n50),为方便起见可无需校正。
如例18.1中,若根据前期预调查得该地血红蛋白含量标准差
s=30g/L,其余
条件不变,问需要调查多少该地区居民?
根据Z/2计算出的初步样本含量n
(1)=139,t0.05/2,138
1.9773,带入式(18.4)得:
2
n
(2)
1.977330
140.7141
5
以n
(2)=141,t0.05/2,1401.9771,代入式(18.4)得n(3)
140.7
141,n
(2)n(3),
可停止计算。
故至少需要调查
141位成年男性。
(二)估计总体率时的样本含量估计
调查研究中常需利用抽样获得的样本率p估计总体率,由第十章的学习可
知,当n较大,和1
均不太小,如n
和n(1
)均大于
5
时,样本率p的分
布亦近似服从正态分布,记为p~N(,
p2),其中
p
(1
)n,同样根据
正态分布原理,由式(18.1)反推可得:
Z
2
/2
(1
)
(18.5)
n
式中,为总体率,其它符号含义同前。
总体率未知时,可取
=50%,以使
(1)达到最大,算得样本含量也最大,从而保证总体率推断的精确性。
例18.2研究某地菜农钩虫感染率,要求允许误差不超过
2%,取
0.05,
需调查多少人?
根据题意,
0.05,
=
Z
0.05/2
,
=0.50
Z/2
=1.96=2%=0.02。
总体率未知,取
代入式(18.5)得:
Z/2
2
2
n
(1
)
1.96
2401
0.5(10.5)
0.02
式(18.5)同样仅适用于无限总体抽样的样本含量估计,对有限总体进行抽样时,仍需按式(18.3)进行校正。
同时,当总体率
接近0或1时,如
>70%或
<30%,应用式(18.5)会有偏
差,此时可对作以弧度为单位的平方根反正弦变换,
再利用正态分布原理获得
样本含量的估计公式:
57.3Z/2
2
(18.6)
n
(1))
arcsin(
此外,亦可使用基于Poisson分布的正态近似样本含量估计等,读者可根据上述理论自行推导,或参考其它书籍,这里不再赘述。
三、其它概率抽样方法的样本含量估计
概率抽样方法不同,样本含量估计方法各异。
对系统抽样而言,抽样间隔不同,其抽样误差也不同,故系统抽样尚无统一的方法估计样本含量。
但如果研究的变量与总体中个体的编号无确定的上升、下降或周期性变化的关系,系统抽样的抽样误差应小于单纯随机抽样,可参照单纯随机抽样所计算的样本含量。
这里
简单介绍分层随机抽样和整群抽样中样本含量的估计。
(一)分层随机抽样样本含量的估计
抽样方式为分层抽样研究中,若总体为无限总体,可在估计各层总体参数
2
i
或i基础上,以各层例数在总体中所占比例Wi为权重进行加权平均,获得总体
方差(2
2
Wi)
或总体率
(
iWi)
,再按式
或式
估计调查总
i
(18.2)
(18.5)
例数。
若总体为有限总体,设总体例数为N,共有L层,每层例数为Ni,各层总体
2
(总体率的估计中
2
i(1
i)),则调查总例数的估计公式为:
方差为i
i
n
Ni2
i2wi
(18.7)
2
2
2
2
2
N
(
Z2)
Ni
i
式中wi为各层样本比例(samplefraction),即wi
ni
n,余符号同前。
若按比例分
配,则wi
NiNWi;若进行最优分配,
wi
Ni
i
Nii。
得到总的样本例
数n后,各层样本量为ni
nwi。
(二)整群随机抽样样本含量的估计
整群抽样中,由于群内个体的相似性和群间个体的异质性,使得整群抽样获得的方差往往大于单纯随机抽样的方差。
若定义整群抽样中计算的方差与单纯随机抽样中方差比值为设计效率DEFF(designeffect),其估计公式为:
DEFF1
(m
1)
式中m为各群平均个体数;
为群内相关系数(intra-clustercorrelation,ICC),即
群间方差
2
2
2
B2(
B2
W2)),反映群内个体的相似
B与总方差
B
W的比值(
程度,其未知时,可通过预调查进行估计。
整群随机抽样样本含量nC的计算,首先按单纯随机抽样计算样本含量n,再
乘以整群抽样的设计效应,则:
nCnDEFF
(18.8)
所需群数GnCm。
第三节实验研究中的样本含量估计
实验研究的目的主要在于通过不同干预措施或实验条件效应指标(均数或率)的比较,说明处理因素的作用,如研究方式为抽样研究,比较的过程即为假设检验。
需要特别指出的是不仅在实验研究中存在比较的过程,在调查设计中为了探索可能的影响因素,以及流行病学中的病例对照研究、队列研究也需要进行比较,即也存在假设检验的问题。
因此本节将从假设检验中不同变量类型及设计形式出发,介绍样本含量估计条件和估计方法。
一、样本含量估计的基本条件
假设检验中样本含量的估计公式在不同情况下虽有所不同,但其基本思想大同小异,估计的基本条件也大致相同。
这里以例18.3为例介绍估计的基本条件。
例18.3欲研究海拔对血红蛋白的影响,拟在某高原地区对健康成年男性进行抽样调查,以确定高原地区成年男性的血红蛋白是否高于一般成年男性。
已知一般正常成年男子血红蛋白为(140±30)g/L,根据医学专业知识,当血红蛋白含量
相差至少在10g/L以上时,可认为二者存在差异。
取单侧=0.05,1-
=0.90,
问应对多少名高原地区健康成年男性进行检查?
若血红蛋白服从正态分布,此研究目的在于若高原成年男性血红蛋白总体均
数与一般成年男性人群总体均数0=140g/L之间的差别在10g/L及以上,且
总体标准差30g/L,则利用抽样研究获得的高原地区成年男性血红蛋白样本
信息发现这种差异,并保证发现所存在差异的能力(即检验效能)1-=0.90。
通过前面章节学习不难发现,此时需进行单样本设计均数比较的假设检验:
H0:
0140g/L(高原地区成年男性血红蛋白均数与一般正常成年男子
相同)
H1:
0150g/L(高原地区成年男性血红蛋白均数比一般正常成年男
子高10g/L)
注意:
这里的H1:
1不同于前面章节建立假设时备择假设的写法
H1:
0,后者未给出的具体数值。
所以前面有关章节介绍过的假设检验,
不能估计犯第二类错误的概率和检验效能1-。
例18.3中,由于总体服从正态分布,样本均数的分布亦服从正态分布,标
准误
X
n,在H0规定的总体中
X~N(
0,
x2),在H1规定的总体中抽样,
样本均数
X~N(
0
x2),可用图
18.2表示。
图18.2假设检验中样本均数的分布示意图
从图18.2可见,在H0成立的正态分布中,在特定的检验水准
下,临界点
c(图18.2中的圆点)的坐标为:
c
0
Z
n。
进一步考虑控制第二类错误时,
假设真正的总体分布位置为图中
H1所对应的
0
,那么当H1分布c点坐标
左侧面积为
时,可同时控制此假设检验的效能为1-
,即
c(0)Z
n,从而有:
0
Z
n
(
0
)Z
n
(18.9)
推导可得:
(Z
Z
)
2
n
(18.10)
这样得到的样本量估计就同时控制了假设检验的第一类错误
和第二类错误
(即检验效能为
1-)。
式18.10中,为总体标准差,
为总体均数间差异,Z
为指定检验水准
下的单侧Z值,若为双侧检验应改为Z
2,为指II型错误
Z
下的单侧Z值。
需要注意的是,公式
18.10中的
根据无效假设有单双侧之分,而
只有单
侧。
因为确定
必须考虑无效假设H0
不成立时真正的总体分布位置,而此时真
正的总体分布位置只会在
0的左边或右边(
0在左边,
0在右边),两者
只能居其一,不可能既在左边又在右边。
例18.3中=30g/L,=10g/L,ZZ0.051.65,ZZ0.101.28,代入
式(18.10)得:
(1.65
1.28)
2
30
n
10
77.378
所以至少需要调查78人。
由公式(18.10)可知,在假设检验样本含量估计中,所需基本信息包括:
1.
I型错误概率
即假设检验中的检验水准,
愈小,所需样本含量愈多。
对于相同的,双侧检验比单侧检验所需样本含量多。
通常取0.05。
2.
II型错误概率
或检验效能(1
)II型错误的概率愈小,检验效能愈大,
所需样本含量愈多。
一般要求检验效能
≥0.80,通常取0.20或0.10。
3.
欲比较的两总体参数间的实际差异
如两总体均数的差值
1
2,两总体率的差值
1
2。
愈大,所需样本含量愈小。
4.
总体变异度
比较均数时需了解总体标准差
,比较频率时需了解总体
概率1和2。
总体的变异度愈高,所需样本含量愈多。
二、均数比较中的样本含量估计
(一)单样本设计均数比较的样本含量估计
例18.3即为单样本设计均数比较的样本含量估计的情形,这里不再赘述。
当总体标准差未知时,可用样本标准差S代替。
此时,以t分布中对应的t和t
界值代替Z和Z,式(18.10)就转换为:
(t
t
2
)S
n
(18.11)
但n求出之前,自由度未知,
t和t查不出,可首先利用Z计算出初步的样本
含量n
(1),并以自由度v
(1)n
(1)
1获得t,
(1)
,代入式(18.11),求出更近似的n
(2),
依次类推,直至样本例数稳定。
(二)配对设计均数比较的样本含量估计
配对设计假设检验的目的在于通过样本信息考察配对数据差值的总体均数
d与0之间的差异,与上述单样本设计均数的比较并无本质区别,其样本含量
计算公式只要将式(18.10)中改为d即可,单侧检验时即:
(ZZ)
2
d
(18.12)
n
例18.4
欲研究某药对四氧嘧啶糖尿病模型小鼠的降血糖作用。
假设该药使
空腹血糖下降2.0mmol/L及以上有专业意义,若d=1.7mmol/L,
取单侧0.05,
检验效能1-
取0.90,需要多大的样本含量?
本例的研究目的在于通过某药治疗四氧嘧啶糖尿病模型小鼠前后血糖的动
态变化(差值)来说明药物的疗效,治疗前、治疗后血糖值间存在关联,可看成是
配对设计,或关联样本。
根据题意d=1.70mmol/L,δ=2.0mmol/L,=0.05,Z0.05=1.65;=0.10,
Z0.10=1.28,代入式(18.12)得:
(ZZ)
2
2
d
(1.651.28)1.7
n
6.2
2.0
故需7只四氧嘧啶糖尿病模型小鼠。
(三)独立两样本设计均数比较的样本含量估计
独立两样本设计指的是相对于配对设计(或关联样本)而言,两样本中的个体测量值彼此独立,没有关联。
常见于实验性研究中的完全随机设计样本,及观察性研究中分别独立从两个总体抽样获得的样本。
独立两样本设计均数比较的假设检验中
0
1
2,H1:
1
2进一步可改
写为
H0:
1
2
0,H1:
1
2
0,即通过样本均数的差值考察两总体均数差
值与0之间的差异。
此时,若两总体均服从正态分布,且总体方差齐,样本均数
差值的分布记为X1X2~N1
2,
2(1
1),定义样本比例Q1
n1/N,
n1
n2
Q2n2/N,不难推导两组总例数
N的计算公式为:
(Z/2
Z)
2
Q1
1
Q2
1
(18.13)
N
式中
、Z
/2、Z含义同前,
1
2,n1N