如何正确处理无法考察交互作用的两因素设计定量资料.docx
《如何正确处理无法考察交互作用的两因素设计定量资料.docx》由会员分享,可在线阅读,更多相关《如何正确处理无法考察交互作用的两因素设计定量资料.docx(6页珍藏版)》请在冰豆网上搜索。
如何正确处理无法考察交互作用的两因素设计定量资料
如何正确处理无法考察交互作用的两因素设计定量资料
【关键词】统计学;医学;统计分析;交互作用
1引言
当试验中涉及到两个因素,由于试验安排上存在某些不足(通常是因素各水平组合条件下未做重复试验)或因素之间的特殊关系(通常为嵌套关系),导致无法考察两因素之间的交互作用,这类定量资料可称为无法考察交互作用的两因素设计定量资料[1]。
其试验设计有随机区组设计和双因素无重复试验设计,具有一个重复测量的单因素设计也可看成是此类设计的一个特例(将受试对象看成是隐含的区组因素),还有两因素嵌套(系统分组)设计。
本文讨论了这4种试验设计的适用场合、区别及如何选择正确的方法进行统计学分析。
24种试验设计的适用场合
2.1随机区组设计
随机区组设计是事先将全部受试对象按某种或某些对观测结果有影响的重要非试验因素的不同水平形成若干个区组,使每一个区组内的受试对象在所考察的重要非试验因素上几乎相同,且例数与处理因素的水平数相等,即每一个试验组从每一区组中得到一例受试对象。
此设计适合于安排一个试验因素和一个重要的非试验因素(“区组因素”),实质上是在单因素多水平设计的基础上多考察了一个区组因素,可以消除和抵消重要非试验因素对观测结果的干扰和影响,从而更科学地评价试验因素各水平对观测结果的影响。
这里的区组因素可以是来自受试对象的某一个重要特征,也可以是多个重要特征的综合(复合型区组因素)。
随机区组设计是否优于单因素多水平设计,关键在于所选择的“区组因素”的“能量”,当所选定的区组因素确实对观测结果有重要影响且完全随机的效果无法保证“区组因素”对试验因素各水平组的影响是非常均衡时,随机区组设计一定优于单因素多水平设计。
2.2双因素无重复试验设计
试验中涉及两个试验因素,试验条件为两个试验因素的水平全面组合而成,但两因素各水平组合条件下未做重复试验,这样的设计称为双因素无重复试验设计。
此设计在应用上有严格的限制,仅当有预试验或有充足的专业知识为依据,能表明两个试验因素之间相互独立(其交互作用无统计学意义),且在相同试验条件下定量观测指标的取值离散度很小时,在两因素各水平组合条件下才可以不做重复试验。
否则,就不能采用这种试验设计。
2.3具有一个重复测量的单因素设计
所有受试对象接受相同的处理,并在几个不同的时间点上从同一个受试对象或样品上重复获得同一个定量指标的观测值,这样的设计称为具有一个重复测量的单因素设计。
此设计要求所有的受试对象接受同样的处理,考察其定量观测指标随时间的变化趋势。
若考察同一受试对象的不同部位或组织接受某种处理后的变化特点,也可采用此设计。
这种试验设计的突出特点在于,在不同条件下测自同一受试对象的k(k≥2)个数据之间具有不相等的相关性,即间隔越近相关性越强。
2.4两因素嵌套设计
试验中涉及两个试验因素,且依据专业知识可认为两个试验因素对观测指标的影响有主次之分,主要因素各水平下嵌套着次要因素,这样的实验设计称为两因素嵌套设计。
此设计有两种情形。
第一种情形是:
受试对象本身具有分组再分组的各种分组因素,处理(最终的实验条件)是各因素各水平的全面组合,且因素之间在专业上有主次之分;第二种情形是:
受试对象本身并非具有分组再分组的各种分组因素,处理(最终的实验条件)不是各因素各水平的全面组合,而是各因素按其隶属关系系统分组,且因素之间在专业上有主次之分。
此设计主要应用于两个试验因素对观测指标的影响有主次之分的试验研究中,两个试验因素之间的主次关系要有专业依据,不能凭空想象而定。
值得注意的是,两因素嵌套设计只是嵌套设计的一种。
在实际应用中,嵌套设计不仅可以应用于两个试验因素对观测指标的影响有主次之分的试验研究,也可用于多个试验因素对观测指标的影响有主次之分的试验研究。
这时,主要因素各水平下嵌套着次要因素,次要因素各水平下又嵌套着更次要的因素。
34种试验设计的相同点与不同点
3.1相同点
4种试验设计均涉及两个因素(具有一个重复测量的单因素设计可以将受试对象看成是隐含的区组因素),就资料表达的标准型而言,前3种试验设计的表达形式很相近,可以用同一个表格表示。
见表1。
表1无法考察交互作用的两因素设计(略)
若A是重要非试验因素,B是试验因素,则表1即为随机区组设计定量资料的标准型;若A、B均为试验因素,则表1即为双因素无重复试验设计定量资料的标准型;若A是受试对象编号,B是对同一受试对象进行测量的时间因素或同一受试对象的部位因素,则表1即为具有一个重复测量的单因素设计定量资料的标准型。
两因素嵌套设计因其两个试验因素在专业上存在主次之分,其资料表达的标准型与上述3种试验设计略有差异。
见表2。
表中第1列“编号”表示独立重复实验,A因素为主要试验因素,包含m个(m≥2)水平,B因素为次要试验因素,嵌套于A因素各水平之下,可以取不同的值或不同个数。
表2两因素嵌套设计定量资料的标准型(略)
3.2不同点4种试验设计涉及的因素性质不同。
随机区组设计是一个试验因素和一个重要非试验因素;双因素无重复试验设计是两个试验因素;具有一个重复测量的单因素设计是一个试验因素和一个隐含的重要非试验因素;而两因素嵌套设计中包含两个试验因素,但两因素对定量观测结果的影响有主次之分,主要因素在上层,次要因素嵌套在其下层,且下层因素的水平数可以不等,两因素各水平组合下应做独立重复试验。
4种试验设计从受试对象分组角度看是有区别的。
随机区组设计中,区组因素与受试对象的分组有直接的联系,只有在同一个区组内的受试对象,才能被完全随机地分配进入各试验组;双因素无重复试验设计中,受试对象可以完全随机地被分配进入两因素任何一个水平组合中去;具有一个重复测量的单因素设计中,受试对象全部都要接受所有可能的处理,所以不需要将受试对象进行随机分组;而在两因素嵌套设计中,能否随机分配受试对象,取决于因素是否与受试对象的分组有直接关系。
有直接关系(如年龄、性别),则不可随机分配,只能从特定的子总体中随机选取受试对象;无直接关系(如服药种类、剂量大小),则可对已获得的受试对象进行随机分组。
4正确分析无交互作用的两因素设计定量资料
4.1正确识别定量资料对应的试验设计类型
例1为了研究5种品种(A~E)玉米的产量之间的差别是否有统计学意义,农业科技人员做了如下的试验:
将一块试验田划分成4个区组,再将每个区组等分成5个子区,用随机的方法决定每个区组内5个子区中任何一个种植一种玉米。
该试验由于气候不良,有许多子区内有缺株,各区株数参差不齐。
好在研究者记录下了每个子区的存活株数及产量。
结果见表3[2]。
请判断该定量资料的试验设计类型并选择合适的统计分析方法?
表35种不同玉米在各子区的存活株数及产量(略)
释疑试验中先将试验田作为重要的非试验因素形成4个区组,再随机决定每个区组内5个子区中各自种植的玉米品种,“地块”是区组因素,“玉米品种”是试验因素,所以该定量资料的试验设计类型应为随机区组设计。
正确做法先检查定量资料是否满足参数检验的前提条件,若满足,可以“株数”为基础值,采用随机区组设计一元定量资料的协方差分析;若不满足,可进行适当的变量变换或采用Friedman秩和检验。
例2某课题组研究益髓生血颗粒治疗SEA/ααCS基因型患者血红蛋白H(hemoglobinH,HbH)病的临床疗效,选取13名SEA/ααCS基因型HbH患者,给以益髓生血颗粒治疗,疗程为3个月。
分别记录患者治疗前、服药1个月、服药2个月及服药3个月时血红蛋白的含量。
结果见表4。
请问:
采用随机区组设计定量资料方差分析处理此数据,妥否?
表4益髓生血颗粒治疗前后SEA/ααCS基因型HbH患者血红蛋白含量(略)
释疑对每一位患者来说,在4个时间点上分别测量其血红蛋白含量,说明“时间”因素是一个重复测量因素,且所有患者均接受同一种治疗方法——服用益髓生血颗粒,因而这是具有一个重复测量的单因素设计定量资料。
直接采用随机区组设计定量资料方差分析处理此数据是不妥的,因为用随机区组设计定量资料方差分析处理具有一个重复测量的单因素设计定量资料有特殊的前提条件——球对称条件。
当球对称条件满足时,采用随机区组设计处理与单因素重复测量设计定量资料方差分析的结果一致;当球对称条件不满足时,若采用随机区组设计来处理,与单因素重复测量设计定量资料方差分析不校正的结果一致,当然会增大犯Ⅰ类错误的概率[3]。
正确做法先检查定量资料是否满足球对称条件,若满足,可采用随机区组设计定量资料方差分析;若不满足,可采用校正的具有一个重复测量的单因素设计定量资料一元方差分析或进行多元方差分析、轮廓分析和拟合生长曲线模型、混合效应模型等。
多元方差分析对协方差阵不作要求,但把握度相对来说较低,统计结果不好解释[4]。
例3某医生在化疗前后3个不同时间点上分别监测乳腺癌病人尿液中3项指标X1、X2、X3的数值,以便监测化疗所产生的肾毒性的大小。
结果见表5[5]。
请问:
该定量资料取自什么设计类型?
应该采用什么方法进行统计学分析?
表5乳腺癌病人化疗前后不同时间点上3项指标的测定结果(略)释疑同一个病人在化疗前后3个不同时间点上分别监测尿液中3项指标X1、X2、X3的数值,“监测时间”是一个重复测量因素,且无其他试验因素,所以该定量资料所对应的设计类型为具有一个重复测量的单因素设计。
正确做法若3项指标X1、X2、X3在专业上有联系,以选用具有一个重复测量的单因素设计三元定量资料的方差分析为宜;若3项指标在专业上无联系,可对每个指标分别进行具有一个重复测量的单因素设计一元定量资料的方差分析。
例4某医生欲研究回心草各单体成分对实验性心肌缺血血流动力学的影响,选取健康新西兰家兔若干只,体质量(2.0±0.3)kg,雌雄不计,将其随机分成9组:
胡椒碱高剂量组(100nmol/L)、胡椒碱中剂量组(10nmol/L)、胡椒碱低剂量组(1nmol/L)、胡椒酸甲酯高剂量组(100nmol/L)、胡椒酸甲酯中剂量组(10nmol/L)、胡椒酸甲酯低剂量组(1nmol/L)、咖啡酸甲酯高剂量组(100nmol/L)、咖啡酸甲酯中剂量组(10nmol/L)、咖啡酸甲酯低剂量组(1nmol/L)。
所有家兔处死后,造缺血缺氧的离体心脏模型,给以各试验组相应种类及浓度的药物进行试验,记录各组试验家兔血流动力学指标的平均值。
结果见表6。
假设对“单体成分”和“剂量”两个因素来说,家兔的冠状动脉流量和心率的分布近似正态、等方差,且两因素之间的交互作用无统计学意义。
请判断该定量资料所对应的是什么试验设计类型?
处理该定量资料应选用的统计分析方法是什么?
表6回心草各成分对缺血缺氧后兔离体心脏血流动力学的影响(略)
释疑本定量资料有两个试验因素,全部试验条件由两因素各水平全面组合而成,每个试验条件下仅获得家兔的平均冠状动脉流量和平均心率。
就目前的资料而言,无法获得各试验条件下独立重复试验的原始数据,因此该定量资料应为双因素无重复试验设计定量资料。
若表6中给出的数据不是各试验条件下的平均值,而是每只家兔的原始冠状动脉流量和心率数据,且表中每个格子处有两个或两个以上独立重复试验数据,则此定量资料应为“两因素析因设计定量资料”或“两因素嵌套设计定量资料”。
如果没有专业依据认为“单体成分”和“剂量”两个因素对观测指标的影响有主次之分,设计类型即为前者;反之,则为后者。
正确做法该定量资料的试验设计类型为双因素无重复试验设计,若冠状动脉流量和心率在专业上有联系,分析方法以选用随机区组设计二元定量资料的方差分析为宜;若两个指标在专业上无联系,可对每个指标分别进行随机区组设计一元定量资料的方差分析。
例5某工程师为考察制造电池的材料与电池使用时的环境温度对电池的使用寿命(小时)长短的影响有无统计学意义,同时考察了甲、乙、丙3种材料和3种温度(分别为15
瘙_簛_F、70
瘙_簛_F、125
瘙_簛_F)的各种组合。
每种组合条件下独立重复检测了4个电池。
结果见表7[1]。
由专业知识得知,制造电池的材料类型对电池的使用寿命的影响小于环境温度的影响。
请问这是一个什么试验设计类型?
应当如何进行统计分析?
表7材料类型与环境温度对电池使用寿命影响的实验研究结果(略)
释疑该定量资料涉及“材料”和“温度”两个试验因素,各有3个水平,两因素各水平全面组合,各种组合条件下独立重复检测了4次,又由于“材料”对观测指标的影响小于“温度”,所以该定量资料所对应的试验设计类型为两因素嵌套设计,符合两因素嵌套设计的第一种情况。
正确做法若资料满足参数检验的前提条件,可采用两因素嵌套设计定量资料的方差分析;若不满足,可进行相应的变量变换或直接采用对应的秩和检验(若能找到相应的方法)。
例6在某项化合物的试验研究中,涉及到催化剂的种类(因素A)和温度(因素B),由专业知识可知,对该化合物转化率的影响,催化剂的作用大于温度,而且各催化剂条件下所用的温度不完全相同,设计格式和资料见表8[2]。
试判断此定量资料所取自的试验设计类型,并说明如何分析此定量资料?
表8不同催化剂在不同温度下对某化合物转化率影响的观测结果(略)
释疑本试验中受试对象为“化合物样品”,两个试验因素分别为“催化剂种类”和“温度”,定量的观测指标为“转化率(%)”。
由专业知识可知,对该化合物转化率的影响,催化剂的作用大于温度。
所以,该定量资料类型应为两因素嵌套设计定量资料,符合两因素嵌套设计的第二种情况。
正确做法先检查资料是否满足参数检验的前提条件,从而决定采用两因素嵌套设计定量资料的方差分析或相应的秩和检验(若能找到相应的方法)。
值得注意的是,“转化率”从字面上看很像是定性数据,但每次试验结果因只能定量测出一个转化率(不是转化的样品数除以总样品数),故应将其视为定量数据。
4.2检查定量资料是否满足参数检验的前提条件
在进行定量资料方差分析前,需要先检查定量资料是否满足参数检验的前提条件。
随机区组设计定量资料需要满足“独立性”、“正态性”和“方差齐性”,才能采用随机区组设计定量资料方差分析,否则需要对原始数据进行合适的变量转换,转换后的数据满足前述3个条件后才能对变换后的数据采用随机区组设计定量资料方差分析,也可采用Friedman秩和检验直接进行处理。
双因素无重复试验设计定量资料要求与随机区组设计定量资料相同。
具有一个重复测量的单因素设计定量资料进行方差分析需要满足“正态性”、“方差齐型”及“球对称性”,否则需进行相应的变量变换或校正;通常可采用混合效应线性模型处理具有重复测量设计定量资料,通过选取合适的“协方差结构”替代“球对称性”检验[5]。
【参考文献】
1HuLP.Applicationoftripletypetheoryofstatisticsinexperimentaldesign.Beijing:
People'sMilitaryMedicalPress.2006:
6470.Chinese.
胡良平.统计学三型理论在实验设计中的应用.北京:
人民军医出版社.2006:
6470.
2HuLP.Thegeneraltrainingofmedicalstatistics.Beijing:
PressofMilitaryMedicalSciences.2007:
219220.Chinese.
胡良平.医学统计实战练习.北京:
军事医学科学出版社.2007:
219220.
3WangLQ,YangJY,TangLM,etal.ANOVAofquantitativedatawithrepeatedmeasurementdesignofonefactorbySASandSPSS.HuaBeiMeiTanYiXueYuanXueBao.2005;7
(1):
1719.Chinese.
王立芹,杨俊英,唐龙妹,等.单因素重复测量设计的方差分析及SAS与SPSS的实现.华北煤炭医学院学报.2005;7
(1):
1719.
4ChenCS,XuYY.Thetestsforthepresuppositionsconcerningthevalidityofunivariateanalysisofvariancewithrepeatedmeasures.ZhongguoWeiShengTongJi.2000;17
(2):
7476.ChinesewithabstractinEnglish.
陈长生,徐勇勇.重复观测数据单变量方差分析的前提条件的检验.中国卫生统计.2000;17
(2):
7476.
5HuLP.AppliedcourseofstatisticalanalysisbyWindowsSAS6.12&8.0.Beijing:
PressofMilitaryMedicalSciences.2001:
215218.Chinese.
胡良平.WindowsSAS6.12&8.0实用统计分析教程.北京:
军事医学科学出版社.2001:
215218.