重复测量资料的方差分析20160428...ppt
《重复测量资料的方差分析20160428...ppt》由会员分享,可在线阅读,更多相关《重复测量资料的方差分析20160428...ppt(59页珍藏版)》请在冰豆网上搜索。
重复测量资料的方差分析,于石成2016-04-28,讲授内容,重复测量数据特征重复测量资料方差分析实例及SAS实现多变量方差分析,同一受试对象的同一观察指标在不同时间点上进行多次测量所得的资料,常用来分析该观察指标在不同时间点上的变化。
目的:
就是比较不同时间点动态变化趋势。
一、重复测量数据特征,
(1)平衡资料:
如果每一个体重复测量的时间和次数相同,称为平衡资料。
(2)非平衡资料:
不同个体重复测量的时间点不同,或重复次数不同,称为非平衡资料。
(1)同一观察对象的重复测量值之间是非独立的,后一次测量的数据可能受前一次测量结果的影响。
这不符合传统的统计分析方法中关于独立性的假设。
(2)观察指标在所测量的时间范围内可能成趋势性变化。
(3)观察值的变异来源较多,有来自个体内的变异,个体间的变异,或更高水平上的变异;变异可能与时间有关,或与其他协变量有关。
重复测量资料的特点:
当对同一受试对象在不同时间重复测量次数p3时,称为重复测量数据。
举例1:
为研究某食物对血清胆固醇浓度的影响,各取7只兔子,分别以正常食物和待研究食物喂养,在实验前、喂养5星期、10星期后,各取血测量其中胆固醇浓度,其自然对数转换后的数据见下表。
问血清胆固醇浓度随时间变化的趋势是否受该食物的影响?
举例2:
每一根线代表1只家兔,举例3:
每一根线代表1名病人,同一观察单位具有多个观察值,而这些观察值来自同一受试对象的不同时点(部位等),这类数据间往往有相关性存在,违背了方差分析要求数据满足独立性基本条件。
二、重复测量资料方差分析,重复测量资料不合适的处理:
简单处理:
对平衡的重复测量资料,分别在各时间点上进行分析;集合分析:
将各个体的几次不同观察值相加,得到该个体的一个综合值,再进行比较分析。
重复测量资料的分析方法:
重复测量的方差分析(ANOVAwithrepeatedmeasures);广义估计方程(generalizedestimatingequations,GEE);多水平统计模型(multilevelstatisticalmodel)。
两因素重复测量资料方差分析:
重复测量资料的方差分析总思想:
将总变异分解为:
对象间(betweensubjects)变异SS受试对象间=SS处理+SS个体间误差对象内(withinsubject)变异SS受试对象内=SS时间+SS处理与时间交互+SS个体内误差,重复测量方差分析模型:
两因素重复测量资料的方差分解:
郭海强:
两因素重复测量资料的方差分析及其SAS程序实现.中国卫生统计.,1.单组重复测量指同一组内(或接受同一种处理)的多个受试者,在多个时间点上的反应变量所作的测量,又称为单变量重复测量。
2.多组重复测量指将受试者按处理的不同水平分为几个组,对这些组内的每一受试者,都在不同时间点对他们的反应变量进行测量。
重复测量资料方差分析条件:
1.正态性:
处理因素的各处理水平的样本个体之间是相互独立的随机样本,其总体均数服从正态分布;2.方差齐性:
相互比较的各处理水平的总体方差相等,即方差齐;3.各时间点组成的协方差阵(covariancematrix)具有球形性(Sphericity)特征。
重复测量资料的协方差矩阵:
球形对称的含义:
所有两两时间点变量间差值对应的方差相等。
对于yi与yj两时间点变量间差值对应的方差可采用协方差矩阵计算为:
对于yi与yj两时间点变量间差值对应的方差可采用协方差矩阵计算,s1-22=10+202(5)=20s1-32=10+30-2(10)=20s1-42=10+40-2(15)=20s2-32=20+30-2(15)=20s2-42=20+40-2(20)=20s3-42=30+40-2(25)=20,本例差值对应的方差相等,说明球形对称。
球形对称的检验:
Mauchly法检验协方差阵是否为球形:
H0:
资料符合球形要求H1:
资料不满足球形要求检验的P值若大于研究者所选择的显著性水准=0.05时,说明协方差阵的球形性质得到满足。
如果满足球性假定条件,可直接采用普通的单变量方差分析。
如果不满足球性假定条件,可用两种方法:
(1)采用多变量方差分析(MANOVA);
(2)对单变量方差分析的结果进行校正。
球性假定不满足时的处理:
该法通过校正自由度从而实现校正P值,它并不影响参数的估计值。
校正系数(Epsilon),它反映球性假定偏离程度。
当=1时,表示对球性无偏离,即满足球性假定;1时,表示偏离球性,距离1越远,偏离程度越大。
常用的校正方法有两种,即G-G(Greenhouse-Geisser)和H-F(Huynh-Feldt)系数校正。
校正方法:
两种校正方法的比较:
两种方法校正后,F临界值较原先大,提高了拒绝H0的界值,减少犯I类错误的概率。
一般认为G-G校正较保守,Girden建议:
当0.75时,最好采用H-F校正;当0.75时,采用G-G校正。
SAS实现调整:
procglmdata=repeatanova;classtype;modelt1t2t3t4=type/nouni;repeatedtime4/printe;meanstype;run;/*TheNOUNIoptionsuppressesthedisplayofunivariatestatistics*/*PRITEprovidesthetestforthesphericity.,TheGLMProcedureRepeatedMeasuresAnalysisofVarianceSphericityTestsMauchlysVariablesDFCriterionChi-SquareP-valueTransformedVariates50.4335145.61864260.3451OrthogonalComponents50.3179197.70338930.1734,若资料不满足球对称性,应对自由度进行效正,用Greenhouse-Geisser(G-G)法或Huynh-Feldt(H-F)法的“球对称”系数Epsilon乘以受试对象内各变异的自由度,得效正“自由度”(调小),再查F界值表获得P值。
rocglm;class分组变量;model分析变量=分组变量;lsmeans分组变量;means分组变量;repeated重复测量变量名/。
三、实例及SAS实现,repeated重复测量变量名/;【repeated】后必须指定重复测量变量名,测量水平可选,转换项也是可选的。
如:
repeatedtime4;表示指定重复测量变量名为time,测量水平(即重复次数)为4次,中间均以空格隔开。
其中time由读者自行命名,也可为其它名称,如repeatedt4,repeatedmeasure4等均可。
repeated语句后的主要用于各次测量之间的比较,常用的有两种转换方式:
contrast和polynomial。
contrast表示指定一个参照水平,其它均与参照水平比较。
如repeatedtime4contrast
(1);表示共有4次重复测量,以第1次测量为参照,第2、3、4次测量分别与第1次测量水平进行比较。
polynomial表示正交多项式对比,即正交转换后判断曲线的n阶水平是否有统计学意义。
如:
repeatedtime4polynomial;表示4次重复测量,分别对一次、二次和三次曲线分析是否有统计学意义,也就是判断测量值随时间变化大致呈何种趋势。
例1:
试分析ALT变化趋势。
dataalt;inputidt1t2t3t4;cards;116010514713524153712581823327943651417411363505201265520628920172178544566281761651368397621534811075945159;run;,rocglm;modelt1t2t3t4=/nouni;/*model语句指定4个因变量,即t1-t4,nouni表示不输出单变量分析结果*/repeatedtime4contrast
(1)/printesummary;/*repeated语句指定有4个时间点;contrast
(1)表示后3个时间点分别与第1时间点比较;printe输出球性检验;summary输出后3个时间点分别与第1时间点比较的结果*/run;,第一部分是重复测量的基本信息及部分矩阵信息。
给出了误差SSCP矩阵的偏相关系数阵以及误差SSCP(交叉乘积矩阵平方和)矩阵等。
第二部分是球性检验(sphericitytests)结果。
这里repeated语句没有指定polynomial转换,用正交成分(OrthogonalComponents)的结果作为判断标准。
本例P值为0.0437,提示不满足球性假定;因此,后面的分析应以校正结果或多变量方差分析结果为准。
第三部分是单变量方差分析结果,F=7.77,P=0.0007,可以看出alt随时间变化趋势显著。
这里要看调整的结果。
G-G校正系数和H-F校正系数分别为0.5844和0.7144,提示对球性假定的偏离较大(=1,无偏离),在校正系数小于0.75时,可采用G-G校正。
第四部分是contrast比较结果,治疗12周与疗前相比alt差异无统计学意义(P=0.0907),治疗24周与疗前相比差异有统计学意义(P=0.0072)。
本例分析结果显示:
4次alt检测存在相关性,采用单变量方差分析,要应用校正的结果;4次alt之间存在显著的趋势,有统计学意义。
下一个问题,存在什么趋势?
我们在repeated语句中指定polynomial来进行检验。
procglm;modelt1-t4=/nouni;repeatedtime4polynomial/printesummary;run;,time_N表示正交多项式的第n阶水平,也就是n次曲线。
因此time_1表示对1次曲线(也就是直线)的分析,time_2是对2次曲线的分析。
从结果看,曲线在1阶上有统计学意义(P=0.0036),二阶和三阶上无统计学意义,提示4次时间的变化趋势是直线趋势,而不是二次或三次曲线趋势。
AnalysisofvarianceofcontrastvariablesTime_Nrepresentsthenthdegreepolynomialcontrastfortime,例2:
某食物对血清胆固醇浓度的影响。
datacholesterol;inputt1t2t3type;cards;0.772.012.6210.92.051.6210.351.132.1911.071.942.2310.581.660.9810.981.922.9111.051.631.2210.370.660.5620.990.580.4620.590.950.5920.711.351.0320.860.240.6120.150.880.7520.870.550.542;run;,rocglm;classtype;modelt1t2t3=type/nouni;repeatedtime3polynomial/printesummary;run;注:
当repeated语句指定polynomial变换时,如果观测的时间间隔不等,必须在time后用括号指定时间点,如time(059)。
因为正交多项式系数在等间隔和不等间隔时是截然不同的。
如不指定,则默认为等间隔,计算的正交多项式结果会有偏差。
第1部分,第二部分SAS给出球性检验结果,由于做了正交转换,两个检验结果是一致的,提示满足球性假设(P=0.4006),直接用单变量结果