1、SPSS生物统计分析示例6相关与回归SPSS统计分析示例6(相关与回归分析)例一:简单相关与回归分析对小麦栽培观察测量数据如下:株高cm147128115103142140106112101124穗长cm47383541364646384444穗重g1.91.51.11.41.21.81.71.31.71.8株高cm10298869795881029498104穗长cm35354050202544484344穗重g1.21.41.62.00.60.71.71.91.61.8(一)对株高、穗重、穗长两两间做相关分析:Analyze Correlate Bivariate(1) 穗长、穗重(n=2
2、0) (相关系数r=0.972,P0.05)(3) 穗重、株高(n=20)(相关系数=0.219,P=0.3540.05)结论:两两之间,只有穗长、穗重相关关系极显著(相关系数r=0.972,P0.01),穗长、株高之间及穗重、株高之间线性关系不明显。(二)控制株高,对穗重、穗长之间做偏相关分析:Analyze Correlate Partial输出如下:控制株高,穗长、穗重间仍表现出显著的线性相关,偏相关系数r偏=0.970 与两两相关系数r=0.972 相差无几。这说明株高因素对穗长、穗重潜在影响可以忽略,这从株高-穗长,株高-穗重的相关系数也可映证。(三)对穗长、穗重建立直线回归方程并作
3、图:Graphs Interactive Scatterplot结果输出: 穗重(g)例二:Logistic回归分析某研究人员在探讨肾细胞癌转移的有关临床病理因素研究中,收集了一批行根治性肾切除术患者的肾癌标本资料,现从中抽取26例资料(kidneycaner-logistc.sav)进行logistic回归分析。 i: 标本序号 x1:确诊时患者的年龄(岁) x2:肾细胞癌血管内皮生长因子(VEGF),其阳性表述由低到高共3个等级 x3:肾细胞癌组织内微血管数(MVC) x4:肾癌细胞核组织学分级,由低到高共4级 x5:肾细胞癌分期,由低到高共4期 y: 肾细胞癌转移情况(有转移y=1; 无
4、转移y=0)。Analyze Regression Binary logistic“转移情况Y”为“Dependent”应变量(二元分类变量);X1-5为自变量,放入“Covariates”选框中。变量筛选方法“Method”选择“Forward:Conditional”,再在“Options”选框中勾选一些模型诊断方法,如“Iteration history (迭代记录)”、“Correlations of estimates (估计变量的相关分析)”、“Classification plots (分类作图)”。其他选择默认设置,点“OK”运行程序。结果显示中部分重要表格解读如下:Step
5、0拟合的是只有常数的无效模型,上表为分类预测表,可见在17例观察值为0的记录中,共有17例被预测为0,9例1也都被预测为0,总预测准确率为65.4%,这是不纳入任何解释变量时的预测准确率,相当于比较基线。Step 1、2用前进法依次加入解释变量,上表为每一步的预测情况汇总,可见准确率由Step 0的基线水平65%上升到了Step 1的84%,最后达到Step 2的96%,预测效果是明显的,最终只出现了一例错判。上表为方程中变量检验情况列表,分别给出了Step 1和Step 2的拟合情况。注意X4的P值略大于0.05,但仍然是可以接受的,因为这里用到的是排除标准(默认为0.1),该变量可以留在方
6、程中。以Step 2中的X2为例,可见其回归系数为2.413,OR值为11.172。注:Exp(B)即通常所说的Odd Ratio 上表显示如果将这些变量分别移出回归方程,对方程的改变是否存在统计学意义。根据Sig. of the change值可见,都是有统计学意义的,因此X2,X4应当保留在方程中。至于其他变量X1、X3、X5,根据上表可见其对回归的影响均不显著(Sig.0.05),因此从最终的方程中被剔除。再看看诊断分析结果:1)Iteration history (迭代记录)迭代记录显示:无论是似然值,还是三个系数值,均是从迭代开始就向着一个方向发展,最终达到收敛,这说明整个迭代过程是
7、健康的,问题不大;如果中途出现波折,尤其是当引入新变量后变化方向改变了,则提示要好好研究。2)Correlations of estimates (估计变量的相关分析)上表为方程中变量的相关矩阵,可见X2和常数项相关性较强,当引入X4后仍然如此,提示要关注这一现象,以防因自变量间的共线性导致方程系数不稳(此时迭代记录多半也会有波动)。当然,由于本例只有26条记录,这一问题是没有办法深入研究的。3)Classification plots (分类作图)这是Step 1回归方程logit(Y) = -6.256 + 2.563 X2对Y值预测值与观察值之间吻合情况的比较。观察值标为“0”、“1”,
8、预测值为概率值,以0.5为界,低于0.5对应于“0”;高于0.5对应于“1”。圈注指示为预测错误的部分(4/26 = 15.4%)。这是Step 2回归方程logit(Y) = -12.328 + 2.413X2 + 2.096 X4对Y值预测值与观察值之间吻合情况的比较。圈注指示为预测错误的部分(1/26 = 3.8%)。出现不一致的案例id=11,预测值为0.96433,而观察结果为未转移(0),从各项指标看都偏高,但结果很反常,说明这是一个异常案例,并不能仅就此否定回归模型的可靠性。注意:X2、X4、X5为多分类等级变量(分别为3级、4级、4级),所分等级之间并无确定依据说明是等距的,这
9、可能是潜在的缺陷,不利于logistic回归的正确建立。上述操作没有考虑此问题,如果要作进一步优化,可将X2、X4、X5设为哑变量(dummy variables)再分析,操作如下:在“Categorical”功能选单中进行设置:将X2、X4、X5设为Categorical variable,以指标(indicator)值作比较,参照值选“First”即最低等级“1”,点击“change”确认修改,显示如下系统自动编制的哑变量表如表示。但是由于设置哑变量大大增加了检验变量的数量(5个增加到13个),而本次实验案例数偏低(仅27例),使分配到每个变量的自由度数严重不足,反而削弱了回归效力,出现了一些不可解释的结果(如下表),因此并不太适合本次实验。但对案例数较大的实验数据,这样的操作还是值得推荐的。根据似然值检验X2和X4的所有哑变量的Sig.均远大于0.10,但都仍然保留在方程中,这是个矛盾,原因与自由度不足有关(df=1)
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1