10相关与回归分析概述.docx
《10相关与回归分析概述.docx》由会员分享,可在线阅读,更多相关《10相关与回归分析概述.docx(22页珍藏版)》请在冰豆网上搜索。
10相关与回归分析概述
10相关与回归分析
研究两个或多个变量之间的关系时,常常用到相关分析和回归分析。
本章介绍在SPSS中进行相关分析和回归分析的计算方法。
10.1双变量相关分析
若两变量是计量资料且均服从正态分布,其相关密切程度可用Pearson积差相关系数(简单相关系数)描述,而等级资料或不满足正态性的计量资料相关性研究是使用Spearman和Kendall相关系数。
在SPSS中,先对两变量作正态性检验,再选择菜单Analyze→Correlate(相关)→Bivariate(两两相关),进行相关分析。
例10-1某研究所研究某种代乳粉的营养价值时,用10只大白鼠作试验,得到大白鼠进食量(g)和增加体重(g)的数据如表10-1,试研究进食量与增加体重的相关关系。
表10-1大白鼠进食量与增加体重
编号
1
2
3
4
5
6
7
8
9
10
进食量
820
780
720
867
690
787
934
679
639
820
增重
165
158
130
180
134
167
186
145
120
158
解:
首先建立配对格式数据文件如图10-1。
经检验两变量均服从正态分布;选择菜单Analyze→Correlate→Bivariate,弹出BivariateCorrelations对话框,见图10-2;将左边框中的变量x、y送入Variables框中;单击OK。
图10-1例10-1数据文件图10-2BivariateCorrelations对话框
图10-2对话框中,CorrelationCoefficients(相关系数)框中,Pearson:
皮尔逊积差相关系数,系统默认;Kendall’stau-b:
肯德尔等级相关系数;Spearman:
斯皮尔曼等级相关系数。
若选择FlagsignificanceCorrelations(标记显著性),则用“**”、“*”分别表示P≤0.01、0.01<P≤0.05。
主要结果见图10-3,Pearson相关系数r=0.940、P=0.000<0.001,可以认为大白鼠进食量与增加体重呈正向直线相关。
图10-3例10-1计算结果图10-4例10-2计算结果
例10-2测得2~7岁急性白血病患儿的血小板数x与出血症状y资料如表10-2所示。
研究血小板数x与出血症状y之间有无联系。
表10-2血小板数x与出血症状y资料
x
54270
13790
16500
31050
42600
12160
74240
106400
126170
129000
143880
200400
y
++
++
+
-
++
+++
-
-
-
-
+++
-
解y是等级资料,将等级-、+、++、+++分别用0、1、2、3表示,将表10-2中数据建立成2列12行的数据文件。
仿例10-1操作,在图10-2所示BivariateCorrelations对话框中选中Kendall’stau-b和Spearman。
运行结果见图10-4。
Kendall相关系数=-0.377、P=0.117>0.05,Spearman相关系数=-0.422、P=0.172>0.05,不能认为2~7岁急性白血病患儿的血小板数与出血症状之间有直线关系。
10.2偏相关分析
多变量相关分析时,有时需要在剔除其它变量影响的情况下,研究两个变量之间的相关关系,这就是偏相关分析。
经偏相关分析计算出的相关系数为偏相关系数。
偏相关系数在原始数据是随机的多元正态分布时才是有效的,在计算偏相关系数前应该先检验各变量的正态性。
偏相关分析不分自变量和因变量。
在SPSS中选择菜单Analyze→Correlate→Partial(偏相关)命令,可以完成偏相关分析的计算。
例10-310名17岁女生的体重x1(kg)、胸围x2(cm)、胸围的呼吸差x3(cm)、肺活量y(ml)的数据如表10-3所示。
试分析y与x1、x2、x3的关系。
表10-3女中学生的数据
编号
1
2
3
4
5
6
7
8
9
10
x1
35
40
40
42
37
45
43
37
44
42
x2
69
74
64
74
72
68
78
66
70
65
x3
0.7
2.5
2
3
1.1
1.5
4.3
2
3.2
3
y
1600
2600
2100
2650
2400
2200
2750
1600
2750
2500
解将表10-3中数据建立成10行4列的数据文件,如图10-5。
经检验四个变量均服从正态分布;选择菜单Analyze→Correlate→Partial(偏相关),弹出PartialCorrelations对话框,见图10-6;将计算偏相关系数的变量(y、x3)送入Variables(检验变量)框中、扣除影响的变量(x1、x2)送入Controlling(控制变量)框中;单击Options按钮,选中Zero-ordercorrelations(零阶相关系数),则可以输出简单相关系数,单击Continue;单击OK。
图10-5例10-3数据文件图10-6PartialCorrelations对话框
图10-7例10-3计算结果
输出结果见图10-7。
y与x3的简单相关系数为0.729,在剔除x1、x2影响后,y与x3的偏相关系数是0.321。
再选择Partial命令,这次将y、x2送入Variables框,x1、x3送入Controlling框,单击Options按钮,取消Zero-ordercorrelations。
可得剔除x1、x3影响后y与x2的偏相关系数为0.558,y与x2的简单相关系数为0.586(见图10-7)。
类似计算,剔除x2、x3影响后y与x1的偏相关系数为0.565,y与x1简单相关系数为0.695。
在3个简单相关系数中y与x3的最大(0.729),而剔除其它变量的影响后,在3个偏相关系数中y与x3的最小(0.321),y与x1、y与x2的偏相关系数接近(0.565、0.558),说明y与x1、x2的相关关系接近,y与x3的相关关系最不密切。
10.3一元线性回归
一元线性回归分析研究一个自变量和一个因变量之间是否存在线性关系以及存在什么样的线性关系,建立一元线性回归方程:
。
在SPSS中选择菜单Analyze→Regression(回归)→Linear(线性回归)命令可以完成一元线性回归的计算。
例10-4对例10-1中大白鼠的进食量与增加体重进行回归分析。
解:
数据文件同例10-1。
选择菜单Analyze→Regression→Linear,弹出LinearRegression(线性回归)主对话框,将因变量y送入Dependent(因变量)框中,自变量x送入Independent(s)(自变量)框中,如图10-8所示;单击OK。
图10-8LinearRegression主对话框
主要输出结果见图10-9、10、11。
图10-9输出回归模型摘要,相关系数r=0.940,决定系数r2=0.883,调整的决定系数r2=0.868,剩余标准差=7.879。
图10-10输出回归方程的方差分析,F=60.197,P=0.000<0.001,回归方程有高度统计学意义。
图10-11输出回归方程的参数估计,回归方程的常数项(Constant)是-17.357,回归方程的斜率(回归系数)是0.222,据此可以写出回归方程:
。
表中还用t检验对截距和回归系数进行了检验,其中对截距的检验中,t=-0.780,P=0.458,不能拒绝“截距为0”的原假设。
对回归系数的检验中,t=7.759,P=0.000,拒绝“回归系数为0”的原假设,t=7.759的平方就等于方差分析中的F值,在一元线性回归中,对回归系数的t检验、方差分析以及例10-1中的相关性检验完全等价。
表中还给出标准化的回归系数(StandardizedCoefficients)为0.940。
图10-9例10-4回归模型摘要
图10-10例10-4回归方程的方差分析
图10-11例10-4回归方程的参数估计
图10-8所示LinearRegression主对话框其他选项的说明:
单击Statistics按钮,弹出如图10-12所示的线性回归统计量对话框,可以选择输出的统计量。
单击Save按钮,弹出如图10-13所示的线性回归保存对话框,可以选择要保存为新变量的统计量。
单击Plots按钮,弹出线性回归绘图对话框,可指定绘制残差图、正态概率图等。
单击Options按钮,弹出的线性回归选项对话框将在后面的逐步回归中讲解。
线性回归:
统计量
回归系数
□估计
□置信区间
□协方差矩阵
□模型拟合
□R2改变
□描述
□部分及偏相关
□共线性诊断
继续
取消
帮助
残差
□Durbin-Watson检验
□观测诊断
⊙异常点超过均数加减3倍标准差
○全部观测
图10-12线性回归统计对话框
线性回归:
保存
预测值
□非标准化
□标准化
□调整值
□预测值均数的标准误
残差
□非标准化
□标准化
□学生化
□剔除
□学生化剔除
继续
取消
帮助
距离
□马氏距离
□Cook距离
□杠杆值
影响统计量
□Dfβ
□标准化Dfβ
□Df拟合
□标准化Df拟合
□协方差比率
预测值可信区间
□均数□个体值
置信区间95%
系数统计量
□创建系数统计量
⊙创建为一个新数据集
数据集名
○保存为一个新数据文件
文件
输出模型信息到XML文件浏览
图10-13线性回归保存对话框
10.4多元线性回归
多元线性回归分析研究多个自变量和一个因变量之间是否存在线性关系以及存在什么样的线性关系,建立多元线性回归方程:
。
在SPSS中选择菜单Analyze→Regression→Linear(线性回归)可以完成多元线性回归的计算。
例10-5对例10-3中体重x1、胸围x2、胸围的呼吸差x3、肺活量y进行回归分析。
解:
数据文件同例10-3。
选择菜单Analyze→Regression→Linear(线性回归),弹出如图10-8所示的LinearRegression主对话框,将因变量y送入Dependent(因变量)框中,自变量x1、x2、x3均送入Independent(s)(自变量)框中;单击OK。
输出结果的格式和例10-4类似。
由回归方程的方差分析,F=5.617,P=0.035<0.05,拒绝
,所以
、
、
不全为0,拟合的回归方程有统计学意义。
由图10-14知,
、
、
、
的估计值b0、b1、b2、b3分别为-3035.536、60.932、37.808、101.379,据此可以写出回归方程:
。
由图10-14中回归系数的t检验,P均>0.05,不能否定
(i=1、2、3)为0的假设,这与方差分析的结果有出入,所以要对自变量作进一步的筛选(见下一节逐步回归)。
图10-14例10-5回归方程的参数估计
10.5逐步回归
多元线性回归方程中,可能有的自变量对因变量的影响很强,而有的影响很弱,甚至完全没有影响,这就需要对自变量进行筛选,尽可能将回归效果显著的自变量选入回归方程,将作用不显著的自变量剔除在外。
筛选的方法有:
向前法(Forward)、向后法(Backward)、逐步回归法(Stepwise),实际工作中多采用逐步回归法。
在SPSS中选择Analyze→Regression(回归)→Linear(线性回归)命令可以完成逐步回归的计算。
例10-6对例10-3中体重x1、胸围x2和胸围的呼吸差x3进行筛选,建立回归方程。
解:
数据文件同例10-3。
选择菜单Analyze→Regression→Linear(线性回归),弹出如图10-8所示LinearRegression对话框,将因变量y送入Dependent(因变量)框中,自变量x1、x2、x3均送入Independent(s)(自变量)框中;在中间的Method(方法)下拉列表框中选择Stepwise(逐步回归法)。
线性回归:
选项
逐步法筛选变量的准则
⊙用F的概率
选入0.05剔除0.10
○用F的值
选入1.5剔除1.499
继续
取消
帮助
方程中包含常数项
缺失值
⊙剔除所有变量中有缺失值的观测
○剔除正参与运算的一对变量中有
缺失值的观测
○用均数替代缺失值
图10-15Options对话框
单击Options按钮,弹出如图10-15所示的Opitons(选项)对话框,设置逐步回归选入和剔出自变量的检验水准值,可以设置概率值或F值,设置的剔除自变量的概率值标准应大于或等于选入的标准(剔除自变量的F值标准应小于选入的标准)。
概率值设置得越小(F值越大)选取自变量的标准越严,被选入的自变量个数也就较少,反之,概率值设置得越大(F值越小)选取自变量的标准越宽,被选入的自变量个数也就较多。
本例用F值,在Entry(选入)框中键入1.5,在Removal(剔出)框中键入1.499,单击Continue,返回线性回归主对话框;单击OK。
本例逐步回归进行了4步,前3步依次引入x3、x1、x2,第4步剔除x3,最后回归方程中有x1、x2两个变量,图10-16、17、18是逐步回归4步计算结果的汇总,每个表格的最后一行就是逐步回归的结果。
由图10-16,逐步回归的调整的决定系数R2(0.624)大于全变量回归方程的0.606。
由图10-17,对方程的方差分析检验,F=8.453,P=0.014<0.05,逐步回归方程有统计学意义。
由图10-18,回归方程
=-4187.416+80.271x1+46.449x2。
图10-16例10-6回归模型摘要图10-17例10-6回归方程的方差分析
图10-18例10-6回归方程的参数估计
10.6曲线拟合
若因变量与单个自变量之间不呈直线关系,但可用某类曲线描述它们之间的关系,统计学中将这类问题称为曲线拟合。
在SPSS中选择菜单Analyze→Regression→CurveEstimation(曲线估计)命令,可以自动完成11种曲线的拟合。
这11种模型是:
Linear(线性模型,y=b0+b1x)、Quadratic(二次模型,y=b0+b1x+b2x2)、Compound(复合模型,y=b0(b1)x)、Growth(生长模型,y=eb0+b1x)、Logarithmic(对数模型,y=b0+b1lnx)、Cubic(三次模型,y=b0+b1x+b2x2+b3x3)、S(S型模型,y=eb0+b1/x)、Exponential(指数模型,y=b0eb1x)、Inverse(逆模型,y=b0+b1/x)、Power(幂模型,y=b0xb1)、Logistic(Logistic模型,y=1/(1/u+b0(b1)x)。
这些曲线拟合其本质都是先进行曲线直线化,然后进行线性模型拟合,最后将模型表达式转换回原始变量的表达方式。
进行曲线估计时,可以选择多种拟合模式,进行比较后选择较好者。
例10-7某单位钩虫病病人重复治疗次数与阳性率的资料见表10-4。
试作曲线拟合。
表10-4钩虫病病人数据
次数x
1
2
3
4
5
6
7
8
阳性率y
63.9
36
17.1
10.5
7.3
4.5
2.8
1.7
解:
以x、y为变量名,将表10-4中数据建立成8行2列的数据文件。
作散点图,显示x、y近似呈指数关系。
选择菜单Analyze→Regression→CurveEstimation(曲线估计),弹出如图10-19所示CurveEstimation对话框,将因变量y送入Dependent(因变量)框中,自变量x送入Independent(自变量)框中的Variable(变量)框中;去掉Linear(线性)选项,选中Exponential(指数);选中下面的DisplayANOVAtable;单击OK。
曲线估计
因变量:
y
确定
粘贴
重置
取消
帮助
自变量
⊙变量x
○时间
观测标签
方程中含常数
显示模型曲线图
模型
□线性□二次□复合□生长
□对数□三次□S型R指数
□逆型□幂型□Logistic
R显示方差分析表保存
图10-19CurveEstimation对话框
单击图10-19对话框中Save按钮,可以选择保存预测值、残差、预测区间等。
输出结果的格式和线性回归相仿。
决定系数R2=0.993,方差分析,F=807.151,P=0.000,回归方程有统计学意义。
由图10-20,按指数模型的函数格式y=b0eb1x可以得回归方程
。
用鼠标右键单击图10-19对话框中Models下的模型名称,在弹出的快捷帮助框中就显示有该模型的函数格式。
本例还输出了按指数模型拟合的曲线图(略),从曲线图中可以看出拟合效果很好。
图10-19例10-7回归方程的参数估计
10.7非线性回归
上一节介绍的曲线拟合处理的是比较简单的曲线关系,先进行变量变换,将曲线关系转换为直线关系,从而利用线性过程进行分析拟合,最后再将模型表达式转换回原始变量的表达方式,这样保证了变换后变量的残差平方和最小,可是变换回原始变量时,不一定是最优方程。
况且有的曲线关系很复杂,不可能通过变量变换转换为直线方程,此时不能使用线性回归。
非线性回归就是为解决以上问题提出的一个通用模型框架,它采用迭代方法对用户设置的复杂曲线模型进行拟合。
在SPSS中,选择Analyze→Regression→Nonlinear(非线性回归)命令,可以完成非线性回归分析。
常用非线性模型见表10-5,在模型的选择上一定要根据数据的性质而定,而且确定模型中参数的初始值非常重要,有时准确地选择了模型,但设置的初始值却不好,就有可能得不到一个较好的方程。
表10-5常用非线性模型
名称
模型表达式
AsymptoticRegression
b1+b2*exp(b3*x)
AsymptoticRegression
b1–(b2*(b3**x))
Density
(b1+b2*x)**(–1/b3)
Gauss
b1*(1–b3*exp(–b2*x**2))
Gompertz
b1*exp(–b2*exp(–b3*x))
Johnson-Schumacher
b1*exp(–b2/(x+b3))
Log-Modified
(b1+b3*x)**b2
Log-Logistic
b1–ln(1+b2*exp(–b3*x))
MetcherlichLawofDiminishingReturns
b1+b2*exp(–b3*x)
MichaelisMenten
b1*x/(x+b2)
Morgan-Mercer-Florin
(b1*b2+b3*x**b4)/(b2+x**b4)
Peal-Reed
b1/(1+b2*exp(–(b3*x+b4*x**2+b5*x**3)))
RatioofCubics
(b1+b2*x+b3*x**2+b4*x**3)/(b5*x**3)
RatioofQuadratics
(b1+b2*x+b3*x**2)/(b4*x**2)
Richards
b1/((1+b3*exp(–b2*x))**(1/b4))
Verhulst
b1/(1+b3*exp(–b2*x))
VonBertalanffy
(b1**(1–b4)–b2*exp(–b3*x))**(1/(1–b4))
Weibull
b1–b2*exp(–b3*x**b4)
YieldDensity
(b1+b2*x+b3*x**2)**(–1)
例10-8对例10-7中数据进行非线性回归分析。
解:
数据文件同例10-7。
首先确定初始值,本例是指数模型y=aebx,由原始数据中任选两个点,如(3,17.1)和(6,4.5),代入y=aebx,得到关于a、b的方程组17.1=ae3b,4.5=ae6b,解得a=64.98、b=-0.45。
选择菜单Analyze→Regression→Nonlinear(非线性回归),弹出如图10-20所示NonlinearRegression主对话框,将因变量y送入Dependent(因变量)框中,在ModelExpression(模型表达式)框中键入所选模型相应的函数表达式,本例键入a*EXP(b*x);
单击Parameters(参数)按钮,弹出Parameters对话框(见图10-21),设置a的初始值为64.98,b的初始值为-0.45,单击Continue,返回主对话框;单击OK。
用鼠标单击图10-20对话框中Save按钮,可以选择保存预测值、残差、预测区间等。
图10-20NonlinearRegression主对话框
图10-21Parameters对话框图10-22例10-8回归方程的方差分析
主要输出结果见图10-22、23,图10-22为非线性回归的方差分析,残差均方不是误差的无偏估计,所以通常的方差分析不能用于非线性回归的检验。
可以根据决定系数R2的大小判断模型拟合的好坏。
本例决定系数R2=0.997,拟合效果较好。
图10-23给出参数估计,非线性回归方程为
。
上一节用曲线拟合得到的回归方程为
,a、b两系数相差很大。
在这两个题目的操作时,用鼠标单击主对话框的Save按钮,可以选择保存预测值、残差,结果见图10-24,FIT_1和ERR_1分别是曲线拟合模型的预测值和残差,PRED_和RESID分别是非线性回归模型的预测值和残差,比较两列残差得,非线性回归模型的拟合效果更好一些。
图10-23例10-8回归方程的参数估计图10-24例10-8预测值和残差
本章小结
本章由浅入深介绍一元线性相关与回归、多元线性相关与回归、多元线性逐步回归、曲线拟合和非线性回归。
要记住每个方法应该选择的菜单和相关的对话框的操作,要结合实例,边看书边操作,在分析解释计算结果时,特别要注意与专业知识的结合。
本章介绍的线性回归模型要求因变量是连续的正态分布变量,当因变量是分类变量时,线性回归模型的假设条件不成立了,这是,要用Logistic回归模