逐步回归分析实例.docx
《逐步回归分析实例.docx》由会员分享,可在线阅读,更多相关《逐步回归分析实例.docx(14页珍藏版)》请在冰豆网上搜索。
逐步回归分析实例
逐步回归分析
在自变量很多时,其中有的因素可能对应变量的影响不是很大,而且x之间可能不完
全相互独立的,可能有种种互作关系。
在这种情况下可用逐步回归分析,进行x因子的筛
选,这样建立的多元回归模型预测效果会更较好。
逐步回归分析,首先要建立因变量y与自变量x之间的总回归方程,再对总的方程及每一个自变量进行假设检验。
当总的方程不显著时,表明该多元回归方程线性关系不成立;而当某一个自变量对y影响不显著时,应该把它剔除,重新建立不包含该因子的多元回归方程。
筛选出有显著影响的因子作为自变量,并建立“最优”回归方程。
回归方程包含的自变量越多,回归平方和越大,剩余的平方和越小,剩余均方也随之
较小,预测值的误差也愈小,模拟的效果愈好。
但是方程中的变量过多,预报工作量就会越
大,其中有些相关性不显著的预报因子会影响预测的效果。
因此在多元回归模型中,选择适
宜的变量数目尤为重要。
逐步回归在病虫预报中的应用实例:
以省长武地区1984~1995年的烟蚜传毒病情资料、相关虫情和气象资料为例(数据见
DATA6.xls),建立蚜传病毒病情指数的逐步回归模型,说明逐步回归分析的具体步骤。
影
响蚜传病毒病情指数的虫情因子和气象因子一共有21个,通过逐步回归,从中选出对病情
指数影响显著的因子,从而建立相应的模型。
对1984~1995年的病情指数进行回检,然后对
1996~1998年的病情进行预报,再检验预报的效果。
变量说明如下:
x11:
5月份均温
y:
历年病情指数
x12:
5月份降水量
x1
前年冬季油菜越冬时的蚜量
(头/株)x13:
6月份均温
x2
前年冬季极端气温
x14:
6月份降水量
x3
5月份最高气温
x15:
第一次蚜迁高峰期百株烟草
x4
5月份最低气温
有翅蚜量
x5
3~5月份降水量
x16:
5月份油菜百株蚜量
x6:
4~6月份降水量
x17:
7月份降水量
x7:
3~5月份均温
x18:
8月份降水量
x8:
4~6月份均温
x19:
7月份均温
x9:
4月份降水量
x20:
8月份均温
x10:
4月份均温
x21:
元月均温
1)准备分析数据
在SPSS数据编辑窗口中,用“FileTOper^Data”命令,打开“DATA6.xls”数据文
件。
数据工作区如下图3-1显示。
图3-1
2)启动线性回归过程
单击SPSS主菜单的"Analyze”下的"Regression”中"Linear”项,将打开如图3-2所示的线性回归过程窗口。
图3-2线性回归对话窗口
3)设置分析变量
设置因变量:
将左边变量列表中的“y”变量,选入到“Dependent”因变量显示栏里。
设置自变量:
将左边变量列表中的“x1”~“x21”变量,全部选移到
"Independent(S)”自变量栏里。
设置控制变量:
本例子中不使用控制变量,所以不选择任何变量。
选择标签变量:
选择“年份”为标签变量。
选择加权变量:
本例子没有加权变量,因此不作任何设置。
4)回归方式
“Options”选择对话框中显著性检验(F)的设置,在方程中进入或剔除单个变量,直到所
建立的方程中不再含有可加入或可剔除的变量为止。
设置后的对话窗口如图3-3。
图3-3
5)设置变量检验水平
在图6-15主对话框里单击“Options”按钮,将打开如图3-4所示的对话框。
图3-4
“SteppingMethodCriteria”框里的设置用于逐步回归分析的选择标准。
其中"UseprobabilityofF”选项,提供设置显著性F检验的概率。
如果一个变量
的F检验概率小于或等于进入“Entry”栏里设置的值,那么这个变量将被选入回归方程中;
当回归方程中变量的F值检验概率大于剔除“Remova”栏里设置的值,则该变量将从回归
方程中被剔除。
由此可见,设置F检验概率时,应使进入值小于剔除值。
“UesFvalue”选项,提供设置显著性F检验的分布值。
如果一个变量的F值大于所设置的进入值(Entry),那么这个变量将被选入回归方程中;当回归方程中变量的F值
小于设置的剔除值(Removal),则该变量将从回归方程中被剔除。
同时,设置F分布值时,
应该使进入值大于剔除值。
本例子使用显著性F检验的概率,在进入“Entry”栏里设置为“0.15”,在剔除“Remova”栏里设置为“0.20”(剔除的概率值应比进入的值大),如图6-17所示。
图6-17窗口中的其它设置参照一元回归设置。
6)设置输出统计量
在主对话图3-2窗口中,单击“Statistics”按钮,将打开如图6-18所示的对话框。
该对话框用于设置相关参数。
其中各项的意义分别为:
图3-5“Statistics”对话框
1“RegressionCoefficients”回归系数选项:
“Estimates”输出回归系数和相关统计量。
“Confideneeinterval”回归系数的95%置信区间。
“Covarianeematrix”回归系数的方差-协方差矩阵。
本例子选择"Estimates”输出回归系数和相关统计量。
2“Residuals”残差选项:
“Durbin-Watson"Durbin-Watson检验。
“Casewisediagnostic”输出满足选择条件的观测量的相关信息。
选择该项,下
面两项处于可选状态:
"Outliersoutsidestandarddeviations”选择标准化残差的绝对值
大于输入值的观测量;
“Allcases”选择所有观测量。
本例子都不选。
3其它输入选项
ANOVA表。
Modelfit”输出相关系数、相关系数平方、调整系数、估计标准误、
“Rsquaredchange”输出由于加入和剔除变量而引起的复相关系数平方的变化。
“Descriptives”输出变量矩阵、标准差和相关系数单侧显著性水平矩阵。
“Partandpartialcorrelation”相关系数和偏相关系数。
“Collinearitydiagnostics”显示单个变量和共线性分析的公差。
本例子选择"Modelfit”项。
7)绘图选项
在主对话框单击“Plots”按钮,将打开如图3-6所示的对话框窗口。
该对话框用于设
置要绘制的图形的参数。
图中的“X”和“Y”框用于选择X轴和Y轴相应的变量。
rproduceallpiriiAlpNn
■ZPRLOVRf'sm"DflESlD
'SHtSlD•SDREStD
rdiZr«)Rc^itiuatPioI*
rtll^lngrnni
NormalprabahIHlypliMt
图3-6“Plots”绘图对话框窗口
左上框中各项的意义分别为
“DEPENDNT因变量。
“ZPRED标准化预测值。
“ZRESID”标准化残差。
“DRESID”删除残差。
“ADJPRED调节预测值。
“SRESID”学生氏化残差。
SDRESID'学生氏化删除残差。
"StandardizedResidualPlots”设置各变量的标准化残差图形输出。
其中共包含两个选项:
"Histogram”用直方图显示标准化残差。
“Normalprobabilityplots”比较标准化残差与正态残差的分布示意图。
“Produceallpartialplot
”偏残差图。
对每一个自变量生成其残差对因变量残差
的散点图。
本例子不作绘图,不选择。
8)保存分析数据的选项
在主对话框里单击“Save”按钮,将打开如图3-7所示的对话框。
fvpnrlmorirltnXM(filr
图3-7“Save”对话框
1"PredictedValues”预测值栏选项:
Unstandardized非标准化预测值。
就会在当前数据文件中新添加一个以字符
“PRE_开头命名的变量,存放根据回
归模型拟合的预测值。
Standardized标准化预测值。
Adjusted调整后预测值。
S.E.ofmeanpredictions预测值的标准误。
本例选中“Unstandardized”非标准化预测值。
2“Distances”距离栏选项:
Mahalanobis:
距离。
Cook's”:
Cook距离。
Leveragevalues:
杠杆值。
3“PredictionIntervals”预测区间选项:
Mean:
区间的中心位置。
Individual:
观测量上限和下限的预测区间。
在当前数据文件中新添加一个
以字符“LICI_”开头命名的变量,存放
预测区间下限值;以字符“UICI_”开头命名的变量,存放预测区间上限值。
ConfidenceInterval:
置信度。
本例不选。
4“SavetoNewFile”保存为新文件:
选中“Coefficientstatistics”项将回归系数保存到指定的文件中。
本例不选。
5“ExportmodelinformationtoXMLfile”导出统计过程中的回归模型信息到
指定文件。
本例不选。
6“Residuals”保存残差选项:
“Unstandardized”非标准化残差。
“Standardized”标准化残差。
“Studentized”学生氏化残差。
“Deleted”删除残差。
“Studentizeddeleted”学生氏化删除残差。
本例不选。
7“InfluenceStatistics”统计量的影响。
“DfBeta(s)”删除一个特定的观测值所引起的回归系数的变化。
“StandardizedDfBeta(s)”标准化的DfBeta值。
“DiFit”删除一个特定的观测值所引起的预测值的变化。
“StandardizedDiFit”标准化的DiFit值。
“Covarianceratio”删除一个观测值后的协方差矩隈的行列式和带有全部观测值的协方差矩阵的行列式的比率。
本例子不保存任何分析变量,不选择。
9)提交执行
6-10
在主对话框里单击“0K,提交执行,结果将显示在输出窗口中。
主要结果见表至表6-13。
10)结果分析
主要结果:
表GIDVariablesEnteredJRemov^dO(进入埸Q除变量)
Model
(歩J
VariablesEntered(进入)
Variables
Removed
(剔除〕
Method(方法)
1
x!
5
.・
Stepwise(Criteria:
Probability-of-F-1o-enter<
Probability-of-P-to-remove>=.200).
2
耳4
Stepwise(Criteria:
Probability-of-F-1o*enter-to-remove>=200).
3
x7
Stcpvrise(Criteria:
Probability-of-F-to-enterProbability-o-to-remove>=.200).
4
x5
Stepwise(CriteriaProbability-oPF'to-entcr<
Probability-of^F-to-remove>=.200).
aDependentVariable:
表6-10是逐步回归每一步进入或剔除回归模型中的变量情况。
表6-11ModelSummary(模型统计量〕
Model
R
RSquare
AdjustedRSquare
StdErroroftheEstimate
1
99谑)
.9的
.15510
2
9950)
990
?
28
.U141
3
9恥)
.994
991
.12271
4
.999(d)
.997
伽
”"77
aPredictars;(Constant),^15;h:
Pr^peters;□nstaia0fsiJ,x4jcPredictors;(Constant),k4,x7
d.Predirtors'(Constan^,x4hx7,s5icDcpctideatVariabley
表6-11是逐步回归每一步的回归模型的统计量:
R是相关系数;RSquare相关系数
的平方,又称判定系数,判定线性回归的拟合程度:
用来说明用自变量解释因变量变异的程
度(所占比例);AdjustedRSquare调整后的判定系数;Std.ErroroftheEstimate估
计标准误差。
^6-12ANOVA(方差分析表)
Mo-iel
SumoF
Squares
<3IF
MeanSquarel玛万丿
F
(显著?
Regression(回归)
18.555
1
18.555
732287
.0
1Residual〔乘慷J
253
10
025
Total山的)
18.808
11
Regression(刮归)
18.623
2
9.314
465^93
.0
2Residual(剩劇
.130
9
02G
Tote!
〔总的)
1880S
11
Regression(回归)
18630
3
6229
413.702
.0
3Residual1剰朱」
.120
S
.015
Total〔思的)
18808
11
Regression£回归)
18.755
4
46旳
622.720
0
4Residual[剰矛」
.053
7
.008
Total匚定旳j
18.S0S
11
表6-12是逐步回归每一步的回归模型的方差分析,F值为10.930,显著性概率是
0.001,表明回归极显著。
表33Cgffici&rte⑻回归方程系数
Model
Unstandardized
(非鄭馆旳回
Coefficients归糸数]
StandardisedCoefficients(标淮旳口归糸数)
t
B
Std.Error
Beta
1
(Constant)
-.0471
1136
-4144
0087
.0003
.9932
27.0608
■I
2
(Conftant)
-.1631
1177
-13861
xl5
.0035
.0003
1.0034
30.0575
1
x4
.0357
.0187
.0643
1.9161
!
|
3
(Constant)
5770
1.6733
.008$
.0003
1.0160
34.5997
罰
.0336
0162
0604
2-0699
x7
-.1132
.0595
-.0570
-1.9380
4
(Constant)
2一羽20
6522
3.S210
蛊15
.0086
.0002
.9788
40.4659
j
.03^15
0115
0620
3.0051
的
'「2354
.0574
-.1136
41013
1
x5
-.0028
.0009
-0942
-29996
aDcpcadentVarialjle:
y
表6-13是逐步回归每一步的回归方程系数表。
分析:
建立回归模型:
根据多元回归模型:
从6-13中看出,过程一共运行了四步,最后一步以就是表中的第4步的计算结果得知:
21个变量中只进入了4个变量X15、X4、X7和X5。
把表6-13中“非标准化回归系数”栏目中的“B”列数据代入多元回归模型得到预报方程:
y=2.4920+0.0086+0.0345x^-O.2354x?
-0.0028xj
预测值的标准差可用剩余标准差估计:
回归方程的显著性检验:
从表6-12方差分析表第4模型中得知:
F统计量为622.72,系统自动检验的显著性水平为0.0000(非常小)。
F(0.00001,4,7)值为70.00。
因此回归方程相关非常非常显著。
由回归方程式可以看出,在长武烟草蚜传病毒病8月份的病情指数(旳与X4(5月份最
低气温)、X15(第一次蚜迁高峰期百株烟草有翅蚜量)呈显著正相关,而与X5(3~5月份降水量)和X7(3~5月份均温)呈显著负相关。
通过大田调查结果表明,烟草蚜传病毒病发生与蚜虫的迁飞有密切的关系。
迁入烟田
的有翅蚜有两次高峰期,呈双峰曲线。
第一高峰期出现在5月中旬至6月初,此次迁飞的高峰期与大田发病率呈显著正相关。
第二高峰期在6月上旬末至6月中旬,此次迁飞高峰期与大田发病率关系不大。
5月份的最低气温(X4)和3~5月份均温(X7)通过影响传媒介体蚜虫
的活动来影响田间发病。
而第一次蚜迁高峰期百株烟草有翅蚜量(X15)是影响烟草蚜传病毒病病情指数(y)的重要因子。
3~5月份降水量(x5)通过影响田间蚜虫传病毒病发病植株的症状表现影响大田发病程度。